Google Gemini 3.5 Flash原生支持计算机使用：AI代理跨屏操作时代来了

核心看点：Google DeepMind宣布Gemini 3.5 Flash原生支持”计算机使用”功能，开发者可以构建能跨浏览器、移动设备和桌面界面自主操作的AI代理。

Table of Contents

什么是”原生计算机使用”？

简单来说，就是AI不再只是”看懂”屏幕内容，而是能直接”操作”计算机。Gemini 3.5 Flash现在内置了计算机使用工具，让开发者可以构建自定义代理，这些代理能够：

这意味着AI代理从”对话式”正式进化到”操作式”，从”给你建议”变成”帮你搞定”。

Google还公布了一个亮眼数据：Gemma 4（Google的开源模型系列）在短短2.5个月内下载量就达到了2亿次。作为对比，Gemma 3发布时整个Gemma家族的总下载量才1亿次。社区的加速采用说明开源AI模型的生态正在快速成熟。

Google DeepMind与ElevenLabs合作，将SynthID不可听见数字水印技术嵌入AI生成的音频中。这种水印人耳听不到，但可以通过专门的检测工具识别。ElevenLabs还推出了免费的Audio Detector工具，让任何人都能检测音频是否由AI生成。

这是AI内容溯源的重要一步。随着AI生成内容越来越逼真，”水印+检测”可能成为行业标准配置。

Google DeepMind最近的播客还探讨了一个前沿话题：当数百万个AI代理开始相互谈判、交易和委托时，会发生什么？他们称之为”代理经济”（agentic economies）。这听起来很科幻，但Gemini 3.5 Flash的计算机使用能力正是这个愿景的基础设施。

Gemini 3.5 Flash的计算机使用能力是Google在AI代理领域的重磅布局。从”看懂”到”操作”，AI正在获得真正的”手”。加上Gemma 4的社区爆发和SynthID的内容溯源技术，Google正在构建一个从模型到应用到治理的完整AI生态。

本文地址：https://www.163264.com/13489