核心看点:Google DeepMind宣布Gemini 3.5 Flash原生支持”计算机使用”功能,开发者可以构建能跨浏览器、移动设备和桌面界面自主操作的AI代理。
什么是”原生计算机使用”?
简单来说,就是AI不再只是”看懂”屏幕内容,而是能直接”操作”计算机。Gemini 3.5 Flash现在内置了计算机使用工具,让开发者可以构建自定义代理,这些代理能够:
- 在浏览器中自主导航和操作网页
- 在移动设备界面执行点击、滑动等操作
- 在桌面环境中进行跨应用操作
这意味着AI代理从”对话式”正式进化到”操作式”,从”给你建议”变成”帮你搞定”。
Gemma 4的爆发式增长
Google还公布了一个亮眼数据:Gemma 4(Google的开源模型系列)在短短2.5个月内下载量就达到了2亿次。作为对比,Gemma 3发布时整个Gemma家族的总下载量才1亿次。社区的加速采用说明开源AI模型的生态正在快速成熟。
SynthID水印:AI内容溯源新标准
Google DeepMind与ElevenLabs合作,将SynthID不可听见数字水印技术嵌入AI生成的音频中。这种水印人耳听不到,但可以通过专门的检测工具识别。ElevenLabs还推出了免费的Audio Detector工具,让任何人都能检测音频是否由AI生成。
这是AI内容溯源的重要一步。随着AI生成内容越来越逼真,”水印+检测”可能成为行业标准配置。
代理经济的兴起
Google DeepMind最近的播客还探讨了一个前沿话题:当数百万个AI代理开始相互谈判、交易和委托时,会发生什么?他们称之为”代理经济”(agentic economies)。这听起来很科幻,但Gemini 3.5 Flash的计算机使用能力正是这个愿景的基础设施。
总结
Gemini 3.5 Flash的计算机使用能力是Google在AI代理领域的重磅布局。从”看懂”到”操作”,AI正在获得真正的”手”。加上Gemma 4的社区爆发和SynthID的内容溯源技术,Google正在构建一个从模型到应用到治理的完整AI生态。
本文地址:https://www.163264.com/13489


微信扫一扫,鼓励一下~