5月20日凌晨,谷歌年度I/O开发者大会在美国加州山景城如期开幕。与往年不同,今年的发布会不再围绕单一模型展开,而是呈现了一次清晰的战略转向——谷歌正式宣告进入“智能体时代”,以Gemini为核心,将AI能力深度嵌入搜索、办公、视频、开发者工具乃至下一代硬件等所有关键入口。
核心看点
1. Gemini 3.5 Flash:性能碾压前代旗舰
谷歌正式发布Gemini 3.5系列首个模型Gemini 3.5 Flash。CEO桑达尔·皮查伊给出了这代Flash的核心定义:为复杂智能体任务和长链工作流设计的模型,同时保持Flash系列的速度和成本优势。
从数据来看,这次谷歌没有玩文字游戏。在几乎所有的基准测试中,3.5 Flash都实现了对自家前代旗舰Gemini 3.1 Pro的碾压:
- Terminal-Bench 2.1 达 76.2%
- MCP Atlas 为 83.6%
- 多模态理解 CharXiv Reasoning 达 84.2%
- 输出速度为其他前沿模型的 4倍
该模型擅长规模化Agent任务,可快速完成复杂长周期工作,耗时与成本大幅降低。麦格理银行用其处理百页文档加速客户开户,Shopify借助并行子Agent提升商户增长预测精准度,Salesforce、Databricks等企业也通过该模型自动化企业任务、分析海量数据。
面向个人用户,Gemini 3.5 Flash成为Gemini应用与谷歌搜索AI模式的默认模型。
2. Gemini 3.5 Pro:下月登场,已在内部使用
性能更强的Gemini 3.5 Pro已在谷歌内部全面投入使用,并获得了积极反馈。谷歌方面确认,该模型将于下个月正式向公众和企业客户开放,届时将带来更强的推理能力、更高的准确率以及更广泛的多模态支持。
3. Gemini Omni:真正的”全能”大模型
今晚最大的主角之一——Gemini Omni正式亮相。作为一个真正”全能”的大模型,Omni可以接收任意形式的输入(文本、图像、音频、视频),生成任意内容。并且首发支持视频输出,堪称”视频版Nano Banana”。
核心亮点:
- 支持对话式视频编辑:用户可一句话改变视频中的角色、背景等元素
- 具备数字化身(Avatar)功能:允许用户以自身声音创建个性化虚拟形象
- 所有Omni生成视频均嵌入不可感知的SynthID数字水印以保障内容安全
- 得益于模型对物理规律的理解,生成的视频在角色、场景及视觉逻辑上高度连贯
Gemini Omni Flash即日起向全球AI Plus、Pro及Ultra订阅用户开放,并在YouTube Shorts与YouTube Create App中免费提供;数周内将通过API向开发者及企业客户开放。
4. Gemini Spark:首款个人AI智能体
谷歌还推出了首款面向消费者的个人智能体Gemini Spark。基于Gemini 3.5 Flash的个人Agent可全天候运行,在用户指令下执行操作。目前已开启内测,下周将面向美国Google AI Ultra订阅用户推出测试版。
5. Gemini App全新改版:代号Neural Expressive
除了新模型,谷歌还为Gemini应用带来了一套名为“Neural Expressive”的全新设计语言。升级后的应用拥有更流畅的动画效果、更鲜明的色彩搭配、全新的字体排版,以及点击按钮时的触感反馈。
谷歌同时对Gemini的回复展示方式进行了优化,最重要的信息将优先呈现在顶部,并配以图片、交互式时间轴、旁白视频和动态图表。此外,谷歌还简化了从文字输入切换至语音交互模式Gemini Live的操作流程。
6. 谷歌搜索25年来最大升级
谷歌搜索迎来25年来最大升级,接入Gemini 3.5 Flash,新增智能搜索框、自动生成mini应用等功能。这标志着搜索从”信息检索”正式迈向”任务执行”。
7. 科研版Gemini:Gemini for Science
谷歌还宣布推出科研版Gemini模型——Gemini for Science。该模型可以追踪最新论文、将研究目标转化为可用的代码、生成新的假设,专为科研工作者打造。
战略定调:从AI聊天工具到”下一代计算平台”
CEO Sundar Pichai站在台上说:”欢迎来到Gemini智能体时代。”
几个关键数据值得关注:
- 谷歌各平台当前每月处理 3.2千万亿个token,同比增长七倍
- Gemini App月活用户已超 9亿,覆盖230个国家和地区、70多种语言
- 一家日均处理1万亿token的科技企业若将80%负载迁移至3.5 Flash,预计每年可节省超 10亿美元
- 谷歌2026年AI资本支出预算达 750亿美元,相比2022年的310亿,四年翻了6倍
AI Ultra订阅计划也迎来调整,新增100美元版本,最高档从250降至200美元。Gemini App改为算力计费模式,代号Neural Expressive。
总结
毫不夸张地说,这场I/O的干货密度,堪称历年之最。谷歌不再满足于做一个”更好的聊天机器人”,而是要将Gemini打造成一个7×24小时运行的智能体操作系统,深度嵌入每一个谷歌产品。
从Gemini 3.5 Flash的即时可用,到Omni的全模态生成,再到Spark个人智能体的内测,谷歌正在用一套组合拳告诉市场:Agentic AI不是未来,是现在。
对于开发者和企业用户来说,Gemini 3.5 Flash的即时可用性提供了快速部署先进AI能力的机会。而对于普通用户,Gemini App的全新改版和Spark智能体的到来,意味着AI助手将从”你问我答”进化为”你吩咐我办”。
下个月,Gemini 3.5 Pro的正式发布值得期待。届时,谷歌在复杂任务处理、跨模态理解及实时交互等方面的能力有望实现新的突破。
本文地址:https://www.163264.com/12092

