核心看点
- 谷歌在2026 I/O大会发布Gemini Omni,主打”从任何输入生成任何输出”
- 支持对话式视频编辑:一句话改变角色、背景、风格
- 首款模型Gemini Omni Flash已上线Gemini App、YouTube Shorts
详细解析
5月20日的谷歌I/O开发者大会上,Gemini Omni正式亮相。这不是简单的视频生成工具,而是一个能听懂你说话、跟你对话着改视频的AI。
之前的AI视频工具,你得反复调提示词、抽卡式生成。Gemini Omni的思路完全不同——你跟它说”把主角换成宇航员”、”背景换成赛博朋克城市”,它直接改,像跟剪辑师沟通一样自然。
谷歌把这叫”对话式编辑”。技术底层是Omni模型家族,Flash是第一款,已经集成进Gemini App、Google Flow和YouTube Shorts。API也在路上,意味着第三方应用很快也能接入。
更值得留意的是”物理一致性”这个关键词。AI改视频最大的痛点就是前后帧逻辑混乱,人物突然换脸、场景跳脱。谷歌强调Omni在物理规律理解上有突破,这直接决定了生成内容能不能真正商用。
简评
视频创作的工作流正在被重构。从”写提示词抽卡”到”对话式精修”,Gemini Omni代表了一个更自然的交互范式。对内容创作者来说,门槛进一步降低;对专业剪辑师来说,AI从替代威胁变成了效率杠杆。YouTube Shorts率先接入也很聪明——短视频是最适合AI快速迭代的场景。接下来就看API开放后,第三方能玩出什么新花样。
本文地址:https://www.163264.com/12053

