核心看点
- Google I/O 2026 重磅发布 Gemini Omni,支持文本/图像/音频/视频多模态输入
- 用户通过自然语言指令即可编辑视频内容,添加/删除对象、切换镜头角度、修改风格
- 首款模型 Gemini Omni Flash 已上线 Gemini 应用,面向全球 AI 订阅用户开放
详细解析
在 2026 年 Google I/O 开发者大会上,谷歌正式推出了 Gemini 模型家族的旗舰版本——Gemini Omni。这不是简单的视频生成工具,而是一次将生成式 AI 深度整合进创作流程的尝试。
与以往的文生视频模型不同,Omni 的核心卖点是对话式编辑。用户可以上传一段现有视频,然后用自然语言告诉 AI”把背景换成赛博朋克风格””让主角换个表情””从正面镜头切到俯拍”——AI 会理解指令并直接修改视频中的对应元素。
DeepMind 首席执行官哈萨比斯表示,Omni 基于谷歌在世界模型方面的长期积累,目标是实现”任何输入生成任何输出”。目前首发版本 Gemini Omni Flash 已集成进 Google Flow 创意平台,支持精细视频编辑和角色一致性控制,让同一人物在多镜头、多片段中的呈现更加稳定。
简评
从文本到图像,从图像到视频,AI 创作的门槛一直在降低。但 Gemini Omni 真正值得关注的不是”生成”,而是“编辑”——它把视频后期这个专业门槛极高的环节,变成了人人可做的对话操作。
如果效果真如演示所示,短视频创作者、独立 filmmaker 甚至普通用户,都将获得前所未有的创作自由度。当然,这也给视频内容的真实性提出了新的挑战——当改视频像改文字一样简单,我们如何辨别真伪?
本文地址:https://www.163264.com/12059

