谷歌Gemini Omni发布：一句话让AI改视频，全模态转换成现实

Table of Contents

核心看点

在2026年Google I/O开发者大会上，谷歌正式推出Gemini Omni多模态生成模型。该模型打破了传统的输入输出限制，具备”全模态转换能力”，能够实现文本、图像和视频等多种形式内容的相互生成与编辑。

Gemini Omni的核心创新在于其对话式编辑功能。用户只需通过自然语言指令，即可实时修改视频内容中的关键元素。技术演示中，用户仅需输入”让主角穿上红色外套”，系统便能自动识别目标人物并进行服装替换；而通过”将背景改为巴黎街头”的指令，普通的生活片段瞬间转化为充满异域风情的画面。

物理一致性是Omni的另一大技术亮点。当人物触摸镜子时，倒影会呈现液体般的波动效果；由气泡构成的雕塑能符合物理规律。这种对物理世界的深度理解，让AI生成的视频内容更加真实可信。

DeepMind首席执行官哈萨比斯表示，未来Omni将能够根据任何输入生成任何输出。首款模型Gemini Omni Flash将于今年夏季推出，即日起可在Gemini平台体验。

Gemini Omni的发布标志着生成式AI从”单模态生成”迈向”全模态转换”的新阶段。对话式视频编辑将大幅降低专业视频制作的门槛，但随之而来的版权、深度伪造等伦理问题也需要行业共同面对。物理一致性引擎的加入，说明谷歌正在着力解决生成式AI”看起来假”的痛点，这是通往AGI视觉理解的重要一步。

本文地址：https://www.163264.com/12191