谷歌Gemini Omni发布:一句话让AI改视频,全模态转换成现实

核心看点

  • 谷歌在2026 I/O大会发布Gemini Omni,宣称能”从任何输入生成任何输出”
  • 首款模型Gemini Omni Flash聚焦视频领域,支持对话式编辑
  • 用户可通过自然语言指令实时修改视频中的角色、场景、背景
  • 物理一致性引擎确保生成内容符合真实物理规律

详细解析

在2026年Google I/O开发者大会上,谷歌正式推出Gemini Omni多模态生成模型。该模型打破了传统的输入输出限制,具备”全模态转换能力”,能够实现文本、图像和视频等多种形式内容的相互生成与编辑。

Gemini Omni的核心创新在于其对话式编辑功能。用户只需通过自然语言指令,即可实时修改视频内容中的关键元素。技术演示中,用户仅需输入”让主角穿上红色外套”,系统便能自动识别目标人物并进行服装替换;而通过”将背景改为巴黎街头”的指令,普通的生活片段瞬间转化为充满异域风情的画面。

物理一致性是Omni的另一大技术亮点。当人物触摸镜子时,倒影会呈现液体般的波动效果;由气泡构成的雕塑能符合物理规律。这种对物理世界的深度理解,让AI生成的视频内容更加真实可信。

DeepMind首席执行官哈萨比斯表示,未来Omni将能够根据任何输入生成任何输出。首款模型Gemini Omni Flash将于今年夏季推出,即日起可在Gemini平台体验。

简评

Gemini Omni的发布标志着生成式AI从”单模态生成”迈向”全模态转换”的新阶段。对话式视频编辑将大幅降低专业视频制作的门槛,但随之而来的版权、深度伪造等伦理问题也需要行业共同面对。物理一致性引擎的加入,说明谷歌正在着力解决生成式AI”看起来假”的痛点,这是通往AGI视觉理解的重要一步。

本文地址:https://www.163264.com/12191

(0)
上一篇 1小时前
开源人工智能模型 FinGPT ,专为金融打造!
下一篇 2023年8月21日 下午4:53

相关推荐