Google Gemini Omni登场:首个”万物生万物”模型,视频创作进入新纪元

Google Gemini Omni登场:首个”万物生万物”模型,视频创作进入新纪元

核心看点:Google DeepMind正式发布Gemini Omni——一个能”从任意内容生成任意内容”的生成式模型,首发支持视频生成。这标志着生成式AI从”文本生图片/视频”的单向模式,正式迈入”任意模态互转”的新阶段。

Gemini Omni是什么?

Google将其定位为”万物生万物”(create anything from anything)的第一步。它整合了Gemini的智能理解能力与Google的生成式媒体系统,核心突破在于:

  • 世界理解:不只是生成像素,而是理解视频中的物理规律、因果关系
  • 多模态融合:文本、图像、音频、视频之间的自由转换
  • 编辑能力:生成不是终点,后续编辑同样智能

从视频开始,但不止于视频

首发的视频生成功能已经展现了强大实力——结合Gemini对世界知识的深度理解,生成的视频不仅画面流畅,更符合物理常识和逻辑连贯性。

但Google的野心明显更大。”从任意内容生成任意内容”的表述意味着:文本→视频、视频→3D、音频→图像、甚至代码→交互界面,这些跨模态转换未来都可能实现。

技术层面的突破

Gemini Omni代表了三个维度的飞跃:

  • 理解深度:不只是识别对象,而是理解场景中的动态关系和物理约束
  • 生成质量:长视频连贯性、时序一致性大幅提升
  • 可控性:用户可以通过自然语言精确控制生成内容的细节

生态布局同步推进

Google同时宣布了两项配套举措:

  • SynthID扩展:AI生成内容的隐形水印技术向更多合作伙伴开放,用户可在Gemini App或Google Search中查询内容是否由AI生成
  • 新加坡合作:与新加坡政府扩大合作,聚焦科学发现加速、疫情准备和医疗改善

竞争格局再升温

在OpenAI的Sora、快手的可灵、Runway等视频生成工具激烈竞争的背景下,Google选择了一条差异化路线——不单纯追求画面精美,而是强调”世界理解”和”多模态互转”。

这种策略的优势在于:一旦模型真正理解了世界的运作方式,从视频扩展到其他模态的边际成本会远低于竞争对手。

总结:Gemini Omni的发布标志着生成式AI进入”万物互转”时代。Google正在用其对世界知识的深度积累,构建一个从理解到生成的完整闭环。视频只是起点,真正的变革还在后面。

本文地址:https://www.163264.com/12216

(0)
上一篇 5小时前
下一篇 5小时前

相关推荐