Google Gemini Omni登场：首个”万物生万物”模型，视频创作进入新纪元

Table of Contents

核心看点：Google DeepMind正式发布Gemini Omni——一个能”从任意内容生成任意内容”的生成式模型，首发支持视频生成。这标志着生成式AI从”文本生图片/视频”的单向模式，正式迈入”任意模态互转”的新阶段。

Google将其定位为”万物生万物”（create anything from anything）的第一步。它整合了Gemini的智能理解能力与Google的生成式媒体系统，核心突破在于：

首发的视频生成功能已经展现了强大实力——结合Gemini对世界知识的深度理解，生成的视频不仅画面流畅，更符合物理常识和逻辑连贯性。

但Google的野心明显更大。”从任意内容生成任意内容”的表述意味着：文本→视频、视频→3D、音频→图像、甚至代码→交互界面，这些跨模态转换未来都可能实现。

Gemini Omni代表了三个维度的飞跃：

Google同时宣布了两项配套举措：

在OpenAI的Sora、快手的可灵、Runway等视频生成工具激烈竞争的背景下，Google选择了一条差异化路线——不单纯追求画面精美，而是强调”世界理解”和”多模态互转”。

这种策略的优势在于：一旦模型真正理解了世界的运作方式，从视频扩展到其他模态的边际成本会远低于竞争对手。

总结：Gemini Omni的发布标志着生成式AI进入”万物互转”时代。Google正在用其对世界知识的深度积累，构建一个从理解到生成的完整闭环。视频只是起点，真正的变革还在后面。

本文地址：https://www.163264.com/12216