谷歌发布 DiffusionGemma：本地 AI 推理速度飙升 4 倍，文本扩散模型来了

【核心看点】

谷歌在 6 月 11 日放出了一个新玩意——DiffusionGemma。这是一款实验性的开源文本扩散模型，最大的卖点是本地推理速度比传统自回归模型提升了整整 4 倍。如果这一方向被验证可行，它可能彻底改变大模型在端侧设备上的运行方式。

【详细解析】

文本扩散是什么？

我们熟悉的大语言模型（如 GPT、Gemini）大多是自回归模型，也就是从左到右、逐词生成的方式。而扩散模型（Diffusion Model）则是先在噪声中随机采样，然后一步步”去噪”得到最终结果。这种方式在图像生成领域已经取得了巨大成功（Stable Diffusion、DALL-E 等），但用于文本生成还是相对少见。

DiffusionGemma 将扩散机制引入文本生成，带来了几个显著优势：

推理速度大幅提升：在专用 GPU 上，文本生成速度最高可达传统模型的 4 倍
采样速率高达每秒 1479 个文本单元，单次生成耗时仅 0.84 秒
支持迭代纠错：生成过程中可以反复修改，输出内容更稳定、更一致
整体能力与 Gemma 4 持平，兼顾速度与质量

为什么是”实验性”？

谷歌官方明确表示，DiffusionGemma 的定位是面向研究者和开发者的实验性模型。虽然速度优势明显，但在生产环境中，谷歌仍建议使用标准的 Gemma 4 模型。此外，其速度优势主要体现在本地及低并发推理场景，在高并发的云端部署中优势有限。

模型采用 Apache 2.0 许可证发布，开发者可以自由使用和修改。这是谷歌一贯的开源策略——通过开源建立生态，吸引开发者围绕 Google 的技术栈构建应用。

端侧 AI 的福音

对于端侧 AI（手机、平板、PC 本地运行）来说，推理速度是关键瓶颈。DiffusionGemma 的发布，意味着未来在本地设备上运行高质量 AI 模型的门槛可能大幅降低。不再依赖云端，不再担心网络延迟，AI 真正走到用户手边。

【总结】

DiffusionGemma 的推出，标志着谷歌正在探索大模型架构的新方向。文本扩散模型能否成为继自回归模型之后的又一主流范式？现在还不好说。但至少，谷歌用实力证明：在 AI 赛道，没有人愿意只走一条路。而 DiffusionGemma 4 倍的速度提升，可能就是端侧 AI 爆发的催化剂。

本文地址：https://www.163264.com/12941

谷歌发布 DiffusionGemma：本地 AI 推理速度飙升 4 倍，文本扩散模型来了

相关推荐