Google开源DiffusionGemma：文本扩散模型速度提升4倍，消费级显卡就能跑

Google 终于放了一个大招。

6月11日，Google 正式发布 DiffusionGemma——基于文本扩散机制的开放 AI 模型。不是传统的自回归架构，而是把图像扩散的那一套搬到了文本生成上。结果是：本地推理速度直接提升 4 倍。

Table of Contents

核心看点

1. 什么是文本扩散？

传统的大语言模型（GPT、Gemini、Claude）都是自回归模型——从左到右，逐 token 生成，就像打字机一样一个字母一个字母往外蹦。

DiffusionGemma 不一样。它同时并行生成整块文本，然后逐步优化输出质量。就像画家先画整体轮廓，再慢慢细化细节。

2. 速度有多快？

3. 参数效率

DiffusionGemma 采用 混合专家架构（MoE）：

这意味着普通用户的高端游戏 PC 就能本地跑起一个强大的 AI 模型。

为什么这很重要？

自回归模型有一个根本瓶颈：生成速度受限于序列长度，越长越慢。扩散模型摆脱了这个枷锁，让本地 AI 部署真正具备了实用价值。

开源策略

DiffusionGemma 采用 Apache 2.0 许可证开源，建立在 Gemma 4 的”每参数智能水平”之上，吸收了 Gemini Diffusion 的前沿研究成果。Google 这是在用开源换生态——用速度优势吸引开发者和企业。

对行业的冲击

如果扩散模型在文本生成上被证明可行，整个 LLM 架构都可能被改写。想象一下：你的本地 AI 助手每秒输出 1000 个 token，实时对话、代码生成、文档撰写——零延迟。

DiffusionGemma 可能是 2026 年最重要的 AI 架构创新之一。它不只是在 Gemma 家族上加了个新成员，而是提出了一种全新的文本生成范式。

Google 用”像赛马一样快”来形容它的速度。而更令人期待的是：如果扩散模型在文本上成立，GPT 们的自回归霸权还能维持多久？

本文地址：https://www.163264.com/12890