
Google 终于放了一个大招。
6月11日,Google 正式发布 DiffusionGemma——基于文本扩散机制的开放 AI 模型。不是传统的自回归架构,而是把图像扩散的那一套搬到了文本生成上。结果是:本地推理速度直接提升 4 倍。
核心看点
1. 什么是文本扩散?
传统的大语言模型(GPT、Gemini、Claude)都是自回归模型——从左到右,逐 token 生成,就像打字机一样一个字母一个字母往外蹦。
DiffusionGemma 不一样。它同时并行生成整块文本,然后逐步优化输出质量。就像画家先画整体轮廓,再慢慢细化细节。
2. 速度有多快?
- RTX 5090 消费级显卡:约 700 token/秒
- 单张 Nvidia H100:突破 1000 token/秒
- 同等规模自回归 Gemma 模型的 4 倍速度
3. 参数效率
DiffusionGemma 采用 混合专家架构(MoE):
- 总参数 26B
- 实际激活仅 38 亿参数
- 18GB 显存即可运行
这意味着普通用户的高端游戏 PC 就能本地跑起一个强大的 AI 模型。
深度分析
为什么这很重要?
自回归模型有一个根本瓶颈:生成速度受限于序列长度,越长越慢。扩散模型摆脱了这个枷锁,让本地 AI 部署真正具备了实用价值。
开源策略
DiffusionGemma 采用 Apache 2.0 许可证开源,建立在 Gemma 4 的”每参数智能水平”之上,吸收了 Gemini Diffusion 的前沿研究成果。Google 这是在用开源换生态——用速度优势吸引开发者和企业。
对行业的冲击
如果扩散模型在文本生成上被证明可行,整个 LLM 架构都可能被改写。想象一下:你的本地 AI 助手每秒输出 1000 个 token,实时对话、代码生成、文档撰写——零延迟。
总结
DiffusionGemma 可能是 2026 年最重要的 AI 架构创新之一。它不只是在 Gemma 家族上加了个新成员,而是提出了一种全新的文本生成范式。
Google 用”像赛马一样快”来形容它的速度。而更令人期待的是:如果扩散模型在文本上成立,GPT 们的自回归霸权还能维持多久?
本文地址:https://www.163264.com/12890


微信扫一扫,鼓励一下~