文本 | 梭哈 AI

谷歌发布 DiffusionGemma：本地 AI 推理速度飙升 4 倍，文本扩散模型来了

【核心看点】谷歌在 6 月 11 日放出了一个新玩意——DiffusionGemma。这是一款实验性的开源文本扩散模型，最大的卖点是本地推理速度比传统自回归模型提升了整整 4 倍。如果这一方向被验证可行，它可能彻底改变大模型在端侧设备上的运行方式。【详细解析】文本扩散是什么？我们熟悉的大语言模型（如 GPT、Gemini）大多是自回归模型，也就是从左到右、逐词生成的方式…

Google Gemini 2026年6月14日

Google重磅开源DiffusionGemma：文本生成速度提升4倍，打破自回归模型垄断

谷歌又来搞事情了！这次不是Gemini的更新，而是一款全新的开源模型——DiffusionGemma。核心看点 6月11日，谷歌正式发布并开源了DiffusionGemma，这是一款基于文本扩散机制的大语言模型。与传统的GPT、Gemini等自回归模型不同，DiffusionGemma采用了一种全新的文本生成方式，在本地推理速度上实现了4倍的提升。什么是文本扩散模型？传统…

Google Gemini 2026年6月13日

Google Gemini

Google开源DiffusionGemma：文本扩散模型速度提升4倍，消费级显卡就能跑

Google 终于放了一个大招。 6月11日，Google 正式发布 DiffusionGemma——基于文本扩散机制的开放 AI 模型。不是传统的自回归架构，而是把图像扩散的那一套搬到了文本生成上。结果是：本地推理速度直接提升 4 倍。核心看点 1. 什么是文本扩散？传统的大语言模型（GPT、Gemini、Claude）都是自回归模型——从左到右，逐 token 生成，就…

2026年6月12日

开源项目

MMAudio：输入视频或文本可自动给视频配音效

MMAudio是一项由伊利诺伊大学厄巴纳-香槟分校、Sony AI及Sony集团联合推出的新技术，它能够实现视频到音频的高质量合成。这项技术的核心创新在于利用视频和文本输入生成同步音频，从而拓展了音频生成的应用场景。MMAudio的设计使其能够在各种视听和音频文本数据集上进行训练，这种多模态联合训练的方式，不仅提高了合成音频的质量，还确保了生成的音频与视频帧之间的同步。 MMA…

2024年12月14日