文本

  • 谷歌发布 DiffusionGemma:本地 AI 推理速度飙升 4 倍,文本扩散模型来了

    【核心看点】 谷歌在 6 月 11 日放出了一个新玩意——DiffusionGemma。这是一款实验性的开源文本扩散模型,最大的卖点是本地推理速度比传统自回归模型提升了整整 4 倍。如果这一方向被验证可行,它可能彻底改变大模型在端侧设备上的运行方式。 【详细解析】 文本扩散是什么? 我们熟悉的大语言模型(如 GPT、Gemini)大多是自回归模型,也就是从左到右、逐词生成的方式…

    Google Gemini 2026年6月14日
  • Google重磅开源DiffusionGemma:文本生成速度提升4倍,打破自回归模型垄断

    谷歌又来搞事情了!这次不是Gemini的更新,而是一款全新的开源模型——DiffusionGemma。 核心看点 6月11日,谷歌正式发布并开源了DiffusionGemma,这是一款基于文本扩散机制的大语言模型。与传统的GPT、Gemini等自回归模型不同,DiffusionGemma采用了一种全新的文本生成方式,在本地推理速度上实现了4倍的提升。 什么是文本扩散模型? 传统…

    Google Gemini 2026年6月13日
  • Google开源DiffusionGemma:文本扩散模型速度提升4倍,消费级显卡就能跑

    Google 终于放了一个大招。 6月11日,Google 正式发布 DiffusionGemma——基于文本扩散机制的开放 AI 模型。不是传统的自回归架构,而是把图像扩散的那一套搬到了文本生成上。结果是:本地推理速度直接提升 4 倍。 核心看点 1. 什么是文本扩散? 传统的大语言模型(GPT、Gemini、Claude)都是自回归模型——从左到右,逐 token 生成,就…

    2026年6月12日
  • MMAudio:输入视频或文本可自动给视频配音效

    MMAudio是一项由伊利诺伊大学厄巴纳-香槟分校、Sony AI及Sony集团联合推出的新技术,它能够实现视频到音频的高质量合成。这项技术的核心创新在于利用视频和文本输入生成同步音频,从而拓展了音频生成的应用场景。MMAudio的设计使其能够在各种视听和音频文本数据集上进行训练,这种多模态联合训练的方式,不仅提高了合成音频的质量,还确保了生成的音频与视频帧之间的同步。 MMA…

    2024年12月14日