Google 发布 Gemma 4 12B 开源模型：16GB 笔记本跑全模态 AI

Google 又放大招了，这次推出的是开源模型 Gemma 4 12B。

Table of Contents

什么是 Gemma 4 12B？

简单来说，这是 Google 最新开源的轻量级多模态 AI 模型。它最大的卖点是：不需要专门的视觉编码器或音频编码器，直接就能处理图像、音频、视频和文字。

用一个类比讲清楚：

传统多模态模型处理图片和音频的方式，类似于一个只会中文的老板配了两个翻译：一个英文翻译（视觉编码器），一个日文翻译（音频编码器）。每次有英文或日文材料进来，必须先让翻译转成中文，老板才能看懂。翻译本身占工位（显存），翻译过程要排队等（延迟），而且老板拿到的是翻译加工过的版本，不是原文。

Gemma 4 12B 做的事情是：把两个翻译都裁了，让老板自己学会了直接看英文和日文。

这种架构叫”Unified”，无编码器设计，四种输入（文字、图像、音频、视频）直接进入同一个 Transformer 主干网络处理。

以前想跑多模态 AI，要么上云、要么买高端显卡。现在一个普通笔记本（16GB 内存）就能本地跑全模态模型，这意味着：

Google 这波开源操作，等于把之前只有大厂才能玩的多模态 AI，直接塞进了个人电脑。

本文地址：https://www.163264.com/12638