近日,谷歌正式发布了其最新的统一多模态模型 ——Gemma 4 12B。这款模型具有 12 亿个参数,最大的亮点在于它不需要传统的多模态编码器,能够直接处理视觉和音频数据。为了适应消费级硬件的使用需求,Gemma 4 12B 仅需 16GB 的显存或统一内存,用户可以在高端笔记本电脑上本地运行,而不必依赖于云端计算资源。

谷歌推出全新 Gemma 4 12B 模型:轻松处理视觉与音频,无需编码器

Gemma 4 12B 的设计创新在于取消了传统多模态模型中的编码器组件。以往的多模态模型需要将图像和声音通过独立的视觉和音频编码器进行转换,而 Gemma 4 12B 采用了一种轻量级的嵌入层,简化了视觉输入的处理。它仅需进行一次矩阵乘法、位置嵌入和归一化操作,显著降低了计算复杂度。与此同时,音频信号则被直接投影到文本 token 的维度空间,省去了音频编码器的需求。这种无编码器的设计使得 Gemma 4 12B 在推理时的计算步骤减少,体积更为精简。

在性能表现方面,Gemma 4 12B 接近谷歌更大 26B MoE 模型的水平,在多项基准测试中展现出了卓越的多步推理能力和代理工作流能力。此外,该模型还配备了 Multi-Token Prediction(MTP)drafters,能同时预测多个 token,从而加快推理速度。截至目前,Gemma 4 系列的累计下载量已经突破了 1.5 亿次,显示出开发者社区对该开源模型的热烈反响。

Gemma 4 12B 采用 Apache 2.0 许可证进行开源,权重文件已在 Hugging Face 和 Kaggle 等平台上线,支持多种推理框架,包括 LM Studio、Ollama、MLX、SGLang 和 vLLM 等。此外,谷歌自家的 AI Edge Gallery 也为端侧部署提供了支持,开发者可以通过 Google Cloud 的 Model Garden、Cloud Run 和 GKE 等服务进行大规模的生产环境部署。

划重点:

🌟 Gemma 4 12B 模型无需传统编码器,可直接处理视觉与音频数据,运行需求低。  

⚡ 采用轻量级嵌入层,显著降低计算复杂度,性能接近谷歌更大的 26B MoE 模型。  

📈 累计下载量突破 1.5 亿次,支持多种推理框架及端侧部署,广受开发者欢迎。