谷歌推出全新 Gemma 4 12B 模型：轻松处理视觉与音频，无需编码器

近日，谷歌正式发布了其最新的统一多模态模型 ——Gemma 4 12B。这款模型具有 12 亿个参数，最大的亮点在于它不需要传统的多模态编码器，能够直接处理视觉和音频数据。为了适应消费级硬件的使用需求，Gemma 4 12B 仅需 16GB 的显存或统一内存，用户可以在高端笔记本电脑上本地运行，而不必依赖于云端计算资源。

谷歌推出全新 Gemma 4 12B 模型：轻松处理视觉与音频，无需编码器

Gemma 4 12B 的设计创新在于取消了传统多模态模型中的编码器组件。以往的多模态模型需要将图像和声音通过独立的视觉和音频编码器进行转换，而 Gemma 4 12B 采用了一种轻量级的嵌入层，简化了视觉输入的处理。它仅需进行一次矩阵乘法、位置嵌入和归一化操作，显著降低了计算复杂度。与此同时，音频信号则被直接投影到文本 token 的维度空间，省去了音频编码器的需求。这种无编码器的设计使得 Gemma 4 12B 在推理时的计算步骤减少，体积更为精简。

在性能表现方面，Gemma 4 12B 接近谷歌更大 26B MoE 模型的水平，在多项基准测试中展现出了卓越的多步推理能力和代理工作流能力。此外，该模型还配备了 Multi-Token Prediction（MTP）drafters，能同时预测多个 token，从而加快推理速度。截至目前，Gemma 4 系列的累计下载量已经突破了 1.5 亿次，显示出开发者社区对该开源模型的热烈反响。

Gemma 4 12B 采用 Apache 2.0 许可证进行开源，权重文件已在 Hugging Face 和 Kaggle 等平台上线，支持多种推理框架，包括 LM Studio、Ollama、MLX、SGLang 和 vLLM 等。此外，谷歌自家的 AI Edge Gallery 也为端侧部署提供了支持，开发者可以通过 Google Cloud 的 Model Garden、Cloud Run 和 GKE 等服务进行大规模的生产环境部署。

划重点：
🌟 Gemma 4 12B 模型无需传统编码器，可直接处理视觉与音频数据，运行需求低。
⚡ 采用轻量级嵌入层，显著降低计算复杂度，性能接近谷歌更大的 26B MoE 模型。
📈 累计下载量突破 1.5 亿次，支持多种推理框架及端侧部署，广受开发者欢迎。

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

32万用户在看

中国人工智能缩小与美国差距

21.5万用户在看

七个圈AIGC破圈俱乐部欢迎您！

19.5万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

17.8万用户在看

谷歌推出全新 Gemma 4 12B 模型：轻松处理视觉与音频，无需编码器

最近更新

文章目录

谷歌推出全新 Gemma 4 12B 模型：轻松处理视觉与音频，无需编码器

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

32万 用户在看

中国人工智能缩小与美国差距

21.5万 用户在看

七个圈AIGC破圈俱乐部欢迎您！

19.5万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

17.8万 用户在看

谷歌推出全新 Gemma 4 12B 模型：轻松处理视觉与音频，无需编码器

最近更新

文章目录

谷歌推出全新 Gemma 4 12B 模型：轻松处理视觉与音频，无需编码器

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

32万用户在看

21.5万用户在看

19.5万用户在看

17.8万用户在看