谷歌近日发布原生多模态嵌入模型 Gemini Embedding2,该模型可将文本、图像、视频、音频以及 PDF 文档统一映射到同一语义向量空间,旨在简化复杂的 AI 数据处理流程,并提升多模态检索与理解能力。这标志着谷歌在嵌入技术领域从单一文本语义表示迈向统一多模态语义建模的重要一步。

此前在2025年7月,谷歌推出支持100多种语言的文本嵌入模型 gemini-embedding-001,并在 MTEB 多语言排行榜中取得领先成绩。此次发布的 Gemini Embedding2依然基于 Gemini 架构,但能力进一步扩展,可同时处理文本、图像、视频、音频和 PDF 文档五种模态,并将其映射至统一向量空间,从而使不同媒体内容能够直接进行语义比较,无需借助多个模型或额外处理步骤。这一能力对语义搜索、检索增强生成(RAG)、情感分析和数据聚类等应用具有重要意义。
在输入能力方面,新模型支持最长8192个文本 token,是前代模型2048token 上限的四倍;每次请求最多可处理6张 PNG 或 JPEG 图像,视频时长最高120秒,PDF 文档最多6页。值得注意的是,Gemini Embedding2还支持原生音频处理,无需先进行语音转文本,这避免了传统转录过程中的信息损失。谷歌同时引入“交错输入”技术,允许开发者在单次请求中混合多种模态,例如图像与文本描述联合输入,以更好捕捉不同媒体之间的语义关系。

在架构层面,模型继续采用 Matryoshka 表示学习(MRL) 技术,通过分层信息结构动态调整向量维度。其默认嵌入维度为3072,并提供1536和768等可选配置,使开发者能够在检索质量与存储成本之间灵活权衡。
谷歌公布的基准测试显示,Gemini Embedding2在文本、图像、视频及语音任务中均取得领先表现。例如在文本—视频检索任务中,该模型得分达到68.8,高于 Amazon Nova2Multimodal Embeddings 的60.3和 Voyage Multimodal3.5的55.2;在文本—图像对比任务中,其得分为93.4,也明显领先亚马逊模型的84.0。
目前 Gemini Embedding2已通过 Gemini API 与 Vertex AI 向开发者开放,并支持与 LangChain、LlamaIndex、Haystack、Weaviate、Qdrant、ChromaDB 及 Vector Search 等主流框架和向量数据库集成。谷歌还提供交互式 Colab 笔记本及轻量级多模态语义搜索演示,帮助开发者快速测试模型能力。

值得注意的是,多模态嵌入领域的竞争正在升温。今年2月下旬,AI 搜索引擎 Perplexity 发布了基于 MIT 许可证的开源嵌入模型 pplx-embed-v1 和 pplx-embed-context-v1,虽然仅支持文本,但在 MTEB 检索基准中,其最大模型性能与阿里巴巴 Qwen3嵌入模型相当,并一度超过谷歌的 gemini-embedding-001,同时具备更高的内存效率。随着统一多模态语义表示成为 AI 基础设施的重要方向,嵌入模型的竞争正从文本检索逐步扩展至跨媒体理解与数据基础设施层面。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则