4月7日,微软必应(Bing)团队宣布正式开源名为“Harrier”的全新词嵌入模型系列,旨在重塑全球搜索、检索及人工智能代理的底层逻辑。Harrier系列包含三个不同规格的版本,其中旗舰级27B模型在多语言MTEB v2基准测试中超越了OpenAI、亚马逊以及Google Gemini等主流专有模型,位居榜首。

微软必应团队开源27B嵌入模型Harrier,多语言基准测试登顶

该模型的技术底座展现了极高的工业水准:Harrier支持超过100种语言,其上下文窗口高达32,000个词元。在训练策略上,微软不仅使用了超过20亿个真实示例,更引入了来自GPT-5的合成数据进行强化。这种高质量数据的组合使得Harrier在理解复杂语境与长文本处理上具备显著优势。除了270亿参数的完整版外,为适配不同算力环境,微软同步推出了0.6B和2.7B的小参数版本,并全部通过MIT许可证在Hugging Face平台开放。

嵌入模型作为AI系统组织与检索信息的关键技术,其性能直接决定了RAG(检索增强生成)系统的准确性。微软计划将此技术深度集成至Bing搜索引擎及新型AI代理地面服务中。随着人工智能逐步迈向多步骤任务的自主化,Harrier的开源不仅为开发者提供了可替代专有模型的高性能工具,更标志着开源生态在语义表示能力上已完成对顶尖闭源方案的阶段性跨越,进一步加速了AI代理在全球多语言环境下的落地进程。