蚂蚁百灵大模型团队最近宣布开源其全新高效推理模型 ——Ring-mini-sparse-2.0-exp。该模型基于 Ling2.0架构,专为长序列解码进行了优化,采用了创新的稀疏注意力机制。
这一新架构将高稀疏比的 Mixture of Expert(MoE)结构与稀疏注意力机制有机结合,旨在提升模型在复杂长序列推理场景下的表现。

团队表示,得益于架构与推理框架的深度协同优化,Ring-mini-sparse-2.0-exp 在处理长序列时的吞吐量相比其前身 Ring-mini-2.0提高了近三倍。
在多项高难度推理基准测试中,该模型同样持续保持了 SOTA(State of the Art)性能,展示了其出色的上下文处理能力和高效推理能力,为开源社区提供了新的轻量化解决方案。
Ling2.0Sparse 架构主要是为了解决大语言模型未来发展中的两个核心趋势:上下文长度的扩展和测试时的扩展。团队借鉴了 Mixture of Block Attention (MoBA) 的设计思路,采用了块级稀疏注意力(block-wise sparse attention),将输入的 Key 和 Value 按块划分,每个 query 在 head 维度上进行 top-k 块选择。
只有在选中的块上进行 softmax 计算,这样大大降低了计算开销。此外,团队将 MoBA 设计与 Grouped Query Attention (GQA) 结合,使得同一组内的 query heads 共享 top-k 块选择结果,从而减少 I/O 开销。
GitHub:https://github.com/inclusionAI/Ring-V2/tree/main/moba
划重点:
🌟 新模型 Ring-mini-sparse-2.0-exp 在长序列推理中表现优越,吞吐量提升近三倍。
🔍 该模型采用了创新的稀疏注意力机制,兼顾高效推理与上下文处理能力。
📥 模型已在多个平台开源,方便社区进行应用与研究。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则