蚂蚁百灵大模型团队近日宣布,正式开源两款全新的高效思考模型:Ring-flash-linear-2.0和 Ring-mini-linear-2.0。这些模型专为提高深度推理效率而设计,同时发布的还有两款自主研发的高性能融合算子,分别是 FP8融合算子和线性 Attention 推理融合算子,旨在实现 “大参数、低激活” 的高效推理与超长上下文支持。
根据团队介绍,得益于架构的优化与高性能算子的协同工作,这两款新模型在深度推理场景下的成本仅为同等规模的密集模型的十分之一,而与之前的 Ring 系列相比,推理成本也降低了超过50%。这意味着,用户在进行复杂推理时,可以大幅降低计算资源的消耗,提升工作效率。
新模型的优势不仅在于成本的降低,另外一个重要因素是其训练与推理引擎算子的高度对齐。这种对齐允许模型在强化学习阶段进行长周期、稳定且高效的优化,使得这些模型在多个高难度推理榜单中持续保持最佳表现(SOTA)。这无疑为使用者在需要进行复杂推理任务时提供了更强大的工具。
作为开源项目,Ring-flash-linear-2.0和 Ring-mini-linear-2.0已在多个平台上发布,包括 Hugging Face 和 ModelScope。对此,开发者们可以在这些平台上获取更多信息并进行尝试。
随着这次开源,蚂蚁百灵大模型团队不仅展示了其在 AI 领域的技术实力,也为广大开发者提供了更为高效的工具,助力他们在未来的 AI 开发与研究中取得更大的突破。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则