近日,摩尔线程的 AI 研究团队在国际顶级学术会议 AAAI2026上发布了其最新研究成果,提出了一种名为 URPO(统一奖励与策略优化)的创新框架。这项技术旨在简化大语言模型的训练过程,并突破其性能的瓶颈,为 AI 领域带来新的技术路径。

在题为《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的论文中,研究团队将传统的 “大模型训练” 方法进行了重塑。URPO 框架独特之处在于,它将 “指令遵循” 和 “奖励评判” 两种角色合二为一,让一个单一模型在训练阶段实现同步优化。这意味着模型不仅能听懂指令,还能自己打分,从而提升了训练的效率和效果。

摩尔线程推出URPO框架,助力大模型训练新纪元,AAAI 2026 盛赞

URPO 框架在三个关键技术方面攻克了当前的挑战。首先是数据格式统一,研究团队成功地将不同类型的数据(如偏好数据、可验证推理数据和开放式指令数据)转化为适用于 GRPO 训练的统一信号格式。其次,通过自我奖励循环,模型在生成多个候选回答后,可以自主评分,将其结果用作 GRPO 训练的奖励信号,从而形成高效的自我改进循环。最后,协同进化机制通过混合处理三类数据,实现了模型生成能力与评判能力的双向提升。

实验结果显示,基于 Qwen2.5-7B 模型的 URPO 框架,在多个性能指标上均超越了依赖独立奖励模型的传统基线。例如,在 AlpacaEval 指令跟随榜单上得分提升至44.84,综合推理能力测试的平均分也从32.66提升至35.66。同时,该模型在 RewardBench 奖励模型评测中获得了85.15的高分,表现优于专用奖励模型的83.55分,充分展现了 URPO 的优越性。

值得一提的是,摩尔线程已经在其自主研发的计算卡上实现了 URPO 框架的高效运行,并完成了与主流强化学习框架 VERL 的深度适配。这一突破不仅标志着摩尔线程在大模型训练领域的领先地位,也为未来的 AI 发展指明了方向。