近日,Meta 的人工智能研究团队推出了一款名为代码世界模型(Code World Model,简称 CWM)的大型语言模型

这一新模型的推出,标志着代码生成技术的一个重大进步,它不仅学习代码的外观,更关注代码在执行时的实际功能。通过对大量代码与其运行环境的交互数据进行训练,CWM 建立了一个内部 “世界模型”,帮助模型理解计算系统的工作原理。

Meta 发布新模型 CWM,助力代码理解与生成

传统的代码生成模型通常仅仅通过预测程序中下一个指令来进行学习,这种方式在面对编程复杂性时显得捉襟见肘。Meta 的研究团队认为,要真正掌握编程,模型需要理解代码执行后的实际效果。这种理解能力对于软件工程师至关重要,因为他们在编写代码时不仅关注语法,还需考虑变量、对象和函数等组件之间的关系。

CWM 模型的训练过程采用了新颖的方法,特别是在 “中期训练” 阶段就开始教授代码的行为,而不是在最后的微调阶段。这一过程主要利用了两种关键数据:一是 Python 代码执行轨迹的记录,二是基于 Docker 环境中的智能体交互数据。通过这些数据,CWM 可以更深刻地理解代码指令对程序整体行为的影响。

在实际应用中,CWM 展现出了优秀的性能。在多个行业基准测试中,它的表现均超过了其他同类模型。例如,在 SWE-bench Verified 基准测试中,CWM 的通过率达到了65.8%,在 LiveCodeBench 和数学推理等测试中也取得了优异的成绩。虽然 CWM 的表现令人鼓舞,但研究人员也提醒,CWM 仍然处于研究阶段,未进行大规模的优化,暂不适用于通用的对话助手功能。

Meta 团队对于未来的发展持乐观态度,他们认为借助世界模型知识来提升模型在多种任务中的表现仍有很大潜力。这一研究的进展表明,拥有强大的世界模型将使人工智能系统在不断变化的真实环境中变得更加可靠和高效。

入口:https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/

划重点:

🌐 CWM 模型不仅关注代码的外观,还重视代码在执行后的实际功能,帮助模型理解计算环境的动态。

🛠️ 该模型通过中期训练教授代码行为,利用 Python 执行轨迹和 Docker 环境交互数据进行学习。

📊 CWM 在多个行业基准测试中表现出色,显示出世界模型在提升人工智能系统可靠性方面的重要性。