3 月 19 日,Cursor 官方宣布自研编码模型 Composer 2 正式上线。发布公告一出,开发者社区立刻炸了——Cursor 给出的数据显示,这款模型在 Terminal-Bench 2.0 上跑出 61.7%,比 Claude Opus 4.6 在相同测试环境下的 58.0% 高出一截。

Anthropic 的王牌被自家 IDE 的内置模型超了?消息传开,讨论自然少不了。

Cursor Composer 2 编码能力超越 Claude Opus 4.6?基准测试掀起 AI 编码圈新争议

三项核心跑分

Cursor 此次公布了三组基准数据,均为官方发布:

  • Terminal-Bench 2.0(代理式终端编码任务):Composer 2 达 61.7%,高于 Claude Opus 4.6 的 58.0%;但 OpenAI GPT-5.4 仍以 75.1% 领跑。
  • CursorBench(Cursor 内部真实编码场景):Composer 2 达 61.3%,较上一代 Composer 1.5 的 44.2% 大幅跃升,也高于 Claude Opus 4.6 的 58.2%
  • SWE-bench Multilingual(多语言软件工程):Composer 2 取得 73.7%,相比上一代同样有显著提升。

不过这里有个值得留意的地方:Anthropic 官方曾公布 Claude Opus 4.6 在优化设置下的 Terminal-Bench 2.0 成绩为 65.4%,比 Cursor 测试环境里的 58.0% 高不少。差异来源在于测试框架——Cursor 用的是 Harbor 等第三方 agent 环境,跑了 5 轮取平均,而 Anthropic 的数字是自家优化配置下的结果。两套数据本来就不在同一个参照系里,直接拉出来比有点关公战秦琼的意思。Cursor 也没有刻意回避这点,在公告里明确标注了"结果依赖 agent、harness 和设置"。

成本只有 Opus 4.6 的十分之一

性价比才是 Composer 2 真正的底牌。

定价 $0.50 / $2.50(每百万输入 / 输出 tokens),对比 Claude Opus 4.6 的 $5 / $25 和 GPT-5.4 的 $2.5 / $15,差距一目了然。Cursor 的解释是,Composer 2 从一开始就专为长时程编码任务设计,结合自研 RL 训练和"self-summarization"技术,把速度和成本同时压下来——他们的说法是"前沿智能 + 极致速度"。

Composer 2 是 Cursor 第三代自研模型,前身分别是 2025 年 10 月的 Composer 1 和 2026 年 2 月的 1.5 版。这次升级重点落在"long-horizon tasks"(长周期任务),并将一个更快的轻量变体设为 Cursor IDE 的默认模型。

这场"逆袭"说明了什么

Cursor 敢于把自家模型拿去跟 Opus 4.6 正面比,背后是 AI 编码工具赛道整体逻辑的转变。

OpenAI、Anthropic 在卷通用前沿能力,而 Cursor 这类垂直工具厂商走的是另一条路:在特定任务上磨到足够好,再用价格优势拉开差距。VentureBeat、The New Stack 等媒体跟进报道时,普遍提到 Composer 2 会加速"多模型路由"的实际落地——复杂推理用 Opus 或 GPT,日常高频编码切回 Composer 2,两头都不亏。

Claude Opus 4.6 于今年 2 月 5 日发布,在 Terminal-Bench 2.0、Humanity's Last Exam、GDPval-AA 等多项榜单上当时都处于领跑位置。Cursor 的这波数据,至少在编码这个细分赛道,让这个结论打上了问号。

开发者反馈目前以正面为主,但不少人表示要等实际项目跑一跑再下结论——这倒也合理,基准永远只是基准。Cursor 目前已向订阅用户开放 Composer 2 在 IDE 内的免费试用。

数据来源:Cursor 官方公告及主流科技媒体报道,截至 2026 年 3 月 20 日。实时排行榜可参考 tbench.ai 或 Cursor 官网。