SWE-benchVerified相关资讯及SWE-benchVerified相关产品

基准测试不等于真实能力?研究称AI代码“通过率”或被高估最高达7倍

研究机构 METR 最新发布的一项研究显示，被广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估了 AI 代理在真实软件开发环境中的表现。研究发现，在基准测试中…

Mistral AI发布第二代开源编码模型:Devstral2性能超群，采用差异化许可策略

Mistral AI 正式推出其第二代开源编码模型家族:Devstral2 和 Devstral Small2。此次发布的核心亮点是旗舰模型在性能上实现突破，同时该公司采用了针对不同规模模…

OpenAI 推出 GPT-5-Codex-Mini:更轻、更快、更省的开发者专用模型

OpenAI 近日正式发布 GPT-5-Codex-Mini，这是一款专为开发者打造的高性价比编程模型，继9月推出的 GPT-5-Codex 后，再次拓宽了智能编程的应用边界。 GPT-5-Codex…

重磅升级!Claude Opus4.1横空出世，编程能力直冲74.5%新高!

今日，人工智能公司Anthropic正式发布其旗舰模型Claude Opus4的升级版——Claude Opus4.1。此次更新旨在全面提升模型的agentic任务、真实世界编程和推理能力，尤其是在编…

月之暗面发布全新开源模型 Kimi-Dev-72B，打破编程基准记录

月之暗面（Moonshot AI）宣布推出其新开源模型 Kimi-Dev-72B，这一模型专注于软件工程任务，并在 AI 编程基准测试 SWE-bench Verified 中创下了全球最高的开源模型…

OpenAI推出SWE-bench Verified:提升AI软件工程能力评估

OpenAI于8月13日宣布推出SWE-bench Verified代码生成评估基准，旨在更准确评估人工智能模型在软件工程任务中的表现。这一新基准解决了此前SWE-bench存在的多项局限性。 SWE…