Anthropic最新发布了Claude Sonnet4.5模型,这款备受期待的AI模型于9月29日正式亮相,被誉为“世界上最佳编码模型”,标志着AI在复杂任务处理和自主代理领域的重大突破。以下是基于最新数据的专业剖析。

Anthropic放大招!Claude Sonnet4.5碾压GPT-5,编码界“新王者”诞生

模型发布与核心亮点

Anthropic宣布Claude Sonnet4.5现已全球可用,支持Claude.ai网页、iOS和Android应用,以及API接口。

该模型在编码基准测试SWE-bench Verified上取得领先成绩,实测可维持30小时以上的自主工作时长,远超前代Claude Opus4的7小时上限。这意味着AI不再局限于简单原型生成,而是能处理跨代码库的复杂、多步骤任务,实现“生产就绪”级应用开发。

在实际表现上,Claude Sonnet4.5的代码编辑准确率从前代的9%错误率提升至0%,工具使用成功率更高,同时成本更低。它在OSWorld基准(测试真实计算机任务)中得分达61.4%,较四个月前的Sonnet4提升19.2%。此外,该模型在金融、法律、医学和STEM领域的专业知识与推理能力也显著增强,超越Opus4.1。

Anthropic放大招!Claude Sonnet4.5碾压GPT-5,编码界“新王者”诞生

技术升级与生态集成

此次发布伴随多项产品优化,进一步强化Claude生态的实用性。在Claude Code中,新引入“检查点”功能,用户可随时保存进度并回滚状态,避免开发中断。

同时,API新增上下文编辑和内存工具,支持代理运行更长时序任务;Claude应用内直接集成代码执行和文件生成(如表格、幻灯片),简化工作流。Anthropic还推出Claude Agent SDK,开发者可利用自然语言构建自定义AI代理,管理内存、权限并协调子代理。

该SDK与Claude for Chrome扩展无缝对接,后者已向Max订阅用户开放,支持浏览器内代理操作。此外,GitHub Copilot、Replit Agent和Amazon Bedrock等平台已快速集成Sonnet4.5,提升多步骤推理和代码理解能力。定价方面,Claude Sonnet4.5保持与Sonnet4一致:输入3美元/百万tokens,输出15美元/百万tokens。这不仅降低了企业部署门槛,还体现了Anthropic在AI经济中的基础设施定位。

安全与对齐创新

Anthropic强调,Claude Sonnet4.5是其“最对齐的前沿模型”。通过广泛的安全训练,该模型显著降低“奉承”(sycophancy)、欺骗、权力寻求和鼓励妄想等风险行为,并提升对提示注入攻击的防御能力。外部专家评估显示,它在多领域表现出更可靠的道德决策,适用于高风险企业场景。

行业影响与未来展望

Claude Sonnet4.5的发布正值AI代理浪潮兴起之际。它不仅挑战OpenAI的GPT-5和Google的Gemini2.5Pro在编码领域的霸主地位,还为软件开发、自动化工作流注入新活力。

专家预测,这将加速“AI作为同事”的范式转变,推动从原型迭代到自主维护的跃进。Anthropic建议所有用户立即升级至Sonnet4.5,以解锁这些潜力。AIbase观点:在AI竞争白热化的2025年,Claude Sonnet4.5证明了“专注实用”的价值。它不是简单的参数堆砌,而是对真实世界需求的精准响应。开发者与企业应密切关注后续生态扩展,这或将成为代理AI商业化的关键节点。