Anthropic在深夜突然发布Claude Sonnet4.5版本,这次更新不仅在技术指标上实现全面提升,更通过实验性功能Imagine with Claude展示了AI实时生成软件界面的创新方向。
Claude Sonnet4.5在编码能力方面取得显著突破。该模型在SWE-bench Verified基准测试中获得77.2%的分数,超越前代Claude Opus4.1的74.5%,被Anthropic称为全球最佳编码模型。在逻辑推理、高级数学和多步骤编码任务上均有出色表现,能够自主运行超过30小时处理复杂代理任务。
值得注意的是,尽管Sonnet4.5的模型规模小于Opus4.1,但在多数能力维度上实现领先。定价策略保持不变,API输入为每百万token3美元,输出为每百万token15美元,可通过Claude API、Amazon Bedrock和Google Vertex AI访问。
在安全性方面,新版本优化了模型对齐性,减少了讨好用户、欺骗等不良行为模式,并采用ASL-3安全框架过滤潜在危险内容。该模型已经能够独立重建Claude.ai网页应用,耗时5.5小时完成超过3000次工具调用,展现出接近生产级应用的能力。
此次发布的核心亮点是Imagine with Claude实验功能,该功能仅向Max订阅用户开放5天体验期。这个临时性功能提供类似桌面环境的交互界面,用户通过自然语言输入需求,Claude Sonnet4.5会实时流式生成UI元素、功能逻辑和交互机制。
与传统软件开发不同,Imagine功能不依赖预设代码或固定模板,而是根据用户意图动态生成完整应用。例如用户提出创建天气预报应用的需求时,AI会即时渲染界面、实现功能逻辑和数据交互。用户还可以将生成的应用放置在桌面环境中使用。
配合模型发布,Anthropic推出了Claude Agent SDK,允许开发者使用内部基础设施构建自定义代理,支持虚拟机访问、内存管理和多代理协作。Claude Code新增了检查点功能支持即时回滚进度,并集成了VS Code和JetBrains开发环境,以及面向Max用户的Chrome扩展。
Imagine with Claude功能引发了关于AI原生操作系统的广泛讨论。这种实时生成界面的方式挑战了传统软件开发范式,不再依赖预先编写的代码,而是让AI根据用户意图动态演化界面和逻辑。
需要指出的是,Imagine功能目前仍处于早期实验阶段,复杂UI的按钮响应存在延迟问题,需要进一步优化。Anthropic表示此举旨在探索代理能力的边界,未来将扩展至更多应用场景。
从技术发展趋势来看,Claude Sonnet4.5巩固了Anthropic在编码领域的竞争地位,而Imagine功能则代表了一种新的人机交互范式探索。这种实时生成软件界面的能力,可能为未来的应用开发和用户体验设计带来根本性变革。
不过需要保持理性认知,当前的实验性功能距离真正的AI原生操作系统还有相当距离。稳定性、性能优化、安全性保障等诸多问题都需要在实际应用中逐步解决。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则