微软 GitHub 于 4 月 6 日发布了一个激动人心的消息,为其 Copilot CLI 推出了一项名为 Rubber Duck 的实验性功能。这项新功能引入了一种跨模型的 “第二意见” 审查机制,旨在帮助开发者提升代码的准确性和效率,最终使 AI 的性能提升近 75%。

在软件开发过程中,早期的决策错误往往会积累成更大的问题,而传统的自我审查方法容易受到模型本身训练偏差的影响。Rubber Duck 的推出,正是为了引入不同的模型作为独立审查者,从而提供多元化的视角,及时发现潜在的错误。这项功能支持用户选择 Claude 系列模型作为主控,接着使用 GPT-5.4 进行代码审查,确保代码的准确性和完整性。
通过 SWE-Bench Pro 基准测试,研究显示 Claude Sonnet 4.6 和 Opus 4.6 的单独运行存在显著性能差距,而 Sonnet 4.6 结合 Rubber Duck 后,成功弥补了 74.7% 的性能差距。在处理复杂任务时,该功能的表现更为突出,得分比基线高出 3.8%。具体案例表明,它能有效识别架构逻辑漏洞、循环覆盖错误以及跨文件的冲突问题。
Rubber Duck 的使用方式灵活多样,支持主动、被动和用户触发的三种审查模式。系统会在制定计划、复杂实现和测试编写后的关键节点自动寻求审查,也可以在开发者陷入问题时被动触发。同时,用户还可以随时主动请求审查,系统会展示反馈内容和修改依据。
目前,Rubber Duck 功能已在实验模式下上线,用户只需安装 GitHub Copilot CLI 并运行 /experimental 命令,即可启用这一新功能,享受 Claude 模型与 GPT-5.4 的协同工作体验。
划重点:
🌟 1. 微软 GitHub 推出 Rubber Duck 功能,引入跨模型的 AI 审查机制,提升编程效率。
🔍 2. 该功能通过结合 Claude Sonnet 4.6 和 GPT-5.4,成功弥补 74.7% 的性能差距。
⚙️ 3. Rubber Duck 支持多种审查模式,用户可主动请求审查,确保代码质量。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则