AI 离诺奖有多远?顶级模型在博士级物理基准测试“CritPt”中惨败，准确率不足10%

据 AIbase 报道，一项名为“CritPt”的全新物理基准测试结果显示，即使是目前最顶尖的人工智能模型，如 Gemini3Pro 和 GPT-5，距离成为真正的自主科学家仍有巨大的差距。该基准测试旨在将领先的 AI 模型置于博士早期研究水平进行严苛考核。

CritPt:检验 AI 的科研实战能力

“CritPt”由来自全球30多个机构的50多位物理学家共同构建。其核心目标远超对教科书知识的记忆检验，而是旨在测试 AI 是否具备解决原创性、未发表研究问题的能力——这相当于一位能力出众的物理学研究生的独立工作水平。

为了确保测试的严谨性并防止作弊，CritPt 包含的71个完整研究挑战全部基于未发表的资料，涵盖量子物理、天体物理、高能物理和生物物理等11个前沿领域。研究团队还将这些挑战进一步细分为190个较小的“检查点”，以衡量模型在解决复杂问题过程中的阶段性进展。

AI 离诺奖有多远?顶级模型在博士级物理基准测试“CritPt”中惨败，准确率不足10%

令人警醒的初步结果:顶级模型准确率不足10%

测试的初步结果令人倍感清醒。根据人工智能分析公司（Artificial Analysis）的独立评估显示，即便是目前最强大的系统，也未能完成绝大多数任务:

谷歌的“Gemini3Pro Preview”准确率仅为 9.1%。（值得注意的是，其使用的词元数量比第二名少了10%）。
排名第二的 OpenAI“GPT-5.1（high）”准确率仅为 4.9%。

研究结果残酷地揭示，目前的大型语言模型在面对开放式物理问题时，普遍缺乏必要的严谨性、创造性和精确性。尽管模型在更简单、定义明确的“检查点”子任务上表现出了一定进步，但在面对完整的科研挑战时却束手无策。

核心障碍:推理能力的脆弱性

研究团队引入了一项更为严格的指标——“一致解决率”（要求在五次尝试中至少做对四次），以测试模型的稳定性。在这一指标下，模型的表现全面大幅下滑。

这种稳健性的缺失给实际科研工作流程带来了严峻挑战。模型常常能得出看似合理的结果，但其中却隐藏着难以察觉的细微错误，这极易误导研究人员，并需要专家耗费大量时间进行审核复查。

未来展望:从科学家到研究助理

基于 CritPt 的测试结果，研究人员认为，在可预见的未来，更切实际的目标并非用“AI 科学家”取代人类专家，而是利用 AI 作为“研究助理”来自动化特定的工作流程步骤。

这一观点与当前的行业规划相符:OpenAI 声称 GPT-5已开始为研究人员节省时间，并计划在2026年9月前推出研究实习生系统，目标是在2028年3月前推出完全自主的研究员系统。然而，CritPt 的结果表明，要实现这一终极目标，AI 仍需跨越巨大的技术鸿沟。

七个圈AIGC破圈俱乐部欢迎您！

16.5万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

14.8万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

10.7万用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

9.3万用户在看

AI 离诺奖有多远?顶级模型在博士级物理基准测试“CritPt”中惨败，准确率不足10%

最近更新

文章目录

AI 离诺奖有多远?顶级模型在博士级物理基准测试“CritPt”中惨败，准确率不足10%

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

16.5万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

14.8万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

10.7万 用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

9.3万 用户在看

AI 离诺奖有多远?顶级模型在博士级物理基准测试“CritPt”中惨败，准确率不足10%

最近更新

文章目录

AI 离诺奖有多远?顶级模型在博士级物理基准测试“CritPt”中惨败，准确率不足10%

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

16.5万用户在看

14.8万用户在看

10.7万用户在看

9.3万用户在看