据 AIbase 报道,一项名为“CritPt”的全新物理基准测试结果显示,即使是目前最顶尖的人工智能模型,如 Gemini3Pro 和 GPT-5,距离成为真正的自主科学家仍有巨大的差距。该基准测试旨在将领先的 AI 模型置于博士早期研究水平进行严苛考核。
CritPt:检验 AI 的科研实战能力
“CritPt”由来自全球30多个机构的50多位物理学家共同构建。其核心目标远超对教科书知识的记忆检验,而是旨在测试 AI 是否具备解决原创性、未发表研究问题的能力——这相当于一位能力出众的物理学研究生的独立工作水平。
为了确保测试的严谨性并防止作弊,CritPt 包含的71个完整研究挑战全部基于未发表的资料,涵盖量子物理、天体物理、高能物理和生物物理等11个前沿领域。研究团队还将这些挑战进一步细分为190个较小的“检查点”,以衡量模型在解决复杂问题过程中的阶段性进展。

令人警醒的初步结果:顶级模型准确率不足10%
测试的初步结果令人倍感清醒。根据人工智能分析公司(Artificial Analysis)的独立评估显示,即便是目前最强大的系统,也未能完成绝大多数任务:
谷歌的“Gemini3Pro Preview”准确率仅为 9.1%。(值得注意的是,其使用的词元数量比第二名少了10%)。
排名第二的 OpenAI“GPT-5.1(high)”准确率仅为 4.9%。
研究结果残酷地揭示,目前的大型语言模型在面对开放式物理问题时,普遍缺乏必要的严谨性、创造性和精确性。尽管模型在更简单、定义明确的“检查点”子任务上表现出了一定进步,但在面对完整的科研挑战时却束手无策。
核心障碍:推理能力的脆弱性
研究团队引入了一项更为严格的指标——“一致解决率”(要求在五次尝试中至少做对四次),以测试模型的稳定性。在这一指标下,模型的表现全面大幅下滑。
这种稳健性的缺失给实际科研工作流程带来了严峻挑战。模型常常能得出看似合理的结果,但其中却隐藏着难以察觉的细微错误,这极易误导研究人员,并需要专家耗费大量时间进行审核复查。
未来展望:从科学家到研究助理
基于 CritPt 的测试结果,研究人员认为,在可预见的未来,更切实际的目标并非用“AI 科学家”取代人类专家,而是利用 AI 作为“研究助理”来自动化特定的工作流程步骤。
这一观点与当前的行业规划相符:OpenAI 声称 GPT-5已开始为研究人员节省时间,并计划在2026年9月前推出研究实习生系统,目标是在2028年3月前推出完全自主的研究员系统。然而,CritPt 的结果表明,要实现这一终极目标,AI 仍需跨越巨大的技术鸿沟。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则