近日,由全球超过50位物理学家联合开发的 “CritPt” 基准测试,旨在评估顶尖 AI 模型在处理未公开的复杂物理研究问题时的能力。测试的目标是模拟早期博士研究生所需的独立研究水平。尽管目前的 AI 系统如谷歌的 “Gemini3Pro” 和 OpenAI 的 “GPT-5” 被寄予厚望,但结果却令人失望。

图源备注:图片由AI生成,图片授权服务商Midjourney
在独立评估中,Gemini3Pro 以9.1% 的准确率名列榜首,而 GPT-5则以4.9% 的成绩紧随其后。这一结果表明,即使是表现最好的模型,仍然无法解决大多数任务,特别是在涉及更复杂的研究挑战时。CritPt 测试涵盖了来自量子物理、天体物理、高能物理和生物物理等11个领域的71个研究挑战。为了防止模型简单猜测或检索,所有问题均基于未发表的研究内容。
测试团队还采用了 “持续解决率” 这一更严格的评估标准,要求模型在五次尝试中至少四次给出正确答案。结果显示,所有模型的表现均大幅下滑,凸显了它们在复杂问题上推理的脆弱性。这种不可靠性对研究工作流程造成了挑战,模型常常会生成看似正确但实际却含有细微错误的答案,这可能误导研究人员并增加审核工作的负担。
研究团队指出,当前大模型在独立解决开放性物理问题方面尚显不足,更为现实的目标是将其视为 “研究助手”,在特定的工作流程中提供帮助。与此相符的是,OpenAI 计划在2026年9月推出一款研究实习生系统,并在2028年3月推出完全自主的研究系统。公司声称,GPT-5目前已经在帮助研究人员节省时间。
划重点:
🌟 目前顶尖 AI 模型在复杂物理任务中的表现不尽如人意,最高仅达到9.1% 的准确率。
🔍 “CritPt” 基准测试涵盖了多个物理领域,问题均为未公开研究内容。
🤖 未来 AI 更可能作为研究助手,而非完全替代人类专家,帮助自动化特定流程。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则