领先 AI 模型在复杂物理任务中表现不佳，仍需人类助力

近日，由全球超过50位物理学家联合开发的 “CritPt” 基准测试，旨在评估顶尖 AI 模型在处理未公开的复杂物理研究问题时的能力。测试的目标是模拟早期博士研究生所需的独立研究水平。尽管目前的 AI 系统如谷歌的 “Gemini3Pro” 和 OpenAI 的 “GPT-5” 被寄予厚望，但结果却令人失望。

领先 AI 模型在复杂物理任务中表现不佳，仍需人类助力

图源备注:图片由AI生成，图片授权服务商Midjourney

在独立评估中，Gemini3Pro 以9.1% 的准确率名列榜首，而 GPT-5则以4.9% 的成绩紧随其后。这一结果表明，即使是表现最好的模型，仍然无法解决大多数任务，特别是在涉及更复杂的研究挑战时。CritPt 测试涵盖了来自量子物理、天体物理、高能物理和生物物理等11个领域的71个研究挑战。为了防止模型简单猜测或检索，所有问题均基于未发表的研究内容。

测试团队还采用了 “持续解决率” 这一更严格的评估标准，要求模型在五次尝试中至少四次给出正确答案。结果显示，所有模型的表现均大幅下滑，凸显了它们在复杂问题上推理的脆弱性。这种不可靠性对研究工作流程造成了挑战，模型常常会生成看似正确但实际却含有细微错误的答案，这可能误导研究人员并增加审核工作的负担。

研究团队指出，当前大模型在独立解决开放性物理问题方面尚显不足，更为现实的目标是将其视为 “研究助手”，在特定的工作流程中提供帮助。与此相符的是，OpenAI 计划在2026年9月推出一款研究实习生系统，并在2028年3月推出完全自主的研究系统。公司声称，GPT-5目前已经在帮助研究人员节省时间。

划重点:
🌟 目前顶尖 AI 模型在复杂物理任务中的表现不尽如人意，最高仅达到9.1% 的准确率。
🔍 “CritPt” 基准测试涵盖了多个物理领域，问题均为未公开研究内容。
🤖 未来 AI 更可能作为研究助手，而非完全替代人类专家，帮助自动化特定流程。

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

30.9万用户在看

中国人工智能缩小与美国差距

21.3万用户在看

七个圈AIGC破圈俱乐部欢迎您！

19.3万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

17.7万用户在看

领先 AI 模型在复杂物理任务中表现不佳，仍需人类助力

最近更新

文章目录

领先 AI 模型在复杂物理任务中表现不佳，仍需人类助力

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

30.9万 用户在看

中国人工智能缩小与美国差距

21.3万 用户在看

七个圈AIGC破圈俱乐部欢迎您！

19.3万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

17.7万 用户在看

领先 AI 模型在复杂物理任务中表现不佳，仍需人类助力

最近更新

文章目录

领先 AI 模型在复杂物理任务中表现不佳，仍需人类助力

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

30.9万用户在看

21.3万用户在看

19.3万用户在看

17.7万用户在看