在科学研究中,推理能力至关重要。科学家们不仅仅是回忆事实,还需提出假设、测试并修正这些假设,并在不同领域之间综合思想。随着 AI 模型能力的提升,如何评估它们在科学研究中深度推理的能力成为了一个重要问题。

最近,AI 模型在一些重大领域取得了里程碑式的成就,包括在国际数学奥林匹克和信息学奥林匹克比赛中表现优异。同时,GPT-5等先进模型正在有效加速真实的科学工作流程。研究人员利用这些系统进行跨学科的文献搜索以及复杂数学证明的工作,显著缩短了从几天或几周到几小时的研究时间。
为进一步评估 AI 在科学研究中的能力,我们推出了一个新基准 ——FrontierScience。这一基准专注于评估在物理、化学和生物等领域的专家级科学推理能力。FrontierScience 包含了数百个经过专家验证的难题,并设有两个问题追踪:奥林匹克版和研究版,旨在分别测量奥林匹克风格的科学推理能力和真实世界的科学研究能力。初步评估结果显示,GPT-5.2在 FrontierScience-Olympiad 和 Research 两个模块中的表现优于其他模型。
具体而言,GPT-5.2在奥林匹克模块中得分77%,在研究模块中得分25%。尽管目前的模型已经能够支持结构化推理的研究环节,但在开放式思维能力方面仍有待提升。当前,科学家们利用这些模型加速研究流程,但在问题框架和验证方面仍需依赖人类的判断。未来,我们将继续完善 FrontierScience 基准,并扩大其应用领域,以帮助模型成为科学发现中的可靠伙伴。
划重点:
🔍 FrontierScience 是一个新推出的基准,旨在评估 AI 在科学领域的推理能力。
📊 初步评估显示,GPT-5.2在科学推理能力上表现突出,但仍需提升开放式思维能力。
🚀 AI 模型的进步正在加速科学研究流程,未来将进一步优化评估基准与扩展应用领域。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则