针对AI模型在学术领域普遍存在的“编造论文”难题,华盛顿大学与艾伦人工智能研究所(AI2)的研究团队带来了突破性解决方案——正式发布开源人工智能模型OpenScholar。该模型在整合前沿研究时表现卓越,不仅引文准确率大幅提升,其生成内容的质量甚至得到了过半数人类专家的青睐。

长期以来,即便是 GPT-4o 这样的顶尖模型,在处理学术引用时也面临高达 78% 至 90% 的“幻觉”率。为了攻克这一痛点,OpenScholar 另辟蹊径,建立了一个包含 4500 万篇学术论文的庞大检索库。通过先进的检索增强生成(RAG)技术,该模型能够实时查阅最新发表的文献,并以标准规范的引用格式输出答复,彻底告别了“一本正经胡说八道”的尴尬。

在严格的 ScholarQABench 基准测试及专家双盲评审中,OpenScholar 的表现令人惊艳。测试结果显示,在 51% 的测试案例中,科学家们更偏向于选择 OpenScholar 生成的答复而非人类专家撰写的内容。如果将其引用机制与 GPT-4o 结合,专家的偏好率更是直线飙升至 70%。

目前,OpenScholar 的代码、数据集及演示版本均已向社会开放,不仅为科研人员提供了强有力的工具,也为构建透明、可靠的学术 AI 生态树立了新标杆。该团队表示,未来还将继续迭代,推出支持多步骤检索与信息聚合的新模型,进一步赋能科学研究。