华盛顿州立大学研究：ChatGPT 在复杂科学判断中表现出严重的“自相矛盾”

华盛顿州立大学（WSU）近日发布的一项研究揭示，尽管 ChatGPT 的回答语气充满自信，但在处理复杂科学论断时，其表现更接近于“随机猜测”。研究指出，该模型不仅准确率有限，而且在面对同一问题时经常给出前后矛盾的答案。

由 Mesut Cicek 副教授领衔的团队，从 2021 年以来的商业期刊中提取了 719 条研究假设，并反复提交给模型进行真伪判断：

虽然 ChatGPT 的表面正确率在 80% 左右，但在剔除随机猜测因素后，其真实表现仅比 50% 的“掷硬币”概率高出约 60%。研究者将其评价为“低分的 D 等成绩”。模型在识别错误陈述方面表现极差，对“假命题”的正确判断率仅为 16.4%。

研究人员将每条假设向模型提交了 10 次，发现模型很难保持立场的一致性：

研究指出，用户容易被 AI 流畅且极具说服力的语言所迷惑，但这并不代表其具备真正的推理能力：

基于研究结果，Cicek 建议企业管理者在涉及复杂决策时必须保持高度怀疑：不应将生成式 AI 视为可以替代专业判断的“权威”，必须对所有输出结果进行人工核查。组织应加强培训，帮助员工理解 AI 工具的优势与局限，避免盲目信任带来的决策偏差。

该研究再次提醒公众，在 AI 技术快速迭代的背景下，其深层逻辑判断与证据权衡能力仍有待提高。

搜索