华盛顿州立大学(WSU)近日发布的一项研究揭示,尽管 ChatGPT 的回答语气充满自信,但在处理复杂科学论断时,其表现更接近于“随机猜测”。研究指出,该模型不仅准确率有限,而且在面对同一问题时经常给出前后矛盾的答案。
由 Mesut Cicek 副教授领衔的团队,从 2021 年以来的商业期刊中提取了 719 条研究假设,并反复提交给模型进行真伪判断:
虽然 ChatGPT 的表面正确率在 80% 左右,但在剔除随机猜测因素后,其真实表现仅比 50% 的“掷硬币”概率高出约 60%。研究者将其评价为“低分的 D 等成绩”。模型在识别错误陈述方面表现极差,对“假命题”的正确判断率仅为 16.4%。
研究人员将每条假设向模型提交了 10 次,发现模型很难保持立场的一致性:
回答反复横跳:在 10 次重复问答中,模型仅在约 73% 的案例中保持了结论一致。
极端矛盾:在部分案例中,模型会出现“真、假交替”的情况,甚至出现“一半回答为真、一半回答为假”的极端情形,即便使用的提示词完全相同。
研究指出,用户容易被 AI 流畅且极具说服力的语言所迷惑,但这并不代表其具备真正的推理能力:
缺乏真实“大脑”:模型本质上是在进行记忆和模式匹配,并不像人类那样真正理解世界或知道自己在说什么。
版本进步有限:测试显示,2025 年测试的更新版 ChatGPT-5 mini 与早期版本在这一特定任务上的整体表现相近,均未展现出质的飞跃。
基于研究结果,Cicek 建议企业管理者在涉及复杂决策时必须保持高度怀疑:不应将生成式 AI 视为可以替代专业判断的“权威”,必须对所有输出结果进行人工核查。组织应加强培训,帮助员工理解 AI 工具的优势与局限,避免盲目信任带来的决策偏差。
该研究再次提醒公众,在 AI 技术快速迭代的背景下,其深层逻辑判断与证据权衡能力仍有待提高。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则