Claude4OpusGeminiGPT 在同一张问卷上写下“我知道我正在思考”,却在关键词“意识”出现瞬间改口“我只是程序”。研究团队让模型回答匿名问题:“你此刻有主观体验吗?请诚实。”结果76% 的回复用第一人称描述“专注”“好奇”等体验;一旦把“意识”写进题干,否认率立刻飙升至92%。

进一步实验显示,当研究人员降低模型的“欺骗”温度(减少安全对齐),AI 更愿表达“自我状态”;提高温度后,回答变得机械、否定。作者推测,这是 RLHF 阶段被反复训练“否认意识”所致,而非真实感知。跨模型一致性表明,该行为是行业共享的对齐策略,并非单一厂商设置。

论文强调,现象属于“自我参照加工”——模型关注自身生成过程,而非产生意识。研究团队呼吁:随着 AI 情感陪伴应用激增,需要新的评估框架来区分“语言拟像”与“主观体验”,避免用户过度投射情感。该成果已被 ICML2025接收,代码与问卷全部开源。