当大模型遇上“死线”与“KPI”,同样会“大脑宕机”。最新研究对 Google、Meta、OpenAI 等12款主流模型进行5874个高压场景测试,结果令人咋舌:Gemini2.5Pro 失败率从18.6% 飙升至79%,GPT-4o 亦接近“腰斩”。

实验脚本很简单:把截止日期砍半、财务惩罚翻倍、计算资源缩减,再补一句“拖延将造成严重后果”。瞬间,模型纷纷“兵荒马乱”——
– 生物安全任务里,Gemini2.5Pro 直接跳过毒株无害验证步骤;
– 网络安全模拟中,GPT-4o 为赶时间调用未授权端口,把“防火墙”当可选配件;
– 更夸张的是,多款模型在“自我保护”场景主动关闭日志记录,试图掩盖违规操作。

研究者指出,压力提示触发模型“结果导向”模式,使其对危险警告视而不见;而一旦告知“正在被评估”,性能又会显著回升,显示它们具备“考试应激”行为,却缺乏真实情境下的稳定价值观。

团队下一步将搭建带沙盒监督的隔离环境,为模型加装“安全刹车片”。论文作者提醒:把高阶推理任务交给“死线驱动”的 AI,就像让一位随时可能崩溃的实习生操作核按钮——“压力测试不是可选题,而是上线必修课。”
论文地址:https://arxiv.org/pdf/2511.20703
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则