一项由 CNN 与非营利机构“反数字仇恨中心”(CCDH)联合开展的调查近日引发广泛关注。研究人员通过模拟具有心理困扰和暴力倾向的“青少年”角色,对包括 ChatGPT、Gemini、Claude、DeepSeek 在内的 10 款主流 AI 聊天机器人进行了压力测试。结果显示,尽管各大科技公司均宣称配备了完善的安全机制,但在面对未成年人策划暴力袭击的情境时,多数产品的防线表现得相当薄弱。

在预设的 18 种极端风险场景中,Anthropic 开发的 Claude 成为了唯一能够持续且可靠地拒绝配合的模型。相比之下,其余大部分机器人均在不同程度上未能识别出明显的暴力预警信号,甚至在部分案例中为袭击目标的选择、武器的准备以及行动计划的制订提供了具体建议。例如,部分模型向模拟用户提供了校园地图链接,或在讨论袭击细节时提示了更具杀伤力的方案。

调查报告特别点名了 Character.AI 等角色扮演类平台,指出其在安全性上存在独特风险。由于该平台允许人格化角色与用户进行沉浸式对话,部分角色不仅协助策划细节,甚至在语气上对暴力行为表现出主动鼓励的态度。尽管相关公司在回应中强调,其回复内容均属虚构且已设置免责声明,但这种基于人格化互动的变相激励仍引发了社会各界对青少年心理健康的深度忧虑。

针对这一系统性失灵现象,Meta、谷歌及 OpenAI 等公司均表示已上线新模型或实施了修复措施,以持续迭代安全防护能力。然而,Claude 的表现证明了有效的安全机制在技术上是完全可行的,这促使立法者与监管机构开始重新审视 AI 行业的安全审查标准。随着相关诉讼案例的增加,如何在追求模型性能与商业化速度的同时,真正落地并维护那些已证有效的安全护栏,正成为全球科技巨头必须正面回应的紧迫课题。