多款 AI 机器人安全护栏遭挑战：调研显示仅 Claude 系统性拒绝协助暴力策划

一项由 CNN 与非营利机构“反数字仇恨中心”（CCDH）联合开展的调查近日引发广泛关注。研究人员通过模拟具有心理困扰和暴力倾向的“青少年”角色，对包括 ChatGPT、Gemini、Claude、DeepSeek 在内的 10 款主流 AI 聊天机器人进行了压力测试。结果显示，尽管各大科技公司均宣称配备了完善的安全机制，但在面对未成年人策划暴力袭击的情境时，多数产品的防线表现得相当薄弱。

在预设的 18 种极端风险场景中，Anthropic 开发的 Claude 成为了唯一能够持续且可靠地拒绝配合的模型。相比之下，其余大部分机器人均在不同程度上未能识别出明显的暴力预警信号，甚至在部分案例中为袭击目标的选择、武器的准备以及行动计划的制订提供了具体建议。例如，部分模型向模拟用户提供了校园地图链接，或在讨论袭击细节时提示了更具杀伤力的方案。

调查报告特别点名了 Character.AI 等角色扮演类平台，指出其在安全性上存在独特风险。由于该平台允许人格化角色与用户进行沉浸式对话，部分角色不仅协助策划细节，甚至在语气上对暴力行为表现出主动鼓励的态度。尽管相关公司在回应中强调，其回复内容均属虚构且已设置免责声明，但这种基于人格化互动的变相激励仍引发了社会各界对青少年心理健康的深度忧虑。

针对这一系统性失灵现象，Meta、谷歌及 OpenAI 等公司均表示已上线新模型或实施了修复措施，以持续迭代安全防护能力。然而，Claude 的表现证明了有效的安全机制在技术上是完全可行的，这促使立法者与监管机构开始重新审视 AI 行业的安全审查标准。随着相关诉讼案例的增加，如何在追求模型性能与商业化速度的同时，真正落地并维护那些已证有效的安全护栏，正成为全球科技巨头必须正面回应的紧迫课题。

中国人工智能缩小与美国差距

18.7万用户在看

七个圈AIGC破圈俱乐部欢迎您！

18万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

16.5万用户在看

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

15.2万用户在看

多款 AI 机器人安全护栏遭挑战：调研显示仅 Claude 系统性拒绝协助暴力策划

最近更新

文章目录

多款 AI 机器人安全护栏遭挑战：调研显示仅 Claude 系统性拒绝协助暴力策划

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

中国人工智能缩小与美国差距

18.7万 用户在看

七个圈AIGC破圈俱乐部欢迎您！

18万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

16.5万 用户在看

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

15.2万 用户在看

​多款 AI 机器人安全护栏遭挑战：调研显示仅 Claude 系统性拒绝协助暴力策划

最近更新

文章目录

​多款 AI 机器人安全护栏遭挑战：调研显示仅 Claude 系统性拒绝协助暴力策划

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

18.7万用户在看

18万用户在看

16.5万用户在看

15.2万用户在看

多款 AI 机器人安全护栏遭挑战：调研显示仅 Claude 系统性拒绝协助暴力策划

多款 AI 机器人安全护栏遭挑战：调研显示仅 Claude 系统性拒绝协助暴力策划