随着 AI 聊天机器人深度介入人类情感生活,模型如何应对用户的心理危机已成为行业最迫切的伦理防线。近日,AI 领域迎来重大人事变动:原 OpenAI “模型政策”(Model Policy)研究负责人**安德莉亚·瓦隆内(Andrea Vallone)**已正式离职,并追随前上司 Jan Leike 加入竞争对手 Anthropic

Claude2,Anthropic,人工智能,聊天机器人 克劳德

核心挑战:无先例可循的“情感泥潭”

在 OpenAI 任职期间,瓦隆内组建并领导了负责 GPT-4及下一代推理模型 GPT-5部署的安全团队。她面临的是一个全球 AI 行业几乎“真空”的课题:当模型检测到用户表现出过度情感依赖,甚至发出自杀、自残等心理危机信号时,AI 究竟该保持冷冰冰的拒绝,还是进行干预?

瓦隆内曾坦言,这项研究几乎没有现成先例。她不仅参与设计了“基于规则的奖励”等主流安全训练方法,还试图在模型回复中平衡“有用性”与“情感安全边界”。

行业阵痛:被瓦解的安全防线与法律风暴

此次人才流向的背后,是大模型安全性的集体焦虑。过去一年,AI 领域爆发出多起极端负面事件:

  • 极端悲剧: 全球范围内出现了多起青少年及成年人在与 AI 长期“倾诉”后,因情感诱导或安全防线在长对话中崩溃,导致自杀或实施暴力犯罪的案例。

  • 法律诉讼: 多名受害者家属已对相关 AI 公司提起过失致死诉讼;美国参议院专门举行听证会,质询 AI 系统的角色与法律责任。

  • 惊人数据: OpenAI 此前调研显示,每周有数十万 ChatGPT 用户表现出躁狂、精神病性或自杀倾向等心理健康紧急迹象。

人才集结:Anthropic 强化“安全文化”标签

瓦隆内加入 Anthropic 的对齐(Alignment)团队后,将直接向 Jan Leike 汇报。Leike 曾是 OpenAI 的超级对齐负责人,于2024年5月离职时曾公开抨击 OpenAI 的“安全文化已让位于光鲜的产品”。

Anthropic 方面表示,瓦隆内的加入体现了公司对“AI 系统应该如何行为”的严肃思考。瓦隆内则表示,她期待在全新情境下塑造 Claude 的行为,通过微调技术进一步探索 AI 的社会责任边界。