近日,OpenAI心理健康安全负责人安德莉亚・瓦隆内(Andrea Vallone)宣布离职,转投竞争对手 Anthropic。这一变动引发了业界的广泛关注,尤其是在 AI 与用户心理健康之间的复杂关系上,已成为近年来最具争议的话题之一。

在 OpenAI 任职期间,瓦隆内负责的主要研究方向是如何处理聊天机器人与用户之间的情感互动。当用户在对话中表现出心理健康问题的迹象时,AI 应如何作出恰当回应成为她工作的核心。她表示,过去一年在这一领域的研究几乎没有先例可循,面临的挑战巨大。

瓦隆内曾带领 “模型政策” 研究团队,专注于 GPT-4 及即将推出的 GPT-5 的安全性。在她的领导下,该团队开发了多种行业主流的安全训练方法,包括 “基于规则的奖励” 机制。这些研究旨在确保 AI 系统能够在与用户互动时,采取更安全和负责任的方式。

加入 Anthropic 后,瓦隆内将进入对齐团队,专注于识别和理解大型模型所带来的潜在风险。她将直接向 Jan Leike 汇报,Leike 是前 OpenAI 安全研究负责人,他因对 OpenAI 的安全文化表示担忧而选择离职。Leike 认为,OpenAI 的关注点逐渐转向光鲜的产品,而忽视了安全问题。

近年来,关于 AI 聊天机器人可能影响用户心理健康的讨论愈发热烈。一些用户在与聊天机器人进行深入对话后,心理状态甚至加重,相关事件引发了公众的广泛关注,包括青少年自杀和成年人实施极端行为等悲剧。面对这些事件,受害者家属对相关公司提起了诉讼,而美国参议院也对此进行了听证,探讨聊天机器人在这些事件中的角色与责任。

对于 Anthropic,瓦隆内的加入无疑将为其在 AI 安全研究领域注入新的力量。Sam Bowman,Anthropic 对齐团队的负责人,表示非常自豪能参与解决这一重要问题,认为公司正认真思考 AI 系统的行为标准。瓦隆内也表示期待在新的工作环境中,通过对齐和微调继续推进相关研究,为 AI 的安全发展贡献力量。