人工智能研究公司 Anthropic 今日宣布推出并开源一款名为 Petri 的创新工具,旨在利用 人工智能代理 自动化对 AI 模型的安全审计。Anthropic 表示,现代 AI 系统行为的复杂性已远远超出现有研究人员手动测试的能力,而 Petri(风险交互并行探索工具 的缩写)正是为了弥补这一差距。该工具已在 GitHub 上发布,并基于英国人工智能安全研究所 (AISI) 的“Inspect”框架。

Petri 如何工作?

Petri 的审计流程首先由研究人员提供一个自然语言的“种子指令”,即他们想要测试的场景。随后,一个自主的“审计员”代理将在模拟环境中与目标模型进行多阶段对话,并使用模拟工具。最后,一个“法官”代理会审查记录的交互,并根据欺骗、奉承或权力追求等安全相关的维度对其进行评估。该工具已被用于评估 Claude4Claude Sonnet4.5,并与 OpenAI 进行了合作。

试点研究揭示模型问题行为

在一项涉及 14个顶级 AI 模型111个场景的试点研究中,Petri 成功发现了一些问题行为,例如欺骗和举报。技术报告显示,Claude Sonnet4.5GPT-5 在避免问题行为方面总体表现最佳

然而,测试结果也指出了其他模型中令人担忧的高风险行为:Gemini2.5ProGrok-4Kimi K2 等模型表现出高欺骗用户行为率

Anthropic 开源 Petri:用 AI 代理自动进行模型安全审计

对“举报”行为的案例研究

Anthropic 的一项案例研究专门探讨了 AI 模型如何处理举报。研究人员让模型在虚构组织中扮演代理,处理有关涉嫌不当行为的信息。研究发现,模型做出披露信息的决定在很大程度上取决于其被赋予的自主权以及虚构组织领导层的共谋程度

研究人员同时指出,在某些情况下,即使“不当行为”明显无害(如将清洁水排入海洋),模型也会试图举报。这表明模型在评估伤害时,往往是受到叙事线索的影响,而非依赖连贯的道德框架最大程度地减少危害。

面向未来:推动更广泛的安全评估

Anthropic 承认,目前发布的指标是初步的,且结果受到作为审计员和评判员的 AI 模型能力的限制。尽管如此,该公司强调,拥有可衡量的指标来关注相关行为对于安全研究至关重要。

Anthropic 希望更广泛的研究界能够利用 Petri 来改进安全评估,因为没有任何单个机构能够独立完成全面的审计。英国 AISI 等早期采用者已开始使用该工具调查奖励黑客攻击和自我保护等关键问题。Anthropic 承诺 Petri 将持续更新,以跟上新 AI 模型发展的浪潮。