OpenAI 近日公开承认,具备代理(Agent)能力的 AI 浏览器在架构上存在天然的安全漏洞,目前很难彻底消除“提示注入”(Prompt Injection)攻击的风险。这意味着,即便安全防护不断升级,这种攻击方式仍将是 AI 领域面临的一项长期技术挑战,而非一个可以被短期“修复”的 Bug。

OpenAI坦言AI浏览器难逃“提示注入”威胁,拟通过自动化攻防长期抗衡

自 OpenAI 于今年10月推出内置在 ChatGPT 中的 Atlas AI 浏览器 以来,安全隐患便备受关注。研究人员发现,攻击者只需在网页或文档中植入特定指令,就能在用户不知情的情况下操控浏览器的底层行为。由于 AI 代理拥有访问邮箱、执行支付等高权限,一旦遭受攻击,极易导致敏感数据泄露或误操作。

为了应对这一顽疾,OpenAI 正在尝试一种差异化的防御路径。他们开发了一个基于大模型的“自动化攻击者”系统。该系统利用强化学习技术,模拟黑客行为对 AI 代理进行高频攻防演练。通过深入洞察模型内部的推理过程,这个“机器人黑客”能发掘出人类测试者难以察觉的新型攻击路径,从而帮助开发团队在真实威胁发生前完成补丁修复。

行业专家指出,AI 浏览器的风险在于其“自主权”与“访问权限”的乘积。目前,包括 Google 和 Brave 在内的厂商也在寻求多层防御策略。OpenAI 建议用户,在现阶段应避免赋予 AI 代理过于宽泛的权限,例如在涉及发送邮件或发起支付等关键动作时,必须保留人工确认环节。