在浏览器自动化开发的漫长道路上,开发者们似乎总在重复“造轮子”。无论是通过复杂的屏幕截图去“看”网页,还是依赖底层协议去“强行驱动”,往往由于网页结构的动态变化而显得力不从心。近日,阿里巴巴开源了一款名为 Page Agent 的 JavaScript 客户端库,为这一行业难题提供了一种全新的破局思路:它不再试图从外部暴力破解网页,而是让大模型直接“读懂”网页内部的 DOM 结构。
Page Agent 的核心技术革新在于“DOM 脱水”。传统方案为了让 AI 识别页面,往往需要将网页截屏并进行多模态分析,这不仅开销巨大,还极易丢失关键交互信息。Page Agent 另辟蹊径,它直接运行在网页内部,将冗杂的 DOM 树压缩成轻量化的“FlatDomTree”纯文本映射。这一过程就像是为 AI 绘制了一份高精度的交互地图,模型无需处理复杂的视觉渲染,仅通过这份精简的结构映射,就能精准完成按钮点击、表单输入等高难度操作。

对于开发者而言,Page Agent 的“内嵌式”设计带来了显著的便利。由于它直接运行于网页环境下,天然继承了所有的 Cookie、会话状态与登录凭证,这免去了开发者在后端处理复杂验证流程的痛苦。该项目采用了高度兼容的开放设计,能够无缝接入任何支持标准接口的大语言模型。在 SaaS 产品智能副驾、自动化数据采集以及提升 Web 应用无障碍交互等场景中,Page Agent 提供了一种既高效又具备极高性价比的替代方案。

当然,Page Agent 并非万能钥匙。开发团队在开源文档中明确指出,该库目前更专注于单页面内的高效交互。此外,在处理涉及支付或数据篡改等高安全敏感操作时,开发者仍需在服务端实施严格的逻辑校验。为了确保系统的稳健性,Page Agent 在设计中采用提示词触发的权限管控机制,为自动化流程筑起了一道初步的安全防线。

目前,Page Agent 已正式在 GitHub 以 MIT 协议开源。随着这一工具的发布,开发者们有望彻底告别昂贵的多模态算力消耗,以更务实的工程手段,为应用植入真正具备“网页感知力”的智能体,这也预示着 AI 网页自动化技术正在进入一个轻量化、普及化的新阶段。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则