微软最近发布了 Fara-7B,这是一款拥有70亿参数的新型计算机使用智能助手(Computer Use Agent, CUA),旨在直接在用户的设备上执行复杂任务。Fara-7B 凭借其小巧的体积,成功突破了企业在数据安全性方面的主要障碍,允许用户自动化处理敏感工作流,比如管理内部账户或处理公司机密数据,而这些信息无需离开设备。
Fara-7B 的工作方式是通过视觉方式识别网页,就像人类使用鼠标和键盘一样。该模型通过截屏来感知网页,并预测特定坐标以执行点击、输入和滚动等操作。与其他依赖于 “可访问性树” 的系统不同,Fara-7B 完全依赖像素级的视觉数据,这使得它在面对复杂或混淆的网页代码时依然能够进行有效互动。

在性能测试中,Fara-7B 在 WebVoyager 这一标准基准上实现了73.5% 的任务成功率,超越了资源占用更大的系统,如 GPT-4o(65.1%)和本土的 UI-TARS-1.5-7B(66.4%)。此外,Fara-7B 的效率也很突出,平均仅需约16个步骤就能完成任务,而 UI-TARS-1.5-7B 大约需要41个步骤。
尽管 Fara-7B 的推出令人期待,但它也面临与其他 AI 模型相同的风险,比如可能出现的误判和在复杂指令下的执行错误。为了解决这些问题,Fara-7B 经过训练,可以识别 “关键点”,即在需要用户个人数据或同意的情况下,主动暂停并请求用户批准,以避免不可逆的操作。微软研究团队设计了一种名为 Magentic-UI 的用户界面,旨在平衡这些关键点和用户体验,以减少用户疲劳。

Fara-7B 的开发也展示了知识蒸馏的趋势,将复杂系统的能力压缩成更高效的小模型。未来的版本将致力于使模型更加智能,而非单纯增大体积,并探讨在实时沙盒环境中通过强化学习来进行学习。
微软已在 Hugging Face 和 Microsoft Foundry 上提供了 Fara-7B 的 MIT 许可版本,供用户进行实验和原型开发,但目前并不适合直接用于关键任务的部署。
划重点:
🌟 Fara-7B 是一款本地运行的计算机智能助手,专注于数据安全和隐私保护。
⚙️ 该模型通过视觉方式处理网页,与用户的交互更为直观,效率远超其他大型模型。
🛡️ Fara-7B 具备 “关键点” 识别功能,确保用户在关键操作前能进行确认,提升安全性。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则