谷歌今日对其人工智能生态系统进行重大升级,正式将原生的“计算机使用”工具直接集成至 Gemini3.5Flash 模型中,全面取代先前的 Gemini2.5测试框架。此举标志着人工智能正从单纯的“对话者”加速演变为具备实际执行能力的“数字同事”,推动 AI 代理(Agent)从概念走向落地。
通过 Gemini API,开发者现可利用 Gemini3.5Flash 的原生能力构建智能代理。这些代理不再依赖复杂的底层代码编写,而是像人类用户一样,通过感知和理解屏幕截图等视觉信息,直观地导航应用程序,进而自动执行各种复杂的桌面任务。
这在办公自动化、软件测试及跨平台数据处理等场景中展现出巨大潜能,包括自动化浏览网站、填写长表单、点击界面按钮,以及高效处理桌面、移动和浏览器环境中的重复性数据收集工作。为加速这一生态构建,谷歌已在 Browserbase 上开设了实时演示空间,供开发者立即测试 Gemini 企业代理平台的相关功能。

面对赋予 AI 鼠标和键盘控制权带来的潜在安全挑战,如间接指令注入风险,谷歌强调已采取针对性的对抗训练来增强模型防御能力。同时,谷歌同步推出两款企业级安全系统:其一允许企业设置软件,要求 AI 在执行敏感或永久性更改操作前必须获得人工明确批准;其二则能在检测到潜在攻击时立即自动冻结正在运行的任务,多维度保障用户桌面安全。
配合此模型升级,谷歌同日发布 Chrome149稳定版。该版本引入名为“从屏幕中选择”的实用功能,用户可在浏览器的附件菜单中启用,通过拖拽框选当前标签页中的任何图像或文本,瞬间将其添加为 Gemini 的提示语,大幅提升了基于网页内容进行交互式提问的便捷性。
谷歌将原生计算机使用工具集成至 Gemini3.5Flash,不仅深化了其 AI 模型与操作系统的结合,也预示着 AI 行业正从追求大模型参数规模转向追求实际的工具使用和任务执行能力。这一趋势将加速 AI 代理在企业级自动化和消费者服务中的普及,重塑人机交互及软件应用形态,使更高级别的自主 AI 代理成为可能。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则