谷歌DeepMind近日发布博客文章,正式推出全新的Gemini Robotics On-Device本地化机器人AI模型。该模型采用视觉-语言-动作(VLA)架构,能够在无需云端支持的情况下实现实体机器人的精准控制。

新模型的最大亮点在于完全独立运行于机器人设备本地,实现了低延迟响应能力。这一特性使其特别适用于网络连接不稳定的环境,如医疗场所等关键应用场景。

谷歌DeepMind重磅发布:无需联网的机器人AI,可独立完成系鞋带等精细操作

在操作精度方面,该模型展现出令人印象深刻的能力,能够完成打开包袋拉链、叠衣服、系鞋带等高难度精细操作任务。系统采用双机械臂设计,目前已适配ALOHA、Franka FR3及Apollo人形机器人平台。

谷歌为开发者提供了完整的Gemini Robotics SDK工具包,大幅降低了定制门槛。开发者仅需通过50-100次任务演示即可为机器人定制全新功能,同时系统还支持MuJoCo物理模拟器进行预先测试。

谷歌DeepMind重磅发布:无需联网的机器人AI,可独立完成系鞋带等精细操作

在安全性方面,该系统建立了完善的保障机制。通过Live API实施语义安全检测,确保机器人行为的合规性,而底层安全控制器则负责精确管理动作的力度与速度,防止意外伤害。

项目负责人Carolina Parada表示:"该系统充分借鉴了Gemini的多模态世界理解能力,就如同Gemini能够生成文本、代码和图像一样,现在它也能生成精准的机器人动作。"

目前,该模型仅面向可信测试计划的开发者开放。值得注意的是,该模型基于Gemini2.0架构开发,相比谷歌最新的Gemini2.5版本存在一定技术代差。