Google DeepMind正式发布其新一代机器人AI模型Gemini Robotics On-Device,标志着机器人AI技术迈向更高效、更独立的里程碑。这一模型不仅能够在无互联网连接的情况下在机器人本地运行,还展现出强大的通用性和任务适应能力,为工业、仓储及家庭服务机器人领域带来革命性突破。

Deepmind推出新一代机器人AI模型:Gemini Robotics On-Device

突破云端限制,机器人AI本地化运行

Gemini Robotics On-Device是一款基于Google Gemini2.0打造的视觉-语言-动作(VLA)模型,最大特点是完全运行于机器人本地硬件,无需依赖云端计算资源。这解决了传统云端机器人系统在网络不稳定环境下的延迟和可靠性问题。DeepMind高级总监Carolina Parada表示:“该模型小巧高效,能够直接运行于机器人硬件,确保低延迟和离线环境下的稳定表现。”

Deepmind推出新一代机器人AI模型:Gemini Robotics On-Device

通过本地化运行,Gemini Robotics On-Device大幅提升了机器人在网络受限场景(如工厂、仓库或偏远地区)的实用性。测试显示,其性能接近云端Gemini Robotics模型,同时在多项基准测试中超越其他本地AI模型,展现出强大的竞争力。

通用性与灵活性:从50次演示到新任务

Gemini Robotics On-Device不仅在性能上令人瞩目,其任务适应能力也堪称亮点。DeepMind宣称,该模型仅需50至100次演示即可快速适应新任务,例如解拉链、叠衣服或进行工业装配。

该模型最初针对ALOHA机器人训练,但已成功适配双臂Franka FR3机器人和Apptronik的Apollo人形机器人,展现出跨硬件平台的通用性。开发者可通过自然语言指令控制和微调模型,使其轻松应对复杂双臂任务或动态环境中的新对象。Parada强调:“生成式AI让机器人能够从少量数据中泛化,显著加速了在复杂场景中的部署。”

开放开发者生态,SDK赋能创新

为加速Gemini Robotics On-Device的行业应用,Google DeepMind同步发布了一款软件开发工具包(SDK),现已通过GitHub向“受信任测试者”计划开放申请。开发者可利用SDK在Google的MuJoCo物理模拟器或现实环境中测试和微调模型。这一举措标志着DeepMind首次向开发者开放VLA模型的微调权限,为机器人AI的定制化应用铺平道路。

SDK支持开发者通过少量演示快速训练机器人完成特定任务,例如将魔方放入袋子或处理精细的工业操作。DeepMind表示,该模型在未见过的新场景和对象上表现出色,例如在工业传送带上完成装配任务,显示出强大的泛化能力。

安全与行业前景:机器人AI的下一步

在安全方面,DeepMind强调Gemini Robotics On-Device通过全面的安全措施和与专家、政策制定者的合作,力求降低潜在风险。 与此同时,该模型的发布也被视为Google与Nvidia GR00T、OpenAI RT-2等竞争对手在通用机器人AI领域的激烈角逐的一部分。

从仓库机器人到家用服务机器人,Gemini Robotics On-Device的本地化运行能力和快速学习特性为其在多场景中的广泛应用奠定了基础。AIbase认为,这一技术不仅将降低机器人部署成本,还可能推动AI驱动的自动化进入更多日常生活场景。

模型入口:https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/