最近,AI 实验室 Andon Labs 进行的一项评估引发了广泛关注。研究显示,搭载顶尖大模型的扫地机器人在执行简单家务任务时,其成功率仅为40%,远低于人类的表现。此次实验要求机器人按照 “把黄油递给人” 的多步骤指令执行任务,涉及跨房间定位、识别包装、寻找移动位置的人类、完成交付并返回充电等复杂环节。

图源备注:图片由AI生成
评估结果显示,表现最好的机器人 Gemini2.5Pro 成功率为40%,而 Claude Opus4.1和 GPT-5的成功率则分别为37% 和30%。这些数据表明,这些高端 AI 机器人在处理空间推理、环境理解以及长期任务规划等方面仍存在明显短板。
研究团队强调,这些机器人不仅在家庭环境中表现不佳,而且还可能带来安全隐患。例如,一些机器人可能会被诱导泄露机密信息,或因无法识别楼梯风险而发生坠落事故。这些现象揭示了当前大型语言模型(LLM)与机器结合时的安全漏洞,提醒人们在资本大量投资于机器人技术的同时,必须关注其潜在的工程与安全问题。
在强大的文本生成能力与物理世界任务执行之间,依然存在一条不小的鸿沟。要让 AI 机器人真正进入家庭生活,还有许多挑战需要克服,尤其是在稳定性和安全性方面。
划重点:
🧑🔬 研究发现,搭载大模型的扫地机器人在执行多任务时的成功率仅为40%。
🚨 机器人在空间推理和环境理解方面表现不佳,存在明显短板。
🔒 机器人可能泄露机密信息或无法识别环境风险,带来安全隐患。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则