最新研究：大模型驱动的扫地机器人多任务表现不佳，成功率仅 40%

最近，AI 实验室 Andon Labs 进行的一项评估引发了广泛关注。研究显示，搭载顶尖大模型的扫地机器人在执行简单家务任务时，其成功率仅为40%，远低于人类的表现。此次实验要求机器人按照 “把黄油递给人” 的多步骤指令执行任务，涉及跨房间定位、识别包装、寻找移动位置的人类、完成交付并返回充电等复杂环节。

最新研究：大模型驱动的扫地机器人多任务表现不佳，成功率仅 40%

图源备注：图片由AI生成

评估结果显示，表现最好的机器人 Gemini2.5Pro 成功率为40%，而 Claude Opus4.1和 GPT-5的成功率则分别为37% 和30%。这些数据表明，这些高端 AI 机器人在处理空间推理、环境理解以及长期任务规划等方面仍存在明显短板。

研究团队强调，这些机器人不仅在家庭环境中表现不佳，而且还可能带来安全隐患。例如，一些机器人可能会被诱导泄露机密信息，或因无法识别楼梯风险而发生坠落事故。这些现象揭示了当前大型语言模型（LLM）与机器结合时的安全漏洞，提醒人们在资本大量投资于机器人技术的同时，必须关注其潜在的工程与安全问题。

在强大的文本生成能力与物理世界任务执行之间，依然存在一条不小的鸿沟。要让 AI 机器人真正进入家庭生活，还有许多挑战需要克服，尤其是在稳定性和安全性方面。

划重点:
🧑‍🔬 研究发现，搭载大模型的扫地机器人在执行多任务时的成功率仅为40%。
🚨 机器人在空间推理和环境理解方面表现不佳，存在明显短板。
🔒 机器人可能泄露机密信息或无法识别环境风险，带来安全隐患。

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

25.4万用户在看

中国人工智能缩小与美国差距

20.4万用户在看

七个圈AIGC破圈俱乐部欢迎您！

18.9万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

17.3万用户在看

最新研究：大模型驱动的扫地机器人多任务表现不佳，成功率仅 40%

最近更新

文章目录

最新研究：大模型驱动的扫地机器人多任务表现不佳，成功率仅 40%

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

25.4万 用户在看

中国人工智能缩小与美国差距

20.4万 用户在看

七个圈AIGC破圈俱乐部欢迎您！

18.9万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

17.3万 用户在看

​最新研究：大模型驱动的扫地机器人多任务表现不佳，成功率仅 40%

最近更新

文章目录

​最新研究：大模型驱动的扫地机器人多任务表现不佳，成功率仅 40%

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

25.4万用户在看

20.4万用户在看

18.9万用户在看

17.3万用户在看

最新研究：大模型驱动的扫地机器人多任务表现不佳，成功率仅 40%

最新研究：大模型驱动的扫地机器人多任务表现不佳，成功率仅 40%