2025 年 11 月 21 日,小米正式发布并开源业界首个打通自动驾驶具身智能跨域基座模型MiMo-Embodied,模型与权重已同步上线Hugging Face与arXiv。

小米开源跨域具身大模型MiMo-Embodied:29项基准刷新SOTA,自驾+家用场景一套权重通吃

技术亮点  

1. 跨域能力覆盖:同一套参数同时支持具身智能三大任务(可供性推理、任务规划、空间理解)与自动驾驶三大任务(环境感知、状态预测、驾驶规划),实现室内交互与道路决策的统一建模。  

2. 双向协同赋能:模型验证了室内交互能力与道路决策能力的知识迁移协同效应,为跨场景智能融合提供新思路。  

3. 全链优化可靠:采用“具身/自驾能力学习→CoT推理增强→RL精细强化”多阶段训练策略,显著提升真实环境部署可靠性。

性能表现  

在涵盖感知、决策与规划的 29 项核心基准测试中,MiMo-Embodied全面优于现有开源、闭源及专用模型:具身智能领域 17 项Benchmark取得SOTA,自动驾驶领域 12 项Benchmark刷新最佳成绩,并在通用视觉语言任务上展现卓越泛化能力。

应用与生态  

小米计划将MiMo-Embodied率先用于自研扫地机器人、工厂AGV及SU7 高阶智驾, 2026 年Q1 起通过OTA推送;同时开放模型API,向家居、移动出行、制造业开发者提供跨域智能底座。