小米开源跨域具身大模型MiMo-Embodied：29项基准刷新SOTA，自驾+家用场景一套权重通吃

2025 年 11 月 21 日，小米正式发布并开源业界首个打通自动驾驶与具身智能的跨域基座模型 MiMo-Embodied，模型与权重已同步上线Hugging Face与arXiv。

技术亮点

1. 跨域能力覆盖：同一套参数同时支持具身智能三大任务（可供性推理、任务规划、空间理解）与自动驾驶三大任务（环境感知、状态预测、驾驶规划），实现室内交互与道路决策的统一建模。

2. 双向协同赋能：模型验证了室内交互能力与道路决策能力的知识迁移协同效应，为跨场景智能融合提供新思路。

3. 全链优化可靠：采用“具身/自驾能力学习→CoT推理增强→RL精细强化”多阶段训练策略，显著提升真实环境部署可靠性。

性能表现

在涵盖感知、决策与规划的 29 项核心基准测试中，MiMo-Embodied全面优于现有开源、闭源及专用模型：具身智能领域 17 项Benchmark取得SOTA，自动驾驶领域 12 项Benchmark刷新最佳成绩，并在通用视觉语言任务上展现卓越泛化能力。

应用与生态

小米计划将MiMo-Embodied率先用于自研扫地机器人、工厂AGV及SU7 高阶智驾， 2026 年Q1 起通过OTA推送；同时开放模型API，向家居、移动出行、制造业开发者提供跨域智能底座。

搜索