小米开源首代机器人 VLA 大模型，突破“物理智能”延迟瓶颈

具身智能（Embodied AI）领域今日迎来重磅进展。小米正式开源其首代机器人大模型 Xiaomi-Robotics-0。该模型拥有 47亿参数，旨在解决现有 VLA（视觉-语言-动作）模型由于推理延迟导致机器人动作迟缓的痛点，实现了在消费级显卡上的实时推理与高效泛化。

小米开源首代机器人 VLA 大模型，突破“物理智能”延迟瓶颈

核心架构:大脑与小脑的协同

为了兼顾通用理解与高频控制，Xiaomi-Robotics-0采用了创新的 MoT（Mixture-of-Transformers）混合架构:

视觉语言大脑（VLM）: 作为底座，负责解析人类模糊指令并捕捉高清视觉中的空间关系。
动作执行小脑（Action Expert）: 嵌入多层 Diffusion Transformer （DiT），通过流匹配技术生成精准的“动作块（Action Chunk）”，确保物理执行的灵活性。

训练秘籍:两阶段进化论

小米研发团队通过严谨的训练配方，平衡了模型的常识理解与体力操作能力:

跨模态预训练: 引入 Action Proposal 机制，使 VLM 在保持逻辑推理能力的同时，实现特征空间与动作空间的对齐。随后冻结 VLM，专项训练 DiT 以生成平滑的动作序列。
后训练（Post-training）: 针对真机运行的“动作断层”问题，采用异步推理模式。结合 Clean Action Prefix（确保轨迹连续）与 Λ-shape Attention Mask（强制关注当前视觉反馈），使机器人在面对环境突发变化时具备极强的响应敏捷性。

小米开源首代机器人 VLA 大模型，突破“物理智能”延迟瓶颈

实战表现:刷新多项 SOTA

在测试中，Xiaomi-Robotics-0展现了统治级的性能:

仿真标杆: 在 LIBERO、CALVIN 和 SimplerEnv 三大主流仿真测试中，击败了30种对比模型，均取得当前最优成绩（SOTA）。
真机泛化: 在双臂机器人平台上，无论是拆解积木还是折叠柔性毛巾，模型均表现出极高的手眼协调性与物理泛化能力。

开源生态

小米此次全面开放了技术资源，包括 技术主页、开源代码 以及在 Hugging Face 发布的 模型权重，旨在通过社区力量共同推动具身智能的边界。

技术主页:https://xiaomi-robotics-0.github.io
开源代码:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
模型权重:https://huggingface.co/XiaomiRobotics

七个圈AIGC破圈俱乐部欢迎您！

16.9万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

15.2万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

11.1万用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

9.9万用户在看

小米开源首代机器人 VLA 大模型，突破“物理智能”延迟瓶颈

最近更新

文章目录

小米开源首代机器人 VLA 大模型，突破“物理智能”延迟瓶颈

核心架构:大脑与小脑的协同

训练秘籍:两阶段进化论

实战表现:刷新多项 SOTA

开源生态

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

16.9万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

15.2万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

11.1万 用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

9.9万 用户在看

小米开源首代机器人 VLA 大模型，突破“物理智能”延迟瓶颈

最近更新

文章目录

小米开源首代机器人 VLA 大模型，突破“物理智能”延迟瓶颈

核心架构:大脑与小脑的协同

训练秘籍:两阶段进化论

实战表现:刷新多项 SOTA

开源生态

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

16.9万用户在看

15.2万用户在看

11.1万用户在看

9.9万用户在看