近日,京东云JoyBuilder模型开发平台迎来关键升级,成功支撑业界顶尖模型GR00T N1.5完成了千卡级训练。
此举使JoyBuilder成为行业首家支持具身智能千卡级LeRobot开源训练框架的AI开发平台,并且在训练效率上实现了巨大飞跃,较开源社区版本提升了3.5倍。基于软硬件的深度调优和算法层面的突破,JoyBuilder平台大幅提升了模型训练效率与稳定性,使得原本需要15小时完成的1亿多数据千卡训练,现在仅需22分钟,显著加速了具身智能迈向规模化落地的进程。

为了实现这一效率提升,京东云AI Infra及相关团队围绕具身智能模型训练,对JoyBuilder进行了全栈优化。在具身数据链路优化方面,平台重构了数据预处理与加载流程,实现了CPU数据处理与GPU计算的异步执行,有效减少等待时间;针对海量具身小数据文件,自研的高性能并行文件系统云海JPFS通过分布式元数据管理与智能预取,在1024卡集群上提供了超过400GB/s的读取带宽,保障数据持续高速供给。
在具身模型计算优化方面,团队针对主流的VLA(视觉-语言-动作)模型的计算特点,从Attention层、Token裁剪和训练后量化等多方面进行极致优化。此外,在具身模型基础设施上,平台搭建了3.2T RDMA后端网络,基于多轨道优化、拓扑感知调度与智能震荡抑制,确保千卡间集合通信的高吞吐与低延迟,支持长周期训练稳定运行,并通过云原生的AI数据湖优化了数据调度与流水线,提升端到端处理效率。
通过全链路的优化,JoyBuilder平台支持业界当前最主流的LeRobot训练数据最新协议,确立了其在具身智能AI开发平台领域的领先地位。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则