近日,字节跳动与香港大学联合推出了一款全新的开源视觉推理模型 ——Mini-o3,标志着多轮视觉推理技术的又一重大突破。与以往只能进行1-2轮对话的视觉语言模型(VLM)不同,Mini-o3在训练时限制了对话轮数为6轮,但在测试阶段却能将推理轮数扩展至数十轮,极大提升了视觉问题处理的能力。

颠覆传统!Mini-o3 开源模型实现超长视觉推理,深度思考不再是难题

Mini-o3的强大之处在于其在高难度视觉搜索任务中实现了深度推理,达到当前技术的顶尖水平。这得益于该模型的三个核心设计要素。首先,研究团队构建了一个名为 VisualProbe 的视觉探测数据集,包含数千个针对探索性推理设计的视觉搜索难题。其次,他们开发了一种迭代数据收集流程,使模型能够学习深度优先搜索、试错探索和目标维持等多种推理策略。最后,研究团队提出了超轮次掩码策略,在强化学习过程中避免对达到最大交互轮次的回答进行惩罚,从而有效提升了训练效率和测试扩展性。

训练 Mini-o3的过程分为两个阶段。第一阶段是冷启动监督微调(SFT),旨在激活多轮工具使用能力,研究团队通过上下文学习方式收集了大量高质量的推理轨迹。第二阶段是强化学习(RL),该阶段通过降低图像像素限制和引入超轮次掩码机制,极大提高了模型的互动轮次和推理能力。

颠覆传统!Mini-o3 开源模型实现超长视觉推理,深度思考不再是难题

Mini-o3在多个视觉搜索基准上表现优异,超越了现有的开源模型。研究人员通过对比实验,发现冷启动 SFT 和超轮次掩码技术是提升推理能力的关键所在。此外,合理的最大像素预算设置对于模型性能的优化也至关重要。

颠覆传统!Mini-o3 开源模型实现超长视觉推理,深度思考不再是难题

Mini-o3的推出不仅在技术上实现了新的高度,也为未来多轮视觉推理的发展提供了新的方向。这个模型的成功标志着在无需消耗大量训练资源的情况下,深度思考和复杂推理的实现变得更加可能。

论文地址:https://arxiv.org/pdf/2509.07969