近日,来自香港大学、香港中文大学以及商汤科技的研究团队发布了一个令人瞩目的新框架 ——GoT-R1。这一全新的多模态大模型通过引入强化学习(RL),在视觉生成任务中显著提升了 AI 的语义和空间推理能力,成功应对复杂的文本提示生成高保真、语义一致的图像。这一进展标志着图像生成技术的又一次飞跃。

目前,尽管现有的多模态大模型在根据文本提示生成图像方面已有显著进展,但在处理涉及精准空间关系和复杂组合的指令时,仍面临诸多挑战。GoT-R1正是为了解决这一问题而诞生的。与其前身 GoT 相比,GoT-R1不仅扩展了 AI 的推理能力,更赋予了它自主学习和优化推理策略的能力。

全新 GoT-R1 多模态模型发布:让 AI 画图更聪明,图像生成新纪元!

GoT-R1的核心在于其强化学习机制。团队通过设计一套全面有效的奖励机制,帮助模型在生成图像时更好地理解用户的复杂指令。这一机制涵盖了多个评估维度,包括生成图像的语义一致性、空间布局准确性和整体美学质量。更重要的是,GoT-R1还通过将推理过程可视化,使得模型能够更准确地评估图像生成的效果。

全新 GoT-R1 多模态模型发布:让 AI 画图更聪明,图像生成新纪元!

在经过全面的评估后,研究团队发现,GoT-R1在一项名为 T2I-CompBench 的基准测试中表现出色,尤其在处理复杂多层次指令时,展现了超越其他主流模型的能力。例如,在 “复杂” 基准测试中,GoT-R1的表现尤为突出,其强大的推理和生成能力使得这一模型在多个评估类别中取得了最高分。

GoT-R1的发布为多模态图像生成技术注入了新的活力,展现了 AI 在处理复杂任务时的无限可能性。随着技术的不断发展,未来的图像生成将会更加智能化和精准化。

论文:https://arxiv.org/pdf/2503.10639