近日,小红书与复旦大学联合发布了在布局控制生成(Layout-to-Image)领域的最新研究成果——InstanceAssemble。这项技术旨在解决 AI 绘画中长期存在的“构图难”问题,通过创新的机制实现了从简单到复杂场景的精准图像生成。据悉,相关论文已被人工智能顶级会议 NeurIPS2025收录。

​小红书联合复旦开源 InstanceAssemble:实现 AI 图像精准排版控制

在目前的 AI 绘画领域,虽然“文字生成图像”已趋于成熟,但在“布局控制生成”方面,AI 往往难以精确按照用户给定的空间约束(如边界框或分割掩码)来摆放物体,经常出现位置对齐不准或语义脱节的情况。InstanceAssemble 的出现,标志着 AI 绘画进入了“精准构图”的新阶段。该技术基于主流的扩散变换器架构,核心在于提出了“实例拼装注意力”机制。

用户在使用该工具时,只需提供每个物体的具体位置(边界框)和内容描述,AI 即可在指定区域生成符合要求的图像内容。无论是仅有几个物体的简单画面,还是实例密集的复杂场景,InstanceAssemble 都能保持极高的排版精度和语义一致性。

值得关注的是,InstanceAssemble 采用了轻量级的适配方案。它不需要对整个大模型进行重新训练,仅需极少的额外参数即可适配现有模型。例如,适配 Stable Diffusion3-Medium 仅需约3.46% 的额外参数,而适配 Flux.1模型时,参数占比更是低至0.84%。

为了更好地评估技术性能,研究团队还同步推出了包含9万个实例的“Denselayout”基准测试集及全新的评估指标。目前,InstanceAssemble已在 GitHub 开源,代码和预训练模型均可供开发者下载使用,有望在设计、广告及内容创意行业发挥重要作用。

github:https://github.com/FireRedTeam/InstanceAssemble

划重点:

  • 🎯 精准排版控制:通过“实例拼装注意力”机制,让 AI 能够严格按照用户设定的位置生成物体,支持从稀疏到密集的复杂布局。

  • 极低适配成本:采用轻量化设计,无需重训全模型,仅需不足1% 至4% 的额外参数即可适配 Flux.1或 SD3等主流模型。

  • 🔓 全面开源共享:项目已在 GitHub 开源并提供预训练模型,同时发布了全新的测试基准集 Denselayout 以推动行业评估标准化。