近日,腾讯推出了一种新方法,旨在提升 AI 生成图像的真实感与美学评分。据悉,这一微调技术在仅用32块 H20显卡训练10分钟后就能实现显著的收敛效果,其人工评估得分甚至提升了300% 以上。

当前的扩散模型虽然能够借助奖励机制来优化图像质量,但却面临着一些挑战。首先,模型优化步骤较少,容易出现所谓的 “奖励作弊” 现象,即模型为了获取高分而生成质量较低的图像。其次,离线调整奖励模型的过程不够灵活,限制了实时优化的能力。

腾讯全新AI绘画升级!微调技术让生成图像美感提升300%

为了解决这些问题,腾讯团队提出了两个创新性的方法。第一个是名为 “Direct-Align” 的技术,通过预先注入噪声,模型能够从任何时间点恢复原图。这种方法减少了早期反向传播中的梯度爆炸现象,使得模型在整个扩散过程中都能够进行优化,而不仅仅局限于最后的几个步骤。

第二个创新是 “语义相对偏好优化”(SRPO)。这一方法将奖励信号转变为可受文本控制的信号。通过添加正面和负面提示词,模型能够灵活地调整生成图像的风格,而无需额外数据。这意味着,用户只需在提示词前加上简单的控制短语,即可实现如亮度调整或风格转换等功能。

实验结果显示,经过 SRPO 训练的 FLUX.1-dev 模型在真实感和美学质量上的表现均大幅提升。在一项包含3200个提示词的测试中,经过 SRPO 训练的模型在真实感维度上的优秀率由8.2% 提升至38.9%,而美学质量的优秀率从9.8% 提升至40.5%。相较于其它方法,SRPO 不仅在保持高美学质量的同时,生成的图像纹理更加自然。

这一技术的成功应用,不仅表明腾讯在 AI 绘画领域的进一步探索,也为未来的 AI 图像生成技术指明了方向。

论文地址:https://arxiv.org/pdf/2509.06942