在 AI 图像生成领域,风格驱动和主题驱动的图像生成一直以来被视为两个相对独立的任务。前者注重风格的相似性,而后者则强调主题的一致性,造成了两者之间的矛盾。最近,字节跳动的智能创作实验室(UXO Team)推出了名为 USO(统一风格 – 主题优化)的新模型,成功地解决了这一行业长期以来的难题。
字节跳动的研究人员深知 AI 模型的成长依赖于数据。因此,他们建立了一个庞大的数据集,包含大约20万个三元组。每个三元组包括一张 “风格参考图”、一张 “内容参考图”,以及一张 “风格化目标图”。通过这个设计,模型能够学习如何将风格与内容相结合。
在模型的训练过程中,字节跳动采用了独特的两阶段训练法。第一阶段专注于风格的学习,采用了先进的图像编码器,帮助模型理解更深层次的艺术风格。第二阶段则将内容信息加入,通过处理确保主题的准确性。这一方法让风格和内容在模型中分开学习,最终在生成图像时实现完美融合。
为了进一步提升模型的表现,字节团队还引入了风格奖励学习(SRL)机制,通过强化训练激励模型在保持主题不变的情况下尽量模仿风格。最终,这一系列创新使 USO 在生成图像时展现出了极高的灵活性和精准度。
为验证 USO 的能力,字节跳动还推出了业界首个能同时评估风格相似度和主题保真度的基准测试平台 USO-Bench。在这一平台上,USO 在各个维度上均取得了显著优势,超越了现有的开源模型。
USO 的技术不仅在数字艺术领域表现出色,也为商业设计带来了新的可能。品牌可以利用 USO 生成风格多样但又统一的营销材料,满足不同平台的需求。更重要的是,USO 已经全面开源,鼓励更多的开发者和创作者一起探索其潜力。
github:https://github.com/bytedance/USO
体验:https://huggingface.co/spaces/bytedance-research/USO
划重点:
– 🎨 字节跳动推出的 USO 模型打破了风格与主题的对立,实现了两者的完美结合。
– 📊 USO 模型通过创新的训练方式和庞大的数据集,提升了图像生成的灵活性与精准度。
– 🌍 USO 已全面开源,鼓励开发者探索其在创意内容和商业设计中的应用。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则