近日,北京人工智能研究院推出了全新的开源系统 ——OmniGen2。这一系统专注于文本到图像的生成、图像编辑和上下文图像创作。
与2024年发布的第一代 OmniGen 相比,OmniGen2采用了两条独立的解码路径:一条用于文本生成,另一条用于图像生成,且各自拥有独立的参数和解耦的图像标记器。这种设计让模型在保持文本生成能力的同时,有效地提升了多模态语言模型的表现。
OmniGen2的核心是一个基于 Qwen2.5-VL-3B 变换器的大型多模态语言模型(MLLM)。在图像生成方面,该系统使用了一种自定义的扩散变换器,参数量达到约40亿。模型在遇到特殊的 “<|img|>” 标记时会自动切换到图像生成模式。值得一提的是,OmniGen2能够处理多种提示和艺术风格,但其生成的照片级图像在清晰度上仍有待提升。
为了训练 OmniGen2,研究团队使用了大约1.4亿张来自开源数据集和专有集合的图像。此外,他们还开发了新技术,通过提取视频中的相似帧(例如,一个微笑和不微笑的面孔),并利用语言模型生成相应的编辑指令。
OmniGen2的另一大亮点是其反思机制,能够让模型自我评估生成的图像,并在多个轮次中进行改进。该系统可以发现生成图像中的缺陷,并提出具体的修正建议。
为了评估该系统的性能,研究团队引入了 OmniContext 基准测试,包括角色、物体和场景三大类,每类下有八个子任务和各50个示例。评估是通过 GPT-4.1进行的,主要打分标准包括提示的准确性和主题的一致性。OmniGen2的总分为7.18,超越了所有其他开源模型,而 GPT-4o 的得分为8.8。
尽管 OmniGen2在多个基准测试中表现优异,但仍存在一些不足之处:英文提示的效果优于中文,身体形态的变化较为复杂,输出质量也受到输入图像的影响。对于模糊的多图像提示,系统需要明确的对象放置指示。
研究团队计划将模型、训练数据和构建管道发布到 Hugging Face 平台。https://huggingface.co/OmniGen2/OmniGen2
划重点:
🌟 OmniGen2是一个开源的图文生成系统,采用独立的文本和图像解码路径。
🎨 它能够处理多种艺术风格的图像生成,并具备自我反思和改进功能。
📈 OmniGen2在多个基准测试中表现出色,特别是在图像编辑方面创下了新的开放源代码模型纪录。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则