近日,VectorSpaceLab在Hugging Face平台正式开源全能多模态模型OmniGen2,以创新性双组件架构和强大的视觉处理能力,为研究者和开发者提供了高效的可控生成式AI基础工具。

这款模型由30亿参数的视觉语言模型(VLM)Qwen-VL-2.5与40亿参数的扩散模型组合而成,通过冻结的VLM解析视觉信号和用户指令,结合扩散模型实现高质量图像生成,在视觉理解、文本生成图像、指令引导图像编辑和上下文生成四大核心场景中展现出领先性能。  

从文本生成到指令编辑 OmniGen2重塑开源多模态模型应用场景

作为开源项目,OmniGen2的视觉理解能力继承自Qwen-VL-2.5的强大基础,可精准解析图像内容;其文本生成图像功能支持从文本提示生成高保真、符合美学标准的图像;在指令引导图像编辑领域,该模型以高精度完成复杂修改任务,性能达到开源模型中的前沿水平;而上下文生成能力更可灵活处理人物、物体、场景等多元输入,生成连贯新颖的视觉输出。

例如,用户既能通过自然语言指令让熊猫手持茶杯的卡通场景变换风格,也能为奇幻精灵角色添加动态背景,甚至修正图像中物体数量或颜色冲突等细节。  

从文本生成到指令编辑 OmniGen2重塑开源多模态模型应用场景

目前,OmniGen2已开放模型权重下载,并提供Gradio和Jupyter在线演示,支持用户通过调整采样步数、文本引导强度、图像参考权重等超参数优化生成效果。

项目团队计划后续开源训练代码、数据集及构建流程,并推出上下文生成基准测试OmniContext,进一步完善CPU负载优化和多框架集成。随着多模态AI应用场景的持续扩展,OmniGen2凭借其资源效率与功能全面性,正为个性化视觉创作、智能设计辅助等领域开辟新的技术路径。

地址:https://huggingface.co/OmniGen2/OmniGen2