近日,Qwen VLo多模态大模型正式发布,该模型在图像内容理解与生成方面取得了显著进展,为用户带来了全新的视觉创作体验。
据介绍,Qwen VLo在继承原有Qwen-VL系列模型优势的基础上,进行了全面升级。该模型不仅能够精准“看懂”世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。用户现在可以在Qwen Chat(chat.qwen.ai)平台上直接体验这一新模型。
Qwen VLo的独特之处在于其渐进式生成方式。模型在生成图片时,采用从左到右、从上到下的逐步构建策略,过程中不断对预测内容进行优化调整,确保最终结果的和谐一致。这种生成机制不仅提升了视觉效果,还为用户提供了更灵活、可控的创作过程。
在内容理解与再创造方面,Qwen VLo展现了强大的能力。与以往的多模态模型相比,Qwen VLo在生成过程中能够更好地保持语义一致性,避免将汽车误生成其他物体或无法保留原图关键结构特征的问题。例如,当用户输入一张汽车照片并要求更换颜色时,Qwen VLo能准确识别车型,保留原有结构特征,并自然转换色彩风格,使生成结果既符合预期又不失真实感。
此外,Qwen VLo还支持开放指令编辑修改生成。用户可以通过自然语言提出各种创意性指令,如改变画风、添加元素或调整背景等。模型能够灵活响应这些指令,并生成符合用户预期的结果。无论是艺术风格迁移、场景重构还是细节修饰,Qwen VLo都能轻松应对。
值得一提的是,Qwen VLo还具备多语言指令支持能力。该模型支持包括中文、英文在内的多种语言指令,为全球用户提供了统一且便捷的交互体验。无论用户使用哪种语言,只需简单描述需求,模型便能快速理解并输出理想结果。
在实际应用中,Qwen VLo展现了多样化的功能。它可以直接生成图像并进行修改,如替换背景、添加主体或进行风格迁移等。同时,模型还能完成基于开放指令的大幅修改,包括检测和分割等视觉感知任务。此外,Qwen VLo还支持多张图像的输入理解和生成,以及图像检测、标注等功能。
除了图文同时输入的情况外,Qwen VLo还支持文本到图像的直接生成,包括通用图像和中英文海报等。模型采用动态分辨率训练,支持任意分辨率和长宽比的图像生成,使用户能够根据实际需求生成适配不同场景的图像内容。
目前,Qwen VLo还处于预览阶段,虽然已展现出强大的能力,但仍存在一些不足之处。例如,在生成过程中可能存在不符合事实或不完全与原图一致的情况。研发团队表示,他们将持续迭代模型,不断提升其性能和稳定性。
体验地址:chat.qwen.ai
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则