阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理

阿里云发布了 Qwen3-Omni，标志着全球首个原生端到端全模态 AI 模型的问世，并且该模型现已开源。Qwen3-Omni 具备处理文本、图像、音频和视频等多种输入类型的能力，能够实现实时流式输出，无论是通过文本还是自然语音，均能快速响应。

阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理

Qwen3-Omni 模型在多个领域展现出跨模态的先进表现。通过早期以文本为核心的预训练和混合多模态训练，该模型具备了强大的多模态能力。在音频和视频的性能上尤为出色，同时在文本和图像的效果上也能保持高标准。根据36项音频和视频的基准测试，Qwen3-Omni 在22项中达到了最新的领先水平，尤其是在自动语音识别和音频理解等领域的表现已与同行业的 Gemini2.5Pro 不相上下。

Qwen3-Omni 支持119种文本语言和19种语音输入语言，另外还有10种语音输出语言，包括英语、中文、法语和德语等多种语言。此项功能让它能够更好地服务于全球用户。其创新的架构设计基于 MoE（专家混合）系统，结合了 AuT 预训练，从而使模型具有强大的通用表征能力。同时，多码本设计确保了低延迟的实时音频和视频交互，支持自然对话的流畅进行。

除了 Qwen3-Omni，阿里云还发布了 Qwen3-TTS，一个支持17种音色选择的文本转语音模型。该模型在多项评估基准中表现出色，超越了多款竞品，尤其在语音稳定性和音色相似度方面尤为突出。

Qwen-Image-Edit-2509是另一个新发布的工具，专注于图像编辑的多图像支持，显著提升了编辑的一致性和效果。它不仅能够处理单图像，还支持多图像的拼接编辑，能够满足更复杂的编辑需求。

GitHub:https://github.com/QwenLM/Qwen3-Omni
huggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

划重点:
🌟 Qwen3-Omni 是全球首个原生端到端全模态 AI 模型，支持文本、图像、音频和视频的统一处理。
🌐 模型支持119种文本语言和19种语音输入，能够满足全球用户的多语言需求。
🖼️ 新发布的 Qwen-Image-Edit-2509支持多图像编辑，显著提升编辑的一致性和效果。

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

28.2万用户在看

中国人工智能缩小与美国差距

20.9万用户在看

七个圈AIGC破圈俱乐部欢迎您！

19.1万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

17.5万用户在看

阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理

最近更新

文章目录

阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

28.2万 用户在看

中国人工智能缩小与美国差距

20.9万 用户在看

七个圈AIGC破圈俱乐部欢迎您！

19.1万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

17.5万 用户在看

​阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理

最近更新

文章目录

​阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

28.2万用户在看

20.9万用户在看

19.1万用户在看

17.5万用户在看

阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理

阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理