阿里巴巴云 Qwen 团队的最新跨模态模型 Qwen3-Omni 预计即将正式发布。据可靠消息,该模型已向 Hugging Face 的 Transformers 库提交了支持 PR,标志着这一端到端多模态 AI 系统的开源集成即将实现。 这一进展基于 Qwen 系列的持续迭代,旨在进一步提升模型在资源受限设备上的部署效率。

Qwen3-Omni 即将登场:端侧跨模态模型再升级,PR 已提交 Transformers 库

Qwen3-Omni 是 Omni 系列的第三代产品,该系列以其端到端架构著称,能够无缝处理文本、图像、音频和视频等多种输入模态,并生成文本和语音输出。 与前代模型类似,它采用 Thinker-Talker 双轨设计:Thinker 负责多模态输入的理解和高层表示生成,而 Talker 则实时合成自然语音。这种架构确保了模型在训练和推理过程中的高效流式处理,特别适用于实时交互场景。