阿里巴巴云 Qwen 团队的最新跨模态模型 Qwen3-Omni 预计即将正式发布。据可靠消息,该模型已向 Hugging Face 的 Transformers 库提交了支持 PR,标志着这一端到端多模态 AI 系统的开源集成即将实现。 这一进展基于 Qwen 系列的持续迭代,旨在进一步提升模型在资源受限设备上的部署效率。
Qwen3-Omni 是 Omni 系列的第三代产品,该系列以其端到端架构著称,能够无缝处理文本、图像、音频和视频等多种输入模态,并生成文本和语音输出。 与前代模型类似,它采用 Thinker-Talker 双轨设计:Thinker 负责多模态输入的理解和高层表示生成,而 Talker 则实时合成自然语音。这种架构确保了模型在训练和推理过程中的高效流式处理,特别适用于实时交互场景。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则