阿里通义千问团队昨晚正式开源了 Qwen3-TTS 系列语音生成模型家族,这一重磅更新迅速席卷开源社区,被视为语音合成领域的重大突破。该系列采用端到端架构,支持秒级音色克隆、自然语言音色设计以及实时流式输出,极大降低了实时应用的门槛。

Dual-Track双轨架构实现极致低延迟
Qwen3-TTS 核心创新在于Dual-Track双轨混合流式生成机制,结合离散多码本语言模型,直接端到端建模语音,避免了传统级联架构(如LM+DiT)的信息瓶颈。实际测试中,端到端延迟低至97ms,输入仅1个字即可输出首包音频。这种极致响应速度,使其非常适合直播互动、实时翻译、AI智能客服等对时延敏感的场景。
3秒极速克隆 + 跨语言/方言零损失迁移
语音克隆能力尤为惊艳:仅需3秒参考音频,即可实现高保真零样本音色复刻。克隆后的音色支持跨语种无缝迁移,中文音色可直接用于说英语、日语、韩语、德语、法语、俄语、西班牙语、葡萄牙语、意大利语等10种主流语言,同时保留原音色特征。更进一步,还能自然输出四川话、北京话等多种中文方言,口音、神韵高度还原,为多语言内容创作和地方化应用打开新想象空间。
一句话“凭空”设计全新音色
除了克隆,Qwen3-TTS 还提供强大的Voice Design功能,用户通过自然语言指令即可自定义声音,例如“用温柔鼓励的成熟女声讲述故事”或“高亢兴奋的年轻男性解说游戏”,模型能自动调整语调、情感、节奏,生成高度个性化的表达。这种“所想即所听”的控制能力,在有声书制作中尤为实用——一人即可分饰多角,情绪起伏、方言切换样样精通,极大提升沉浸感和生产效率。
1.7B与0.6B双尺寸,性能与效率自由取舍
Qwen3-TTS 家族提供两种参数规模:
-1.7B模型:性能最强,控制能力突出,适合对音质和表现力要求极高的云端场景;
-0.6B模型:在保持优秀合成质量的前提下,实现更佳的推理效率和更低的资源占用,适合边缘设备或高并发部署。
官方已将完整系列(包括Base、VoiceDesign、CustomVoice等)开源至GitHub和Hugging Face,支持全参数微调,开发者可轻松构建品牌专属语音形象。
随着Qwen3-TTS的开源,实时、个性化、多语言语音AI的门槛大幅降低。无论是内容创作者、开发者还是企业级应用,都将迎来新一轮语音交互革命。
项目地址:https://github.com/QwenLM/Qwen3-TTS
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则