阿里通义千问重磅开源 Qwen3-TTS：97ms超低延迟语音合成，3秒克隆+一句话设计音色，彻底颠覆实时AI语音！

阿里通义千问团队昨晚正式开源了 Qwen3-TTS 系列语音生成模型家族，这一重磅更新迅速席卷开源社区，被视为语音合成领域的重大突破。该系列采用端到端架构，支持秒级音色克隆、自然语言音色设计以及实时流式输出，极大降低了实时应用的门槛。

阿里通义千问重磅开源 Qwen3-TTS：97ms超低延迟语音合成，3秒克隆+一句话设计音色，彻底颠覆实时AI语音！

Dual-Track双轨架构实现极致低延迟

Qwen3-TTS 核心创新在于Dual-Track双轨混合流式生成机制，结合离散多码本语言模型，直接端到端建模语音，避免了传统级联架构（如LM+DiT）的信息瓶颈。实际测试中，端到端延迟低至97ms，输入仅1个字即可输出首包音频。这种极致响应速度，使其非常适合直播互动、实时翻译、AI智能客服等对时延敏感的场景。

3秒极速克隆 + 跨语言/方言零损失迁移

语音克隆能力尤为惊艳:仅需3秒参考音频，即可实现高保真零样本音色复刻。克隆后的音色支持跨语种无缝迁移，中文音色可直接用于说英语、日语、韩语、德语、法语、俄语、西班牙语、葡萄牙语、意大利语等10种主流语言，同时保留原音色特征。更进一步，还能自然输出四川话、北京话等多种中文方言，口音、神韵高度还原，为多语言内容创作和地方化应用打开新想象空间。

一句话“凭空”设计全新音色

除了克隆，Qwen3-TTS 还提供强大的Voice Design功能，用户通过自然语言指令即可自定义声音，例如“用温柔鼓励的成熟女声讲述故事”或“高亢兴奋的年轻男性解说游戏”，模型能自动调整语调、情感、节奏，生成高度个性化的表达。这种“所想即所听”的控制能力，在有声书制作中尤为实用——一人即可分饰多角，情绪起伏、方言切换样样精通，极大提升沉浸感和生产效率。

1.7B与0.6B双尺寸，性能与效率自由取舍

Qwen3-TTS 家族提供两种参数规模:

-1.7B模型:性能最强，控制能力突出，适合对音质和表现力要求极高的云端场景;

-0.6B模型:在保持优秀合成质量的前提下，实现更佳的推理效率和更低的资源占用，适合边缘设备或高并发部署。

官方已将完整系列（包括Base、VoiceDesign、CustomVoice等）开源至GitHub和Hugging Face，支持全参数微调，开发者可轻松构建品牌专属语音形象。

随着Qwen3-TTS的开源，实时、个性化、多语言语音AI的门槛大幅降低。无论是内容创作者、开发者还是企业级应用，都将迎来新一轮语音交互革命。

项目地址：https://github.com/QwenLM/Qwen3-TTS

中国人工智能缩小与美国差距

18.7万用户在看

七个圈AIGC破圈俱乐部欢迎您！

18万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

16.5万用户在看

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

15万用户在看

阿里通义千问重磅开源 Qwen3-TTS：97ms超低延迟语音合成，3秒克隆+一句话设计音色，彻底颠覆实时AI语音！

最近更新

文章目录

阿里通义千问重磅开源 Qwen3-TTS：97ms超低延迟语音合成，3秒克隆+一句话设计音色，彻底颠覆实时AI语音！

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

中国人工智能缩小与美国差距

18.7万 用户在看

七个圈AIGC破圈俱乐部欢迎您！

18万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

16.5万 用户在看

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

15万 用户在看

阿里通义千问重磅开源 Qwen3-TTS：97ms超低延迟语音合成，3秒克隆+一句话设计音色，彻底颠覆实时AI语音！

最近更新

文章目录

阿里通义千问重磅开源 Qwen3-TTS：97ms超低延迟语音合成，3秒克隆+一句话设计音色，彻底颠覆实时AI语音！

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

18.7万用户在看

18万用户在看

16.5万用户在看

15万用户在看