小红书智创音频技术团队近日推出了新一代对话合成模型 FireRedTTS-2,标志着对话生成技术的又一重要进展。该模型旨在解决现有对话合成方案中存在的一些痛点,例如灵活性差、发音错误频繁、说话人切换不稳定以及韵律自然度不足等问题。

小红书发布新一代对话合成模型 FireRedTTS-2,助力 AI 播客制作

FireRedTTS-2通过升级其核心模块,特别是离散语音编码器和文本语音合成模型,全面提升了合成效果。在多项主客观评测中,FireRedTTS-2均显示出行业领先水平,为多说话人的对话合成提供了更优的解决方案。其技术报告已在 arXiv 上发布,并可通过专用 Demo 和代码链接进行体验。

FireRedTTS-2的一个显著特点是其合成的自然度,模型能对重音、情绪和停顿等细节进行精确把握,音质自然流畅。与闭源的对话生成模型相比,FireRedTTS-2不仅能够生成高质量的播客音频,还支持音色克隆功能。只需提供每个发音人的一句语音样本,模型就可以模仿其音色和说话习惯,自动生成整段对话。这种功能使得其在开源对话生成领域具备了很强的竞争力。

在训练过程中,FireRedTTS-2不仅支持多语言(包括中文、英语、日语、韩语和法语),还利用低帧率的离散语音编码器提高了合成的速度与稳定性。同时,采用双 Transformer 的模型架构,使得合成语音更自然、更连贯。此外,FireRedTTS-2只需少量数据即可实现音色定制,快速适应不同的应用场景。

FireRedTTS-2的推出不仅为 AI 播客和对话合成应用提供了工业级解决方案,还为行业内外的创新探索打开了新的可能性。未来,团队将持续优化该模型,增加支持的说话人数和语言种类,并探索更多的可控音效插入功能,以满足不断增长的市场需求。

  • 代码链接:https://github.com/FireRedTeam/FireRedTTS2 

划重点:

🎤 FireRedTTS-2是小红书智创音频技术团队推出的新一代对话合成模型,旨在提升合成效果和自然度。  

🗣️ 模型具备音色克隆能力,只需少量样本即可生成自然的多说话人对话。  

🌐 支持多种语言和低帧率的离散语音编码器,提高合成速度与稳定性,适应多场景应用。