Kyutai Labs 开源 Kyutai TTS:低延迟流式文本转语音技术

7月3日，法国AI研究机构Kyutai Labs宣布开源其最新文本转语音（TTS）技术——Kyutai TTS，为开发者与AI爱好者带来高效、实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点，支持文本流式传输，无需完整文本即可开始生成音频，特别适合实时交互场景。

Kyutai TTS在性能上表现卓越。使用单块NVIDIA L40S GPU，该模型可同时处理32个请求，延迟仅为350毫秒。此外，系统不仅生成高质量音频，还能输出单词的精确时间戳，方便实时字幕生成或交互式应用，如Unmute平台的中断处理功能。

在语言支持与质量评估方面，Kyutai TTS目前支持英语和法语，单词错误率（WER）分别为2.82和3.29，展现出高准确度。说话者相似度达到77.1%(英语)和78.7%(法语)，确保语音自然且接近原始样本。模型还能处理长篇文章，突破传统TTS的30秒限制，适合新闻、书籍等长篇内容生成。

Kyutai TTS采用延迟流建模（DSM）架构，结合Rust服务器实现高效批处理，已在GitHub和Hugging Face开放源码与模型权重，助力全球开发者推动语音技术创新。

开源地址：https://kyutai.org/next/tts

搜索