针对AI语音合成领域长期存在的效率瓶颈,苹果公司近日联手特拉维夫大学发表了一项名为“原则性粗粒度”(PCG)的创新研究。这项技术通过改变AI对声音预测的验证方式,成功实现了在保证音质“零损耗”的前提下,将语音生成速度提升了约40%。

​苹果发布PCG语音生成技术:告别刻板校验,AI配音提速40%

目前主流的文本转语音(TTS)模型大多采用“自回归”机制,即像串珠子一样逐个预测接下来的声音片段。然而,这种模式对结果要求极其刻板,模型往往会因为预测结果与预设数据存在极微小的听感差异而强行纠错,这不仅消耗了大量算力,更严重拖慢了生成速度。

苹果研究团队提出的PCG技术打破了这一僵局。该技术的核心逻辑在于“求同存异”:研究人员发现,许多细微差异的声音片段在人类听觉中几乎完全一致。因此,PCG引入了“声学相似组”概念,将传统的“精确点验证”升级为“范围验证”。只要AI生成的预测值落在合理的声学范围内,系统就会直接予以采纳。

在实际测试中,PCG表现惊人。即使将91.4%的语音片段替换为同组相似音,人耳也几乎无法察觉差异,模型自然度评分高达4.09分。此外,PCG作为一种“推理阶段”的优化方案,无需对现有模型进行重新训练,且仅需额外占用约37MB内存,这为未来在各种移动终端上普及高质量、低延迟的AI语音服务铺平了道路。

划重点:

  • 🚀 速度显著提升:通过引入PCG技术,AI语音生成速度提升了约40%,有效解决了文本转语音技术的延迟问题。

  • 👂 听感质量稳健:采用“范围验证”代替“精确匹配”,在极大提高效率的同时,音频的自然度与说话人相似度几乎无损。

  • 🛠️ 低成本易部署:该方案无需重新训练模型,仅需极小的额外内存开销,可直接应用并优化现有的AI语音推理系统。