【AIbase 报道】语音生成公司 Fish Audio 正式发布升级版 S1语音克隆模型,在情感表现力与拟真度方面实现重大突破。新版模型能够生成富有情绪、节奏感与语气变化的真人级声音,几乎可以完美再现人类说话时的细微差别。
据介绍,用户只需提供约 10秒的语音样本,S1即可克隆任意人声,并完整保留原声的口音、语调与节奏,还原个人的说话习惯与情感特征,生成效果几乎与真人无异。相比国际知名产品 ElevenLabs,Fish Audio 的语音克隆服务价格低约 六倍,在语音生成成本和性能平衡上具备明显优势。
与此同时,Fish Audio S1API 也已同步上线,显著提升了实时语音生成体验。其 首帧延迟(TTFT)低于500毫秒,一句话不到半秒即可开始播放;同时支持输入与输出的流式传输,实现边接收文字边即时朗读的自然交互,并可无限克隆不同人声、自由切换使用。
业内认为,Fish Audio S1的升级意味着语音克隆技术正从“可用”迈向“可感”,其高保真、低延迟的特性将加速 AI 语音在虚拟人、智能助理、内容创作及配音等领域的广泛落地。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则