Cartesia 公司重磅发布其最新语音 AI 引擎 Sonic-3,宣称其为当前市场上速度最快、最自然的实时语音对话模型。Sonic-3的核心目标是提供极致自然与迅速的语音交互体验,使 AI 能够以几乎零延迟的方式进行对话,并模拟人类的情感、语气乃至笑声和情绪变化,从而大幅提升交流的真实性和表现力。
Sonic-3的突破性性能得益于其采用了全新的 “状态空间模型”(SSM)架构,而非传统的 Transformer 模型。Cartesia 介绍,SSM 架构能更有效地模拟人类思维,记住对话主题和情绪,无需每次都从头分析上下文,从而在语音自然度和低延迟性能方面达到前所未有的水平。该模型延迟低于 100毫秒,使其在实时语音交互行业中处于领先地位。

在功能和覆盖范围上,Sonic-3展现出强大的全球化潜力。它支持 42种语言,覆盖全球 95% 的人口,包括9种印度语言,能为不同市场的需求提供母语级的语音模型。Sonic-3还具备智能上下文理解能力,能够自动识别并正确朗读如 NASA、FBI 等缩写和首字母缩写词,显著增强了对话的流畅性。此外,该引擎支持语音克隆功能,用户可在短短 10秒内生成个性化语音,企业版还提供专业的语音调优与品牌音色定制服务。
Sonic-3的应用前景广阔,可广泛应用于客户支持、虚拟伴侣、医疗保健和物流服务业等领域,通过情绪化的语音显著提升客户服务体验。
为支持 Sonic-3的进一步研发与推广,Cartesia 同时宣布已完成 1亿美元的融资,投资方包括 Kleiner Perkins、Index Ventures、Lightspeed 和 NVIDIA 等知名企业。Cartesia 相信,随着 Sonic-3的推出,人机交互领域将迎来重大突破,为用户带来更加丰富与自然的交流体验。用户可访问 Cartesia 官方网站在线体验 Sonic-3。
地址:https://cartesia.ai/sonic
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则