通义实验室发布语音双模型:Fun-CosyVoice3.5与Fun-AudioGen-VD上线

今日，通义实验室宣布正式发布两款支持“FreeStyle”指令生成的语音大模型:Fun-CosyVoice3.5与Fun-AudioGen-VD。此次发布标志着语音生成技术从依赖预设标签的传统范式，向基于自然语言指令自由控制的新范式跨越，实现了“一句话自由生成语音”的深度交互体验。

通义实验室发布语音双模型:Fun-CosyVoice3.5与Fun-AudioGen-VD上线

在技术架构与功能升级方面，Fun-CosyVoice3.5侧重于多语种复刻与精细化表达，新增泰语、印尼语等4个语种支持。通过引入DiffRO与GRPO强化学习技术，该模型显著提升了语音的韵律表现与音质相似度，其生僻字读错率从15.2%大幅降至5.3%，首包延迟亦降低了35%。与之互补的Fun-AudioGen-VD则专注于声音设计与场景化建模，支持通过指令精确控制性别、情绪及空间声学效果，能够模拟从“疯狂反派”到“热闹咖啡馆”等复杂的角色与背景音一体化场景。

从行业趋势来看，通义实验室这一动作将语音生成从单纯的转换工具升级为创作工具。这种可描述、可编排的数字表达能力，将直接赋能影视、游戏及AI智能体等领域，在降低内容创作成本的同时，极大拓展了人机交互的语义丰富度。

API调用:https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP

文档:https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

23.2万用户在看

中国人工智能缩小与美国差距

19.9万用户在看

七个圈AIGC破圈俱乐部欢迎您！

18.5万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

17.1万用户在看

通义实验室发布语音双模型:Fun-CosyVoice3.5与Fun-AudioGen-VD上线

最近更新

文章目录

通义实验室发布语音双模型:Fun-CosyVoice3.5与Fun-AudioGen-VD上线

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

23.2万 用户在看

中国人工智能缩小与美国差距

19.9万 用户在看

七个圈AIGC破圈俱乐部欢迎您！

18.5万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

17.1万 用户在看

通义实验室发布语音双模型:Fun-CosyVoice3.5与Fun-AudioGen-VD上线

最近更新

文章目录

通义实验室发布语音双模型:Fun-CosyVoice3.5与Fun-AudioGen-VD上线

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

23.2万用户在看

19.9万用户在看

18.5万用户在看

17.1万用户在看