Stability AI近日推出了其最新音频生成模型 Stable Audio2.5,旨在为专业音效制作提供更加高效的解决方案。该模型的设计初衷是帮助创意团队快速生成高质量、可定制的音频作品,满足市场对音频内容日益增长的需求。

Stability AI发布 Stable Audio2.5,专业音频生成技术再升级

Stable Audio2.5的最大亮点在于其生成能力更为复杂,能够创作多段音乐作品,包括引子、发展和尾声。Stability AI 表示,新的模型能够更准确地响应情感提示,比如 “振奋人心”,并且能够理解特定音乐风格的提示,例如 “丰富的合成器声”。用户只需几秒钟即可生成最长三分钟的音乐曲目,而在 Nvidia H100GPU 上,处理时间甚至低于两秒。

这款新模型的速度得益于其采用的后期训练方法 —— 对抗相对 – 对比(Adversarial Relativistic-Contrastive,简称 ARC),这一技术由公司研究团队开发。Stability AI还在今年五月推出了一款适用于智能手机的紧凑版本,同样使用 ARC 方法。Stable Audio Open Small 模型能够在移动设备上生成最多11秒的立体声音频,仅需七秒钟。

在功能方面,Stable Audio2.5的主要更新是音频修补(audio inpainting)功能。用户可以上传自己的音频文件,选择起点,让 AI 生成后续内容,完成或扩展现有的录音。此外,用户还可以通过文字提示生成音乐。需要注意的是,上传的文件必须是无版权的,Stability AI通过先进的识别系统来确保版权合规。与早期版本一样,Stable Audio2.5也是在一个已授权的数据集上进行训练的,被认为是商业安全的。

Stability AI希望该技术能应用于广告、零售、品牌音效等多个领域,与 WPP 旗下的音效品牌代理机构 Amp 合作,为大型客户提供一致的音频识别服务。Stability AI的音频团队还可以根据公司的音效库调整模型,打造独特的音频标识。Stable Audio2.5将通过 WPP Open 平台面向 WPP 的全球客户开放。

自2024年4月推出 Stable Audio2以来,Stability AI已开始在音频领域扩展合作伙伴网络,努力增强自身财务实力。今年3月,WPP 集团对Stability AI进行了不公开的投资,而 Meta 也在加速推进其音频研究。

划重点:

🎵 新模型 Stable Audio2.5支持生成复杂的音乐作品,快速生成最长三分钟的音轨。

🖌️ 引入音频修补功能,用户可以上传音频文件,让 AI 完成或扩展录音。

🤝 Stability AI 与 WPP 等大型客户合作,致力于提供一致的品牌音频识别服务。