Stability AI近日推出了其最新音频生成模型 Stable Audio2.5,旨在为专业音效制作提供更加高效的解决方案。该模型的设计初衷是帮助创意团队快速生成高质量、可定制的音频作品,满足市场对音频内容日益增长的需求。
Stable Audio2.5的最大亮点在于其生成能力更为复杂,能够创作多段音乐作品,包括引子、发展和尾声。Stability AI 表示,新的模型能够更准确地响应情感提示,比如 “振奋人心”,并且能够理解特定音乐风格的提示,例如 “丰富的合成器声”。用户只需几秒钟即可生成最长三分钟的音乐曲目,而在 Nvidia H100GPU 上,处理时间甚至低于两秒。
这款新模型的速度得益于其采用的后期训练方法 —— 对抗相对 – 对比(Adversarial Relativistic-Contrastive,简称 ARC),这一技术由公司研究团队开发。Stability AI还在今年五月推出了一款适用于智能手机的紧凑版本,同样使用 ARC 方法。Stable Audio Open Small 模型能够在移动设备上生成最多11秒的立体声音频,仅需七秒钟。
在功能方面,Stable Audio2.5的主要更新是音频修补(audio inpainting)功能。用户可以上传自己的音频文件,选择起点,让 AI 生成后续内容,完成或扩展现有的录音。此外,用户还可以通过文字提示生成音乐。需要注意的是,上传的文件必须是无版权的,Stability AI通过先进的识别系统来确保版权合规。与早期版本一样,Stable Audio2.5也是在一个已授权的数据集上进行训练的,被认为是商业安全的。
Stability AI希望该技术能应用于广告、零售、品牌音效等多个领域,与 WPP 旗下的音效品牌代理机构 Amp 合作,为大型客户提供一致的音频识别服务。Stability AI的音频团队还可以根据公司的音效库调整模型,打造独特的音频标识。Stable Audio2.5将通过 WPP Open 平台面向 WPP 的全球客户开放。
自2024年4月推出 Stable Audio2以来,Stability AI已开始在音频领域扩展合作伙伴网络,努力增强自身财务实力。今年3月,WPP 集团对Stability AI进行了不公开的投资,而 Meta 也在加速推进其音频研究。
划重点:
🎵 新模型 Stable Audio2.5支持生成复杂的音乐作品,快速生成最长三分钟的音轨。
🖌️ 引入音频修补功能,用户可以上传音频文件,让 AI 完成或扩展录音。
🤝 Stability AI 与 WPP 等大型客户合作,致力于提供一致的品牌音频识别服务。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则