AIGC 横扫图像与文字领域后,影视行业的最后一个“人工堡垒”——配音,正在被阿里通义实验室攻破。3月16日,通义实验室正式发布并开源了全球首个支持影视级、多场景配音的多模态大模型 Fun-CineForge

长期以来,AI 配音始终难以撕掉“机械感”和“播音腔”的标签。尤其在影视剧场景中,角色的情感爆发、环境音的杂糅以及口型同步,一直是 AI 难以逾越的鸿沟。而Fun-CineForge的出现,正是为了终结这一难题。

这款大模型采用了革命性的“数据+模型”一体化设计。除了模型本身,通义实验室还配套开放了一套高质量数据集的构建方法。这意味着,AI 不再是简单地读取文本,而是能够深度理解影视剧中的复杂语境,还原出细腻的情感起伏和多场景下的空间音效。

作为阿里通义家族的新成员,Fun-CineForge的开源属性极具杀伤力。它不仅为视频创作者提供了一个“影视级”的后期工具,更通过技术下放,让中短剧甚至个人创作者也能以极低成本完成高质量的跨语言译制。

从去年发布的Qwen3-Omni到如今的Fun-CineForge,通义系列正加速补齐多模态拼图的最后一块。当 AI 真正学会了“像人一样演戏”,影视翻译和后期制作的逻辑,或许将从此被彻底重写。目前,该模型及其数据集构建方案已在相关开源平台上线,这波“影视级 AI”的普及风暴,比我们想象中来得更快。