近日,字节跳动南洋理工大学的研究团队联合开发了一个新系统 StoryMem,旨在解决 AI 生成视频时角色在不同场景中外观不一致的问题。该系统通过在生成视频的过程中存储关键帧,并在后续场景生成时进行参考,从而保持角色和环境的一致性。

字节跳动推出 StoryMem 系统,解决 AI 视频生成中的角色一致性问题

当前的 AI 视频生成模型,如 Sora、Kling 和 Veo,虽然在短片段生成方面表现出色,但在将多个场景拼接成连贯故事时,仍然存在角色外观变化、环境不一致等问题。以往的解决方案要么需要大量计算资源,要么会在拼接场景时失去一致性。

StoryMem 系统采用了一种新的方法。在生成视频的过程中,它会将视觉上重要的帧存储在内存中,并在生成新场景时进行参考。该系统的算法会智能选择重要帧,以确保内存的管理效率,同时保留故事开头的重要视觉信息。生成新场景时,这些存储的帧将与当前正在创建的视频一起输入模型,确保生成的内容保持一致。

在实际训练中,StoryMem 采用了低秩适应(LoRA)技术,以适应阿里巴巴开源模型 Wan2.2-I2V。研究团队使用了40万段每段五秒的视频片段进行训练,并通过视觉相似性对这些片段进行分组,从而使模型能够生成风格一致的续集。

根据研究结果,StoryMem 在跨场景一致性上显示了显著的提升,相较于未修改的基础模型提高了28.7% 的表现。此外,用户调查显示,参与者更倾向于选择 StoryMem 生成的结果,认为其在美观性和一致性上均表现更佳。

然而,研究团队也指出了该系统的一些局限性,比如在包含多个角色的复杂场景中,可能会出现角色视觉特征应用不当的情况。为此,建议在每个提示中明确描述角色,以提高生成效果。

项目:https://kevin-thu.github.io/StoryMem/

划重点:  

🌟 StoryMem 系统能够有效解决 AI 视频生成中角色和环境不一致的问题。  

📊 通过存储关键帧,StoryMem 在跨场景一致性方面比现有模型提升了28.7%。  

🛠️ 该系统在处理复杂场景时仍面临挑战,需对角色进行明确描述以提升生成效果。