今日,美团 LongCat 团队正式发布了其全新的视频生成模型 ——LongCat-Video。这一模型以其精准重构真实世界运行状态的能力,标志着美团在探索 “世界模型” 领域的重大进展。世界模型是实现下一代人工智能的核心引擎,能够帮助 AI 更好地理解、预测和重构真实世界的动态。

美团发布 LongCat-Video 视频生成模型,开实现时序一致性与物理运动合理性

LongCat-Video 基于先进的 Diffusion Transformer(DiT)架构,集成了文生视频、图生视频和视频续写等多项核心功能。这一创新模型通过 “条件帧数量” 的设定,有效实现了任务的灵活区分,确保在不同输入条件下均能发挥出色的生成能力。LongCat-Video 在文生视频生成上能够输出720p、30fps 的高清视频,并具备开源领域领先的语义理解和视觉呈现能力。此外,图生视频能够在动态过程中严格保留参考图像的属性与风格,展现出自然流畅的运动表现。

最为引人瞩目的是 LongCat-Video 的长视频生成能力。该模型通过视频续写任务的预训练,能够稳定输出达5分钟的连贯长视频,同时避免常见的色彩漂移、画质降解和动作断裂等问题。这一技术突破不仅提升了视频生成的质量,也为自动驾驶、具身智能等深度交互场景提供了坚实的技术基础。

在高效推理方面,LongCat-Video 采用了 “二阶段粗到精生成” 策略,并结合块稀疏注意力(BSA)和模型蒸馏优化,大幅提升了视频生成的速度和质量。该模型的推理速度提升至10.1倍,确保在处理长视频时依旧保持优异的生成质量。

LongCat-Video 经过严格的内部和公开基准测试,显示出在文本对齐、视觉质量和运动质量等多个维度的优秀性能,综合能力达到当前开源领域的 SOTA(State of the Art)水平。团队表示,LongCat-Video 的发布将大大简化长视频的创作过程,使创作者能够从1秒钟的灵感跃升至5分钟的成片。

为了让更多人体验这一先进技术,美团已在 GitHub 和 Hugging Face 上发布了 LongCat-Video 的相关资源。该项目不仅为个人创作者提供了强大的工具,也为整个视频创作行业注入了新的活力。

LongCat-Video 的发布,不仅代表着技术的进步,更是美团在智能创作领域迈出的重要一步。随着这一模型的广泛应用,未来的长视频创作将变得更加简单而富有创意。