今日,腾讯混元大模型团队正式发布了其最新视频生成模型 HunyuanVideo1.5,标志着视频生成技术的又一重要突破。这款基于 Diffusion Transformer(DiT)架构的轻量级模型,参数量达8.3B,能够生成5至10秒的高清晰度视频,已在腾讯的「元宝」平台上线,向用户开放体验。

HunyuanVideo1.5支持多种生成方式,用户可以通过输入文字描述(Prompt)实现 “文生视频”,也可以通过上传图片与文字结合,轻松将静态图像转化为动态视频。这一创新技术不仅满足了中英文输入的需求,还展示了图像与视频的一致性,确保生成视频在色调、光影、场景、主体及细节等方面与原图高度匹配。
在具体应用中,用户可以根据提示词生成复杂的场景。例如,一则提示词描述了一只手提箱里如何生长出迷你英式花园,模型能够精准呈现这一过程,表现出高水平的指令理解与遵循能力。此外,HunyuanVideo1.5支持写实、动画等多种风格,能够在视频中生成中英文文字,极大地丰富了内容创作的可能性。
技术上,HunyuanVideo1.5采用了创新的 SSTA 稀疏注意力机制,显著提升了推理效率,并结合多阶段渐进式训练策略,在运动连贯性和语义遵循等关键维度达到了商用水平。这一模型的部署门槛显著降低,只需14G 显存的消费级显卡即可流畅运行,使每位开发者和创作者都能参与到视频生成的创新中。

据悉,此前视频生成领域的开源 SOTA 旗舰模型通常要求超过20B 的参数和50GB 显卡的支持,HunyuanVideo1.5的发布不仅在生成效果上实现了质的飞跃,同时也在性能与尺寸之间找到了平衡。目前,模型已上传至 Hugging Face 和 GitHub,欢迎广大开发者下载体验。
随着 HunyuanVideo1.5的问世,腾讯进一步巩固了其在人工智能和视频生成领域的领导地位,为内容创作者提供了更强大的工具和无限的创作可能性。未来,随着技术的不断发展,视频生成的应用场景将更加广泛,期待 HunyuanVideo1.5能为行业带来新的变革。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则