12月16日,阿里巴巴宣布推出新一代 万相2.6系列模型,该模型针对专业影视制作和图像创作场景进行了全面升级,并被称为**“全球功能最全的视频生成模型。万相2.6已同步上线阿里云百炼万相官网**。

万相2.6系列最大的亮点在于它是国内首个支持“角色扮演”功能的视频模型,同时支持音画同步、多镜头生成及声音驱动等功能。

 核心升级与技术突破

此次升级在画质、音效、指令遵循等方面进一步提升,并将单次视频时长提升至国内最高的15秒。该模型家族已支持文生图、图像编辑、文生视频、图生视频、人声生视频、动作生成、角色扮演及通用视频编辑等10多种视觉创作能力。

1. 角色扮演功能(国内首创):

万相2.6能够参考输入视频中的角色外观和音色,按照提示词生成单人、多人、人与物合拍的视频。在模型结构上,通义万相集成了多项创新技术,可对参考视频进行多模态联合建模与学习,提取主体情绪、姿态、视觉特征以及音色、语速等声学特征,确保全感官全维度的一致性保持与迁移。

2. 专业级分镜控制:

模型新增分镜控制功能,可将用户简单的提示词转换为多分镜脚本,生成包含多个镜头的连贯叙事视频。通过高层语义理解,万相2.6能构建具备完整故事线和叙事张力的专业级多镜头段落,并在镜头丝滑切换的过程中保持核心主体、场景布局和环境氛围的高度一致性。

阿里万相2.6发布:支持“角色扮演”与多分镜控制,单次视频时长达15秒

赋能影视级创作场景

万相2.6的角色扮演和分镜控制功能极大地满足了专业影视级场景需求。

例如,普通用户上传一段个人视频,输入科幻悬疑风格的提示词,万相2.6仅需几分钟就能完成分镜设计、角色演绎、画面配音等工作,生成一段镜头叙事完整、电影级运镜的短片,帮助用户“圆电影主角梦”。

面向广告设计、短剧制作等专业场景,通过输入连续提示词,模型可以生成一段完整叙事的短片,让人人都能当导演。

 延续国内领先地位

阿里曾在今年9月率先在国内发布音画同步的视频生成模型万相2.5,在权威大模型评测集 LMArena 上,万相图生视频位居国内第一。此次2.6版本的发布,进一步巩固了其在国内视频生成领域的领先地位。

即日起,所有人可直接在万相官网体验万相2.6,企业用户可通过阿里云百炼调用 API。据悉,千问 APP 也将于近期上线该模型,并提供更丰富的玩法。