AI视频生成领域的明星公司Runway正式杀入“世界模型”赛道。周四,该公司推出其首个通用世界模型GWM-1,宣称能通过逐帧像素预测,构建一个理解物理规律与时间演化的动态仿真环境。这一举措将Runway与谷歌、OpenAI等巨头并列,共同竞逐下一代具身智能与通用人工智能的核心基础设施。

所谓“世界模型”,是指AI系统在内部构建对现实世界运行机制的模拟,从而无需为每一种真实场景单独训练,就能实现推理、规划与自主行动。Runway认为,通往这一目标的最优路径,是让模型直接学会预测像素——即从视频帧中学习物理、光照、几何与因果关系。公司CTO Anastasis Germanidis在直播中强调:“要构建世界模型,我们必须先打造一个极其强大的视频模型。在足够规模和高质量数据的支撑下,模型自然能获得对世界运作方式的深层理解。”

Runway发布通用世界模型GWM-1,用像素预测构建可推理的虚拟世界

GWM-1并非单一产品,而是以三个专业化分支先行落地:GWM-Worlds、GWM-Robotics 和 GWM-Avatars。其中,GWM-Worlds 是一个交互式应用,用户可通过文字提示或图像设定初始场景,模型随即生成一个以24帧/秒、720p分辨率运行的动态世界。该空间不仅具备连贯的几何结构与光照逻辑,还能在用户“探索”过程中实时生成新内容。Runway指出,这一能力不仅适用于游戏开发,更可作为训练AI智能体在物理世界中导航与决策的虚拟沙盒。

在机器人领域,GWM-Robotics 通过合成数据注入天气变化、动态障碍物等变量,帮助机器人在高风险或难以复现的真实场景中预演行为。更重要的是,该系统能识别机器人在何种条件下可能违反安全策略或指令,为可靠性验证提供新工具。Runway已计划通过SDK向合作企业开放此模块,并透露正与多家机器人公司展开深度对话。

而GWM-Avatars则致力于生成具备真实人类行为逻辑的数字人,用于沟通、培训等场景——这一方向与D-ID、Synthesia、Soul Machines乃至谷歌的数字人项目形成呼应。尽管目前三大分支为独立模型,但Runway明确表示,最终目标是将其融合为统一的通用世界模型。

与此同时,Runway还对其本月早些时候发布的Gen4.5视频生成模型进行了重大升级。新版支持原生音频生成、一分钟时长的多镜头视频合成,并能保持角色一致性、添加对白与环境音效。用户还可对已有视频的音频进行编辑,或对任意长度的多镜头作品进行精细化调整。这一系列能力使Runway的视频工具愈发接近竞争对手Kling近期推出的“一体化视频套件”,也标志着AI视频生成正从创意原型迈向可投入生产的工业级工具。目前,升级后的Gen4.5已向所有付费用户开放。

随着世界模型从理论走向工程落地,Runway正试图用“像素即物理”的哲学,搭建一座连接虚拟仿真与现实行动的桥梁——在这里,AI不仅会看、会说,更开始理解世界如何运转。