字节跳动、快手视频AI正面交锋：理解、捕捉和想象都有差异

字节跳动、快手，两位短视频巨头在AI领域迎来了正面交锋。

11月8日，字节跳动旗下的AI内容平台即梦AI宣布，由字节跳动自研的视频生成模型Seaweed面向平台用户正式开放。据字节跳动方面介绍，本次开放使用的豆包视频生成模型Seaweed是该款模型的标准版，仅需60秒即能生成时长5秒的高质量AI视频，领先国内业界3至5分钟的所需生成时间。

《每日经济新闻》记者在对即梦、可灵的初代版本和最新版本进行实测时发现，迭代后，两款产品在视频生成效果上均有多方面、不同程度的提升，可灵在空间布局和画面细节呈现上更为准确，且对生成内容效果的调节更具灵活性、便捷性；而即梦在生成时长和视频风格上有优势。

视觉中国

一位大模型技术人员向记者表示，视频生成模型要实现生产内容的不同“画风”是很难的，“技术之外，还主要看数据源的丰富程度”。

短期内完成多次迭代

伴随字节跳动自研视频生成模型Seaweed 开放使用，国内视频生成模型大比拼里最具看点的一对——即梦、可灵终于正式交手。

它们都承载着理解物理世界，在衍生“真实”的同时尽可能放大想象的“AI造梦计划”，但对于自身而言，即梦和可灵也都肩负字节跳动和快手又一番商业化前景开拓的重任。

事实上，即梦与可灵都在短短不到一年的时间，完成了数次迭代。即梦3月底开启视频生成功能内测，半年后，字节跳动发布了豆包模型家族的两款视频生成模型Seaweed和Pixeldance，并通过即梦AI、火山引擎小范围邀测，如今Seaweed面向平台用户正式开放。

工信部信息通信经济专家委员会委员盘和林向《每日经济新闻》记者表示，即梦使用的新模型生成速度有所提升，给用户的生成体验更好了，“即梦AI目前在国内生成领域，还是比较领先的”。

可灵在6月“出生”后一鸣惊人，发布至今经历了十余次更新，包括发布图生视频功能以及1.5模型的上线等。截至目前，可灵拥有超过360万用户，累计生成3700万个视频，并在近期正式上架独立App（应用软件）。

《每日经济新闻》记者选取了OpenAI官方公布的5条sora视频提示词（东京街头的女士、太空人、无人机视角的海岸、3d动画的小怪物、云端读书的年轻人）分别测试即梦和可灵的初代版本和最新版本，纵向对比两个视频生成模型的视频效果。

对比即梦最初版本和最新版本生产的视频效果后，记者发现，即梦有两部分更新较为明显：一个是在动态的“人事物”表现上，动作的捕捉和连贯性均有较为明显的提升；另一个是画面风格的差异化呈现也有比较大的进步。

以“东京街头的女士”为例，初代即梦塑造的人物动作僵硬，特别是在腿部、脚部动作的捕捉上，整体呈现的效果是模糊和扭曲的。迭代后的新版即梦，人物动作自然流畅，脚部动态的细节处理更清晰、更符合真实世界的逻辑。

即梦与可灵差异明显

两个模型在迭代后，生成效果都更加稳定，画质也更优，流畅度和细节处理都更经得起推敲。不过，它们在语义理解、关键词捕捉和放大，以及创意想象力和创意相关性的平衡上还是有明显区别。

横向对比，将最新版本的即梦与1.5模型可灵，对5条Sora视频提示词的呈现进行比拼。语义的理解和关键词的捕捉，让即梦和可灵的视频呈现有所不同。

在“无人机视角的海岸”视频中，即梦对提示词中“带有灯塔的小岛”进行了相对模糊化的处理，而无论是可灵还是Sora，这一画面的重点都是“小岛”。而在对“海岸公路”的描述中，即梦的设置并不符合真实世界的逻辑。

在“太空人”的视频效果上，即梦对描述中的“冒险”并未进行描述，再次生成后，手拿咖啡骑着摩托的太空人也忽视了“冒险”的设定。可灵则通过人物的表情以及运镜强调“冒险”。不过，即梦和可灵都相对忽视了“电影预告片”这一设定，对比之下Sora的“太空人”视频更有电影感。

在“3D动画的小怪物”视频生成中，即梦的小怪物设定与动画电影《怪物公司》里的角色“萨利”几乎相同。而提示词中有关小怪物的部分描述，即梦的呈现也相对不甚准确，比如“短毛”设定的执行。此外，在艺术风格的呈现上，提示词着重强调了“光照和纹理”，即梦的执行弱于可灵。

而在“东京街头的女士”视频中，即梦在多主体复杂交互的呈现上，效果相对于可灵，表现不佳。无论是对画面主体的“女士”还是空间描述上都相对准确，但对画面中的行人普遍进行了模糊处理，近景中的行人则出现扭曲变形。

不过，即梦AI官方透露，近期，Seaweed和Pixeldance两款视频生成模型的Pro版将开放使用。Pro版模型会对多主体交互以及多拍动作连贯性进行优化，同时攻克多镜头切换的一致性等难题。

在功能与体验上，经过数轮迭代后的可灵，在生成视频时，有“创意想象力和创意相关性”参数的调整，因此可以进行平衡调整。对于不希望呈现的内容，可灵也可以设置，比如模糊、拼贴、变形、动画等。生成操作更灵活，效果可调整。

经测试，即梦视频生成时间更短，Sora的5条提示词的视频生成时间，每条都不超过半分钟。而1.5模型的可灵生成10秒高质量视频则需要耗时10分钟以上。

需要注意的是，上述即梦、可灵生成的视频，均由记者测试生成，不同版本、描述的细节，都会造成视频生成效果的差异。

AI视频生成领域混战

对于字节跳动、快手这两大短视频巨头而言，ai视频生成领域的对手远不止彼此。

例如，11月8日，“AI六小龙”之一的智谱对其视频生成工具清影进行升级。升级后的清影支持任意比例的图像生成视频，并且具备多通道生成能力，同一指令或图片可以一次性生成4个视频。此外，清影可以生成与画面匹配的音效，该音效功能将在本月上线公测。

更早之前，8月31日，MiniMax发布了其首款AI高清视频生成模型技术abab-video-1，上线首月便捷报频传。据MiniMax官方公众号披露，在视频模型上线海螺AI的首月，海螺AI网页版访问量增速超800%，用户覆盖全球超180个国家和地区，产品连夺AI产品榜（web）9月全球增速榜和国内增速榜榜首。

北京市社会科学院管理研究所副研究员王鹏向《每日经济新闻》记者指出，目前国内外AI视频产品都处于快速发展阶段，国外Meta、Google等科技巨头都在积极布局AI视频领域；国内方面，快手可灵、即梦AI等产品也在不断迭代升级，提升用户体验和商业化能力。

在商业化可能性方面，东吴证券在今年8月发布的研报提到，在AI渗透率为15%的中性假设下，中国AI视频生成行业的潜在空间为3178亿元；在全ai模式下，电影、长剧、动画片和短剧的制作成本，相较传统模式将下降超95%。

庞大的潜在市场规模和降本增效的“超能力”也能从可灵的使用数据上窥见一二。

在10月举行的“2024中国计算机大会”上，快手副总裁、大模型团队负责人张迪透露，自今年6月发布以来，快手可灵AI已有超过360万用户，累计生成3700万个视频以及超过1亿张图片。

盘和林在接受《每日经济新闻》记者采访时表示，可灵背靠快手，拥有流量支持，所以商业化进程很快，“AI视频产品还是要背靠互联网平台，有流量才有商业潜力”。

相似的是，字节跳动也将视频模型的商业化放在了任务单前列。在今年9月推出两款视频生成模型时，火山引擎总裁谭待曾公开表示，新款豆包视频生成模型“从一落地就开始考虑商业化”，使用领域包括电商营销、动画教育、城市文旅和微剧本。

“AI视频将在B端和C端展现出不同的商业化潜力。”王鹏认为，面向B端，AI视频可以为企业提供更加高效、低成本的视频制作和分发解决方案；在C端，AI视频可以满足用户对个性化、高质量视频内容的需求，还能与电商、广告等行业相结合，实现更加精准的营销和变现。

中国人工智能缩小与美国差距

18.2万用户在看

七个圈AIGC破圈俱乐部欢迎您！

17.7万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

16.1万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

12万用户在看

字节跳动、快手视频AI正面交锋：理解、捕捉和想象都有差异

最近更新

文章目录

字节跳动、快手视频AI正面交锋：理解、捕捉和想象都有差异

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

中国人工智能缩小与美国差距

18.2万 用户在看

七个圈AIGC破圈俱乐部欢迎您！

17.7万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

16.1万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

12万 用户在看

字节跳动、快手视频AI正面交锋：理解、捕捉和想象都有差异

最近更新

文章目录

字节跳动、快手视频AI正面交锋：理解、捕捉和想象都有差异

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

18.2万用户在看

17.7万用户在看

16.1万用户在看

12万用户在看