快手近日将其视频生成器Kling升级至2.6版本,推出语音控制和动作控制两大核心功能,为AI视频生成领域带来突破性进展。此次更新不仅实现了原生音频生成,还大幅提升了复杂动作的处理精度。

告别僵硬AI视频!快手Kling2.6让你的声音"活"在AI角色里,复杂舞蹈动作也能完美复刻

语音控制:从音效到个性化声音定制

Kling2.6的语音控制功能建立在同步视频音频生成技术基础上,与Google Veo3和Sora2类似,能够生成与视频内容匹配的音效、人声和音乐。该功能支持说话、对话、旁白、歌唱和说唱等多种人声类型,并能处理环境噪音和复合场景音效。

更引人注目的是,用户现在可以上传自己的声音训练模型,或直接上传音频文件应用于文本转视频创作。这一突破性功能显著提高了角色一致性——生成视频中的角色能够使用明确、可识别的声音说话,使跨多个视频片段创建一致角色成为可能。

Kling AI展示的应用场景涵盖产品演示、生活方式视频博客、新闻广播、体育评论、纪录片、访谈节目、戏剧短片和音乐表演,甚至包括复调合唱等复杂形式。

动作控制升级:精准捕捉复杂全身动作

第二项重大更新聚焦于动作控制系统的全面升级。据Kling AI介绍,系统现在能够更精细地捕捉全身动作,即便是武术或舞蹈等快速复杂的动作也能准确处理。

该公司特别强调了两个传统AI视频难点的改进:手部动作现在显得精准无模糊,面部表情和唇形同步也保持自然。用户可上传3至30秒的动作参考片段创建连贯序列,场景细节还可通过文本提示调整。

社交媒体上已涌现大量令人印象深刻的应用案例,显示AI生成视频内容正持续增长,创作者正充分利用这一商机,同时也催生了许多富有创意的作品。

告别僵硬AI视频!快手Kling2.6让你的声音"活"在AI角色里,复杂舞蹈动作也能完美复刻

价格优势与市场布局

Kling2.6除在自有平台提供服务外,还可通过Fal.ai、Artlist和Media.io等第三方平台使用。API定价约为每秒生成视频0.07至0.14美元,价格根据生成速度、时长和分辨率浮动,在市场上极具竞争力。KlingAI本身采用积分制计费。

12月初,快手还发布了Video O1——号称"全球首款统一多模态视频模型",可通过文字指令编辑现有视频,实现更改主角、天气或视频风格等功能。

凭借这些创新功能,快手在竞争激烈的AI视频市场中与Google、OpenAI、Runway等西方公司,以及海罗、世达、维都等中国竞争对手展开角逐。值得注意的是,快手运营着与TikTok规模相当的全球最大短视频平台之一快手(Kwai),这使其能够获取海量音视频和运动数据,为训练视频模型、实现声音同步和动作逼真提供了独特优势。