快手近日将其视频生成器Kling升级至2.6版本,推出语音控制和动作控制两大核心功能,为AI视频生成领域带来突破性进展。此次更新不仅实现了原生音频生成,还大幅提升了复杂动作的处理精度。

语音控制:从音效到个性化声音定制
Kling2.6的语音控制功能建立在同步视频音频生成技术基础上,与Google Veo3和Sora2类似,能够生成与视频内容匹配的音效、人声和音乐。该功能支持说话、对话、旁白、歌唱和说唱等多种人声类型,并能处理环境噪音和复合场景音效。
更引人注目的是,用户现在可以上传自己的声音训练模型,或直接上传音频文件应用于文本转视频创作。这一突破性功能显著提高了角色一致性——生成视频中的角色能够使用明确、可识别的声音说话,使跨多个视频片段创建一致角色成为可能。
Kling AI展示的应用场景涵盖产品演示、生活方式视频博客、新闻广播、体育评论、纪录片、访谈节目、戏剧短片和音乐表演,甚至包括复调合唱等复杂形式。
动作控制升级:精准捕捉复杂全身动作
第二项重大更新聚焦于动作控制系统的全面升级。据Kling AI介绍,系统现在能够更精细地捕捉全身动作,即便是武术或舞蹈等快速复杂的动作也能准确处理。
该公司特别强调了两个传统AI视频难点的改进:手部动作现在显得精准无模糊,面部表情和唇形同步也保持自然。用户可上传3至30秒的动作参考片段创建连贯序列,场景细节还可通过文本提示调整。
社交媒体上已涌现大量令人印象深刻的应用案例,显示AI生成视频内容正持续增长,创作者正充分利用这一商机,同时也催生了许多富有创意的作品。

价格优势与市场布局
Kling2.6除在自有平台提供服务外,还可通过Fal.ai、Artlist和Media.io等第三方平台使用。API定价约为每秒生成视频0.07至0.14美元,价格根据生成速度、时长和分辨率浮动,在市场上极具竞争力。KlingAI本身采用积分制计费。
12月初,快手还发布了Video O1——号称"全球首款统一多模态视频模型",可通过文字指令编辑现有视频,实现更改主角、天气或视频风格等功能。
凭借这些创新功能,快手在竞争激烈的AI视频市场中与Google、OpenAI、Runway等西方公司,以及海罗、世达、维都等中国竞争对手展开角逐。值得注意的是,快手运营着与TikTok规模相当的全球最大短视频平台之一快手(Kwai),这使其能够获取海量音视频和运动数据,为训练视频模型、实现声音同步和动作逼真提供了独特优势。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则