快手近日正式发布其新一代旗舰多模态模型 Keye-VL-671B-A37B,并同步开放代码。这一模型以其 “善看会想” 的特性,在通用视觉理解、视频分析和数学推理等多项核心 benchmark 中表现突出,进一步巩固了快手在人工智能领域的技术实力。
Keye-VL-671B-A37B 的设计理念在于实现更高层次的多模态理解和复杂推理。该模型在基础模型的强大通用能力之上,针对视觉感知、跨模态对齐及复杂推理链路进行了系统升级,从而提升了其在各种场景下的响应准确性和稳定性。这意味着,无论是日常应用还是高难度任务,Keye-VL-671B-A37B 都能提供更为精准的结果。

在技术架构方面,Keye-VL-671B-A37B 采用 DeepSeek-V3-Terminus 作为大语言模型基座,并通过 MLP 层与视觉模型 KeyeViT 相连接,后者则是基于 Keye-VL-1.5进行初始化。模型的预训练过程分为三个阶段,以系统性地构建其多模态理解与推理能力。通过严格筛选的300B 高质量预训练数据,Keye-VL-671B-A37B 在确保视觉理解能力扎实的同时,控制了计算成本。
具体训练流程包括冻结视觉与语言模型参数,进行初步对齐训练,接着开放全部参数进行全面预训练,最后在更高质量的数据上进行退火训练,显著提升模型的细粒度感知能力。此外,模型的后训练过程涵盖监督微调、冷启动和强化学习等步骤,训练任务涵盖视觉问答、图表理解、富文本 OCR 等领域。
快手表示,未来 Keye-VL 将持续提升基础模型能力,同时进一步融合多模态 Agent 能力,向更 “会用工具、能解复杂问题” 的智能形态发展。模型的多轮工具调用能力将被强化,使其在实际任务中能够自主调用外部工具,完成复杂的搜索、推理和信息整合。此外,Keye-VL 还将在 “think with image” 和 “think with video” 等关键方向上深入探索,使模型不仅能理解图像与视频,还能围绕这些内容进行深度思考与链式推理。
通过基础能力与 Agent 能力的双轮驱动,快手的 Keye-VL 目标是不断拓展多模态智能的上限,迈向更通用、更可靠和更强推理能力的下一代多模态系统。这一创新将为多模态 AI 的发展带来新的机遇与挑战。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则