长期以来,大模型领域的华山论剑一直由谷歌、OpenAI 及 Anthropic 等实验室把持。然而,上周视频会议巨头 Zoom 投下了一枚震撼弹:其人工智能系统在被誉为“人类最后的考试”(Humanity's Last Exam, HLE)的顶级基准测试中,以 48.1% 的成绩刷新了世界纪录,超越了此前由谷歌 Gemini3Pro 保持的45.8%。

视频会议巨头“跨界”登顶,Zoom 凭借联邦 AI 刷新全球最难 AI 考试纪录

不练模型练“兵法”:联邦式 AI 路径

面对“一家非底层模型厂商如何反超模型巨头”的质疑,Zoom 首席技术官、前微软 AI 大将黄学东(Xuedong Huang)给出了截然不同的答案。Zoom 并非通过烧钱训练自己的万亿参数大模型,而是开发了一套精密的“联邦式人工智能方法”:

  • Z 评分器(Z-Scorer): 系统的核心大脑,负责实时评估来自 OpenAI、Google 和 Anthropic 等多个模型的响应,挑选出针对特定任务的最优解。

  • 探索-验证-联合策略: 这是一套智能体(Agent)工作流,通过让多个人工智能系统进行“辩证协作”,互相挑战并完善推理结果。

  • 流量控制器: 简单来说,Zoom 构建了一个极其聪明的人工智能“调度中心”,通过集成而非自研,实现了“超越任何单一模型极限”的性能表现。

争议旋涡:是真创新还是“偷家”?

这一成绩在开发者社区引发了巨大的分歧。以工程师 Max Rumpf 为代表的批评者认为,Zoom 只是通过 API “套壳”了别人的成果,在对实际用户意义有限的基准测试中刷分,这种“剽窃他人劳动果实”的行为并无实质技术贡献。

然而,另一派观察家如开发者朱宏成则认为,在 AI 评估中胜出必然需要“模型联邦”。这好比数据竞赛平台 Kaggle 的获胜者总是依赖模型集成,而非单打独斗。这种策略在商业上极其聪明:它避免了昂贵的算力投入,同时让 Zoom 能在不同供应商之间灵活切换,彻底摆脱了供应商锁定。

从排行榜到产品:AI Companion3.0的实战考验

黄学东将这一成就视为对 Zoom 战略的验证。对于 Zoom 的3亿用户而言,更有意义的较量将在即将上线的 AI Companion3.0 中展开。虽然48.1% 在 HLE 这种涉及高等数学与哲学的考试中代表了机器智能的前沿,但用户更在乎的是:当数亿人开始使用它总结会议、提取行动项时,这套“联邦大脑”能否真的比单一模型更省时、更准确。