传统 MoE(混合专家)架构通过增加专家数量提升模型能力,却常受困于边际收益递减与高昂的通信开销。今日,美团 LongCat 团队发布了全新模型 LongCat-Flash-Lite,通过“嵌入扩展(Embedding Expansion)”这一新范式,成功打破了效能瓶颈。

美团 LongCat-Flash-Lite 震撼发布:45 亿激活参数性能比肩巨量模型

核心突破:嵌入扩展优于专家扩展

LongCat 团队的研究表明,在特定条件下,扩展嵌入层相比单纯增加专家数量能获得更优的帕累托前沿。基于此,LongCat-Flash-Lite 拥有 685亿总参数,但由于采用了 N-gram 嵌入层,每次推理仅需激活 29亿至45亿参数。其中,超过300亿参数被高效分配至嵌入层,利用 N-gram 捕获局部语义,精准锁定如“编程命令”等细分场景,显著提升了理解精度。

美团 LongCat-Flash-Lite 震撼发布:45 亿激活参数性能比肩巨量模型

垂直优化:从架构到系统的全链路进化

为了将理论上的稀疏优势转化为实际性能,美团在系统层面实施了三重优化:

  1. 参数智能分配:嵌入层参数占比达46%,利用 O(1) 的查找复杂度避免了计算量随参数扩容而线性增长。

  2. 专用缓存与内核融合:设计了类似 KV Cache 的 N-gram Cache 机制,并定制 CUDA 内核(如 AllReduce+RMSNorm 融合),大幅降低 I/O 延迟。

  3. 推测解码协同:通过3步投机推理扩大批次大小,配合常规嵌入层的草案模型,进一步压缩延迟。

在典型负载下(输入4K,输出1K),该模型 API 可提供 500-700token/s 的极速生成速度,支持最长 256K 上下文。

性能表现:智能体与代码领跑

在多项权威基准测试中,LongCat-Flash-Lite 展现出跨级别的竞争力:

  • 智能体任务:在 $\\tau^2$-Bench 的电信、零售、航空三大场景中均获最高分。

  • 代码能力:SWE-Bench 准确率达 54.4%,在 TerminalBench(终端命令执行)中以33.75分远超同类模型。

  • 通用素质:MMLU 得分 85.52,与 Gemini2.5Flash-Lite 旗鼓相当;数学竞赛级 AIME24表现稳健。

目前,美团已全面开源模型权重、技术报告及配套推理引擎SGLang-FluentLLM。开发者可通过LongCat API 开放平台申请试用,每日享有5000万 tokens 的免费额度。