国产大模型团队 Moonshot AI 今日在 Hugging Face 正式发布技术报告 《Kimi Linear Tech Report》(报告链接),宣布推出全新架构 Kimi Linear —— 一种可直接替代完全注意力机制(Full Attention)的混合线性架构,兼具高效性与卓越性能,被视为“智能体时代注意力机制的新起点”。

报告显示,Kimi Linear 在 速度、内存效率和长上下文处理能力 三方面均实现了重大突破。该模型可将 KV 缓存使用量减少高达75%,并在 100万(1M)上下文长度下实现 高达6倍的解码吞吐量提升,极大地优化了长文本推理和多轮对话性能。
Kimi Linear 的核心创新在于三项关键技术:
- Delta Attention:一种硬件高效的线性注意力机制,采用门控 Delta 规则优化结构,实现性能与能耗的平衡; 
- Linear Architecture:首个在多项指标上全面超越传统完全注意力机制的混合线性架构,兼顾速度与模型表达能力; 
- 开放生态与实证验证:Moonshot 提供了 开源 KDA 内核、vLLM 集成支持 和 模型检查点,并进行了大规模、公平的对比实验,验证了 Kimi Linear 的稳定性与可扩展性。 
Moonshot AI 表示,Kimi Linear 不仅是一项架构创新,更是为智能体(AI Agent)时代设计的基础机制。随着线性注意力技术的成熟,其有望在长上下文推理、智能助手、多模态生成等应用场景中成为下一代标准。
地址:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
.png)
 
  
  
  
 
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则