内容持续更新中
蚂蚁百灵大模型团队最近宣布开源其全新高效推理模型 ——Ring-mini-sparse-2.0-exp。该模型基于 Ling2.0架构,专为长序列解码进行了优化,采用了创新的稀疏注意力机制。 这一新架…
在人工智能领域,DeepSeek 团队于近日发布了最新研究成果,推出了一种名为 NSA(Native Sparse Attention)的创新稀疏注意力机制。这项技术的核心目标是提升长上下文训练和推理…