蚂蚁集团近日宣布,开源了其最新研发的旗舰大模型 ——Ling-1T,该模型拥有高达万亿个参数,是目前已知使用 FP8低精度模式训练的最大基座模型。Ling-1T 由蚂蚁内部的 “百灵” 团队开发,标志着人工智能技术的又一次突破。

蚂蚁集团发布万亿参数模型 Ling-1T,超越 GPT-5 成新标杆

根据团队的介绍,Ling-1T 隶属于 Ling2.0模型家族,该家族分为三大系列:Ling 系列、Ring 系列和 Ming 系列。Ling 系列专注于处理通用任务,以速度和效率为核心,而 Ring 系列则关注深度思考和复杂推理,Ming 系列则是多模态模型,能够处理更为丰富的信息类型。

Ling-1T 拥有1万亿参数,但在处理每个 token 时,实际激活的参数只有约500亿,极大地降低了运算成本。为了支撑如此庞大的模型,蚂蚁团队提出了 “Ling 缩放定律”,经过300多个模型的实验,总结出计算效率与专家激活比例之间的关系。此外,他们研发了名为 WSM 的学习率调度器,能在训练过程中自动调整学习策略,以确保模型稳定高效地训练。

Ling-1T 的训练过程分为三个阶段:预训练、中训练和后训练。在预训练阶段,模型接触了超过20万亿个 token 的数据,其中包含大量推理密集型语料。中训练阶段则专注于强化模型的推理能力,后训练阶段则通过 “演进式思维链” 技术进行自我迭代,提升推理精度。

在与其他主流模型的对比中,Ling-1T 在多个测试中表现出色,尤其是在数学推理和代码生成能力上,展现了其卓越的性能。社区测试中,Ling-1T 也在复杂任务中表现亮眼,如成功模拟物理现象和宇宙演化等。

尽管 Ling-1T 展现了强大的能力,仍存在一些局限性,比如在处理超长上下文时的成本较高。蚂蚁团队已表示,正在研究新的混合注意力架构以解决这一问题。

开源地址:  

HuggingFace:https://huggingface.co/inclusionAI/Ling-1T  

GitHub:https://github.com/inclusionAI/Ling-V2  

划重点:  

🔍 Ling-1T 是目前已知最大的万亿参数模型,使用 FP8低精度模式训练。  

🚀 该模型在数学推理和代码生成方面超越了多个主流模型,展现出色性能。  

⚙️ 蚂蚁团队正在研究新架构以解决 Ling-1T 在超长上下文处理上的成本问题。