蚂蚁开源 LLaDA2.0，业内首个100B 参数规模的扩散语言模型

在大语言模型技术发展的新潮流中，蚂蚁技术研究院于近日正式发布了 LLaDA2.0系列，这是业内首个参数规模达到100B 的离散扩散大语言模型（dLLM）。这一创新的模型不仅打破了扩散模型难以规模化的固有印象，还在生成质量和推理速度上实现了显著的提升，为大语言模型领域开辟了新的发展方向。

蚂蚁开源 LLaDA2.0，业内首个100B 参数规模的扩散语言模型

LLaDA2.0系列包括两种版本:16B（mini）和100B(flash)。此次发布的100B 版本，是目前最大的扩散语言模型，特别适合在复杂的代码生成和指令执行任务中展现其卓越性能。蚂蚁集团表示，LLaDA2.0通过全新的 Warmup-Stable-Decay(WSD)预训练策略，实现了自回归(AR)模型知识的无缝继承，避免了从零开始训练的高昂成本。

在技术细节方面，LLaDA2.0展现出了并行解码的优势，其推理速度达到535tokens/s，比同级的 AR 模型快了2.1倍。这一速度的提升得益于模型在推理过程中的 KV Cache 复用和块级并行解码技术。此外，蚂蚁集团在后训练阶段通过互补掩码和置信度感知并行训练（CAP）进一步优化了模型的数据效率和推理速度。

LLaDA2.0在多个评测维度上表现突出，尤其是在结构化生成任务，如代码生成领域，显示出更强的全局规划能力。在复杂的智能体调用和长文本任务中，LLaDA2.0同样表现优异，展现了其在多样化应用场景中的强大适应能力。

蚂蚁集团的发布不仅标志着离散扩散技术的一个里程碑，同时也预示着扩散模型在超大规模应用场景下的可行性与优势。未来，蚂蚁集团将继续探索扩散模型的潜力，计划扩展参数规模，深入融合强化学习及思考范式，并致力于推动生成式人工智能的进步。

地址:https://huggingface.co/collections/inclusionAI/llada-20

七个圈AIGC破圈俱乐部欢迎您！

17.1万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

15.4万用户在看

中国人工智能缩小与美国差距

14.4万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

11.4万用户在看

蚂蚁开源 LLaDA2.0，业内首个100B 参数规模的扩散语言模型

最近更新

文章目录

蚂蚁开源 LLaDA2.0，业内首个100B 参数规模的扩散语言模型

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

17.1万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

15.4万 用户在看

中国人工智能缩小与美国差距

14.4万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

11.4万 用户在看

蚂蚁开源 LLaDA2.0，业内首个100B 参数规模的扩散语言模型

最近更新

文章目录

蚂蚁开源 LLaDA2.0，业内首个100B 参数规模的扩散语言模型

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

17.1万用户在看

15.4万用户在看

14.4万用户在看

11.4万用户在看