挑战主流认知 校企联合发布业界首个原生MoE扩散语言模型
2025-09-12 18:53
9月11日,在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”。该模型将于近期完全开源,以推动全球AI社区在dLLM上的技术发展。
据悉,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。
实现数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型Qwen2.5-3B-Instruct,仅激活 1.4B参数即可实现等效3B稠密模型的性能。
“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,意味着我们在把dLLM训练扩展到更大规模的路上又往前走了一步。” 蚂蚁集团通用人工智能研究中心主任蓝振忠在发布现场介绍。
中国人民大学高瓴人工智能学院副教授李崇轩表示,两年过去,AI大模型能力突飞猛进,但存在的一些问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个token。这导致它们难以捕捉tokens之间的双向依赖关系。
面对这些问题,一些研究者选择另辟蹊径,将目光投向并行解码的扩散语言模型。然而,现有dLLM均基于稠密架构,难以复刻ARM中MoE的“参数扩展、计算高效”优势。在这样的背景下,蚂蚁和人大联合研究团队,首次在MoE架构上推出了原生的扩散语言模型LLaDA-MoE。
据了解,蚂蚁与人大团队攻关3个月,在LLaDA-1.0基础上重写训练代码,并且基于蚂蚁自研分布式框架ATorch提供EP并行等一系列并行加速技术;基于蚂蚁Ling2.0基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破。最终,采用7B-A1B(总7B、激活1.4B)的MOE架构完成约20T数据的高效训练。
在蚂蚁自研的统一评测框架下,LLaDA-MoE在HumanEval、MBPP等17项基准上平均提升 8.4%,领先LLaDA-1.5达到13.2%。实验再次验证“MoE 放大器”定律在dLLM领域同样成立,为后续10B–100B稀疏模型提供了可行路径。
“我们将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动 AGI 新一轮突破。” 蓝振忠透露,相关代码与技术报告将于近期在GitHub及Hugging Face社区同步发布。
(受访者供图)
凡注明来源重庆日报的作品,版权均属重庆日报所有,未经授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:重庆日报网”。违反上述声明者,本网将追究其相关法律责任。
除来源署名为重庆日报稿件外,其他所转载内容之原创性、真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考并自行核实。