⏶66
LLaDA2.1:通过 Token 编辑加速文本扩散
发表
由
yihongzhuang 提交
作者: Tiwei Bie, Maosong Cao, Xiang Cao, Bingsen Chen, Fuyuan Chen, Kun Chen, Lun Du, Daozhuo Feng, Haibo Feng, Mingliang Gong, Zhuocheng Gong, Yanmei Gu, Jian Guan,
Kaiyuan Guan, Hongliang He, Zenan Huang, Juyong Jiang, Zhonghui Jiang, Zhenzhong Lan, Chengxi Li, Jianguo Li, Zehuan Li,
Huabin Liu, Lin Liu, Guoshan Lu, Yuan Lu, Yuxin Ma, Xingyu Mou, Zhenxuan Pan, Kaida Qiu, Yuji Ren, Jianfeng Tan,
Yiding Tian, Zian Wang, Lanning Wei, Tao Wu, Yipeng Xing,
Wentao Ye, Liangyu Zha, Tianze Zhang, Xiaolu Zhang,
Junbo Zhao, Da Zheng, Hao Zhong, Wanli Zhong, Jun Zhou,
Junlin Zhou, Liwang Zhu,
Muzhi Zhu,
Yihong Zhuang
摘要
AI 生成总结
LLaDA2.1 引入了一种具有速度和质量模式的新型 token 到 token 编辑方法,并通过强化学习进行了增强,提升了大语言扩散模型的推理和指令遵循能力。虽然 LLaDA2.0 展示了 100B 级块扩散模型的扩展潜力及其固有的并行化能力,但解码速度与生成质量之间的微妙平衡仍是一个难以攻克的领域。今天,我们发布了 LLaDA2.1,这是一个旨在超越这种权衡的范式转变。通过将“标记到标记”(T2T) 编辑无缝编织到传统的“掩码到标记”(M2T) 方案中,我们引入了一种联合的、可配置的阈值解码方案。这一结构创新产生了两种截然不同的模式:极速模式 (S Mode),它大胆降低 M2T 阈值以突破传统限制,同时依靠 T2T 优化输出;质量模式 (Q Mode),它倾向于保守的阈值,以可控的效率下降换取卓越的基准测试性能。为了进一步推进这一演进,在广阔的上下文窗口支持下,我们实施了首个专门为扩散大语言模型 (dLLM) 定制的大规模强化学习 (RL) 框架,并以稳定的梯度估计专门技术为基础。这种对齐不仅提高了推理精度,还提升了指令遵循的忠实度,弥合了扩散动力学与复杂人类意图之间的鸿沟。我们以发布 LLaDA2.1-Mini (16B) 和 LLaDA2.1-Flash (100B) 作为这项工作的总结。在 33 个严格的基准测试中,LLaDA2.1 提供了强大的任务性能和极快的解码速度。尽管拥有 100B 的体量,它在代码任务上的解码速度令人震惊:HumanEval+ 达到 892 TPS,BigCodeBench 达到 801 TPS,LiveCodeBench 达到 663 TPS。
LLaDA2.1-mini:https://huggingface.co/inclusionAI/LLaDA2.1-mini
LLaDA2.1-flash:https://huggingface.co/inclusionAI/LLaDA2.1-flash