⏶56
革新扩散大语言模型的强化学习框架
发表
由
Ling Yang 提交

作者: Yinjie Wang,
Ling Yang, Bowen Li,
Ye Tian, Ke Shen, Mengdi Wang


摘要
AI 生成总结
TraceRL 通过轨迹感知强化学习增强了扩散语言模型,提高了复杂任务上的推理性能并实现了灵活采样。我们提出了TraceRL,一个面向扩散语言模型(DLM)的轨迹感知强化学习框架,该框架将首选的推理轨迹纳入训练后阶段,并适用于不同的架构。通过配备一个能够提高训练稳定性的基于扩散的值模型,我们在复杂的数学和编码任务上展示了改进的推理性能。此外,它还可以应用于将块特定模型适配到更大的块,从而提高采样灵活性。利用TraceRL,我们开发了一系列最先进的扩散语言模型,即TraDo。尽管TraDo-4B-Instruct的规模小于7B的AR模型,但它在复杂的数学推理任务上始终优于它们。在数学推理基准测试中,TraDo-8B-Instruct的相对准确性比Qwen2.5-7B-Instruct提高了6.1%,比Llama3.1-8B-Instruct提高了51.3%。通过课程学习,我们还开发了第一个长CoT DLM,在MATH500上以18.1%的相对准确性提升超越了Qwen2.5-7B-Instruct。为了促进可复现的研究和实际应用,我们发布了一个全面的开源框架,用于跨不同架构构建、训练和部署扩散LLM。该框架集成了用于推理和强化学习的加速KV缓存技术和推理引擎,并实现了用于数学、编码和通用任务的各种监督微调和RL方法。代码和模型:https://github.com/Gen-Verse/dLLM-RL
代码和模型:https://github.com/Gen-Verse/dLLM-RL