革新扩散大语言模型的强化学习框架

发表
Ling YangLing Yang 提交
作者: Yinjie Wang, Ling YangLing Yang, Bowen Li, tyfeldYe Tian, Ke Shen, Mengdi Wang

摘要

AI 生成总结
TraceRL 通过轨迹感知强化学习增强了扩散语言模型,提高了复杂任务上的推理性能并实现了灵活采样。
我们提出了TraceRL,一个面向扩散语言模型(DLM)的轨迹感知强化学习框架,该框架将首选的推理轨迹纳入训练后阶段,并适用于不同的架构。通过配备一个能够提高训练稳定性的基于扩散的值模型,我们在复杂的数学和编码任务上展示了改进的推理性能。此外,它还可以应用于将块特定模型适配到更大的块,从而提高采样灵活性。利用TraceRL,我们开发了一系列最先进的扩散语言模型,即TraDo。尽管TraDo-4B-Instruct的规模小于7B的AR模型,但它在复杂的数学推理任务上始终优于它们。在数学推理基准测试中,TraDo-8B-Instruct的相对准确性比Qwen2.5-7B-Instruct提高了6.1%,比Llama3.1-8B-Instruct提高了51.3%。通过课程学习,我们还开发了第一个长CoT DLM,在MATH500上以18.1%的相对准确性提升超越了Qwen2.5-7B-Instruct。为了促进可复现的研究和实际应用,我们发布了一个全面的开源框架,用于跨不同架构构建、训练和部署扩散LLM。该框架集成了用于推理和强化学习的加速KV缓存技术和推理引擎,并实现了用于数学、编码和通用任务的各种监督微调和RL方法。代码和模型:https://github.com/Gen-Verse/dLLM-RL
查看 arXiv 页面查看 PDF

评论

Ling YangLing Yang
论文作者
论文提交者

代码和模型:https://github.com/Gen-Verse/dLLM-RL

liuliu

image.png

Rafael Coelho de Souza KrzonkallaRafael Coelho de Souza Krzonkalla

哦,arxiv 页面似乎坏了。它显示:

“文件 2509.06949 不可用

未提供 HTML 或源文件来生成 HTML 或 PDF。”

Ling YangLing Yang
论文作者
论文提交者

请等待 arxiv 更新(一小时内),谢谢