⏶56

革新扩散大语言模型的强化学习框架

09月08日发表

09月09日由 Ling Yang 提交

作者: Yinjie Wang, Ling Yang, Bowen Li, tyfeld Ye Tian, Ke Shen, Mengdi Wang

摘要

AI 生成总结

TraceRL 通过轨迹感知强化学习增强了扩散语言模型，提高了复杂任务上的推理性能并实现了灵活采样。

我们提出了TraceRL，一个面向扩散语言模型（DLM）的轨迹感知强化学习框架，该框架将首选的推理轨迹纳入训练后阶段，并适用于不同的架构。通过配备一个能够提高训练稳定性的基于扩散的值模型，我们在复杂的数学和编码任务上展示了改进的推理性能。此外，它还可以应用于将块特定模型适配到更大的块，从而提高采样灵活性。利用TraceRL，我们开发了一系列最先进的扩散语言模型，即TraDo。尽管TraDo-4B-Instruct的规模小于7B的AR模型，但它在复杂的数学推理任务上始终优于它们。在数学推理基准测试中，TraDo-8B-Instruct的相对准确性比Qwen2.5-7B-Instruct提高了6.1%，比Llama3.1-8B-Instruct提高了51.3%。通过课程学习，我们还开发了第一个长CoT DLM，在MATH500上以18.1%的相对准确性提升超越了Qwen2.5-7B-Instruct。为了促进可复现的研究和实际应用，我们发布了一个全面的开源框架，用于跨不同架构构建、训练和部署扩散LLM。该框架集成了用于推理和强化学习的加速KV缓存技术和推理引擎，并实现了用于数学、编码和通用任务的各种监督微调和RL方法。代码和模型：https://github.com/Gen-Verse/dLLM-RL

查看 arXiv 页面查看 PDF

Ling Yang

论文作者

论文提交者

代码和模型：https://github.com/Gen-Verse/dLLM-RL

liu

Rafael Coelho de Souza Krzonkalla

哦，arxiv 页面似乎坏了。它显示：

“文件 2509.06949 不可用

未提供 HTML 或源文件来生成 HTML 或 PDF。”

Ling Yang

论文作者

论文提交者

请等待 arxiv 更新（一小时内），谢谢

革新扩散大语言模型的强化学习框架

摘要

评论