用于扩散大语言模型的图像修复引导策略优化

发表
siyan zhaosiyan zhao 提交
作者: siyan zhaoSiyan Zhao, Mengchen Liu, Jing Huang, Miao Liu, Chenyu Wang, Bo Liu, Yuandong Tian, Guan Pang, Sean Bell, Aditya Grover, Feiyu ChenFeiyu Chen

摘要

AI 生成总结
IGPO 是一个利用掩码扩散大型语言模型中修复技术的强化学习 (RL) 框架,它提高了样本效率,并在数学基准测试中取得了最先进的结果。
掩码扩散大型语言模型(dLLM)正作为自回归大型语言模型的有前景的替代方案崭露头角,它们在提供具有竞争力的性能的同时,还支持了独有的生成能力,如图像修复。我们探讨了图像修复如何为 dLLM 的强化学习算法设计提供启发。将 LLM 与强化学习对齐面临一个探索挑战:当模型未能发现正确解决方案时,稀疏的奖励信号和样本浪费。虽然这种低效率普遍影响 LLM,但 dLLM 提供了一个独特的机会——它们的图像修复能力可以指导探索。我们提出了 IGPO(Inpainting Guided Policy Optimization,图像修复引导策略优化),一个强化学习框架,该框架在在线采样过程中策略性地插入部分真实推理轨迹。与提供完整解决方案不同,图像修复将探索引导至有希望的轨迹空间,同时保留自生成的推理,从而弥合了监督微调和强化学习之间的差距。我们将 IGPO 应用于基于分组的优化方法,如 GRPO,其中探索失败会导致零优势和梯度。IGPO 在提高样本效率的同时恢复了有意义的梯度。我们还提出了对与 dLLM 生成模式更好地对齐的、经过语法改写的简洁轨迹进行监督微调。通过包括基于熵的过滤在内的附加技术,我们的训练方案在三个数学基准——GSM8K、Math500 和 AMC——上取得了显著的提升,为全注意力掩码 dLLM 实现了新的最先进水平。
查看 arXiv 页面查看 PDF

评论

siyan zhaosiyan zhao
论文作者
论文提交者

Screenshot 2025-09-14 at 9.43.27 PM.png