⏶15
用于扩散大语言模型的图像修复引导策略优化
发表
由
siyan zhao 提交

作者:
Siyan Zhao, Mengchen Liu, Jing Huang, Miao Liu, Chenyu Wang, Bo Liu, Yuandong Tian, Guan Pang, Sean Bell, Aditya Grover,
Feiyu Chen

摘要
AI 生成总结
IGPO 是一个利用掩码扩散大型语言模型中修复技术的强化学习 (RL) 框架,它提高了样本效率,并在数学基准测试中取得了最先进的结果。掩码扩散大型语言模型(dLLM)正作为自回归大型语言模型的有前景的替代方案崭露头角,它们在提供具有竞争力的性能的同时,还支持了独有的生成能力,如图像修复。我们探讨了图像修复如何为 dLLM 的强化学习算法设计提供启发。将 LLM 与强化学习对齐面临一个探索挑战:当模型未能发现正确解决方案时,稀疏的奖励信号和样本浪费。虽然这种低效率普遍影响 LLM,但 dLLM 提供了一个独特的机会——它们的图像修复能力可以指导探索。我们提出了 IGPO(Inpainting Guided Policy Optimization,图像修复引导策略优化),一个强化学习框架,该框架在在线采样过程中策略性地插入部分真实推理轨迹。与提供完整解决方案不同,图像修复将探索引导至有希望的轨迹空间,同时保留自生成的推理,从而弥合了监督微调和强化学习之间的差距。我们将 IGPO 应用于基于分组的优化方法,如 GRPO,其中探索失败会导致零优势和梯度。IGPO 在提高样本效率的同时恢复了有意义的梯度。我们还提出了对与 dLLM 生成模式更好地对齐的、经过语法改写的简洁轨迹进行监督微调。通过包括基于熵的过滤在内的附加技术,我们的训练方案在三个数学基准——GSM8K、Math500 和 AMC——上取得了显著的提升,为全注意力掩码 dLLM 实现了新的最先进水平。
评论

论文作者
论文提交者