⏶18

NoisyRollout：通过数据增强强化视觉推理

04月17日发表

04月18日由 Longxu Dou 提交

作者: Xiangyan Liu, Jinjie Ni, Zijian Wu, Chao Du, Longxu Dou, Haonan Wang, Tianyu Pang, Michael Qizhe Shieh

摘要

强化学习（RL）的最新进展增强了视觉语言模型（VLMs）的推理能力。然而，在VLMs中，增强策略探索以更有效地扩展测试时计算仍然有待探索。此外，VLMs在不完美的视觉感知方面仍然面临挑战，这反过来又影响了后续的推理过程。为此，我们提出了NoisyRollout，一种简单而有效的RL方法，它混合来自清晰和适度扭曲图像的轨迹，以在视觉感知和由此产生的推理模式中引入有针对性的多样性。在没有额外训练成本的情况下，NoisyRollout通过融入面向视觉的归纳偏置来增强VLMs的探索能力。此外，NoisyRollout采用噪声退火策略，在训练过程中逐渐降低失真强度，确保早期从噪声信号中获益，同时在后期阶段保持训练的稳定性和可扩展性。仅使用2.1K训练样本，NoisyRollout在跨越推理和感知任务的5个领域外基准测试中，在开源RL调优模型中实现了最先进的性能，同时保持了相当甚至更好的领域内性能。

查看 arXiv 页面查看 PDF

Longxu Dou

论文作者

论文提交者

代码: https://github.com/John-AI-Lab/NoisyRollout

模型: https://huggingface.co/collections/xyliu6/noisyrollout-67ff992d1cf251087fe021a2

NoisyRollout：通过数据增强强化视觉推理

摘要

评论