⏶18
NoisyRollout:通过数据增强强化视觉推理
04月17日发表
04月18日由
Longxu Dou 提交

作者: Xiangyan Liu, Jinjie Ni, Zijian Wu, Chao Du,
Longxu Dou, Haonan Wang,
Tianyu Pang, Michael Qizhe Shieh


摘要
强化学习(RL)的最新进展增强了视觉语言模型(VLMs)的推理能力。 然而,在VLMs中,增强策略探索以更有效地扩展测试时计算仍然有待探索。 此外,VLMs在不完美的视觉感知方面仍然面临挑战,这反过来又影响了后续的推理过程。 为此,我们提出了NoisyRollout,一种简单而有效的RL方法,它混合来自清晰和适度扭曲图像的轨迹,以在视觉感知和由此产生的推理模式中引入有针对性的多样性。 在没有额外训练成本的情况下,NoisyRollout通过融入面向视觉的归纳偏置来增强VLMs的探索能力。 此外,NoisyRollout采用噪声退火策略,在训练过程中逐渐降低失真强度,确保早期从噪声信号中获益,同时在后期阶段保持训练的稳定性和可扩展性。 仅使用2.1K训练样本,NoisyRollout在跨越推理和感知任务的5个领域外基准测试中,在开源RL调优模型中实现了最先进的性能,同时保持了相当甚至更好的领域内性能。
代码: https://github.com/John-AI-Lab/NoisyRollout
模型: https://huggingface.co/collections/xyliu6/noisyrollout-67ff992d1cf251087fe021a2