NoisyRollout:通过数据增强强化视觉推理

04月17日发表
04月18日由 Longxu DouLongxu Dou 提交
作者: Xiangyan Liu, Jinjie Ni, Zijian Wu, Chao Du, Longxu DouLongxu Dou, Haonan Wang, Tianyu PangTianyu Pang, Michael Qizhe Shieh

摘要

强化学习(RL)的最新进展增强了视觉语言模型(VLMs)的推理能力。 然而,在VLMs中,增强策略探索以更有效地扩展测试时计算仍然有待探索。 此外,VLMs在不完美的视觉感知方面仍然面临挑战,这反过来又影响了后续的推理过程。 为此,我们提出了NoisyRollout,一种简单而有效的RL方法,它混合来自清晰和适度扭曲图像的轨迹,以在视觉感知和由此产生的推理模式中引入有针对性的多样性。 在没有额外训练成本的情况下,NoisyRollout通过融入面向视觉的归纳偏置来增强VLMs的探索能力。 此外,NoisyRollout采用噪声退火策略,在训练过程中逐渐降低失真强度,确保早期从噪声信号中获益,同时在后期阶段保持训练的稳定性和可扩展性。 仅使用2.1K训练样本,NoisyRollout在跨越推理和感知任务的5个领域外基准测试中,在开源RL调优模型中实现了最先进的性能,同时保持了相当甚至更好的领域内性能。
查看 arXiv 页面查看 PDF

评论