MoDoMoDo: 用于多模态大模型强化学习的多领域数据混合

发表
Yiqing LiangYiqing Liang 提交
作者: Yiqing LiangYiqing Liang, Jielin Qiu, Wenhao Ding, Zuxin Liu, James Tompkin, Mengdi Xu, Mengzhou Xia, Zhengzhong TuZhengzhong Tu, Laixi Shi, Jiacheng Zhu

摘要

带有可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)最近已成为一种强大的范式,用于对大型语言模型(LLMs)进行后期训练,在具有结构化、可验证答案的任务上取得了最先进的性能。将 RLVR 应用于多模态大型语言模型(MLLMs)带来了巨大的机会,但由于视觉-语言任务更广泛、异构的性质(需要精细的视觉、逻辑和空间能力),这变得复杂。因此,使用 RLVR 在多个数据集上训练 MLLMs 可能是有益的,但由于不同数据集之间的交互导致目标冲突,带来了挑战,这凸显了优化数据集混合策略以提高泛化和推理能力的需求。我们引入了一个系统性的多模态 LLM RLVR 后期训练框架,其特点是严格的数据混合问题公式和基准实现。具体而言,(1) 我们开发了一个用于多数据集后期训练的多模态 RLVR 框架,通过整理一个包含不同可验证视觉-语言问题的数据集,并实现具有不同可验证奖励的多领域在线强化学习;(2) 我们提出了一种数据混合策略,该策略学习从数据混合分布中预测强化学习微调结果,从而优化出最佳混合。全面实验表明,多领域 RLVR 训练与混合预测策略相结合,可以显著提升 MLLM 的通用推理能力。我们最佳的混合策略将后期训练模型在分布外基准上的准确性平均提高了 5.24%(与使用均匀数据混合策略进行后期训练的相同模型相比),与微调前的基线相比总共提高了 20.74%。
查看 arXiv 页面查看 PDF

评论

Yiqing LiangYiqing Liang
论文作者
论文提交者

MoDoMoDo:用于多模态大语言模型强化学习的多领域数据混合

Yiqing LiangYiqing Liang
论文作者
论文提交者

感谢 @librarian-bot 的推荐!