SRPO:通过反思感知强化学习增强多模态大语言模型推理

发表
liuliu 提交
作者: Zhongwei Wan, Zhihao Dou, liuChe Liu, Yu Zhang, Dongfei CuiDongfei Cui, Qinjian Zhao, Hui Shen, Jing Xiong, Yi Xin, Yifan JiangYifan Jiang, Yangfan He, Mi Zhang, Shen Yan

摘要

多模态大语言模型(MLLM)在推理任务中展现出前景广阔的能力,但与单模态文本模型相比,它们在需要显式自我反思和自我纠正的复杂问题上仍面临挑战。现有的反思方法过于简单,难以生成有意义和指导性的反馈,因为预训练模型的推理能力和知识限制在初始训练阶段基本固定。为克服这些挑战,我们提出采用组相对策略优化(SRPO)的多模态自反思增强推理,这是一个两阶段的反思感知强化学习(RL)框架,专门设计用于增强多模态大语言模型(LLM)的推理能力。在第一阶段,我们在先进的多模态大语言模型(MLLM)指导下构建了一个高质量、侧重反思的数据集,该数据集根据初始响应生成反思,以帮助策略模型学习推理和自我反思。在第二阶段,我们在GRPO框架内引入了一种新颖的奖励机制,鼓励简洁且具有认知意义的反思,同时避免冗余。使用Qwen-2.5-VL-7B和Qwen-2.5-VL-32B模型,在MathVista、MathVision、MathVerse和MMMU-Pro等多个多模态推理基准上进行了大量实验,结果表明SRPO显著优于现有最先进模型,在推理准确性和反思质量方面均取得了显著提升。
查看 arXiv 页面查看 PDF

评论

liuliu
论文作者
论文提交者

多模态大型语言模型(MLLM)在推理任务中展现出巨大潜力,但与单模态文本模型相比,它们在需要明确自我反思和自我纠正的复杂问题上仍然力有不逮。现有的反思方法过于简单,难以生成有意义且具指导性的反馈,因为预训练模型的推理能力和知识限制在初始训练阶段基本固定。为了克服这些挑战,我们提出了多模态自我反思增强推理与群相对策略优化(SRPO),这是一个专门为增强多模态LLM推理能力而设计的两阶段反思感知强化学习(RL)框架。在第一阶段,我们在先进MLLM的指导下构建了一个高质量的、以反思为中心的数据集,该数据集根据初始响应生成反思,以帮助策略模型学习推理和自我反思。在第二阶段,我们在GRPO框架内引入了一种新颖的奖励机制,该机制鼓励简洁且具有认知意义的反思,同时避免冗余。在包括MathVista、MathVision、MathVerse和MMMU-Pro在内的多个多模态推理基准上,使用Qwen-2.5-VL-7B和Qwen-2.5-VL-32B进行的广泛实验表明,SRPO显著优于最先进的模型,在推理准确性和反思质量方面均取得了显著改进。