⏶44
VL-Cogito:用于高级多模态推理的渐进式课程强化学习
发表
由
Hou Pong (Ken) Chan 提交

作者: Ruifeng Yuan,
Chenghao Xiao, Sicong Leng, Jianyu Wang,
Long Li,
Weiwen Xu,
Hou Pong Chan, Deli Zhao, Tingyang Xu, Zhongyu Wei,
Hao Zhang,
Yu Rong


摘要
强化学习已被证明能有效增强大型语言模型的推理能力。近期的研究工作已将此范式逐步扩展至多模态推理任务。由于多模态任务在语义内容和问题形式上固有的复杂性和多样性,现有模型在不同领域和难度水平上常常表现出不稳定的性能。为解决这些局限,我们提出了 VL-Cogito,这是一个通过新颖的多阶段渐进式课程强化学习 (PCuRL) 框架训练的高级多模态推理模型。PCuRL 通过难度渐增的任务系统性地引导模型,从而显著提升其在各种多模态情境下的推理能力。该框架引入了两项关键创新:(1) 一种在线难度软加权机制,可在连续的强化学习训练阶段中动态调整训练难度;(2) 一种动态长度奖励机制,鼓励模型根据任务复杂度自适应地调节其推理路径长度,从而在推理效率与正确性之间取得平衡。实验评估表明,在涵盖数学、科学、逻辑和通用理解等领域的主流多模态基准测试中,VL-Cogito 的性能稳定地达到或超越了现有的面向推理的模型,验证了我们方法的有效性。
我们提出VL-Cogito,一个先进的多模态推理模型,通过一种新颖的多阶段渐进式课程强化学习(PCuRL)框架进行训练。