VL-Cogito:用于高级多模态推理的渐进式课程强化学习

发表
Hou Pong (Ken) ChanHou Pong (Ken) Chan 提交
作者: Ruifeng Yuan, chenghao xiaoChenghao Xiao, Sicong Leng, Jianyu Wang, llLong Li, Xu WeiwenWeiwen Xu, Hou Pong (Ken) ChanHou Pong Chan, Deli Zhao, Tingyang Xu, Zhongyu Wei, ZHANG HAOHao Zhang, Yu RongYu Rong

摘要

强化学习已被证明能有效增强大型语言模型的推理能力。近期的研究工作已将此范式逐步扩展至多模态推理任务。由于多模态任务在语义内容和问题形式上固有的复杂性和多样性,现有模型在不同领域和难度水平上常常表现出不稳定的性能。为解决这些局限,我们提出了 VL-Cogito,这是一个通过新颖的多阶段渐进式课程强化学习 (PCuRL) 框架训练的高级多模态推理模型。PCuRL 通过难度渐增的任务系统性地引导模型,从而显著提升其在各种多模态情境下的推理能力。该框架引入了两项关键创新:(1) 一种在线难度软加权机制,可在连续的强化学习训练阶段中动态调整训练难度;(2) 一种动态长度奖励机制,鼓励模型根据任务复杂度自适应地调节其推理路径长度,从而在推理效率与正确性之间取得平衡。实验评估表明,在涵盖数学、科学、逻辑和通用理解等领域的主流多模态基准测试中,VL-Cogito 的性能稳定地达到或超越了现有的面向推理的模型,验证了我们方法的有效性。
查看 arXiv 页面查看 PDF

评论

Hou Pong (Ken) ChanHou Pong (Ken) Chan
论文作者
论文提交者

我们提出VL-Cogito,一个先进的多模态推理模型,通过一种新颖的多阶段渐进式课程强化学习(PCuRL)框架进行训练。

VL_Cogito.png

范寒骁范寒骁

我有一个关于论文中公式 6 的问题:

> 这个表达式在 (L{i} = 0) 时达到最大值,但在 (L{i} = L_{{tgt}}) 时达到最小值。是不是少了一个负号?