⏶42
感知感知的多模态推理策略优化
发表
由
Zhenhailong Wang 提交
作者: Zhenhailong Wang, Xuehang Guo, Sofia Stoica,
Haiyang Xu, Hongru Wang, Hyeonjeong Ha, Xiusi Chen, Yangyi Chen, Ming Yan, Fei Huang, Heng Ji
摘要
可验证奖励强化学习 (RLVR) 已被证明是赋予大型语言模型 (LLM) 强大多步推理能力的高效策略。然而,其设计和优化仍然专门针对纯文本领域,导致应用于多模态推理任务时性能不佳。特别是,我们观察到当前多模态推理中的主要误差来源在于视觉输入的感知。为了解决这一瓶颈,我们提出了感知感知策略优化 (PAPO),它是 GRPO 的一个简单但有效的扩展,它鼓励模型在学习推理的同时学习感知,完全基于内部监督信号。值得注意的是,PAPO 不依赖于额外的数据整理、外部奖励模型或专有模型。具体来说,我们将隐式感知损失以 KL 散度项的形式引入到 GRPO 目标中,尽管其简单,但在各种多模态基准测试上带来了显著的整体改进 (4.4%)。在视觉依赖度高的任务上,改进更为显著,接近 8.0%。我们还观察到感知错误显著减少 (30.5%),表明 PAPO 提升了感知能力。我们对 PAPO 进行了全面分析,并发现了一个独特的损失劫持问题,我们通过双熵损失对其进行了严格分析和缓解。总的来说,我们的工作将感知感知监督更深入地整合到 RLVR 学习目标中,并为鼓励视觉接地推理的新型强化学习框架奠定了基础。项目页面:https://mikewangwzhl.github.io/PAPO。
可验证奖励强化学习 (RLVR) 已被证明是一种高效策略,能够赋予大型语言模型 (LLM) 强大的多步推理能力。然而,其设计和优化仍局限于纯文本领域,导致在应用于多模态推理任务时性能不佳。特别地,我们观察到当前多模态推理中的主要误差来源在于视觉输入的感知。为解决这一瓶颈,我们提出了感知感知策略优化 (PAPO),这是一种简单而有效的 GRPO 扩展,它鼓励模型在学习推理的同时学习感知,完全基于内部监督信号。值得注意的是,PAPO 不依赖于额外的数据整理、外部奖励模型或专有模型。具体而言,我们以 KL 散度项的形式将隐式感知损失引入 GRPO 目标中,尽管其简单,但在各种多模态基准测试上取得了显著的整体改进(4.4%)。在视觉依赖性高的任务上,改进更为显著,接近 8.0%。我们还观察到感知误差显著减少(30.5%),表明 PAPO 提升了感知能力。我们对 PAPO 进行了全面分析,并发现了一个独特的损失攻击问题,我们通过双熵损失对其进行了严格分析和缓解。总之,我们的工作将感知感知监督更深入地整合到 RLVR 学习目标中,并为鼓励视觉接地推理的新型强化学习框架奠定了基础。项目主页:https://mikewangwzhl.github.io/PAPO/