感知解耦:通过奖励优化描述生成实现可扩展的多模态推理

发表
Kai ChenKai Chen 提交
作者: Yunhao Gou, Kai ChenKai Chen, Zhili Liu, Lanqing Hong, Xin Jin, Zhenguo Li, James T. Kwok, Yu Zhang

摘要

慢思考语言模型(例如OpenAI-o1和DeepSeek-R1)的最新进展通过模仿人类般的反思性认知,在复杂推理任务中展现了卓越的能力。然而,将这些能力扩展到多模态大型语言模型(MLLM)仍然具有挑战性,因为在升级底层推理器LLM时,重新训练视觉-语言对齐的成本很高。一个直接的解决方案是将感知与推理解耦,即将视觉输入转换为语言表示(例如,描述),然后将其传递给强大的纯文本推理器。然而,这种解耦引入了一个关键挑战:视觉提取器必须生成既忠实于图像又足够信息丰富以支持准确下游推理的描述。为了解决这个问题,我们提出了通过描述奖励优化(RACRO)实现推理对齐的感知解耦——这是一种推理引导的强化学习策略,旨在将提取器的描述行为与推理目标对齐。通过基于奖励的优化闭合感知-推理循环,RACRO显著增强了视觉基础并提取了推理优化的表示。在多模态数学和科学基准上的实验表明,所提出的RACRO方法实现了最先进的平均性能,同时实现了卓越的可扩展性和对更高级推理LLM的即插即用适应性,而无需昂贵的多模态重新对齐。
查看 arXiv 页面查看 PDF

评论

Kai ChenKai Chen
论文作者
论文提交者

慢思考语言模型(例如OpenAI-o1和DeepSeek-R1)的最新进展,通过模拟人类的反射性认知,在复杂推理任务中展现出卓越的能力。然而,将这些能力扩展到多模态大型语言模型(MLLMs)仍然具有挑战性,因为在升级底层推理器LLM时,重新训练视觉-语言对齐的成本很高。一个直接的解决方案是将感知与推理解耦,即将视觉输入转换为语言表示(例如,描述),然后将其传递给强大的纯文本推理器。然而,这种解耦引入了一个关键挑战:视觉提取器必须生成既忠实于图像又足以支持准确的下游推理的描述。为了解决这个问题,我们提出了通过描述奖励优化(Caption Reward Optimization)实现的推理对齐感知解耦(Reasoning-Aligned Perceptual Decoupling via Caption Reward Optimization,RACRO)——一种推理引导的强化学习策略,它将提取器的描述行为与推理目标对齐。通过基于奖励的优化来闭合感知-推理循环,RACRO显著增强了视觉基础并提取了推理优化的表示。在多模态数学和科学基准上的实验表明,所提出的RACRO方法实现了最先进的平均性能,同时实现了卓越的可扩展性和即插即用适应更高级的推理LLM,无需进行昂贵的多模态重新对齐。

截图.PNG

截图1.PNG

截图3.PNG