⏶11
思考还是不思考?通过强化学习实现视觉-语言模型的选择性推理
发表
由
Qinghong (Kevin) Lin 提交

作者: Jiaqi Wang,
Kevin Qinghong Lin, James Cheng, Mike Zheng Shou

摘要
强化学习(RL)已被证明是一种有效的后训练策略,用于增强视觉-语言模型(VLMs)的推理能力。群体相对策略优化(GRPO)是最近一种著名的研究方法,它鼓励模型在回答前生成完整的推理轨迹,从而导致 token 使用量和计算成本增加。受人类思维过程的启发——人们在处理简单问题时跳过推理,但在需要时会仔细思考——我们探索如何使 VLMs 首先决定何时需要推理。为了实现这一点,我们提出了 TON,一种两阶段训练策略:(i) 一个有监督微调(SFT)阶段,包含一个简单但有效的“思维 dropout”操作,其中推理轨迹被随机替换为空的思考。这引入了一种“思考或不思考”的格式,作为选择性推理的冷启动;(ii) 一个 GRPO 阶段,使模型能够自由探索何时思考或不思考,同时最大化任务感知的最终奖励。实验结果表明,与普通 GRPO 相比,TON 可以将生成长度减少高达 90%,在不牺牲性能甚至有所提升的情况下。在各种视觉-语言任务上的进一步评估——涵盖不同推理难度,包括 3B 和 7B 模型——一致表明模型随着训练的进展逐渐学会跳过不必要的推理步骤。这些发现为实现强化学习方法中类人推理模式指明了方向。我们的代码可在 https://github.com/kokolerk/TON 获取。
太长不看: 训练多模态模型 思考还是不思考 (TON)。
ArXiv: https://arxiv.org/abs/2505.16854
Github: https://github.com/kokolerk/TON
HF 数据集和模型: https://huggingface.co/collections/kolerk/ton-682ad9038395c21e228a645b