HopChain:用于泛化视觉语言推理的多跳数据合成

发表
Shenzhi WangShenzhi Wang 提交
作者: Shenzhi WangShenzhi Wang, Shixuan LiuShixuan Liu, Jing Zhou, Chang Gao, Xiong-Hui Chen, Binghai Wang, An Yang, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin

摘要

AI 生成总结
HopChain 是一个可扩展的框架,通过生成多跳视觉语言推理数据,增强视觉语言模型(VLM)在多种基准测试中的长链推理能力。
视觉语言模型(VLM)展现了强大的多模态能力,但在细粒度视觉语言推理方面仍面临挑战。我们发现,长链条思维(CoT)推理会暴露多种失败模式,包括感知、推理、知识和幻觉错误,这些错误会在中间步骤中复合叠加。然而,现有用于强化学习视觉推理(RLVR)的大多数视觉语言数据并不包含全程依赖视觉证据的复杂推理链,导致这些弱点在很大程度上未被暴露。因此,我们提出了 HopChain,这是一个可扩展的框架,专门为 VLM 的 RLVR 训练合成多跳视觉语言推理数据。每个合成的多跳查询都形成一个逻辑相关的、基于实例的跳步链,其中早期的跳步建立后期跳步所需的实例、集合或条件,而最终答案保持为适合可验证奖励的特定、明确的数字。我们将 HopChain 合成的多跳数据添加到用于训练 Qwen3.5-35B-A3B 和 Qwen3.5-397B-A17B 的原始 RLVR 数据中,并在涵盖 STEM 与谜题、通用问答、文本识别与文档理解以及视频理解的 24 个基准测试上,与仅使用原始 RLVR 数据的 RLVR 进行对比。尽管这些多跳数据并非针对特定基准测试而合成,但添加这些数据提升了两个模型在 24 个基准测试中 20 个的表现,表明了广泛且可推广的收益。为了证明完整链式查询的重要性,我们将其替换为半多跳或单跳变体,结果导致 24 个基准测试的平均准确率分别下降了 5.3 和 7.0 个百分点。多跳训练还强化了长 CoT 视觉语言推理,在超长 CoT 状态下准确率增益峰值超过 50 个百分点。这些实验证明 HopChain 是一个有效且可扩展的框架,用于合成能够提升可推广视觉语言推理能力的多跳数据。
查看 arXiv 页面查看 PDF
HopChain:用于泛化视觉语言推理的多跳数据合成

评论

Shenzhi WangShenzhi Wang
论文作者
论文提交者

在训练 Qwen3.5 时,我们一直在问自己:
🧐什么样的多模态 RLVR(通过强化学习进行视觉推理)数据才能真正带来可泛化的提升?
💡我们认为答案可能不仅在于针对特定基准测试量身定制的数据,还在于训练长链视觉推理背后基础能力的 OOD(分布外)代理任务。
动机很简单:VLM 在长思维链(CoT)设置下仍然不可靠。感知、推理、知识使用或定位中的微小错误会在中间步骤中累积,最终导致巨大的最终错误。然而,当今许多 RLVR 数据仍然不需要贯穿始终的基于视觉证据的复杂推理链,这意味着这些失败模式在训练期间往往没有得到充分的强调。

🚀很高兴分享来自 Qwen 和清华 LeapLab 的新工作:
HopChain: 面向可泛化视觉语言推理的多跳数据合成
这也是 Qwen3.5 VL RLVR 中使用的训练任务来源之一。

为了研究这个问题,我们提出了 HopChain,这是一个可扩展的框架,用于合成用于 RLVR 训练的多跳视觉语言推理数据。其核心思想是将每个查询构建为一系列逻辑相关的跳步(hop):前期的跳步建立后期跳步所需的实例、集合或条件,而模型在过程中必须反复回到图像中寻找新鲜的视觉定位。同时,每个查询都以特定的、无歧义的数字答案结束,使其天然适合可验证的奖励。
具体而言,HopChain 结合了两种互补的结构:感知级跳步和实例链跳步。我们要求每个合成示例都包含这两者,这样模型就不能简单地依靠语言惯性继续推理。相反,它被迫不断地将中间步骤定位到图像中,维护跨步骤的依赖关系,并控制长推理轨迹中的错误累积。我们的目标不是模仿任何特定的下游基准测试,而是加强长 CoT 视觉语言推理所依赖的更基础的能力。
我们将 HopChain 合成的数据加入到 Qwen3.5-35B-A3B 和 Qwen3.5-397B-A17B 的 RLVR 训练中,并在涵盖不同领域的 24 个基准测试上进行了评估。尽管不是为任何特定基准测试设计的,HopChain 在两个模型上的 24 个基准测试中提升了 20 个,表明了广泛且可泛化的提升。我们还发现,完整的链式多跳查询至关重要:用半多跳或单跳变体替换它们会显著降低性能。最值得注意的是,在长 CoT 和超长 CoT 视觉语言推理上的收益尤其强劲,在超长 CoT 领域最高提升了 50 多个准确点。

我们的主要结论很简单:
除了与基准测试对齐的数据外,系统性训练长链视觉推理核心机制的 OOD 代理任务可以成为 VLM 强大且可扩展的 RLVR 监督来源,并带来更具泛化性的改进。

Ilya PereverzinIlya Pereverzin

这一切都令人印象深刻,但我个人非常期待 Qwen 3.5 的技术报告!