⏶36
以少驭真:高效多模态推理的高价值数据选择
发表
由
Shenshen Li 提交
作者: Shenshen Li, Kaiyuan Deng,
Lei Wang, Hao Yang, Chong Peng, Peng Yan, Fumin Shen, Heng Tao Shen, Xing Xu
摘要
多模态大语言模型(MLLMs)通过强化学习在复杂推理任务中取得了显著进展,然而人们普遍认为,提升多模态推理能力需要大量的训练数据,这不可避免地导致数据冗余和高昂的计算成本。然而,对于 MLLM 中的多模态推理,更小的高价值数据集能否匹敌甚至超越完整数据集?在 GNN-R 框架中,我们通过一个关键观察来挑战这一假设:有意义的多模态推理仅由一小部分稀疏的训练样本(我们称之为认知样本)触发,而大多数样本的贡献微乎其微。基于这一洞察,我们提出了一种新颖的数据选择范式,称为推理激活潜力(Reasoning Activation Potential, RAP),它通过两个互补的评估器来估计每个样本激发真实多模态推理的潜力,从而识别出认知样本:1)基于潜在结果模型原理的因果差异评估器(Causal Discrepancy Estimator, CDE),通过比较多模态输入和纯文本输入之间的输出,消除过度依赖语言先验的样本;2)注意力置信度评估器(Attention Confidence Estimator, ACE),它利用令牌级别的自注意力来丢弃在中间推理阶段中被无关但过度强调的令牌所主导的样本。此外,我们引入了难度感知替换模块(Difficulty-aware Replacement Module, DRM),用认知上更具挑战性的实例替换琐碎的实例,从而确保多模态推理的复杂性和鲁棒性。在六个数据集上的实验表明,我们的 RAP 方法仅使用 9.3% 的训练数据,就持续取得了卓越的性能,同时将计算成本降低了 43% 以上。我们的代码可在 https://github.com/Leo-ssl/RAP 获取。
多模态大型语言模型(MLLMs)通过强化学习在复杂推理任务中取得了显著进展,但人们普遍认为,提高多模态推理能力需要大量的训练数据,这不可避免地导致数据冗余和巨大的计算成本。然而,在MLLMs中,较小的高价值数据集能否在多模态推理方面媲美或超越完整语料库?在这项工作中,我们通过一个关键观察来挑战这一假设:有意义的多模态推理仅由一小部分稀疏的训练样本(我们称之为认知样本)触发,而大多数样本的贡献微乎其微。基于这一洞察,我们提出了一种新颖的数据选择范式,称为推理激活潜力(Reasoning Activation Potential, RAP),它通过两个互补的估计器来评估每个样本激发真实多模态推理的潜力,从而识别认知样本:1)基于潜在结果模型原理的因果差异估计器(Causal Discrepancy Estimator, CDE),通过比较多模态输入和纯文本输入之间的输出,消除过度依赖语言先验的样本;2)注意力置信度估计器(Attention Confidence Estimator, ACE),它利用标记级自注意力机制来丢弃在中间推理阶段中由不相关但被过度强调的标记主导的样本。此外,我们引入了一个难度感知替换模块(Difficulty-aware Replacement Module, DRM),用认知上具有挑战性的实例替换琐碎的实例,从而确保多模态推理的鲁棒性。在六个数据集上的实验表明,我们的RAP方法仅使用9.3%的训练数据就始终实现了卓越的性能,同时将计算成本降低了43%以上。