⏶9
HoneyBee:视语推理器的数据配方
发表
由
Hritik Bansal 提交
作者: Hritik Bansal, Devandra Singh Sachan, Kai-Wei Chang, Aditya Grover, Gargi Ghosh, Wen-tau Yih, Ramakanth Pasunuru
摘要
视觉语言模型(VLM)的最新进展使其在推理任务中非常有效。然而,构建高性能 VL 推理训练数据集的原理仍未得到充分理解。在这项工作中,我们通过仔细控制训练和评估设置,引入了几种数据策展方法,并研究了它们对 VL 推理能力的影响。我们分析了上下文(图像和问题对)来源的影响,实施了有针对性的数据干预,并探索了图像、问题和链式思维(CoT)解决方案的规模化。我们的研究结果表明:(a)上下文来源策略显著影响 VLM 的性能;(b)诸如图像标题辅助信号以及包含纯文本推理等干预措施可带来实质性收益;(c)扩大所有数据维度(例如,每个图像的唯一问题和每个图像-问题对的唯一 CoT)可持续提高推理能力。受这些见解的启发,我们推出了 HoneyBee,一个大型、高质量的 CoT 推理数据集,包含 250 万个示例,由 350,000 个图像-问题对组成。使用 HoneyBee 训练的 VLM 在各个模型规模上都优于最先进的模型。例如,在 MathVerse 上,一个具有 30 亿参数的经 HoneyBee 训练的 VLM 分别比最先进模型和基础模型高出 7.8% 和 24.8%。此外,我们提出了一种测试时缩放策略,该策略可将解码成本降低 73%,而不会牺牲准确性。总而言之,这项工作提出了改进 VL 推理数据集策展研究的策略。
摘要:
视觉语言模型(VLMs)的最新进展使其在推理任务中非常有效。然而,构建高性能 VL 推理训练数据集的基本原理仍未得到充分理解。在这项工作中,我们引入了几种数据策展方法,并通过仔细控制训练和评估设置来研究它们对 VL 推理能力的影响。我们分析了上下文(图像和问题对)来源的影响,实施了有针对性的数据干预,并探索了图像、问题和思维链(CoT)解决方案的扩展。我们的发现表明:(a)上下文来源策略显著影响 VLM 性能,(b)图像标题的辅助信号和文本推理的包含等干预措施带来了显著的收益,(c)扩展所有数据维度(例如,每张图像的唯一问题和每对图像-问题之间的唯一 CoT)会持续提高推理能力。基于这些见解,我们推出了 HoneyBee,一个大型、高质量的 CoT 推理数据集,包含 250 万个示例,由 350K 个图像-问题对组成。使用 HoneyBee 训练的 VLM 在模型大小方面优于最先进的模型。例如,一个经过 HoneyBee 训练的 3B 参数 VLM 在 MathVerse 上的性能分别比最先进的模型和基础模型高出 7.8% 和 24.8%。此外,我们提出了一种测试时扩展策略,该策略在不牺牲准确性的情况下,将解码成本降低了 73%。总而言之,这项工作为 VL 推理数据集策展研究提供了改进的策略。