⏶32
Zebra-CoT:一个用于交错视觉语言推理的数据集
发表
由
Deqing Fu 提交

作者:
Ang Li,
Charles Wang,
Kaiyu Yue, Zikui Cai, Ollie Liu,
Deqing Fu, Peng Guo, Wang Bill Zhu, Vatsal Sharan, Robin Jia, Willie Neiswanger, Furong Huang, Tom Goldstein, Micah Goldblum




摘要
人类在解决复杂问题时经常使用视觉辅助,例如图表或草图。训练多模态模型也这样做,即视觉思维链(Visual CoT),具有挑战性,原因在于:(1)现成视觉CoT性能不佳,这阻碍了强化学习;(2)缺乏高质量的视觉CoT训练数据。我们引入了Zebra-CoT,一个多样化的大规模数据集,包含182,384个样本,包含逻辑连贯的交错文本-图像推理轨迹。我们专注于四类特别适合素描或视觉推理的任务,涵盖几何、物理和算法等科学问题;视觉搜索和拼图等2D视觉推理任务;3D多跳推理、具身和机器人规划等3D推理任务;视觉逻辑问题和国际象棋等战略游戏。在Zebra-CoT训练语料库上对Anole-7B模型进行微调,使我们的测试集准确率提高了+12%,并在标准VLM基准评估中带来了高达+13%的性能提升。对Bagel-7B进行微调,产生了一个可以生成高质量交错视觉推理链的模型,突显了Zebra-CoT在发展多模态推理能力方面的有效性。我们开源了我们的数据集和模型,以支持视觉CoT的开发和评估。
介绍Zebra-CoT,这是一个多样化的大规模数据集,包含182,384个逻辑连贯的交错文本-图像推理轨迹,涵盖科学、2D、3D和逻辑任务。Zebra-CoT通过训练模型无缝整合视觉草图和文本思维链来解决复杂问题,从而实现内在的多模态推理。