Sherlock: 视觉语言模型中的自校正推理

发表
Yi DingYi Ding 提交
作者: Yi DingYi Ding, Ruqi Zhang

摘要

推理视觉-语言模型(VLMs)在复杂的跨模态任务上展现了可喜的性能。然而,它们仍然面临重大挑战:它们对推理错误高度敏感,需要大量标注数据或准确的验证器,并且难以泛化到特定领域之外。为了解决这些限制,我们探索了自校正作为增强推理VLMs的策略。我们首先对推理VLMs的自校正能力进行了深入分析,并确定了关键差距。基于我们的发现,我们引入了Sherlock,一个自校正和自改进训练框架。Sherlock引入了轨迹级别的自校正目标、基于视觉扰动的偏好数据构建方法,以及用于偏好微调的动态beta值。一旦模型仅使用2万个随机采样的标注数据获得了自校正能力,它就可以在没有外部监督的情况下继续自改进。基于Llama3.2-Vision-11B模型构建,Sherlock在八个基准测试中取得了显著成果,直接生成时平均准确率达到64.1,自校正后达到65.4。它在使用不到20%的标注数据的情况下,性能优于LLaVA-CoT(63.2)、Mulberry(63.9)和LlamaV-o1(63.4)。
查看 arXiv 页面查看 PDF

评论

Yi DingYi Ding
论文作者
论文提交者

推理视觉语言模型 (VLMs) 在复杂的跨模态任务上展现了良好的性能。然而,它们仍然面临重大挑战:它们对推理错误高度敏感,需要大量标注数据或准确的验证器,并且难以泛化到特定领域之外。为了解决这些局限性,我们探索了自纠正作为增强推理 VLMs 的策略。我们首先对推理 VLMs 的自纠正能力进行了深入分析,并确定了关键的差距。基于我们的发现,我们引入了 Sherlock,这是一个自纠正和自改进的训练框架。Sherlock 引入了轨迹级别的自纠正目标、基于视觉扰动的偏好数据构建方法以及用于偏好微调的动态 beta。一旦模型仅使用 2 万个随机抽样的标注数据就获得了自纠正能力,它就能在没有外部监督的情况下继续自我改进。Sherlock 构建于 Llama3.2-Vision-11B 模型之上,在八个基准测试中取得了显著成果,直接生成时的平均准确率达到 64.1,自纠正后达到 65.4。它在使用不到 20% 的标注数据的情况下,超越了 LLaVA-CoT (63.2)、Mulberry (63.9) 和 LlamaV-o1 (63.4)。