智能体拼图交互学习,用于增强视觉-语言模型中的视觉感知和推理

发表
Yu ZengYu Zeng 提交
作者: Yu ZengYu Zeng, Wenxuan HuangWenxuan Huang, Shiting HuangShiting Huang, Xikun Bao, Yukun Qi, Yiming Zhao, Qiuchen Wang, Lin ChenLin Chen, Zehui Chen, Huaian Chen, Wanli Ouyang, Feng Zhao

摘要

AI 生成总结
AGILE,一个交互式拼图解决框架,通过迭代动作和反馈增强了视觉语言模型中的视觉感知和推理能力,提高了在拼图任务和通用视觉任务上的性能。
尽管目前的大型视觉语言模型 (VLM) 在多模态理解和推理方面取得了进展,但其基本感知和推理能力仍然有限。具体来说,即使在简单的拼图任务上,现有的 VLM 的表现也接近随机,这暴露了核心感知和推理能力的缺陷。虽然高质量的视觉语言数据可以增强这些能力,但其稀缺性和有限的可扩展性带来了显著的限制。为了解决这个问题,我们提出了 AGILE,一个用于增强 VLM 视觉感知和推理能力的代理拼图交互学习。AGILE 将拼图求解构建为一个交互过程,使模型能够逐步与环境互动。在每个步骤中,模型会生成可执行的代码以根据当前状态执行动作,而环境会提供细粒度的视觉反馈来指导任务完成。通过这种观察和互动的迭代循环,模型通过探索和反馈逐步提高其感知和推理能力。实验结果表明,AGILE 不仅在不同复杂度的拼图任务上显著提高了性能(例如,在 2x2 设置下准确率从 9.5% 提高到 82.8%),而且在 9 个通用视觉任务上表现出强大的泛化能力,平均提高了 3.1%。这些结果表明感知和推理能力都有显著的增强。这项工作为提高多模态模型的推理和泛化能力开辟了新的途径,并为多模态强化学习数据的稀缺性提供了一种高效、可扩展的解决方案。代码和数据集可在 https://github.com/yuzeng0-0/AGILE 获取。
查看 arXiv 页面查看 PDF

评论

Yu ZengYu Zeng
论文作者
论文提交者

我们提出了 AGILE(自监督的代理式拼图交互学习),它通过模型生成的动作代码和视觉环境反馈的交互迭代来增强 VLMs 的感知和推理能力。

Yu ZengYu Zeng
论文作者
论文提交者

主页:https://yuzeng0-0.github.io/AGILE/

代码:https://github.com/yuzeng0-0/AGILE

数据:https://huggingface.co/datasets/YuZeng260/AGILE

代码和数据已开源,欢迎讨论与合作。