⏶10
智能体拼图交互学习,用于增强视觉-语言模型中的视觉感知和推理
发表
由
Yu Zeng 提交

作者:
Yu Zeng,
Wenxuan Huang,
Shiting Huang, Xikun Bao, Yukun Qi, Yiming Zhao, Qiuchen Wang,
Lin Chen, Zehui Chen, Huaian Chen, Wanli Ouyang, Feng Zhao



摘要
AI 生成总结
AGILE,一个交互式拼图解决框架,通过迭代动作和反馈增强了视觉语言模型中的视觉感知和推理能力,提高了在拼图任务和通用视觉任务上的性能。尽管目前的大型视觉语言模型 (VLM) 在多模态理解和推理方面取得了进展,但其基本感知和推理能力仍然有限。具体来说,即使在简单的拼图任务上,现有的 VLM 的表现也接近随机,这暴露了核心感知和推理能力的缺陷。虽然高质量的视觉语言数据可以增强这些能力,但其稀缺性和有限的可扩展性带来了显著的限制。为了解决这个问题,我们提出了 AGILE,一个用于增强 VLM 视觉感知和推理能力的代理拼图交互学习。AGILE 将拼图求解构建为一个交互过程,使模型能够逐步与环境互动。在每个步骤中,模型会生成可执行的代码以根据当前状态执行动作,而环境会提供细粒度的视觉反馈来指导任务完成。通过这种观察和互动的迭代循环,模型通过探索和反馈逐步提高其感知和推理能力。实验结果表明,AGILE 不仅在不同复杂度的拼图任务上显著提高了性能(例如,在 2x2 设置下准确率从 9.5% 提高到 82.8%),而且在 9 个通用视觉任务上表现出强大的泛化能力,平均提高了 3.1%。这些结果表明感知和推理能力都有显著的增强。这项工作为提高多模态模型的推理和泛化能力开辟了新的途径,并为多模态强化学习数据的稀缺性提供了一种高效、可扩展的解决方案。代码和数据集可在 https://github.com/yuzeng0-0/AGILE 获取。
评论

论文作者
论文提交者
主页:https://yuzeng0-0.github.io/AGILE/
代码:https://github.com/yuzeng0-0/AGILE
数据:https://huggingface.co/datasets/YuZeng260/AGILE
代码和数据已开源,欢迎讨论与合作。
我们提出了 AGILE(自监督的代理式拼图交互学习),它通过模型生成的动作代码和视觉环境反馈的交互迭代来增强 VLMs 的感知和推理能力。