OpenThinkIMG:通过视觉工具强化学习来学习用图像思考

发表
Zhaochen SuZhaochen Su 提交
作者: Zhaochen SuZhaochen Su, Linjie LiLinjie Li, Mingyang SongMingyang Song, Yunzhuo HaoYunzhuo Hao, Zhengyuan YangZhengyuan Yang, Jun Zhang, Guanjie ChenGuanjie Chen, Jiawei GuJiawei Gu, Juntao LiJuntao Li, Xiaoye QuXiaoye Qu, Yu Cheng

摘要

尽管人类可以灵活地利用交互式视觉认知来解决复杂问题,但使大型视觉语言模型 (LVLM) 能够利用视觉工具学习类似的自适应行为仍然具有挑战性。一个主要的障碍是当前缺乏标准化的基础设施,这阻碍了集成多样化工具、生成丰富的交互数据以及有效训练鲁棒代理。为了解决这些问题,我们引入了 OpenThinkIMG,这是首个用于工具增强型 LVLM 的开源、全面的端到端框架。它具有标准化的视觉工具接口、用于策略初始化的可扩展轨迹生成以及灵活的训练环境。此外,考虑到基于静态演示的监督微调 (SFT) 在动态工具调用方面提供的策略泛化能力有限,我们提出了一种新颖的强化学习 (RL) 框架 V-ToolRL,用于训练 LVLM 学习调用外部视觉工具的自适应策略。V-ToolRL 使 LVLM 能够通过直接优化任务成功并利用工具交互反馈,自主发现最优的工具使用策略。我们在具有挑战性的图表推理任务上对 V-ToolRL 进行了实证验证。我们基于 Qwen2-VL-2B 构建的 RL 训练代理显著优于其 SFT 初始化的对应模型(+28.83 点),并且平均超过了 Taco 和 CogCom 等已建立的监督工具学习基线 +12.7 点。值得注意的是,它在准确率方面也超过了 GPT-4.1 等知名闭源模型 +8.68 点。我们希望 OpenThinkIMG 能够作为推进动态、工具增强视觉推理的基础框架,帮助社区开发能够真正“用图像思考”的 AI 代理。
查看 arXiv 页面查看 PDF

评论

Zhaochen SuZhaochen Su
论文作者
论文提交者

OpenThinkIMG 是一个端到端的开源框架,使 LVLM 能够通过图像进行思考