⏶40
OpenThinkIMG:通过视觉工具强化学习来学习用图像思考
发表
由
Zhaochen Su 提交

作者:
Zhaochen Su,
Linjie Li,
Mingyang Song,
Yunzhuo Hao,
Zhengyuan Yang, Jun Zhang,
Guanjie Chen,
Jiawei Gu,
Juntao Li,
Xiaoye Qu, Yu Cheng



摘要
尽管人类可以灵活地利用交互式视觉认知来解决复杂问题,但使大型视觉语言模型 (LVLM) 能够利用视觉工具学习类似的自适应行为仍然具有挑战性。一个主要的障碍是当前缺乏标准化的基础设施,这阻碍了集成多样化工具、生成丰富的交互数据以及有效训练鲁棒代理。为了解决这些问题,我们引入了 OpenThinkIMG,这是首个用于工具增强型 LVLM 的开源、全面的端到端框架。它具有标准化的视觉工具接口、用于策略初始化的可扩展轨迹生成以及灵活的训练环境。此外,考虑到基于静态演示的监督微调 (SFT) 在动态工具调用方面提供的策略泛化能力有限,我们提出了一种新颖的强化学习 (RL) 框架 V-ToolRL,用于训练 LVLM 学习调用外部视觉工具的自适应策略。V-ToolRL 使 LVLM 能够通过直接优化任务成功并利用工具交互反馈,自主发现最优的工具使用策略。我们在具有挑战性的图表推理任务上对 V-ToolRL 进行了实证验证。我们基于 Qwen2-VL-2B 构建的 RL 训练代理显著优于其 SFT 初始化的对应模型(+28.83 点),并且平均超过了 Taco 和 CogCom 等已建立的监督工具学习基线 +12.7 点。值得注意的是,它在准确率方面也超过了 GPT-4.1 等知名闭源模型 +8.68 点。我们希望 OpenThinkIMG 能够作为推进动态、工具增强视觉推理的基础框架,帮助社区开发能够真正“用图像思考”的 AI 代理。
评论

论文作者
论文提交者
Twitter: https://x.com/SuZhaochen0110/status/1922481570453074070 Code: https://github.com/zhaochen0110/OpenThinkIMG
OpenThinkIMG 是一个端到端的开源框架,使 LVLM 能够通过图像进行思考