VisualToolAgent (VisTA):一个用于视觉工具选择的强化学习框架

发表
Yong Jae LeeYong Jae Lee 提交
作者: ZeyiHuangZeyi Huang, Yuyang Ji, Anirudh Sundara RajanAnirudh Sundara Rajan, Zefan Cai, Wen Xiao, Junjie Hu, Yong Jae Lee

摘要

我们引入了 VisTA,一个新的强化学习框架,它使视觉智能体能够根据经验表现动态探索、选择和组合来自多样化工具库的工具。现有增强工具推理的方法要么依赖于无需训练的提示,要么依赖于大规模微调;这两种方法都缺乏主动的工具探索,并且通常假定工具多样性有限,此外微调方法还需要大量的人工监督。相比之下,VisTA 利用端到端强化学习,以任务结果作为反馈信号,迭代改进复杂的、查询特定的工具选择策略。通过 Group Relative Policy Optimization (GRPO),我们的框架使智能体能够自主发现有效的工具选择路径,而无需明确的推理监督。在 ChartQA、Geometry3K 和 BlindTest 基准上的实验表明,VisTA 相较于无需训练的基线取得了显著的性能提升,特别是在分布外示例上。这些结果突显了 VisTA 增强泛化能力、自适应利用多样化工具的能力,并为灵活的、经验驱动的视觉推理系统铺平了道路。
查看 arXiv 页面查看 PDF

评论

Yong Jae LeeYong Jae Lee
论文提交者

VisualToolAgent (VisTA): 用于视觉工具选择的强化学习框架

项目页面: https://oodbag.github.io/vista_web/