⏶10
VisualToolAgent (VisTA):一个用于视觉工具选择的强化学习框架
发表
由
Yong Jae Lee 提交
作者:
Zeyi Huang, Yuyang Ji,
Anirudh Sundara Rajan, Zefan Cai, Wen Xiao, Junjie Hu, Yong Jae Lee
摘要
我们引入了 VisTA,一个新的强化学习框架,它使视觉智能体能够根据经验表现动态探索、选择和组合来自多样化工具库的工具。现有增强工具推理的方法要么依赖于无需训练的提示,要么依赖于大规模微调;这两种方法都缺乏主动的工具探索,并且通常假定工具多样性有限,此外微调方法还需要大量的人工监督。相比之下,VisTA 利用端到端强化学习,以任务结果作为反馈信号,迭代改进复杂的、查询特定的工具选择策略。通过 Group Relative Policy Optimization (GRPO),我们的框架使智能体能够自主发现有效的工具选择路径,而无需明确的推理监督。在 ChartQA、Geometry3K 和 BlindTest 基准上的实验表明,VisTA 相较于无需训练的基线取得了显著的性能提升,特别是在分布外示例上。这些结果突显了 VisTA 增强泛化能力、自适应利用多样化工具的能力,并为灵活的、经验驱动的视觉推理系统铺平了道路。
VisualToolAgent (VisTA): 用于视觉工具选择的强化学习框架
项目页面: https://oodbag.github.io/vista_web/