⏶10

VisualToolAgent (VisTA)：一个用于视觉工具选择的强化学习框架

05月26日发表

05月28日由 Yong Jae Lee 提交

作者: Zeyi Huang, Yuyang Ji, Anirudh Sundara Rajan, Zefan Cai, Wen Xiao, Junjie Hu, Yong Jae Lee

摘要

我们引入了 VisTA，一个新的强化学习框架，它使视觉智能体能够根据经验表现动态探索、选择和组合来自多样化工具库的工具。现有增强工具推理的方法要么依赖于无需训练的提示，要么依赖于大规模微调；这两种方法都缺乏主动的工具探索，并且通常假定工具多样性有限，此外微调方法还需要大量的人工监督。相比之下，VisTA 利用端到端强化学习，以任务结果作为反馈信号，迭代改进复杂的、查询特定的工具选择策略。通过 Group Relative Policy Optimization (GRPO)，我们的框架使智能体能够自主发现有效的工具选择路径，而无需明确的推理监督。在 ChartQA、Geometry3K 和 BlindTest 基准上的实验表明，VisTA 相较于无需训练的基线取得了显著的性能提升，特别是在分布外示例上。这些结果突显了 VisTA 增强泛化能力、自适应利用多样化工具的能力，并为灵活的、经验驱动的视觉推理系统铺平了道路。

查看 arXiv 页面查看 PDF

Yong Jae Lee

论文提交者

VisualToolAgent (VisTA): 用于视觉工具选择的强化学习框架

项目页面: https://oodbag.github.io/vista_web/

VisualToolAgent (VisTA)：一个用于视觉工具选择的强化学习框架

摘要

评论