视觉智能体强化微调

发表
Jiaqi WangJiaqi Wang 提交
作者: ziyuliuZiyu Liu, Yuhang ZangYuhang Zang, yushan zouYushan Zou, Zijian LiangZijian Liang, Xiaoyi DongXiaoyi Dong, Cao YuhangYuhang Cao, HAODONG DUANHaodong Duan, Dahua LinDahua Lin, Jiaqi WangJiaqi Wang

摘要

大型推理模型(例如 OpenAI 的 o3)的一个关键趋势是其原生的代理能力,能够使用外部工具(如网络浏览器)进行搜索,以及编写/执行代码进行图像处理,从而实现“以图像思考”。在开源研究社区中,虽然在语言专属的代理能力方面(如函数调用和工具集成)取得了显著进展,但涉及真正“以图像思考”的多模态代理能力的开发及其相应的基准测试仍然探索较少。这项工作强调了视觉代理强化微调 (Visual-ARFT) 在赋予大型视觉-语言模型 (LVLM) 灵活和自适应推理能力方面的有效性。通过 Visual-ARFT,开源 LVLM 获得了浏览网站以获取实时信息更新的能力,并能编写代码通过裁剪、旋转及其他图像处理技术来操作和分析输入图像。我们还提出了一个多模态代理工具基准 (MAT),包含两种设置(MAT-搜索和 MAT-编码),旨在评估 LVLM 的代理搜索和编码能力。我们的实验结果表明,Visual-ARFT 在 MAT-编码上比基线提高了 +18.6% F1 / +13.0% EM,在 MAT-搜索上提高了 +10.3% F1 / +8.7% EM,最终超过了 GPT-4o。Visual-ARFT 还在现有多跳问答基准(如 2Wiki 和 HotpotQA)上实现了 +29.3 F1% / +25.9% EM 的提升,展示了强大的泛化能力。我们的研究结果表明,Visual-ARFT 为构建鲁棒且可泛化的多模态代理提供了一条有前景的途径。
查看 arXiv 页面查看 PDF

评论

Jiaqi WangJiaqi Wang
论文作者
论文提交者

代码可在 https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT 获取。