⏶3
视觉文档理解与问答:一种支持测试时扩展的多智能体协作框架
发表
由
neil yu 提交

作者: Xinlei Yu, Zhangquan Chen, Yudong Zhang, Shilin Lu, Ruolin Shen, Jiangning Zhang, Xiaobin Hu, Yanwei Fu, Shuicheng Yan
摘要
现有的视觉-语言模型(VLM),无论是通用型还是专业型,都受到其参数规模的限制,缺乏强大的自我修正能力,并且在涉及长视觉上下文和复杂推理的任务中表现不佳,导致在基于文档的任务上性能不理想。为了解决这个问题,我们提出了 MACT,一种具有测试时缩放功能的多智能体协作框架,专为视觉文档理解和视觉问答(VQA)量身定制。它由四个不同的小规模智能体组成,即规划、执行、判断和回答智能体,具有明确的角色和有效的协作。值得注意的是,判断智能体专门验证正确性并将任务重定向到先前的智能体进行修改,其性能优于传统的修正策略。为了进一步扩展框架的能力边界,我们提出了混合奖励建模,以平衡智能体特定的能力和全局协作,以及智能体级混合测试时缩放,它根据每个智能体的功能为其定制不同的缩放策略。在基于文档和非基于文档设置的基准测试中进行评估,我们的 MACT 在参数规模更小的情况下表现出卓越的性能,而没有牺牲通用和数学任务的能力。特别是,它在涉及长视觉上下文和复杂推理的基准测试中脱颖而出。MACT 的三个变体在平均得分上始终位居前三,在 15 个基准测试中有 13 个位居第一。代码将发布于:https://github.com/YU-deep/MACT.git。
视觉文档理解与问答:一种具有测试时缩放功能的多智能体协作框架