⏶10
VRAG-RL:赋能基于视觉感知的 RAG,通过强化学习迭代推理增强视觉丰富信息理解
发表
由
Lin Chen 提交

作者:
Qiuchen Wang, Ruixue Ding,
Yu Zeng, Zehui Chen,
Lin Chen, Shihang Wang, Pengjun Xie, Fei Huang, Feng Zhao

摘要
RAG方法在有效检索、推理和理解视觉丰富信息方面仍然面临挑战。传统的基于文本的方法无法处理与视觉相关的信息。另一方面,当前基于视觉的RAG方法通常受限于固定的流程,并且由于未能充分激活模型的基本能力而常常难以有效推理。由于强化学习(RL)已被证明有助于模型推理,我们引入了VRAG-RL,这是一种专为视觉丰富信息上的复杂推理而设计的创新RL框架。通过该框架,VLM与搜索引擎交互,借助视觉感知标记自主采样单轮或多轮推理轨迹,并根据这些样本进行持续优化。我们的方法强调了RL在RAG领域的主要局限性:(i) 先前的多模态RAG方法倾向于仅将图像纳入上下文,导致推理标记分配不足,并忽视了视觉特定的感知;(ii) 当模型与搜索引擎交互时,由于无法清晰表达需求,其查询往往无法检索到相关信息,从而导致性能欠佳。为了解决这些挑战,我们为视觉丰富输入定义了一个定制的行动空间,行动包括裁剪和缩放,允许模型从粗到细的角度收集信息。此外,为了弥合用户原始查询与检索器之间的差距,我们采用了一种简单但有效的奖励机制,将查询重写和检索性能与基于模型的奖励相结合。我们的VRAG-RL使用专门设计的RL策略优化VLM以执行RAG任务,使模型与实际应用保持一致。代码可在 https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG} 获取。
评论
论文作者
Arxiv: https://arxiv.org/abs/2505.22019
Model: https://huggingface.co/autumncc/Qwen2.5-VL-7B-VRAG
Github: https://github.com/Alibaba-NLP/VRAG
🎉 训练代码和演示即将发布~~
一个新颖的强化学习框架,专为跨视觉丰富信息的复杂推理而设计,性能优于现有方法,在Qwen2.5-VL-7B上提升20%,在Qwen2.5-VL-3B上提升30%。