⏶46

VisionThink：通过强化学习实现的智能高效视觉语言模型

07月17日发表

07月18日由 Senqiao Yang 提交

作者: Senqiao Yang, JunyiLi Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jia Jiaya Jia

摘要

视觉-语言模型（VLM）的最新进展通过增加视觉tokens的数量来提高性能，而视觉tokens通常比文本tokens长得多。然而，我们观察到大多数真实世界场景并不需要如此大量的视觉tokens。尽管在少部分OCR相关任务中性能会显著下降，但在大多数其他通用VQA任务中，模型即使在仅1/4分辨率下仍能准确运行。因此，我们提出动态处理不同分辨率的样本，并提出一种新的视觉token压缩范式，即VisionThink。它从一个下采样图像开始，智能地判断其是否足以解决问题。否则，模型可以输出一个特殊token来请求更高分辨率的图像。与现有使用固定剪枝比率或阈值来压缩tokens的高效VLM方法相比，VisionThink能根据具体情况自主决定是否压缩tokens。因此，它在OCR相关任务上展示了强大的细粒度视觉理解能力，同时在较简单的任务上节省了大量的视觉tokens。我们采用强化学习并提出了“LLM-as-Judge”策略，成功将强化学习应用于通用VQA任务。此外，我们精心设计了奖励函数和惩罚机制，以实现稳定且合理的图像大小调整调用比例。大量的实验证明了我们方法的优越性、效率和有效性。我们的代码可在https://github.com/dvlab-research/VisionThink获取。

查看 arXiv 页面查看 PDF

Senqiao Yang

论文作者

论文提交者

🎯 代码：https://github.com/dvlab-research/VisionThink

🤗 模型和数据集：https://huggingface.co/collections/Senqiao/visionthink-6878d839fae02a079c9c7bfe

🌟 视频：https://www.youtube.com/watch?v=DGjbFbA5mBw

VisionThink：通过强化学习实现的智能高效视觉语言模型

摘要

评论