视觉-语言模型的统一强化学习和模仿学习

发表
Byung-Kwan LeeByung-Kwan Lee 提交
作者: Byung-Kwan LeeByung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu

摘要

AI 生成总结
一种统一的强化学习和模仿学习算法创建了高效、轻量级的视觉语言模型,其性能与领先的 VLM 相当或超越。
视觉-语言模型 (VLM) 取得了显著进展,但其大规模特性常常使其在资源受限的环境中不切实际。 本文介绍了统一强化与模仿学习 (RIL),这是一种新颖高效的训练算法,旨在创建强大、轻量级的 VLM。 RIL 独特地结合了强化学习与对抗性模仿学习的优势。这使得较小的学生 VLM 不仅能够模仿大型教师模型的复杂文本生成,而且还能通过强化信号系统地提高其生成能力。 我们模仿框架的关键是一个基于 LLM 的判别器,它能够巧妙地区分学生和教师的输出, 并辅以来自多个大型教师 VLM 的指导,以确保多样化的学习。这种利用强化和模仿的统一学习策略, 使学生模型能够获得显著的性能提升,使其能够与领先的闭源 VLM 竞争。对各种视觉-语言基准进行的广泛实验表明,RIL 显著缩小了与最先进的开源和闭源 VLM 的性能差距,并且在某些情况下甚至超越了它们。
查看 arXiv 页面查看 PDF

评论

Byung-Kwan LeeByung-Kwan Lee
论文作者
论文提交者

ArXiv: https://arxiv.org/abs/2510.19307
项目页面: https://byungkwanlee.github.io/RIL-page/

  • 统一学习: 结合强化学习 (GRPO) 和模仿学习 (GAIL) 帮助小型 VLM 模仿大型教师模型生成的方式和内容。

  • 双重奖励系统: 整合基于判别器的相似性奖励和 LLM-as-a-Judge 准确性反馈,确保响应既在风格上对齐又在事实上正确。

  • 教师多样性: 从多个大型教师 VLM (例如 Qwen2.5-VL-72B 和 InternVL3-78B) 中学习,提高鲁棒性和泛化能力。

  • 无“思考”阶段: 经 RIL 训练的模型保持与标准模型相同的快速推理速度——非常适合部署在移动和资源受限的环境中。

SongSong

您好,结果非常令人印象深刻。
您有没有以下方面的消融研究:
1. 纯粹使用 Dr.GRPO 的 LLM 裁判与使用 Dr.GRPO 的 LLM 裁判 + 判别器之间的区别。
2. 直接的逐令牌蒸馏与您基于 RM 作为代理的 RLVR 蒸馏之间的区别。
谢谢

另外,判别器的衡量指标是什么?