⏶19
视觉-语言模型的统一强化学习和模仿学习
发表
由
Byung-Kwan Lee 提交
作者:
Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu
摘要
AI 生成总结
一种统一的强化学习和模仿学习算法创建了高效、轻量级的视觉语言模型,其性能与领先的 VLM 相当或超越。视觉-语言模型 (VLM) 取得了显著进展,但其大规模特性常常使其在资源受限的环境中不切实际。
本文介绍了统一强化与模仿学习 (RIL),这是一种新颖高效的训练算法,旨在创建强大、轻量级的 VLM。
RIL 独特地结合了强化学习与对抗性模仿学习的优势。这使得较小的学生 VLM
不仅能够模仿大型教师模型的复杂文本生成,而且还能通过强化信号系统地提高其生成能力。
我们模仿框架的关键是一个基于 LLM 的判别器,它能够巧妙地区分学生和教师的输出,
并辅以来自多个大型教师 VLM
的指导,以确保多样化的学习。这种利用强化和模仿的统一学习策略,
使学生模型能够获得显著的性能提升,使其能够与领先的闭源 VLM
竞争。对各种视觉-语言基准进行的广泛实验表明,RIL
显著缩小了与最先进的开源和闭源 VLM
的性能差距,并且在某些情况下甚至超越了它们。
ArXiv: https://arxiv.org/abs/2510.19307
项目页面: https://byungkwanlee.github.io/RIL-page/
统一学习: 结合强化学习 (GRPO) 和模仿学习 (GAIL) 帮助小型 VLM 模仿大型教师模型生成的方式和内容。
双重奖励系统: 整合基于判别器的相似性奖励和 LLM-as-a-Judge 准确性反馈,确保响应既在风格上对齐又在事实上正确。
教师多样性: 从多个大型教师 VLM (例如 Qwen2.5-VL-72B 和 InternVL3-78B) 中学习,提高鲁棒性和泛化能力。
无“思考”阶段: 经 RIL 训练的模型保持与标准模型相同的快速推理速度——非常适合部署在移动和资源受限的环境中。