⏶34
在合成世界中利用强化学习增强视觉-语言模型训练以实现现实世界成功
发表
由
Daniil Gavrilov 提交

作者:
George Bredis, Stanislav Dereka, Viacheslav Sinii,
Ruslan Rakhimov,
Daniil Gavrilov



摘要
交互式多模态智能体必须将原始视觉观察转换为连贯的、语言条件下的动作序列——这是当前视觉-语言模型(VLMs)仍然缺乏的能力。早期的强化学习(RL)工作原则上可以赋予VLM这些技能,但它们很少测试所学行为是否能泛化到训练模拟器之外,而且它们要么依赖于脆弱的超参数调整,要么依赖于状态变异性低的稠密奖励环境。我们引入了视觉-语言解耦Actor-Critic(VL-DAC),这是一种轻量级、无超参数的RL算法。VL-DAC将PPO更新应用于动作标记,同时仅在环境步级别学习价值:据我们所知,这种安排以前从未在大型VLM或LLM中探索过。这种简单的解耦消除了不稳定的加权项,并带来了更快、更可靠的收敛。一次在一个廉价的模拟器(MiniWorld、Gym-Cards、ALFWorld或WebShop)中用VL-DAC训练单个VLM,就已经产生了广泛泛化的策略:在BALROG(以游戏为中心的智能体控制)上相对提高+50%,在VSI-Bench最困难的部分(空间规划)上相对提高+5%,在VisualWebBench(网页导航)上提高+2%,所有这些都没有降低一般的图像理解准确性。这些结果首次证明,一个简单的RL算法可以在廉价的合成世界中完全训练VLM,同时在真实图像智能体、空间推理和网页导航基准上实现可衡量的收益。
本文介绍了VL-DAC(Vision-Language Decoupled Actor-Critic),这是一种强化学习算法,旨在将视觉-语言模型(VLMs)训练为合成环境中的交互式智能体。其关键创新在于解耦学习过程:对动作应用逐令牌的PPO更新,同时仅在环境步级别计算值损失,并阻止梯度反向传播到VLM骨干网络。这种方法消除了先前方法(如RL4VLM)所需的脆弱超参数调优,并避免了序列级方法(如LOOP)的信用分配问题。我们证明,使用VL-DAC在轻量级模拟器(MiniWorld、ALFWorld、WebShop)中训练单个VLM可以生成有效迁移到基准测试的策略。至关重要的是,一个稳健、易于部署的算法与在不同环境中获取多样化技能的能力相结合,为环境扩展和从经验中全面学习开辟了道路。