VLA-RFT:在世界模拟器中具有验证奖励的视觉-语言-动作强化微调

发表
taesiritaesiri 提交
作者: Hengtao Li, Pengxiang Ding, Runze Suo, yh-wangYihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su

摘要

AI 生成总结
VLA-RFT 使用数据驱动的世界模型高效地微调 VLA 模型,减少了样本需求,并提高了在扰动下的鲁棒性。
视觉-语言-动作(VLA)模型能够实现具身决策,但它们严重依赖模仿学习,导致错误累积且在分布偏移下鲁棒性差。强化学习(RL)可以缓解这些问题,但通常需要昂贵的真实世界交互或受到仿真到真实(sim-to-real)差距的影响。我们引入了 VLA-RFT,一个利用数据驱动的世界模型作为可控模拟器的强化微调框架。该模拟器从真实交互数据中训练,根据动作预测未来的视觉观察,从而能够使用从目标达成参考派生的密集、轨迹级别的奖励进行策略回放。这种设计提供了高效且与动作对齐的学习信号,大大降低了样本需求。通过不到 400 次微调步骤,VLA-RFT 的性能超越了强大的监督基线,并且比基于模拟器的 RL 更高效。此外,它在扰动条件下表现出强大的鲁棒性,能够稳定执行任务。我们的结果表明,基于世界模型的 RFT 是一种实用的后训练范式,可以提高 VLA 模型的泛化能力和鲁棒性。更多详情请参阅 https://vla-rft.github.io/
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

视觉-语言-动作(VLA)模型支持具身决策,但严重依赖模仿学习,这会导致错误累积和在分布偏移下的鲁棒性差。强化学习(RL)可以缓解这些问题,但通常需要昂贵的真实世界交互或受到模拟到真实(sim-to-real)差距的影响。我们引入 VLA-RFT,一个强化微调框架,它利用数据驱动的世界模型作为可控模拟器。该模拟器从真实交互数据中训练,根据动作预测未来的视觉观察,从而可以通过从目标实现参考派生的密集、轨迹级别的奖励来实现策略回放。这种设计提供了一个高效且与动作对齐的学习信号,大大降低了样本需求。仅通过不到 400 步的微调,VLA-RFT 就超越了强大的监督基线,并且比基于模拟器的 RL 效率更高。此外,它在受扰动条件下表现出强大的鲁棒性,能够保持稳定的任务执行。我们的结果表明,基于世界模型的 RFT 是一种实用的训练后范式,可以提高 VLA 模型的泛化能力和鲁棒性。

Aurora VkashinaAurora Vkashina

@librarian-bot 推荐