⏶26
Robot-R1:用于增强机器人具身推理的强化学习
发表
由
dongyoung kim 提交
作者: Dongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
摘要
大型视觉语言模型 (LVLMs) 近来在结合具身推理与机器人控制方面展现出巨大潜力,从而推动了机器人技术的发展。一种常见的方法是使用监督微调 (SFT) 来训练与机器人控制相关的具身推理任务。然而,SFT数据集通常是启发式构建的,并未明确优化以改善机器人控制。此外,SFT常导致灾难性遗忘和泛化性能下降等问题。为解决这些限制,我们引入了Robot-R1,一个利用强化学习专门增强机器人控制具身推理的新颖框架。Robot-R1学习预测完成任务所需的下一个关键点状态,该预测以当前场景图像和从专家演示中提取的环境元数据为条件。受DeepSeek-R1学习方法的启发,Robot-R1对基于推理的响应进行采样,并强化那些能带来更准确预测的响应。我们的实验表明,使用Robot-R1训练的模型在具身推理任务上优于SFT方法。尽管Robot-R1只有7B参数,但在与低级动作控制相关的推理任务(如空间和原始运动推理)上,它甚至超越了GPT-4o。
摘要:我们推出了Robot-R1,一个全新的强化学习框架,旨在更好地教导机器人如何进行控制任务的推理。它能预测必要的下一步行动,并从良好的推理中学习。实验表明,Robot-R1在某些特定的机器人推理任务上超越了SFT,甚至性能优于GPT-4o,尽管其模型规模更小。