ThinkAct:通过强化视觉潜在规划实现视觉-语言-行动推理

发表
Chi-Pin HuangChi-Pin Huang 提交
作者: Chi-Pin HuangChi-Pin Huang, Yueh-Hua Wu, Min-Hung ChenMin-Hung Chen, Yu-Chiang Frank Wang, Fu-En YangFu-En Yang

摘要

AI 生成总结
ThinkAct 是一种双系统框架,利用强化视觉潜在规划,通过连接高级推理和低级动作执行,在具身 AI 任务中实现少样本适应、长周期规划和自我修正。
视觉-语言-动作(VLA)推理任务要求智能体解释多模态指令、执行长程规划,并适应动态环境。现有方法通常以端到端的方式训练VLA模型,直接将输入映射到动作,没有明确的推理,这阻碍了它们进行多步规划或适应复杂任务变化的能力。在本文中,我们提出了ThinkAct,一个双系统框架,通过强化视觉潜在规划将高级推理与低级动作执行连接起来。ThinkAct训练一个多模态LLM,通过基于目标完成和轨迹一致性的强化动作对齐视觉奖励来生成具身推理计划。这些推理计划被压缩成一个视觉计划潜在空间,用于调节下游动作模型,以在目标环境中实现鲁棒的动作执行。在具身推理和机器人操作基准测试中进行的大量实验表明,ThinkAct在复杂的具身AI任务中实现了少样本适应、长程规划和自我纠正行为。
查看 arXiv 页面查看 PDF

评论

Chi-Pin HuangChi-Pin Huang
论文作者
论文提交者

项目页面:https://jasper0314-huang.github.io/thinkact-vla/