⏶42
重新思考面向具身世界的视频生成模型
发表
由
taesiri 提交
作者:
Yufan Deng, Zilin Pan, Hongyu Zhang, Xiaojie Li, Ruoqing Hu,
Yufei Ding, Yiming Zou, Yan Zeng, Daquan Zhou
摘要
AI 生成总结
一项全面的机器人基准测试在多个任务领域和机器人形态上对视频生成模型进行了评估,揭示了物理真实性方面的显著差距,并引入了一个大规模数据集以解决训练数据的局限性。视频生成模型显著推进了具身智能的发展,为生成捕捉物理世界感知、推理和行动的多样化机器人数据开辟了新的可能性。然而,合成能准确反映真实世界机器人交互的高质量视频仍然具有挑战性,且缺乏标准化的基准限制了公平比较和进展。为了填补这一空白,我们推出了一个全面的机器人基准测试 RBench,旨在评估涵盖五个任务领域和四种不同具身形态的机器人导向视频生成。它通过可重复的子指标评估任务级正确性和视觉逼真度,包括结构一致性、物理合理性和动作完整性。对 25 个代表性模型的评估揭示了在生成物理真实的机器人行为方面的重大缺陷。此外,该基准与人类评估的 Spearman 相关系数达到 0.96,验证了其有效性。虽然 RBench 提供了识别这些缺陷的必要视角,但实现物理真实感需要超越评估,解决高质量训练数据严重短缺的问题。基于这些见解,我们推出了一个精炼的四阶段数据流水线,由此产生了 RoVid-X,这是目前最大的用于视频生成的开源机器人数据集,包含 400 万个带有标注的视频剪辑,涵盖数千个任务,并丰富了全面的物理属性标注。总而言之,这种评价与数据的协同生态系统为视频模型的严谨评估和大规模训练奠定了坚实基础,加速了具身智能向通用智能的演进。