⏶18
EWMBench:评估具身世界模型中的场景、运动和语义质量
发表
由
Siyuan 提交
作者: Hu Yue,
Siyuan Huang, Yue Liao,
Shengcong Chen, Pengfei Zhou,
Liliang Chen,
Maoqing Yao,
Guanghui Ren
摘要
近期创意 AI 的进展使得能够根据语言指令合成高保真图像和视频。在此基础上,文本到视频扩散模型已演变为具身世界模型 (EWM),能够根据语言命令生成物理上合理的场景,有效地弥合了具身 AI 应用中的视觉和动作之间的鸿沟。这项工作解决了超越一般感知指标评估 EWM 的关键挑战,以确保生成具有物理基础且与动作一致的行为。我们提出了具身世界模型基准 (EWMBench),这是一个专门设计的框架,用于从三个关键方面评估 EWM:视觉场景一致性、动作正确性和语义对齐。我们的方法利用精心策划的包含多样化场景和动作模式的数据集,以及全面的多维评估工具包,来评估和比较候选模型。所提出的基准不仅指出了现有视频生成模型在满足具身任务独特需求方面的局限性,还为指导该领域的未来发展提供了宝贵的见解。数据集和评估工具可在 https://github.com/AgibotTech/EWMBench 公开获取。
数据集和评估工具公开提供于:https://github.com/AgibotTech/EWMBench
数据集仪表盘: