Omni-WorldBench:迈向世界模型的全面、以交互为中心的评估

发表
xiaochonglinghuxiaochonglinghu 提交
作者: Meiqi Wu, Zhixin Cai, Fufangchen Zhao, Xiaokun Feng, Rujing Dang, Bingze Song, Ruitian Tian, Jiashu Zhu, Jiachen Lei, Hao Dou, Jing Tang, Lei Sun, Jiahong Wu, Xiangxiang Chu, Zeming Liu, Kaiqi Huang

摘要

AI 生成总结
Omni-WorldBench 引入了一个评估多样化场景下时间动力学和因果交互效应的基准测试,解决了交互式 4D 世界模型缺乏全面评估的问题。
基于视频的世界模型已沿着两个主导范式兴起:视频生成和 3D 重建。然而,现有的评估基准要么狭隘地关注生成模型的视觉保真度和文生视频对齐,要么依赖于从根本上忽略时间动态的静态 3D 重建指标。我们认为,世界建模的未来在于 4D 生成,即共同建模空间结构和时间演化。在这种范式下,核心能力是交互响应:忠实反映交互动作如何驱动跨越空间和时间的状态转换的能力。然而,尚无现有基准系统地评估这一关键维度。为了填补这一空白,我们提出了 Omni-WorldBench,这是一个专门为评估 4D 环境下世界模型交互响应能力而设计的综合基准。Omni-WorldBench 包含两个关键组件:Omni-WorldSuite,一个涵盖多种交互级别和场景类型的系统化提示词套件;以及 Omni-Metrics,一个基于智能体的评估框架,通过测量交互动作对最终结果和中间状态演化轨迹的因果影响来量化世界建模能力。我们对跨越多种范式的 18 个代表性世界模型进行了广泛评估。我们的分析揭示了当前世界模型在交互响应方面的关键局限性,为未来的研究提供了可操作的见解。Omni-WorldBench 将公开发布,以促进交互式 4D 世界建模的进展。
查看 arXiv 页面查看 PDF

评论

xiaochonglinghuxiaochonglinghu
论文提交者

使用 Omni-WorldBench 评估世界模型的进展是非常有帮助且及时的。

AMAP-MLAMAP-ML

干得好

Jiashu ZhuJiashu Zhu

干得漂亮

Jiashu ZhuJiashu Zhu

希望这项工作能帮助我们构建更好的世界模型

TT

希望能推动世界模型的发展

Börje KarlssonBörje Karlsson

将此内容与 SWITCH (https://huggingface.co/papers/2511.17649) 集成会非常有趣。SWITCH 涵盖了此处未涉及的常见现实交互场景,并突出了当前世界模型存在的其他关键局限性。