⏶35
OST-Bench:评估 MLLM 在线时空场景理解的能力
发表
由
Chenming Zhu 提交

作者: JingLi Lin,
Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang

摘要
多模态大型语言模型(MLLM)的最新进展在整合视觉和语言以实现复杂推理方面展现出卓越能力。虽然大多数现有基准在离线设置下评估模型,使用一组固定的预录输入,但我们引入了OST-Bench,这是一个旨在从主动探索场景的智能体视角评估在线时空理解能力的基准。“在线”方面强调需要处理和推理增量获取的观察结果,而“时空”组件则要求将当前视觉输入与历史记忆相结合,以支持动态空间推理。OST-Bench更好地反映了真实世界具身感知所面临的挑战。OST-Bench建立在高效的数据收集流程之上,包含从ScanNet、Matterport3D和ARKitScenes收集的1.4k个场景和1万个问答对。我们在OST-Bench上评估了几种领先的MLLM,并发现它们在需要复杂时空推理的任务上表现不佳。在在线设置下,随着探索范围的扩大和记忆的增长,它们的准确性会下降。通过进一步的实验分析,我们识别了模型中常见的错误模式,并发现基于复杂线索的空间推理需求和长期记忆检索要求分别沿着两个不同维度显著降低了模型性能,这突出了在改进在线具身推理方面必须解决的核心挑战。为了促进该领域的进一步研究和发展,我们的代码、数据集和基准均已公开。我们的项目页面是:https://rbler1234.github.io/OSTBench.github.io/
多模态大型语言模型(MLLM)的最新进展在整合视觉与语言以进行复杂推理方面展现出卓越能力。尽管大多数现有基准在离线设置下使用固定预录输入评估模型,我们引入了OST-Bench,这是一个旨在从主动探索场景的智能体视角评估在线时空理解的基准。“在线”方面强调了处理并推理增量获取观察结果的需求,而“时空”组件则要求将当前视觉输入与历史记忆相结合,以支持动态空间推理。OST-Bench能更好地反映现实世界具身感知的挑战。OST-Bench建立在高效的数据收集管道之上,包含从ScanNet、Matterport3D和ARKitScenes收集的1.4千个场景和1万对问答。我们在OST-Bench上评估了几种领先的MLLM,并发现它们在需要复杂时空推理的任务上表现不足。在在线设置下,随着探索范围的扩大和内存的增长,它们的准确率会下降。通过进一步的实验分析,我们识别了模型中常见的错误模式,并发现基于复杂线索的空间推理需求和长期记忆检索要求都沿着两个独立的维度显著降低了模型性能,突出了为改进在线具身推理而必须解决的核心挑战。为了促进该领域的进一步研究和发展,我们的代码、数据集和基准均已开放。我们的项目页面是:此链接