⏶2
VIR-Bench: 通过旅行视频行程重建评估 MLLMs 的地理空间和时间理解能力
发表
由
Hao Wang 提交

作者:
Hao Wang,
Eiki Murata,
Lingfang Zhang, Ayako Sato, So Fukuda,
Ziqi Yin,
Wentao Hu, Keisuke Nakao, Yusuke Nakamura,
Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo,
Hiroki Ouchi, Daisuke Kawahara



摘要
AI 生成总结
VIR-Bench 是一个用于旅行视频的新基准,它评估并增强了 MLLMs 的地理空间-时间智能,从而改进了真实应用中的行程推荐。多模态大型语言模型(MLLM)的最新进展显著增强了视频理解能力,为实际应用开辟了新的可能性。然而,当前的视频基准主要关注室内场景或短距离户外活动,而对长距离旅行相关的挑战则探索不足。掌握延长的地理空间-时间轨迹对于下一代MLLM至关重要,这为现实世界的任务(如具身AI规划和导航)提供了基础。为了弥合这一差距,我们提出了VIR-Bench,一个新颖的基准,包含200个旅行视频,将行程重建作为一个挑战性任务,旨在评估和推动MLLM的地理空间-时间智能。实验结果表明,包括专有模型在内的最先进MLLM难以获得高分,这凸显了处理跨越长时间和空间尺度的视频的难度。此外,我们进行了一项深入的案例研究,其中我们开发了一个旅行规划原型代理,该代理利用了从VIR-Bench获得的见解。该代理显著改进的行程推荐证明了我们的评估协议不仅能有效地对模型进行基准测试,还能转化为用户界面应用中的实际性能提升。

GitHub:https://github.com/nlp-waseda/VIR-Bench