MMHU:一个用于人类行为理解的大规模多模态基准

发表
Zhengzhong TuZhengzhong Tu 提交
作者: Renjie LiRenjie Li, Ruijie YeRuijie Ye, MingyangWuMingyang Wu, Hao Frank Yang, wayneZhiwen Fan, Hezhen Hu, Zhengzhong TuZhengzhong Tu

摘要

人类是交通生态系统中的重要组成部分,理解其行为对于促进安全驾驶系统的发展至关重要。尽管近期的研究已经探索了人类行为的多个方面——例如运动、轨迹和意图——但在自动驾驶领域,一个用于评估人类行为理解的综合性基准仍然缺失。在这项工作中,我们提出了 MMHU,一个大规模的人类行为分析基准,其特点是拥有丰富的标注,例如人类运动和轨迹、人类运动的文本描述、人类意图以及与驾驶安全相关的关键行为标签。我们的数据集包含来自多种来源的 5.7 万个人类运动片段和 173 万帧图像,这些来源包括 Waymo 等成熟的驾驶数据集、来自 YouTube 的真实场景视频以及我们自行收集的数据。我们开发了一个人机协同的标注流程来生成丰富的行为描述。我们提供了详尽的数据集分析,并对多项任务——从运动预测到运动生成和人类行为问答——进行了基准测试,从而提供了一套广泛的评估套件。项目主页:https://MMHU-Benchmark.github.io
查看 arXiv 页面查看 PDF
MMHU:一个用于人类行为理解的大规模多模态基准

评论

Zhengzhong TuZhengzhong Tu
论文作者
论文提交者

一个大规模多模态人类行为理解基准