⏶9
MOSEv2:一个用于复杂场景视频对象分割的更具挑战性的数据集
发表
由
Henghui Ding 提交

作者: Henghui Ding, Kaining Ying, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang, Philip H. S. Torr, Song Bai
摘要
视频对象分割(VOS)旨在在整个视频中分割指定的目标对象。尽管最先进的方法在现有基准数据集(如DAVIS和YouTube-VOS)上取得了令人印象深刻的性能(例如,90%以上的J&F),但这些数据集主要包含显著的、主导的、孤立的对象,限制了它们对真实世界场景的泛化能力。为了推动VOS在更真实的视频环境中的发展,我们引入了复杂视频对象分割(MOSEv1),以促进VOS在复杂场景中的研究。在MOSEv1的优点和局限性基础上,我们推出了MOSEv2,一个更具挑战性的数据集,旨在进一步推动VOS方法在真实世界条件下的发展。MOSEv2包含5,024个视频,涵盖200个类别中的10,074个对象,拥有超过701,976个高质量的遮罩。与前身相比,MOSEv2显著增加了场景的复杂性,包括更频繁的对象消失和重新出现、严重的遮挡和拥挤、更小的对象,以及一系列新的挑战,如恶劣天气(例如,雨、雪、雾)、低光照场景(例如,夜间、水下)、多镜头序列、伪装对象、非物理目标(例如,阴影、反射)以及需要外部知识的场景等。我们基准测试了20种代表性的VOS方法,并在5种不同的设置下观察到一致的性能下降。例如,SAM2在MOSEv1上的表现从76.4%下降到MOSEv2上的50.9%。我们进一步评估了9种视频对象跟踪方法,发现类似的下降,这表明MOSEv2在不同任务中都带来了挑战。这些结果强调,尽管在现有数据集上精度很高,但当前的VOS方法在真实世界的复杂性下仍然面临困难。MOSEv2已在 https://MOSE.video 公开可用。
MOSEv2 是广受认可的 MOSE 数据集的大规模扩展,进一步推进了在真实和高度复杂场景下视频对象分割的研究。