⏶26
自回归通用视频分割模型
发表
由
Min-Hung Chen 提交

作者: Miran Heo, Sukjun Hwang,
Min-Hung Chen, Yu-Chiang Frank Wang, Albert Gu, Seon Joo Kim, Ryo Hachiuma

摘要
最近的视频基础模型,如 SAM2,通过将掩码视为通用基元,在提示视频分割方面表现出色。然而,许多现实场景需要无提示分割,旨在检测和跟踪视频中的所有对象,而无需外部线索,这使得当今的格局在特定任务的模型和管道之间变得零散。我们将流媒体视频分割重塑为序列掩码预测,类似于语言建模,并介绍了自回归通用分割模型 (AUSM),这是一种统一了提示式和无提示式视频分割的单一架构。AUSM 基于最近的状态空间模型构建,维护一个固定大小的空间状态,并能扩展到任意长度的视频流。此外,AUSM 的所有组件都设计用于跨帧并行训练,与迭代训练相比,可以显著加速。在标准基准(DAVIS17、YouTube-VOS 2018 & 2019、MOSE、YouTube-VIS 2019 & 2021 和 OVIS)上,AUSM 的性能优于之前的通用流媒体视频分割方法,并且在 16 帧序列上实现了高达 2.5 倍的训练速度。
我们将流式视频分割重塑为序列掩码预测,这类似于语言建模,并引入了自回归通用分割模型 (AUSM),这是一个统一了提示式和非提示式视频分割的单一架构。AUSM 基于最近的状态空间模型,维护一个固定大小的空间状态,并可扩展到任意长度的视频流。此外,AUSM 的所有组件都设计用于跨帧的并行训练,从而在迭代训练方面实现显著的加速。在标准基准测试(DAVIS17、YouTube-VOS 2018 & 2019、MOSE、YouTube-VIS 2019 & 2021 和 OVIS)上,AUSM 的性能优于之前的通用流式视频分割方法,并且在 16 帧序列上训练速度提高了 2.5 倍。