⏶24
SeC:通过渐进概念构建推进复杂视频对象分割
发表
由
Jiaqi Wang 提交
作者:
Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong, Songxin He, Jianfan Lin, Junsong Tang,
Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang


摘要
视频目标分割(VOS)是计算机视觉中的一项核心任务,要求模型在视频帧中跟踪并分割目标对象。尽管近期的努力取得了显著进展,但当前技术在处理剧烈视觉变化、遮挡和复杂场景变化方面仍落后于人类能力。这种局限性源于它们对外观匹配的依赖,忽视了人类对对象的概念性理解,而这种理解才能实现在时间动态中进行鲁棒识别。受此差距的启发,我们提出了“分割概念”(Segment Concept, SeC),这是一种概念驱动的分割框架,它从传统的特征匹配转向逐步构建和利用高级的、以对象为中心的表示。SeC利用大型视觉-语言模型(LVLMs)整合不同帧的视觉线索,构建鲁棒的概念先验。在推理过程中,SeC根据已处理的帧形成目标的全面语义表示,从而实现后续帧的鲁棒分割。此外,SeC自适应地平衡基于LVLM的语义推理与增强的特征匹配,根据场景复杂性动态调整计算量。为了严格评估VOS方法在需要高级概念推理和鲁棒语义理解的场景中的表现,我们引入了语义复杂场景视频目标分割基准(SeCVOS)。SeCVOS包含160个手动标注的多场景视频,旨在通过剧烈的外观变化和动态场景转换来挑战模型。值得注意的是,SeC在SeCVOS上比SAM 2.1提升了11.8个百分点,在概念感知视频目标分割领域树立了新的SOTA(最先进水平)。
🏠 主页: https://rookiexiong7.github.io/projects/SeC/
💻 代码: https://github.com/OpenIXCLab/SeC
📊 数据集: https://huggingface.co/datasets/OpenIXCLab/SeCVOS