⏶7
ROSE:移除视频中的附带副作用对象
发表
由
Yutong Feng 提交

作者: Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao
摘要
由于近期视频生成模型的成功,视频对象移除技术已达到先进水平。然而,在处理对象的副作用,例如它们的阴影和反射时,现有方法由于缺乏配对视频数据作为监督而难以消除这些副作用。本文提出了ROSE(Remove Objects with Side Effects),一个系统地研究对象对环境影响的框架,这些影响可分为五种常见情况:阴影、反射、光照、半透明和镜面。鉴于策展带有上述影响的配对视频的挑战,我们利用3D渲染引擎进行合成数据生成。我们精心构建了一个全自动的数据准备流程,该流程模拟了一个具有多样化场景、对象、拍摄角度和相机轨迹的大规模配对数据集。ROSE被实现为一个基于扩散Transformer的视频修复模型。为了定位所有与对象相关的区域,整个视频被输入到模型中进行参考擦除。此外,引入了额外的监督来显式预测受副作用影响的区域,这些区域可以通过配对视频之间的差异掩码揭示。为了充分研究模型在各种副作用去除方面的性能,我们提出了一个名为ROSE-Bench的新基准,它结合了常见场景和五种特殊的副作用,以进行全面评估。实验结果表明,ROSE在视频对象擦除方面取得了优于现有模型的性能,并且能够很好地泛化到真实世界的视频场景。项目页面为https://rose2025-inpaint.github.io/。

由于近期视频生成模型的成功,视频对象移除技术已达到先进的性能。然而,在处理对象的副作用(例如阴影和反射)时,由于缺乏配对视频数据作为监督,现有方法在消除这些副作用方面存在困难。本文提出了 ROSE(Remove Objects with Side Effects),一个系统研究对象对环境影响的框架,这些影响可分为五种常见情况:阴影、反射、光线、半透明和镜子。鉴于策划展示上述效应的配对视频的挑战,我们利用 3D 渲染引擎生成合成数据。我们精心构建了一个全自动的数据准备流程,该流程模拟了一个具有多样化场景、对象、拍摄角度和摄像机轨迹的大规模配对数据集。ROSE 以基于扩散变换器(diffusion transformer)的视频修复模型形式实现。为了定位所有与对象相关的区域,整个视频被输入到模型中进行参考擦除。此外,引入了额外的监督来显式预测受副作用影响的区域,这些区域可以通过配对视频之间的差分掩码(differential mask)来揭示。为了全面研究模型在各种副作用去除方面的性能,我们提出了一个新的基准,称为 ROSE-Bench,它结合了常见场景和五种特殊副作用以进行全面评估。实验结果表明,ROSE 在视频对象擦除方面取得了优于现有视频对象擦除模型的性能,并且能够很好地泛化到真实世界的视频场景。