⏶63
OmniInsert: 通过扩散 Transformer 模型实现任何参考的无掩码视频插入
发表
由
Xinghui Li 提交

作者:
Jinshu Chen,
Xinghui Li, Xu Bai, Tianxiang Ma, Pengze Zhang,
Zhuowei Chen, Gen Li, Lijie Liu, Songtao Zhao,
Bingchuan Li, Qian He

摘要
AI 生成总结
OmniInsert 通过新颖的数据管道、特征注入、渐进式训练和上下文感知改写,解决了免遮罩视频插入的挑战,性能超越了商业解决方案。基于扩散模型的视频插入最新进展令人印象深刻。然而,现有方法依赖于复杂的控制信号,但难以实现主体一致性,限制了其应用可行性。在本文中,我们专注于无遮 mask 视频插入任务,旨在解决三个关键挑战:数据稀缺、主体-场景平衡和插入协调。为解决数据稀缺问题,我们提出了一种新的数据管道 InsertPipe,自动构建多样化的跨对数据。在此数据管道的基础上,我们开发了 OmniInsert,一个新颖的统一框架,用于从单个和多个主体引用进行无 mask 视频插入。具体来说,为了保持主体-场景平衡,我们引入了一种简单而有效的条件特定特征注入机制,以独立注入多源条件,并提出了一种新颖的渐进式训练策略,使模型能够平衡来自主体和源视频的特征注入。同时,我们设计了主体焦点损失来改善主体的细节外观。为了进一步增强插入协调性,我们提出了一种插入偏好优化方法,通过模拟人类偏好来优化模型,并在引用时加入一个上下文感知重述模块,以将主体无缝集成到原始场景中。为了解决该领域基准测试的缺乏问题,我们引入了 InsertBench,一个包含多样化场景和精心选择的实体的综合基准。在 InsertBench 上的评估表明,OmniInsert 的性能优于最先进的闭源商业解决方案。代码将发布。
🔥现在让视频插入变得容易🔥
我们提出了 OmniInsert,这是一个新颖的统一框架,用于从单人和多人引用进行无掩码视频插入。
亮点:
技术。1) 我们开发了 InsertPipe,一个系统的数据策划框架,包含多个数据管道,可自动生成高质量、多样化的数据;2) 我们提出了 OmniInsert,一个统一的无掩码架构,能够无缝地将单人和多人引用插入到视频中;3) 我们介绍了 InsertBench,一个专门针对 MVI 任务的综合基准。
意义。1) OmniInsert 展示了卓越的生成质量,弥合了学术研究与商业级应用之间的差距;2) 我们对 MVI 任务进行了全面研究——包括数据、模型和基准——将公开发布以支持未来的研究和开发。
[代码和演示将发布🚀]
项目主页:https://phantom-video.github.io/OmniInsert/
代码:https://github.com/Phantom-video/OmniInsert
论文:https://arxiv.org/abs/2509.17627