OmniInsert: 通过扩散 Transformer 模型实现任何参考的无掩码视频插入

发表
Xinghui LiXinghui Li 提交
作者: jinshu chenJinshu Chen, Xinghui LiXinghui Li, Xu Bai, Tianxiang Ma, Pengze Zhang, Zhuowei_ChenZhuowei Chen, Gen Li, Lijie Liu, Songtao Zhao, Bingchuan LiBingchuan Li, Qian He

摘要

AI 生成总结
OmniInsert 通过新颖的数据管道、特征注入、渐进式训练和上下文感知改写,解决了免遮罩视频插入的挑战,性能超越了商业解决方案。
基于扩散模型的视频插入最新进展令人印象深刻。然而,现有方法依赖于复杂的控制信号,但难以实现主体一致性,限制了其应用可行性。在本文中,我们专注于无遮 mask 视频插入任务,旨在解决三个关键挑战:数据稀缺、主体-场景平衡和插入协调。为解决数据稀缺问题,我们提出了一种新的数据管道 InsertPipe,自动构建多样化的跨对数据。在此数据管道的基础上,我们开发了 OmniInsert,一个新颖的统一框架,用于从单个和多个主体引用进行无 mask 视频插入。具体来说,为了保持主体-场景平衡,我们引入了一种简单而有效的条件特定特征注入机制,以独立注入多源条件,并提出了一种新颖的渐进式训练策略,使模型能够平衡来自主体和源视频的特征注入。同时,我们设计了主体焦点损失来改善主体的细节外观。为了进一步增强插入协调性,我们提出了一种插入偏好优化方法,通过模拟人类偏好来优化模型,并在引用时加入一个上下文感知重述模块,以将主体无缝集成到原始场景中。为了解决该领域基准测试的缺乏问题,我们引入了 InsertBench,一个包含多样化场景和精心选择的实体的综合基准。在 InsertBench 上的评估表明,OmniInsert 的性能优于最先进的闭源商业解决方案。代码将发布。
查看 arXiv 页面查看 PDF

评论

Xinghui LiXinghui Li
论文作者
论文提交者

🔥现在让视频插入变得容易🔥

我们提出了 OmniInsert,这是一个新颖的统一框架,用于从单人和多人引用进行无掩码视频插入。

亮点:

技术。1) 我们开发了 InsertPipe,一个系统的数据策划框架,包含多个数据管道,可自动生成高质量、多样化的数据;2) 我们提出了 OmniInsert,一个统一的无掩码架构,能够无缝地将单人和多人引用插入到视频中;3) 我们介绍了 InsertBench,一个专门针对 MVI 任务的综合基准。

意义。1) OmniInsert 展示了卓越的生成质量,弥合了学术研究与商业级应用之间的差距;2) 我们对 MVI 任务进行了全面研究——包括数据、模型和基准——将公开发布以支持未来的研究和开发。

[代码和演示将发布🚀]

项目主页:https://phantom-video.github.io/OmniInsert/

代码:https://github.com/Phantom-video/OmniInsert

论文:https://arxiv.org/abs/2509.17627