⏶63

OmniInsert: 通过扩散 Transformer 模型实现任何参考的无掩码视频插入

09月22日发表

09月23日由 Xinghui Li 提交

作者: Jinshu Chen, Xinghui Li, Xu Bai, Tianxiang Ma, Pengze Zhang, Zhuowei_Chen Zhuowei Chen, Gen Li, Lijie Liu, Songtao Zhao, Bingchuan Li, Qian He

摘要

AI 生成总结

OmniInsert 通过新颖的数据管道、特征注入、渐进式训练和上下文感知改写，解决了免遮罩视频插入的挑战，性能超越了商业解决方案。

基于扩散模型的视频插入最新进展令人印象深刻。然而，现有方法依赖于复杂的控制信号，但难以实现主体一致性，限制了其应用可行性。在本文中，我们专注于无遮 mask 视频插入任务，旨在解决三个关键挑战：数据稀缺、主体-场景平衡和插入协调。为解决数据稀缺问题，我们提出了一种新的数据管道 InsertPipe，自动构建多样化的跨对数据。在此数据管道的基础上，我们开发了 OmniInsert，一个新颖的统一框架，用于从单个和多个主体引用进行无 mask 视频插入。具体来说，为了保持主体-场景平衡，我们引入了一种简单而有效的条件特定特征注入机制，以独立注入多源条件，并提出了一种新颖的渐进式训练策略，使模型能够平衡来自主体和源视频的特征注入。同时，我们设计了主体焦点损失来改善主体的细节外观。为了进一步增强插入协调性，我们提出了一种插入偏好优化方法，通过模拟人类偏好来优化模型，并在引用时加入一个上下文感知重述模块，以将主体无缝集成到原始场景中。为了解决该领域基准测试的缺乏问题，我们引入了 InsertBench，一个包含多样化场景和精心选择的实体的综合基准。在 InsertBench 上的评估表明，OmniInsert 的性能优于最先进的闭源商业解决方案。代码将发布。

查看 arXiv 页面查看 PDF

Xinghui Li

论文作者

论文提交者

🔥现在让视频插入变得容易🔥

我们提出了 OmniInsert，这是一个新颖的统一框架，用于从单人和多人引用进行无掩码视频插入。

亮点：

技术。1) 我们开发了 InsertPipe，一个系统的数据策划框架，包含多个数据管道，可自动生成高质量、多样化的数据；2) 我们提出了 OmniInsert，一个统一的无掩码架构，能够无缝地将单人和多人引用插入到视频中；3) 我们介绍了 InsertBench，一个专门针对 MVI 任务的综合基准。

意义。1) OmniInsert 展示了卓越的生成质量，弥合了学术研究与商业级应用之间的差距；2) 我们对 MVI 任务进行了全面研究——包括数据、模型和基准——将公开发布以支持未来的研究和开发。

[代码和演示将发布🚀]

项目主页：https://phantom-video.github.io/OmniInsert/

代码：https://github.com/Phantom-video/OmniInsert

论文：https://arxiv.org/abs/2509.17627

OmniInsert: 通过扩散 Transformer 模型实现任何参考的无掩码视频插入

摘要

评论