Safe-Sora: 通过图形水印实现安全的文本到视频生成

发表
Zihan SuZihan Su 提交
作者: Zihan SuZihan Su, Xuerui Qiu, Hongbin Xu, Tangyu Jiang, Junhao Zhuang, Chun Yuan, Ming Li, Shengfeng He, Fei Richard Yu

摘要

生成式视频模型的爆炸式增长放大了对 AI 生成内容可靠版权保护的需求。尽管隐式生成水印在图像合成中很受欢迎,但在视频生成领域仍未得到充分探索。为了弥补这一空白,我们提出了 Safe-Sora,这是第一个直接将图形水印嵌入视频生成过程的框架。受水印性能与水印和覆盖内容之间视觉相似性密切相关的观察启发,我们引入了分层粗到细自适应匹配机制。具体来说,水印图像被分成块,每个块被分配到视觉上最相似的视频帧,并进一步定位到最佳空间区域以实现无缝嵌入。为了实现在视频帧上水印块的时空融合,我们开发了增强了 3D 小波变换的 Mamba 架构,并采用了一种新颖的时空局部扫描策略,有效地建模了水印嵌入和检索过程中的长程依赖关系。据我们所知,这是首次将状态空间模型应用于水印,为高效和鲁棒的水印保护开辟了新途径。广泛的实验表明,Safe-Sora 在视频质量、水印保真度和鲁棒性方面取得了最先进的性能,这主要归功于我们的提案。我们的代码将在发表后发布。
查看 arXiv 页面查看 PDF

评论

Zihan SuZihan Su
论文作者
论文提交者

我们提出了 Safe-Sora,这是第一个将图形水印直接集成到视频生成过程中的框架。

项目:https://sugewud.github.io/Safe-Sora-project

代码:https://github.com/Sugewud/Safe-Sora