CSD-VAR:视觉自回归模型中的内容-风格分解

发表
Quang-Binh NguyenQuang-Binh Nguyen 提交
作者: Quang-Binh NguyenQuang-Binh Nguyen, Minh Luu, Quang Nguyen, Anh Tran, Khoi Nguyen

摘要

从单个图像中解耦内容和风格,即内容-风格分解(CSD),可以实现对提取内容的重新语境化和对提取风格的风格化,从而在视觉合成中提供更大的创作灵活性。虽然最近的个性化方法已经探索了显式内容风格的分解,但它们仍然是为扩散模型量身定制的。与此同时,视觉自回归建模(VAR)作为一种具有下一尺度预测范式的有前景的替代方案而出现,其性能与扩散模型相当。在本文中,我们探索将VAR作为CSD的生成框架,利用其尺度级别的生成过程来改进解耦。为此,我们提出了CSD-VAR,这是一种引入了三项关键创新的新颖方法:(1) 一种尺度感知交替优化策略,将内容和风格表示与其各自的尺度对齐以增强分离;(2) 一种基于SVD的校正方法,以减轻内容渗漏到风格表示中;以及 (3) 一种增强的键值(K-V)记忆,以增强内容身份的保留。为了对这项任务进行基准测试,我们引入了CSD-100,这是一个专门为内容-风格分解设计的数据集,其特点是包含以各种艺术风格渲染的各种主题。实验表明,CSD-VAR优于现有方法,实现了卓越的内容保留和风格化保真度。
查看 arXiv 页面查看 PDF

评论

Quang-Binh NguyenQuang-Binh Nguyen
论文作者
论文提交者
此评论已隐藏。
Quang-Binh NguyenQuang-Binh Nguyen
论文作者
论文提交者

一种用于视觉自回归模型(Scale-Wise AR)的新颖内容风格个性化方法

Quang-Binh NguyenQuang-Binh Nguyen
论文作者
论文提交者

我们探索了VAR固有的尺度偏差,以实现更高效的内容风格分解,表现优于基于扩散的方法

VuongVuong

一篇非常棒的论文!