MUSAR:通过注意力路由从单主体数据集探索多主体定制

发表
Yanze WuYanze Wu 提交
作者: GuoZinan Guo, Pengze Zhang, Yanze WuYanze Wu, Chong Mou, Songtao Zhao, Qian HeQian He

摘要

当前的多主体定制方法面临两个关键挑战:获取多样化多主体训练数据的困难,以及不同主体之间的属性纠缠。为了弥合这些差距,我们提出了 MUSAR——一个简单而有效的框架,它仅需要单主体训练数据即可实现鲁棒的多主体定制。首先,为了突破数据限制,我们引入了去偏双联画学习。它从单主体图像构建双联画训练对,以促进多主体学习,同时通过静态注意力路由和双分支 LoRA 主动纠正双联画构建引入的分布偏差。其次,为了消除跨主体的纠缠,我们引入了动态注意力路由机制,该机制自适应地在生成图像和条件主体之间建立双射映射。这种设计不仅实现了多主体表示的解耦,而且随着参考主体的增加,保持了可伸缩的泛化性能。全面的实验表明,尽管仅需要单主体数据集,我们的 MUSAR 在图像质量、主体一致性和交互自然性方面,仍优于现有方法——即使是那些在多主体数据集上训练的方法。
查看 arXiv 页面查看 PDF

评论

Yanze WuYanze Wu
论文作者
论文提交者

项目页面:https://github.com/guozinan126/MUSAR