⏶30
模型早已知道最佳噪声:视频扩散模型中基于注意力机制的贝叶斯主动噪声选择
发表
由
Kwanyoung 提交
作者: Kwanyoung Kim, Sanghyun Kim
摘要
初始噪声的选择显著影响视频扩散模型的质量和与提示的一致性,对于相同的提示,不同的噪声种子可能导致截然不同的生成结果。尽管最近的方法依赖于外部设计的先验(如频率滤波器或帧间平滑),但它们往往忽略了指示哪些噪声种子固有更优的内部模型信号。为了解决这个问题,我们提出了 ANSE(主动噪声选择用于生成),这是一个模型感知框架,通过量化基于注意力的不确定性来选择高质量的噪声种子。其核心是 BANSA(通过注意力进行的贝叶斯主动噪声选择),一种采集函数,通过测量多个随机注意力样本之间的熵差异来估计模型信心和一致性。为了高效进行推理时部署,我们引入了 BANSA 的伯努利掩码近似,它使得仅使用一个扩散步骤和注意力层子集即可估计得分。在 CogVideoX-2B 和 5B 上的实验表明,ANSE 提高了视频质量和时间一致性,而推理时间仅分别增加了 8% 和 13%,为视频扩散中的噪声选择提供了一种有原则且可泛化的方法。请参阅我们的项目页面:https://anse-project.github.io/anse-project/
网站:https://anse-project.github.io/anse-project/