AR-RAG: 图像生成中的自回归检索增强

发表
Jingyuan QiJingyuan Qi 提交
作者: Jingyuan QiJingyuan Qi, Zhiyang Xu, Qifan Wang, Lifu Huang

摘要

我们引入了自回归检索增强(AR-RAG),这是一种新颖的范式,它通过在图像块级别自回归地整合k近邻检索来增强图像生成。与以往在生成前执行单一、静态检索并基于固定参考图像对整个生成过程进行条件化的方法不同,AR-RAG 在每个生成步骤执行上下文感知的检索,使用先前生成的图像块作为查询来检索并整合最相关的图像块级视觉参考,使模型能够响应不断变化的生成需求,同时避免了现有方法中普遍存在的局限性(例如,过度复制、风格偏差等)。为了实现AR-RAG,我们提出了两个并行框架:(1) 解码中的分布增强(DAiD),这是一种无需训练的即插即用解码策略,它直接将模型预测图像块的分布与检索到的图像块的分布合并;(2) 解码中的特征增强(FAiD),这是一种参数高效的微调方法,它通过多尺度卷积操作逐步平滑检索到的图像块的特征,并利用它们来增强图像生成过程。我们在广泛采用的基准测试(包括 Midjourney-30K、GenEval 和 DPG-Bench)上验证了 AR-RAG 的有效性,结果表明其在图像生成模型方面比现有最先进的模型取得了显著的性能提升。
查看 arXiv 页面查看 PDF

评论

Jingyuan QiJingyuan Qi
论文作者
论文提交者

本文介绍了自回归检索增强(AR-RAG),这是一种新颖的范式,通过在补丁级别自回归地整合最近邻检索来增强图像生成。与以往在生成前进行一次性静态检索并将整个生成过程条件化于固定参考图像的方法不同,AR-RAG 在每个生成步骤中执行上下文感知的检索,使用先前生成的补丁作为查询,以检索并整合最相关的补丁级视觉参考,使模型能够响应不断变化的生成需求,同时避免了现有方法中普遍存在的局限性(例如,过度复制、风格偏差等)。为实现AR-RAG,我们提出了两种并行框架:(1) 解码中的分布增强(DAiD),这是一种无需训练的即插即用解码策略,直接将模型预测补丁的分布与检索到的补丁的分布进行融合;(2) 解码中的特征增强(FAiD),这是一种参数高效的微调方法,通过多尺度卷积操作逐步平滑检索到的补丁的特征,并利用它们来增强图像生成过程。我们在广泛采用的基准测试(包括Midjourney-30K、GenEval、

idea.png

和DPG-Bench)上验证了AR-RAG的有效性,证明其相对于最先进的图像生成模型有显著的性能提升。