⏶47
TAG: 幻觉抵抗扩散采样的切向放大引导
发表
由
Hyunmin Cho 提交
作者:
Hyunmin Cho, Donghoon Ahn, Susung Hong, Jee Eun Kim, Seungryong Kim, Kyong Hwan Jin
摘要
AI 生成总结
切向放大引导 (TAG) 通过直接放大估计得分的切向分量而不修改模型架构来提高扩散模型样本的质量。最近的扩散模型在图像生成方面取得了最先进的性能,但常常会出现语义不一致或幻觉的问题。虽然各种推理时期的引导方法可以增强生成效果,但它们通常通过依赖外部信号或架构修改来间接运行,这会带来额外的计算开销。在本文中,我们提出了切线放大引导(Tangential Amplifying Guidance, TAG),一种更高效、更直接的引导方法,它仅在轨迹信号上运行,而无需修改底层扩散模型。TAG 利用中间样本作为投影基,并放大估计得分相对于该基的切线分量,以纠正采样轨迹。我们通过一阶泰勒展开来形式化这一引导过程,这表明放大切线分量可以将状态引向更高概率的区域,从而减少不一致性并提高样本质量。TAG 是一个即插即用的、与架构无关的模块,可以最小的计算量增加来提高扩散采样的保真度,为扩散引导提供了新的视角。

评论
论文作者
论文提交者
项目: https://hyeon-cho.github.io/TAG/
论文 (arXiv): https://arxiv.org/pdf/2510.04533
演示 (含代码): https://huggingface.co/spaces/hyeoncho01/Tangential-Amplifying-Guidance
GitHub: https://github.com/hyeon-cho/Tangential-Amplifying-Guidance
最近的扩散模型在图像生成方面取得了最先进的性能,但经常出现语义不一致或幻觉问题。虽然各种推理时引导方法可以增强生成,但它们通常依赖于外部信号或架构修改间接工作,这会引入额外的计算开销。在本文中,我们提出了切向放大引导(TAG),一种更高效、更直接的引导方法,该方法仅基于轨迹信号进行操作,而无需修改底层扩散模型。TAG 利用中间样本作为投影基,并放大估计分数相对于该基的切向分量,以纠正采样轨迹。我们利用一阶泰勒展开式对该引导过程进行了形式化,该展开式表明放大切向分量可以将状态导向更高概率的区域,从而减少不一致性并提高样本质量。TAG 是一个即插即用、与架构无关的模块,只需最小的计算量即可提高扩散采样的保真度,为扩散引导提供了新的视角。