⏶45
缩放链:通过尺度自回归与偏好对齐实现的极致超分辨率
发表
由
Sangwoo Kim 提交
作者:
Bryan Sangwoo Kim, Jeongsol Kim, Jong Chul Ye
摘要
现代单图像超分辨率(SISR)模型在其训练的尺度因子下能产生逼真的结果,但当要求远超该范围进行放大时则会失效。我们通过缩放链(CoZ)来解决这一可扩展性瓶颈,这是一个与模型无关的框架,它将 SISR 分解为一系列带有多尺度感知提示的自回归中间尺度状态链。CoZ 重复利用一个骨干 SR 模型,将条件概率分解为可处理的子问题,以在无需额外训练的情况下实现极致分辨率。由于在高度放大时视觉线索会减少,我们为每个缩放步骤增加了由视觉-语言模型(VLM)生成的多尺度感知文本提示。提示提取器本身使用带有评论家 VLM 的广义奖励策略优化(GRPO)进行微调,使文本指导与人类偏好对齐。实验表明,将一个标准的 4 倍扩散 SR 模型封装在 CoZ 中,可以在感知质量和保真度都很高的情况下实现超过 256 倍的放大。项目页面:https://bryanswkim.github.io/chain-of-zoom/。
我们引入了 Chain-of-Zoom,这是一个模型无关的框架,它将SISR分解成一个中间尺度状态的自回归链,利用多尺度感知的提示,以探索极端分辨率。 项目页面:https://bryanswkim.github.io/chain-of-zoom/