⏶45

缩放链：通过尺度自回归与偏好对齐实现的极致超分辨率

05月24日发表

05月29日由 Sangwoo Kim 提交

作者: Bryan Sangwoo Kim, Jeongsol Kim, Jong Chul Ye

摘要

现代单图像超分辨率（SISR）模型在其训练的尺度因子下能产生逼真的结果，但当要求远超该范围进行放大时则会失效。我们通过缩放链（CoZ）来解决这一可扩展性瓶颈，这是一个与模型无关的框架，它将 SISR 分解为一系列带有多尺度感知提示的自回归中间尺度状态链。CoZ 重复利用一个骨干 SR 模型，将条件概率分解为可处理的子问题，以在无需额外训练的情况下实现极致分辨率。由于在高度放大时视觉线索会减少，我们为每个缩放步骤增加了由视觉-语言模型（VLM）生成的多尺度感知文本提示。提示提取器本身使用带有评论家 VLM 的广义奖励策略优化（GRPO）进行微调，使文本指导与人类偏好对齐。实验表明，将一个标准的 4 倍扩散 SR 模型封装在 CoZ 中，可以在感知质量和保真度都很高的情况下实现超过 256 倍的放大。项目页面：https://bryanswkim.github.io/chain-of-zoom/。

查看 arXiv 页面查看 PDF

Sangwoo Kim

论文作者

论文提交者

我们引入了 Chain-of-Zoom，这是一个模型无关的框架，它将SISR分解成一个中间尺度状态的自回归链，利用多尺度感知的提示，以探索极端分辨率。项目页面：https://bryanswkim.github.io/chain-of-zoom/

tanjim khan araf

八班照片