缩放链:通过尺度自回归与偏好对齐实现的极致超分辨率

发表
Sangwoo KimSangwoo Kim 提交
作者: Sangwoo KimBryan Sangwoo Kim, Jeongsol Kim, Jong Chul Ye

摘要

现代单图像超分辨率(SISR)模型在其训练的尺度因子下能产生逼真的结果,但当要求远超该范围进行放大时则会失效。我们通过缩放链(CoZ)来解决这一可扩展性瓶颈,这是一个与模型无关的框架,它将 SISR 分解为一系列带有多尺度感知提示的自回归中间尺度状态链。CoZ 重复利用一个骨干 SR 模型,将条件概率分解为可处理的子问题,以在无需额外训练的情况下实现极致分辨率。由于在高度放大时视觉线索会减少,我们为每个缩放步骤增加了由视觉-语言模型(VLM)生成的多尺度感知文本提示。提示提取器本身使用带有评论家 VLM 的广义奖励策略优化(GRPO)进行微调,使文本指导与人类偏好对齐。实验表明,将一个标准的 4 倍扩散 SR 模型封装在 CoZ 中,可以在感知质量和保真度都很高的情况下实现超过 256 倍的放大。项目页面:https://bryanswkim.github.io/chain-of-zoom/
查看 arXiv 页面查看 PDF

评论

Sangwoo KimSangwoo Kim
论文作者
论文提交者

我们引入了 Chain-of-Zoom,这是一个模型无关的框架,它将SISR分解成一个中间尺度状态的自回归链,利用多尺度感知的提示,以探索极端分辨率。 项目页面:https://bryanswkim.github.io/chain-of-zoom/

tanjim khan araftanjim khan araf

494356154_1421713365689663_9200677030306262144_n.jpg

tanjim khan araftanjim khan araf

八班照片