4KAgent:代理式任意图像4K超分辨率

发表
Zhengzhong TuZhengzhong Tu 提交
作者: Yushen ZuoYushen Zuo, uniqzhengQi Zheng, MingyangWuMingyang Wu, Xinrui JiangXinrui Jiang, Renjie LiRenjie Li, Jian WangJian Wang, Yide ZhangYide Zhang, Gengchen Mai, Lihong V. Wang, James Zou, Xiaoyu Wang, Ming-Hsuan Yang, Zhengzhong TuZhengzhong Tu

摘要

我们推出了4KAgent,这是一个统一的代理式超分辨率通用系统,旨在将任何图像普遍提升至4K分辨率(如果迭代应用,甚至可以更高)。我们的系统能够将分辨率极低、存在严重降质(例如256x256的高度失真输入)的图像转换为晶莹剔透、照片级的4K输出。4KAgent包含三个核心组件:(1) 性能分析(Profiling),一个根据特定用例定制4KAgent管线的模块;(2) 感知代理(Perception Agent),它利用视觉语言模型和图像质量评估专家来分析输入图像并制定量身定制的修复计划;以及(3) 修复代理(Restoration Agent),它遵循递归执行-反思范式,并在质量驱动的专家混合策略指导下,执行计划,为每个步骤选择最佳输出。此外,4KAgent内嵌了一个专门的面部修复管线,显著增强了肖像和自拍照中的面部细节。我们对4KAgent进行了严格评估,涵盖11个不同的任务类别,总计26个多样化基准测试,在广泛的成像领域中树立了新的SOTA(State-of-the-Art)。我们的评估涵盖了自然图像、肖像照片、AI生成内容、卫星图像、荧光显微镜以及眼底检查、超声和X射线等医学成像,在感知(例如NIQE、MUSIQ)和保真度(例如PSNR)指标方面均表现出卓越的性能。通过为低级视觉任务建立一种新颖的代理范式,我们旨在促进不同研究社区对以视觉为中心的自主代理的更广泛兴趣和创新。我们将在以下网址发布所有代码、模型和结果:https://4kagent.github.io
查看 arXiv 页面查看 PDF
4KAgent:代理式任意图像4K超分辨率

评论

Zhengzhong TuZhengzhong Tu
论文作者
论文提交者

我们提出 4KAgent,一个统一的智能体超分辨率通用系统,旨在将任何图像普遍升级到 4K 分辨率(如果迭代应用甚至更高)。我们的系统可以将分辨率极低且严重退化的图像,例如 256x256 的高度失真输入,转换为晶莹剔透、照片级的 4K 输出。4KAgent 包含三个核心组件:(1) 配置文件定制模块,根据特定用例定制 4KAgent 管线;(2) 感知智能体,利用视觉语言模型和图像质量评估专家来分析输入图像并制定量身定制的修复计划;以及 (3) 修复智能体,它遵循递归执行-反射范式,在质量驱动的专家混合策略指导下,为每一步选择最优输出,从而执行计划。此外,4KAgent 内嵌了一个专门的面部修复管线,显著增强了肖像和自拍照片中的面部细节。我们对 4KAgent 进行了严格评估,涵盖 11 个不同的任务类别,总计 26 个多样化的基准,在广泛的成像领域中树立了新的最先进水平。我们的评估涵盖了自然图像、肖像照片、AI 生成内容、卫星图像、荧光显微镜以及眼底检查、超声和 X 射线等医学成像,在感知(例如 NIQE、MUSIQ)和保真度(例如 PSNR)指标方面均表现出卓越性能。通过为低级视觉任务建立一种新颖的智能体范式,我们旨在促进跨不同研究社区对以视觉为中心的自主智能体的更广泛兴趣和创新。我们将发布所有代码、模型和结果,网址为:https://4kagent.github.io/

Peiran LPeiran L

干得好!

Grant SingletonGrant Singleton

arXiv explained对这篇论文的解读 👉 https://arxivexplained.com/papers/4kagent-agentic-any-image-to-4k-super-resolution