基于扩散模型的文本感知图像修复

发表
Jaewon MinJaewon Min 提交
作者: Jaewon MinJaewon Min, Jin Hyeon KimJin Hyeon Kim, Paul Hyunbin ChoPaul Hyunbin Cho, Jaeeun LeeJaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong Kim

摘要

图像恢复旨在恢复退化的图像。然而,现有的基于扩散的恢复方法,尽管在自然图像恢复方面取得了巨大成功,但往往难以忠实地重建退化图像中的文本区域。这些方法经常生成貌似合理但实际上不正确的文本状图案,我们称之为文本图像幻觉。在本文中,我们引入了文本感知图像恢复(TAIR),一项要求同时恢复视觉内容和文本保真度的新型恢复任务。为了解决这项任务,我们提出了SA-Text,一个包含10万张高质量场景图像的大规模基准,这些图像密集标注了各种复杂文本实例。此外,我们提出了一种多任务扩散框架,称为TeReDiff,它将扩散模型的内部特征整合到文本识别模块中,使两个组件都能从联合训练中受益。这使得能够提取丰富的文本表示,并将其用作后续去噪步骤中的提示。大量实验表明,我们的方法始终优于最先进的恢复方法,在文本识别准确性方面取得了显著提升。请参阅我们的项目页面:https://cvlab-kaist.github.io/TAIR/
查看 arXiv 页面查看 PDF

评论

Jaewon MinJaewon Min
论文作者
论文提交者

项目页面:https://cvlab-kaist.github.io/TAIR/