基于扩散模型的文本感知图像修复

发表
Jaewon MinJaewon Min 提交
作者: Jaewon MinJaewon Min, Jin Hyeon KimJin Hyeon Kim, Paul Hyunbin ChoPaul Hyunbin Cho, Jaeeun LeeJaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong KimSeungryong Kim

摘要

AI 生成总结
所提出的文本感知图像修复(TAIR)系统将多任务扩散框架与文本检测模块相结合,以增强图像恢复和文本保真度,优于现有基于扩散的方法。
图像恢复旨在恢复退化的图像。然而,现有的基于扩散的恢复方法,尽管在自然图像恢复方面取得了巨大成功,但往往难以忠实地重建退化图像中的文本区域。这些方法经常生成貌似合理但实际上不正确的文本状图案,我们称之为文本图像幻觉。在本文中,我们引入了文本感知图像恢复(TAIR),一项要求同时恢复视觉内容和文本保真度的新型恢复任务。为了解决这项任务,我们提出了SA-Text,一个包含10万张高质量场景图像的大规模基准,这些图像密集标注了各种复杂文本实例。此外,我们提出了一种多任务扩散框架,称为TeReDiff,它将扩散模型的内部特征整合到文本识别模块中,使两个组件都能从联合训练中受益。这使得能够提取丰富的文本表示,并将其用作后续去噪步骤中的提示。大量实验表明,我们的方法始终优于最先进的恢复方法,在文本识别准确性方面取得了显著提升。请参阅我们的项目页面:https://cvlab-kaist.github.io/TAIR/
查看 arXiv 页面查看 PDF

评论

Jaewon MinJaewon Min
论文作者
论文提交者

项目页面:https://cvlab-kaist.github.io/TAIR/