⏶40

基于扩散模型的文本感知图像修复

06月11日发表

06月13日由 Jaewon Min 提交

作者: Jaewon Min, Jin Hyeon Kim, Paul Hyunbin Cho, Jaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong Kim

摘要

图像恢复旨在恢复退化的图像。然而，现有的基于扩散的恢复方法，尽管在自然图像恢复方面取得了巨大成功，但往往难以忠实地重建退化图像中的文本区域。这些方法经常生成貌似合理但实际上不正确的文本状图案，我们称之为文本图像幻觉。在本文中，我们引入了文本感知图像恢复（TAIR），一项要求同时恢复视觉内容和文本保真度的新型恢复任务。为了解决这项任务，我们提出了SA-Text，一个包含10万张高质量场景图像的大规模基准，这些图像密集标注了各种复杂文本实例。此外，我们提出了一种多任务扩散框架，称为TeReDiff，它将扩散模型的内部特征整合到文本识别模块中，使两个组件都能从联合训练中受益。这使得能够提取丰富的文本表示，并将其用作后续去噪步骤中的提示。大量实验表明，我们的方法始终优于最先进的恢复方法，在文本识别准确性方面取得了显著提升。请参阅我们的项目页面：https://cvlab-kaist.github.io/TAIR/

查看 arXiv 页面查看 PDF

Jaewon Min

论文作者

论文提交者

项目页面：https://cvlab-kaist.github.io/TAIR/

基于扩散模型的文本感知图像修复

摘要

评论