⏶7
RICO:通过视觉重建提高图像重配字幕的准确性和完整性
发表
由
wangyuchi 提交
作者: Yuchi Wang, Yishuo Cai, Shuhuai Ren, Sihan Yang, Linli Yao, Yuanxin Liu, Yuanxing Zhang, Pengfei Wan, Xu Sun
摘要
图像重描述(Image recaptioning)被广泛用于为各种多模态任务生成质量增强的训练数据集。现有的重描述方法通常依赖强大的多模态大型语言模型(MLLMs)来增强文本描述,但常常因幻觉以及由于缺失细粒度细节导致的不完整性而遭受不准确的困扰。为了解决这些局限性,我们提出了 RICO,一个通过视觉重建来优化描述的新颖框架。具体而言,我们利用文本到图像模型将描述重建为参考图像,并提示 MLLM 识别原始图像和重建图像之间的差异,以优化描述。这个过程是迭代进行的,从而进一步逐步促进生成更忠实和全面的描述。为了减轻迭代过程带来的额外计算成本,我们引入了 RICO-Flash,它学习使用 DPO 生成类似 RICO 的描述。广泛的实验表明,我们的方法显著提高了描述的准确性和完整性,在 CapsBench 和 CompreCap 上均比大多数基线方法提高了约 10%。代码已在 https://github.com/wangyuchi369/RICO 发布。
我们提出了 RICO,这是一种通过视觉重建来优化描述词的新型框架。传统的重新描述方法通常将图像直接映射到文本,而没有明确对齐两种模态的语义空间,这常常导致生成的描述词信息丢失。相比之下,我们的方法结合了视觉重建,使得这种损失更易于观察。通过修改器识别原始图像和重建图像之间的差异,我们优化描述词,以生成语义更一致、更全面的描述。
大量实验表明,我们的方法显著提高了描述词的准确性和完整性,在CapsBench和CompreCap上都比大多数基线提高了约10%。