ScaleCap:基于双模态去偏的推理时可扩展图像字幕生成

发表
Jiaqi WangJiaqi Wang 提交
作者: Long Xing, Huang QidongQidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang ZangYuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin

摘要

本文提出了 ScaleCap,这是一种推理时可扩展的图像字幕生成策略,能够生成全面而详细的图像描述。高质量图像字幕生成的关键挑战在于大型视觉语言模型(LVLMs)固有的偏差:多模态偏差导致描述粒度不平衡,对某些元素提供详细描述,而对另一些元素则仅粗略带过;语言偏差导致对不存在对象的幻觉描述。为了解决这些问题,我们提出了一种可扩展的去偏字幕生成策略,该策略通过增加推理预算持续丰富和校准字幕。具体而言,我们提出了两个新颖的组件:启发式问答和对比句评分。前者根据图像生成特定内容的问题并回答它们,以逐步将相关信息注入字幕。后者采用句子级别的离线对比解码,有效识别并消除由语言偏差引起的幻觉。随着推理成本的增加,ScaleCap 会提出更多启发式问题,以逐步捕捉额外的视觉细节,生成更准确、平衡和信息量更大的字幕。广泛的模态对齐实验证明了 ScaleCap 的有效性。使用 ScaleCap 注释 45 万张图像并将其用于 LVLM 预训练,可在 11 个广泛使用的基准测试中实现持续的性能提升。此外,ScaleCap 通过两项额外任务展示了所生成字幕的卓越丰富性和保真度:在 VQA 任务中用字幕替换图像,以及从字幕重建图像以评估语义覆盖范围。代码可在 https://github.com/Cooperx521/ScaleCap 获取。
查看 arXiv 页面查看 PDF

评论

Jiaqi WangJiaqi Wang
论文提交者

本文提出了 ScaleCap,一种推理时可扩展的图像字幕策略,能够生成全面且详细的图像字幕。高质量图像字幕的关键挑战在于 LVLM 固有的偏差:多模态偏差导致描述粒度不平衡,对某些元素提供详细描述而对另一些元素则只是草草带过;语言偏差导致对不存在对象的幻觉描述。为了解决这些问题,我们提出了一种可扩展的去偏字幕策略,该策略在推理预算增加的情况下不断丰富和校准字幕。具体而言,我们提出了两个新颖的组件:启发式问答和对比句评分。前者根据图像生成内容特定的问题并进行回答,以逐步将相关信息注入字幕。后者采用句子级别的离线对比解码,有效识别并消除由语言偏差引起的幻觉。随着推理成本的增加,ScaleCap 会提出更多启发式问题,以逐步捕获更多视觉细节,生成更准确、平衡和信息丰富的字幕。大量的模态对齐实验证明了 ScaleCap 的有效性。使用 ScaleCap 对 45 万张图像进行标注,并将其用于 LVLM 预训练,在 11 个广泛使用的基准测试中均取得了持续的性能提升。此外,ScaleCap 在两项额外任务中展示了生成字幕的卓越丰富性和保真度:在 VQA 任务中用字幕替换图像,以及从字幕重建图像以评估语义覆盖范围。代码可在 此 HTTPS 网址 获取。