⏶26
ScaleCap:基于双模态去偏的推理时可扩展图像字幕生成
发表
由
Jiaqi Wang 提交
作者: Long Xing,
Qidong Huang, Xiaoyi Dong, Pan Zhang,
Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin

摘要
本文提出了 ScaleCap,这是一种推理时可扩展的图像字幕生成策略,能够生成全面而详细的图像描述。高质量图像字幕生成的关键挑战在于大型视觉语言模型(LVLMs)固有的偏差:多模态偏差导致描述粒度不平衡,对某些元素提供详细描述,而对另一些元素则仅粗略带过;语言偏差导致对不存在对象的幻觉描述。为了解决这些问题,我们提出了一种可扩展的去偏字幕生成策略,该策略通过增加推理预算持续丰富和校准字幕。具体而言,我们提出了两个新颖的组件:启发式问答和对比句评分。前者根据图像生成特定内容的问题并回答它们,以逐步将相关信息注入字幕。后者采用句子级别的离线对比解码,有效识别并消除由语言偏差引起的幻觉。随着推理成本的增加,ScaleCap 会提出更多启发式问题,以逐步捕捉额外的视觉细节,生成更准确、平衡和信息量更大的字幕。广泛的模态对齐实验证明了 ScaleCap 的有效性。使用 ScaleCap 注释 45 万张图像并将其用于 LVLM 预训练,可在 11 个广泛使用的基准测试中实现持续的性能提升。此外,ScaleCap 通过两项额外任务展示了所生成字幕的卓越丰富性和保真度:在 VQA 任务中用字幕替换图像,以及从字幕重建图像以评估语义覆盖范围。代码可在 https://github.com/Cooperx521/ScaleCap 获取。
本文提出了 ScaleCap,一种推理时可扩展的图像字幕策略,能够生成全面且详细的图像字幕。高质量图像字幕的关键挑战在于 LVLM 固有的偏差:多模态偏差导致描述粒度不平衡,对某些元素提供详细描述而对另一些元素则只是草草带过;语言偏差导致对不存在对象的幻觉描述。为了解决这些问题,我们提出了一种可扩展的去偏字幕策略,该策略在推理预算增加的情况下不断丰富和校准字幕。具体而言,我们提出了两个新颖的组件:启发式问答和对比句评分。前者根据图像生成内容特定的问题并进行回答,以逐步将相关信息注入字幕。后者采用句子级别的离线对比解码,有效识别并消除由语言偏差引起的幻觉。随着推理成本的增加,ScaleCap 会提出更多启发式问题,以逐步捕获更多视觉细节,生成更准确、平衡和信息丰富的字幕。大量的模态对齐实验证明了 ScaleCap 的有效性。使用 ScaleCap 对 45 万张图像进行标注,并将其用于 LVLM 预训练,在 11 个广泛使用的基准测试中均取得了持续的性能提升。此外,ScaleCap 在两项额外任务中展示了生成字幕的卓越丰富性和保真度:在 VQA 任务中用字幕替换图像,以及从字幕重建图像以评估语义覆盖范围。代码可在 此 HTTPS 网址 获取。