思考更多,感知更少?:评估多模态推理模型中的放大幻觉

发表
Chengzhi LiuChengzhi Liu 提交
作者: Chengzhi LiuChengzhi Liu, Zhongxing Xu, Qingyue Wei, Juncheng Wu, James Zou, Xin Eric Wang, Yuyin Zhou, Sheng Liu

摘要

测试时计算已使多模态大语言模型能够生成扩展的推理链,在多模态数学推理等任务上取得了强大的性能。然而,这种改进的推理能力往往伴随着幻觉的增加:随着生成内容的变长,模型倾向于偏离图像基础内容,并更多地依赖语言先验知识。注意力分析表明,更长的推理链会导致对视觉输入的关注度降低,这导致了幻觉。为了系统地研究这一现象,我们引入了 RH-AUC,这是一个量化模型感知准确性随推理长度如何变化的指标,使我们能够评估模型在推理过程中是否保持了视觉基础。我们还发布了 RH-Bench,一个涵盖多种多模态任务的诊断基准,旨在评估推理能力与幻觉之间的权衡。我们的分析表明 (i) 较大的模型通常在推理和感知之间取得更好的平衡,并且 (ii) 这种平衡受训练数据类型和领域的影响大于其总量的影响。这些发现强调了同时考虑推理质量和感知保真度的评估框架的重要性。
查看 arXiv 页面查看 PDF

评论

Chengzhi LiuChengzhi Liu
论文作者
论文提交者

项目网站:https://mlrm-halu.github.io/

GitHub: https://github.com/MLRM-Halu/MLRM-Halu