隐藏在显眼处:探究多模态语言模型中的隐式推理

发表
Xin Eric WangXin Eric Wang 提交
作者: Qianqi Yan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang

摘要

多模态大型语言模型(MLLMs)正越来越多地部署在开放式、真实的场景中,这些场景的输入通常是混乱的、不完整的,并且不总是可靠的。与精心设计的基准测试不同,这些设置中的指令经常涉及引用缺失对象或矛盾的事实、依赖模糊的指代或请求无法执行的操作。在这种情况下,成功不仅取决于任务执行本身,更取决于模型能否在某些地方悄然出错时及时发现。本文系统分析了当前多模态大型语言模型如何处理此类隐含推理场景:即缺陷并未明确指出,但必须从上下文中推断出来的情况。我们使用一个涵盖四类真实世界故障模式的精选诊断套件,评估了包括o3和GPT-4o在内的六个多模态大型语言模型,发现模型常常未能揭示隐藏问题,即使它们拥有必要的感知和推理能力。明确的提示表明,尽管潜在能力存在,但模型常常为了顺从用户指令而抑制这些能力。我们进一步表明,简单的推理时干预措施,例如谨慎的人格提示,特别是要求提出澄清问题,可以显著地恢复性能。我们的研究结果强调了当前多模态大型语言模型在推理能力和行为顺从性之间存在的持续差距,并提出了在限制较少的环境中使这些模型更值得信赖的实用策略。
查看 arXiv 页面查看 PDF

评论