大型多模态模型能否主动识别错误输入?对其输入审查能力的系统评估框架

发表
Yuan WuYuan Wu 提交
作者: Haiqi Yang, Jinzhe Li, Gengxu Li, Yi Chang, Yuan Wu

摘要

大型多模态模型(LMM)已取得显著发展,在处理复杂的多模态任务方面展现出强大的能力和卓越的性能。近期研究强调,大型语言模型倾向于被动接受有缺陷的输入,这常导致对无效提示进行徒劳的推理。然而,关于LMM是否能主动检测并审查错误输入的关键问题仍未得到探索。为了弥补这一空白,我们引入了输入审查能力评估框架(ISEval),该框架包含七类缺陷前提和三种评估指标。我们对十个先进的LMM进行了广泛评估,并得出了一些关键发现。大多数模型在没有指导的情况下难以主动检测有缺陷的文本前提,这反映出它们强烈依赖显式提示来识别前提错误。错误类型影响性能:模型在识别逻辑谬误方面表现出色,但在处理表层语言错误和某些条件缺陷方面表现不佳。模态信任度各异——Gemini 2.5 pro和Claude Sonnet 4在视觉和文本信息之间取得平衡,而aya-vision-8b在冲突中过度依赖文本。这些见解强调了迫切需要增强LMM主动验证输入有效性的能力,并为缓解该问题提供了新颖的见解。代码可在https://github.com/MLGroupJLU/LMM_ISEval获取。
查看 arXiv 页面查看 PDF

评论

Yuan WuYuan Wu
论文提交者

大型多模态模型(LMMs)取得了显著发展,在处理复杂多模态任务方面展现出卓越的性能。近期研究强调,大型语言模型倾向于被动接受有缺陷的输入,这往往导致对无效提示进行无效推理。然而,LMMs 是否能主动检测和审查错误输入这一关键问题仍未得到探索。为填补这一空白,我们引入了输入审查能力评估框架(ISEval),该框架包含七类有缺陷的前提和三个评估指标。我们对十个先进 LMMs 进行的广泛评估揭示了以下关键发现:大多数模型在没有指导的情况下难以主动检测有缺陷的文本前提,这反映出它们在识别前提错误时强烈依赖于明确提示。错误类型影响性能:模型在识别逻辑谬误方面表现出色,但在处理表层语言错误和某些条件缺陷时却表现不佳。模态信任度各异:Gemini 2.5 Pro 和 Claude Sonnet 4 平衡了视觉和文本信息,而 aya-vision-8b 在冲突中过度依赖文本。这些洞察强调了迫切需要增强 LMMs 主动验证输入有效性的能力,并为缓解这一问题提供了新颖的见解。代码可在 https://github.com/MLGroupJLU/LMM_ISEval 获取。