⏶9
OViP: 在线视觉-语言偏好学习
发表
由
Siyuan Wang 提交
作者: Shujun Liu, Siyuan Wang, Zejun Li, Jianxiang Wang, Cheng Zeng, Zhongyu Wei
摘要
大型视觉-语言模型(LVLMs)仍然容易出现幻觉,常常生成与视觉输入不符的内容。尽管最近的方法推进了多模态直接偏好优化(DPO)以减轻幻觉,但它们通常依赖于预定义或随机编辑的负样本,这些样本未能反映实际的模型错误,限制了训练效率。在这项工作中,我们提出了一种在线视觉-语言偏好学习(OViP)框架,该框架基于模型自身的幻觉输出动态构建对比训练数据。通过识别采样响应对之间的语义差异,并使用扩散模型合成负图像,OViP 实时生成更相关的监督信号。这种失败驱动的训练实现了文本和视觉偏好的自适应对齐。此外,我们改进现有评估协议,以更好地捕捉幻觉抑制与表达能力之间的权衡。在幻觉和通用基准上的实验表明,OViP 有效减少幻觉,同时保留了核心的多模态能力。
大型视觉-语言模型(LVLMs)仍然容易产生幻觉,经常生成与视觉输入不符的内容。虽然最近的方法推进了多模态直接偏好优化(DPO)来缓解幻觉,但它们通常依赖于预定义或随机编辑的负样本,这些样本未能反映实际的模型错误,从而限制了训练效率。在这项工作中,我们提出了一个在线视觉-语言偏好学习(OViP)框架,该框架根据模型自身的幻觉输出动态构建对比训练数据。通过识别采样响应对之间的语义差异,并使用扩散模型合成负面图像,OViP 可以实时生成更相关的监督信号。这种失败驱动的训练能够实现文本和视觉偏好的自适应对齐。此外,我们改进了现有的评估协议,以更好地捕捉幻觉抑制和表达能力之间的权衡。在幻觉和通用基准上的实验表明,OViP 有效地减少了幻觉,同时保留了核心的多模态能力。