⏶8
TARS:用于减少多模态大语言模型幻觉的最小最大词元自适应偏好策略
发表
由
Kejia Zhang 提交
作者:
Kejia Zhang, Keda Tao, Zhiming Luo, Chang Liu, Jiasheng Tang, Huan Wang
摘要
多模态大语言模型 (MLLMs) 能够进行视觉语言推理,但它们生成的输出常常看似合理,实际上却存在事实错误或缺乏视觉依据,从而损害了其可靠性。直接偏好优化 (DPO) 是一种通过使模型输出与人类偏好对齐来纠正幻觉的常用策略。现有的 DPO 策略通常将与幻觉相关的偏好视为固定目标,在训练过程中依赖静态的监督信号。这种方法容易过拟合偏好数据中的表面语言线索,导致分布僵化和伪相关性,从而损害模型在因果相关的视觉信息上的基础。为了克服这一局限性,我们提出了 TARS,一种词元自适应偏好策略,它将 DPO 重构为一个最小-最大优化问题。TARS 在语义约束下最大化词元级别的分布偏移以模拟对齐的不确定性,并同时在这些受控扰动下最小化预期偏好损失。这一联合目标在减轻对偏好模式过拟合的同时,保留了因果基础,从而减少了多模态推理中的幻觉。我们在多个幻觉基准测试上评估了 TARS,并发现其表现始终强劲。仅使用 4.8k 的偏好样本且无专家反馈,TARS 就将幻觉率从 26.4% 降低到 13.2%,并将认知价值从 2.5 降低到 0.4。它的性能优于标准 DPO,并在多项关键指标上与 GPT-4o 相当。
致敬《星际穿越》中的塔斯(TARS)——并非穿越虫洞,而是引导 MLLM(多模态大型语言模型)远离幻觉的引力。