⏶4
揭秘多模态大语言模型中的视觉质量悖论
发表
由
Shuo Xing 提交
作者:
Shuo Xing,
Lanqing Guo,
Hongyuan Hua, Seoyoung Lee, Peiran Li, Yufei Wang, Zhangyang Wang,
Zhengzhong Tu
摘要
近期多模态大型语言模型(MLLMs)在基准视觉-语言任务上表现出色,但关于输入视觉质量如何影响其响应的了解甚少。图像的更高感知质量是否已经转化为更好的 MLLM 理解能力?我们首次进行了一项系统性研究,涵盖了领先的 MLLMs 和一系列视觉-语言基准,对每张图像应用了受控的退化和风格转换。令人惊讶的是,我们发现了一个视觉质量悖论:当图像偏离人类感知的保真度时,模型、任务甚至单个实例的性能反而可能提高。现成的图像修复流程未能调和这些特异性偏好。为弥合这一差距,我们引入了视觉质量测试时间调整(VQ-TTT)——一个轻量级的适应模块,它:(1) 在冻结的视觉编码器之前插入一个可学习的低秩核以调制频率内容;以及 (2) 仅通过 LoRA 微调浅层视觉编码器层。VQ-TTT 在单次前向传播中动态调整每个输入图像,使其与任务特定的模型偏好对齐。在所有评估的 MLLMs 和所有数据集上,VQ-TTT 显著提升了平均准确率,且无需外部模型、缓存特征或额外训练数据。这些发现重新定义了 MLLMs 的“更好”视觉输入,并强调了在人工智能成为主要数据客户的新时代,需要自适应而非普遍“干净”的图像。
近期的多模态大语言模型(MLLMs)在基准视觉-语言任务上表现出色,但关于输入视觉质量如何影响其响应知之甚少。图像更高的感知质量是否已经转化为更好的MLLM理解能力?我们进行了首次系统性研究,涵盖了主流MLLMs和一系列视觉-语言基准测试,对每张图像应用了受控的降级和风格转换。令人惊讶的是,我们发现了一个视觉质量悖论:当图像偏离人类感知的保真度时,模型、任务甚至单个实例的性能都可能提升。现成的修复流水线无法调和这些独特的偏好。为了弥合这一差距,我们引入了视觉质量测试时间调优(VQ-TTT)——一个轻量级的自适应模块,它:(1)在冻结的视觉编码器之前插入一个可学习的低秩核来调节频率内容;(2)通过LoRA仅微调浅层视觉编码器层。VQ-TTT在单次前向传递中动态调整每个输入图像,使其与任务特定的模型偏好对齐。在所有评估的MLLMs和所有数据集中,VQ-TTT显著提升了平均准确率,且无需外部模型、缓存特征或额外训练数据。这些发现重新定义了MLLMs的“更好”视觉输入,并强调了在AI成为主要数据客户的新时代,需要自适应而非普遍“干净”的图像。