⏶6
通过奖励引导解码控制多模态LLM
发表
由
Oscar Mañas 提交

作者:
Oscar Mañas, Pierluca D'Oro, Koustuv Sinha, Adriana Romero-Soriano, Michal Drozdzal, Aishwarya Agrawal

摘要
随着多模态大型语言模型(MLLMs)的应用日益广泛,根据多样化的用户需求调整这些模型变得越来越重要。在本文中,我们研究了通过受控解码来调整 MLLMs 的方法。为此,我们首次引入了用于 MLLMs 奖励引导解码的方法,并展示了其在改善视觉基础方面的应用。我们的方法包括构建用于视觉基础的奖励模型,并使用它们来引导 MLLM 的解码过程。具体来说,我们构建了两个独立的奖励模型,以独立控制模型输出中对象精确度和召回率的程度。我们的方法通过两种方式实现了对 MLLM 推理过程的即时可控性:首先,通过控制解码过程中每个奖励函数的相对重要性,允许用户在图像字幕任务中动态地权衡对象精确度和召回率;其次,通过控制解码过程中搜索的广度,允许用户控制测试时计算量和视觉基础程度之间的权衡。我们在标准对象幻觉基准上评估了我们的方法,结果表明它能显著控制 MLLM 推理,同时始终优于现有的幻觉缓解方法。
随着多模态大型语言模型(MLLM)获得广泛应用,使其适应不同的用户需求变得越来越受关注。在本文中,我们研究了通过受控解码来适应 MLLM 的方法。为此,我们首次引入了一种用于 MLLM 奖励引导解码的方法,并展示了其在提高视觉基础方面的应用。我们的方法包括构建用于视觉基础的奖励模型,并使用它们来指导 MLLM 的解码过程。具体而言,我们构建了两个独立的奖励模型,以独立控制模型输出中对象精确度和召回率的程度。我们的方法通过两种方式实现了 MLLM 推理过程的即时可控性:首先,通过控制解码过程中每个奖励函数的相对重要性,允许用户在图像字幕任务中动态地权衡对象精确度和召回率;其次,通过控制解码过程中搜索的广度,允许用户控制测试时计算量和视觉基础程度之间的权衡。我们在标准对象幻觉基准上评估了我们的方法,结果表明它为 MLLM 推理提供了显著的可控性,同时始终优于现有的幻觉缓解方法。