分叉-合并解码:增强音视频大语言模型中的多模态理解

发表
Chaeyoung JungChaeyoung Jung 提交
作者: Chaeyoung JungChaeyoung Jung, Youngjoon Jang, Jongmin Choi, Joon Son Chung

摘要

这项工作的目标是通过解决模态偏差,在无需额外训练的情况下,增强视听大型语言模型(AV-LLM)中的平衡多模态理解。在当前的AV-LLM中,音频和视频特征通常在解码器中联合处理。尽管这种策略有助于统一的多模态理解,但它可能会引入模态偏差,即模型由于训练信号不平衡而倾向于过度依赖某一模态。为了缓解这一问题,我们提出了分叉-合并解码(FMD),这是一种简单而有效的推理时策略,无需额外训练或架构修改。FMD首先通过早期解码器层处理纯音频和纯视频输入(分叉阶段),执行模态特定推理;然后合并生成的隐藏状态,在剩余层中进行联合推理(合并阶段)。这种方法促进了模态的平衡贡献,并利用跨模态的互补信息。我们在两个代表性的AV-LLM(VideoLLaMA2 和 video-SALMONN)上,使用三个基准数据集评估了我们的方法。实验结果表明,在专注于音频、视频和组合视听推理的任务上,性能持续改善,证明了推理时干预对于鲁棒多模态理解的有效性。
查看 arXiv 页面查看 PDF

评论

Chaeyoung JungChaeyoung Jung
论文作者
论文提交者

分叉-合并解码(FMD)在推理时通过利用单模态理解和跨模态交互,无需额外训练即可增强音视频大型语言模型(AV-LLMs)的推理能力。