面向训练无关视频推理分割的多模态大语言模型中分解注意力融合

发表
Hyun, JeongseokHyun, Jeongseok 提交
作者: Su Ho Han, Hyun, JeongseokJeongseok Hyun, Pilhyeon Lee, Minho Shim, Dongyoon Wee, Seon Joo Kim

摘要

AI 生成总结
分解注意力融合 (DecAF) 通过精炼来自多模态大型语言模型的注意力图来增强视频对象分割,而无需重新训练。
多模态大型语言模型(MLLM)通过关注与文本查询相关的视觉标记,展示出强大的视频理解能力。为了将此能力以免训练方式直接应用于定位,我们将视频推理分割视为视频问答任务,并通过rollout机制提取注意力图。然而,原始注意力图噪声大且与对象区域对齐不佳。我们提出了分解注意力融合(DecAF),它通过两种机制优化这些图:(1)对比对象-背景融合和(2)互补视频-帧融合。此方法抑制不相关的激活并增强以对象为中心的线索,从而能够将注意力图直接转换为粗略的分割掩模。此外,我们引入了注意力引导的SAM2提示,以获得细粒度掩模。与现有方法联合训练MLLM和SAM不同,我们的方法完全无需再训练。DecAF在免训练方法中表现优异,并在指称和推理VOS基准测试上取得了与基于训练方法相当的性能。代码将发布于https://github.com/HYUNJS/DecAF
查看 arXiv 页面查看 PDF
面向训练无关视频推理分割的多模态大语言模型中分解注意力融合

评论

Hyun, JeongseokHyun, Jeongseok
论文作者
论文提交者

我们引入了 DecAF (Decomposed Attention Fusion)——一个无需训练的框架,它将多语言大模型(MLLM)的注意力图转换为视频分割。DecAF 通过两种注意力融合机制来优化嘈杂的注意力:(1)对比对象-背景融合和(2)互补视频-帧融合。
此外,借助我们注意力引导的 SAM2 提示策略,DecAF 获得了细粒度掩码,并达到了与基于训练的方法相当的性能——所有这些都无需重新训练。

decaf_teaser