⏶12
映射流:揭示视频大语言模型中信息流的隐藏路径
发表
由
Taekyung Kim 提交
作者:
Minji Kim,
Taekyung Kim, Bohyung Han
摘要
AI 生成总结
视频大型语言模型(VideoLLMs)通过发起跨帧交互进行时间推理,然后进行视频-语言整合,并使用有效信息路径生成答案,同时抑制不必要的注意力边缘,从而执行视频问答。视频大语言模型(VideoLLMs)将视觉-语言模型的能力扩展到时空输入,从而支持视频问答(VideoQA)等任务。尽管VideoLLMs最近取得了进展,但它们在何处以及如何提取和传播视频和文本信息的内部机制仍有待探索。在本研究中,我们使用机械可解释性技术调查了VideoLLMs的内部信息流。我们的分析揭示了各种VideoQA任务的一致模式:(1)VideoLLMs中的时间推理始于早期到中期层中活跃的跨帧交互;(2)接着是中期层中渐进的视频-语言整合。这得益于视频表征和包含时间概念的语言嵌入之间的对齐。(3)完成此整合后,模型即可在中期到后期层中生成正确答案。(4)基于我们的分析,我们发现VideoLLMs可以通过选择这些有效的信息路径同时抑制大量的注意力边缘(例如,在LLaVA-NeXT-7B-Video-FT中为58%)来保持其VideoQA性能。这些发现提供了VideoLLMs如何执行时间推理的蓝图,并为提高模型可解释性和下游泛化性提供了实用的见解。我们的项目页面和源代码可在https://map-the-flow.github.io获取
我们对 VideoLLM 信息流的发现总结:
(a) 时间推理始于早期到中期层级 [绿色] 视频令牌内的跨帧交互,随后是视频-语言整合到问题中的时间关键词 [紫色]。此信息被传达到中后期层级的最后一个令牌 [橙色],并在其中生成答案 [黄色]。
(b) 这些有效路径通过注意力“敲除”(Attention Knockout)识别,该方法断开注意力对并跟踪最终答案概率的下降,以量化其影响。
(c) 层级答案概率在视频-语言整合后立即上升,表明模型在中层之后已准备好预测正确答案。
基于我们的分析,我们表明 VideoLLM 可以通过选择有效的信息路径,同时抑制大量注意力边缘来保持其 VideoQA 性能,例如 LLaVA-NeXT-7B-Video-FT 中为 58%。