⏶8
MMInference:通过模态感知置换稀疏注意力加速长上下文VLM的预填充
发表
由
Huiqiang Jiang 提交

作者:
Yucheng Li,
Huiqiang Jiang,
Chengruidong Zhang,
Qianhui Wu,
Xufang Luo, Surin Ahn, Amir H. Abdi,
Dongsheng Li,
Jianfeng Gao, Yuqing Yang, Lili Qiu



摘要
长文本能力与视觉理解的结合为视觉语言模型(VLMs)开启了前所未有的潜力。然而,预填充阶段的二次注意力复杂度仍然是实际部署的一个重大障碍。为了克服这一限制,我们引入了MMInference(多模态百万标记推理),这是一种动态稀疏注意力方法,可加速长文本多模态输入的预填充阶段。首先,我们的分析表明,视频输入的时间和空间局部性导致了一种独特的稀疏模式,即网格模式。同时,VLMs在不同模态中表现出显著不同的稀疏分布。我们引入了一种基于排列的方法来利用独特的网格模式并处理模态边界问题。通过离线搜索每个头部的最优稀疏模式,MMInference根据输入动态构建稀疏分布。我们还提供了优化的GPU内核以实现高效的稀疏计算。值得注意的是,MMInference可以无缝集成到现有的VLM管道中,而无需进行任何模型修改或微调。在多模态基准测试(包括视频问答、字幕、VisionNIAH和混合模态NIAH)中,使用最先进的长文本VLM(LongVila、LlavaVideo、VideoChat-Flash、Qwen2.5-VL)进行的实验表明,MMInference在百万标记下将预填充阶段加速了8.3倍,同时保持了准确性。我们的代码可在https://aka.ms/MMInference获取。

MMinference,一种自底向上的系统算法协同设计稀疏注意力方法,使用长上下文 VLM 处理 1M token 视频的速度提高了 8.3 倍。
更多详情请见 https://aka.ms/MMinference