⏶12
LaViDa: 一个用于多模态理解的大型扩散语言模型
发表
由
Shufan Li 提交
作者:
Shufan Li, Konstantinos Kallidromitis, Hritik Bansal, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Jason Kuen, Zhe Lin, Kai-Wei Chang, Aditya Grover
摘要
现代视觉-语言模型(VLMs)可以解决广泛的需要视觉推理的任务。在实际应用场景中,VLMs 的理想特性包括快速推理和可控生成(例如,约束输出符合期望的格式)。然而,现有自回归(AR)VLM(如 LLaVA)在这些方面表现不佳。离散扩散模型(DMs)提供了一种有前景的替代方案,通过文本填充实现并行解码以加快推理速度和双向上下文的可控生成。尽管在纯语言设置中有效,DMs 在多模态任务中的潜力尚未充分探索。我们引入 LaViDa,一个基于 DMs 构建的 VLM 系列。我们通过为 DMs 配备一个视觉编码器来构建 LaViDa,并联合微调组合部分以实现多模态指令遵循。为了解决遇到的挑战,LaViDa 集成了新颖技术,如互补掩码以实现有效训练,前缀 KV cache 以实现高效推理,以及时间步偏移以实现高质量采样。实验表明,LaViDa 在 MMMU 等多模态基准上实现了与 AR VLMs 相当或更优的性能,同时提供了 DMs 的独特优势,包括灵活的速度-质量权衡、可控性和双向推理。在 COCO captioning 上,LaViDa 以 1.92 倍的速度优势在 CIDEr 分数上超过 Open-LLaVa-Next-8B +4.1 分。在双向任务上,它在 Constrained Poem Completion 上实现了 +59% 的提升。这些结果证明 LaViDa 是 AR VLMs 的一个有力替代方案。代码和模型将在最终版中发布。

我们提出了 LaViDa,这是首批也是最快的用于多模态理解任务的扩散语言模型之一。
项目页面: https://homepage.jackli.org/projects/lavida/index.html
检查点和数据: https://huggingface.co/collections/jacklishufan/lavida-10-682ecf5a5fa8c5df85c61ded
代码: https://github.com/jacklishufan/LaViDa