LLaDA-V: 带有视觉指令微调的大语言扩散模型

发表
Zebin YouZebin You 提交
作者: Zebin YouZebin You, Shen Nie, Xiaolu  ZhangXiaolu Zhang, Jun Hu, Jun Zhou, Zhiwu LuZhiwu Lu, Ji-Rong WenJi-Rong Wen, chongxuan liChongxuan Li

摘要

在这项工作中,我们引入 LLaDA-V,一个纯粹基于扩散模型的多模态大语言模型 (MLLM),它将视觉指令微调与掩码扩散模型相结合,这代表着对当前多模态方法中占主导地位的自回归范式的突破。LLaDA-V 基于具有代表性的大语言扩散模型 LLaDA 构建,并集成了视觉编码器和 MLP 连接器,将视觉特征映射到语言嵌入空间,实现了有效的多模态对齐。我们的实证研究揭示了几个有趣的结果:首先,尽管 LLaDA-V 的语言模型在纯文本任务上不如 LLaMA3-8B 和 Qwen2-7B 等同类模型强大,但它表现出有前景的多模态性能。在相同指令数据上训练时,LLaDA-V 在多模态任务上与 LLaMA3-V 具有高度竞争力,并且具有更好的数据可扩展性。它还缩小了与 Qwen2-VL 的性能差距,表明其架构在多模态任务上的有效性。其次,与现有混合自回归-扩散模型和纯扩散模型 기반 的 MLLMs 相比,LLaDA-V 在多模态理解方面达到了最先进的性能。我们的发现表明,大语言扩散模型在多模态领域展现出潜力,值得未来研究进一步探索。项目页面和代码:https://ml-gsai.github.io/LLaDA-V-demo/
查看 arXiv 页面查看 PDF

评论

Zebin YouZebin You
论文作者
论文提交者

项目和代码:https://ml-gsai.github.io/LLaDA-V-demo/

Zebin YouZebin You
论文作者
论文提交者

GitHub 链接:https://github.com/ML-GSAI/LLaDA-V