VisCodex:通过融合视觉与编码模型实现统一的多模态代码生成

发表
JackJack 提交
作者: Lingjie Jiang, HUANG SHAOHANShaohan Huang, Xun Wu, Yixia Li, Dongdong Zhang, Furu Wei

摘要

多模态大型语言模型(MLLMs)在视觉和文本理解的整合方面取得了显著进展。然而,它们从多模态输入生成代码的能力仍然有限。在这项工作中,我们引入了VisCodex,一个统一的框架,它无缝地融合了视觉和编码语言模型,以赋予MLLMs强大的多模态代码生成能力。我们利用基于任务向量的模型合并技术,将最先进的编码LLM集成到强大的视觉语言骨干中,同时保留了视觉理解和高级编码技能。为了支持训练和评估,我们引入了多模态编码数据集(MCD),这是一个包含59.8万个样本的大规模多样化集合,包括高质量的HTML代码、图表图像-代码对、图像增强的StackOverflow问答以及算法问题。此外,我们提出了InfiBench-V,一个新颖且具有挑战性的基准,专门设计用于评估模型在视觉丰富、真实世界编程问题上的表现,这些问题需要对文本和视觉上下文都有细致的理解。广泛的实验表明,VisCodex在开源MLLMs中取得了最先进的性能,并接近GPT-4o等专有模型,这突显了我们模型合并策略和新数据集的有效性。
查看 arXiv 页面查看 PDF

评论

JackJack
论文提交者

多模态大型语言模型(MLLMs)在视觉和文本理解的整合方面取得了显著进展。然而,它们从多模态输入生成代码的能力仍然有限。在这项工作中,我们引入了 VisCodex,一个统一的框架,无缝融合了视觉和编码语言模型,以赋予 MLLMs 强大的多模态代码生成能力。我们利用基于任务向量的模型融合技术,将最先进的编码 LLM 集成到一个强大的视觉-语言骨干中,同时保留了视觉理解和高级编码技能。为了支持训练和评估,我们引入了多模态编码数据集(MCD),这是一个包含 59.8 万个样本的大规模多样化集合,包括高质量的 HTML 代码、图表图像-代码对、图像增强的 StackOverflow 问答以及算法问题。此外,我们提出了 InfiBench-V,一个新颖且具有挑战性的基准,专门用于评估模型在视觉丰富、真实世界的编程问题上的表现,这些问题需要对文本和视觉上下文都有细致的理解。广泛的实验表明,VisCodex 在开源 MLLMs 中取得了最先进的性能,并接近 GPT-4o 等专有模型,凸显了我们模型融合策略和新数据集的有效性。