Maya 的背后:构建多语言视觉语言模型

发表
KarthikKarthik 提交
作者: Nahid Alam, KarthikKarthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan ChanRyan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti SharmaDrishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji

摘要

近来,我们看到了大型视觉-语言模型 (VLMs) 的快速发展。它们在学术基准测试中展示了令人印象深刻的结果,主要是在常用语言上,但在低资源语言和不同的文化背景下表现不足。为了解决这些局限性,我们推出了 Maya,一个开源多语言 VLM。我们的贡献包括:1) 一个基于 LLaVA 预训练数据集的八种语言的多语言图像-文本预训练数据集;以及 2) 一个支持这些语言、增强视觉-语言任务中文化和语言理解能力的多语言图像-文本模型。代码可在 https://github.com/nahidalam/maya 获取。
查看 arXiv 页面查看 PDF

评论

KarthikKarthik
论文作者
论文提交者

已被 VLMs4ALLCVPR 2025 研讨会接收