⏶1
Maya 的背后:构建多语言视觉语言模型
发表
由
Karthik 提交

作者: Nahid Alam,
Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski,
Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A,
Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji



摘要
近来,我们看到了大型视觉-语言模型 (VLMs) 的快速发展。它们在学术基准测试中展示了令人印象深刻的结果,主要是在常用语言上,但在低资源语言和不同的文化背景下表现不足。为了解决这些局限性,我们推出了 Maya,一个开源多语言 VLM。我们的贡献包括:1) 一个基于 LLaVA 预训练数据集的八种语言的多语言图像-文本预训练数据集;以及 2) 一个支持这些语言、增强视觉-语言任务中文化和语言理解能力的多语言图像-文本模型。代码可在 https://github.com/nahidalam/maya 获取。
已被 VLMs4ALLCVPR 2025 研讨会接收