⏶1

Maya 的背后：构建多语言视觉语言模型

05月13日发表

05月15日由 Karthik 提交

作者: Nahid Alam, Karthik Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Chan Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji

摘要

近来，我们看到了大型视觉-语言模型 (VLMs) 的快速发展。它们在学术基准测试中展示了令人印象深刻的结果，主要是在常用语言上，但在低资源语言和不同的文化背景下表现不足。为了解决这些局限性，我们推出了 Maya，一个开源多语言 VLM。我们的贡献包括：1) 一个基于 LLaVA 预训练数据集的八种语言的多语言图像-文本预训练数据集；以及 2) 一个支持这些语言、增强视觉-语言任务中文化和语言理解能力的多语言图像-文本模型。代码可在 https://github.com/nahidalam/maya 获取。

查看 arXiv 页面查看 PDF

Karthik

论文作者

论文提交者

已被 VLMs4ALLCVPR 2025 研讨会接收

Maya 的背后：构建多语言视觉语言模型

摘要

评论