⏶6
MELLA:弥合低资源语言 MLLM 的语言能力与文化基础之间的鸿沟
发表
由
Kejia Zhang 提交
作者: Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi
摘要
多模态大型语言模型(MLLM)在高资源语言中表现出卓越的性能。然而,在低资源语言的语境中,它们的有效性显著下降。当前的跨语言增强方法通常局限于文本模态或仅依赖于机器翻译。虽然这些方法有助于模型获得基本的语言能力并产生“薄描述”,但它们忽视了多模态信息性和文化扎根的重要性,这两者对于有效服务低资源语言用户至关重要。为了弥合这一差距,在本研究中,我们为在低资源语言环境中真正有效的MLLM确定了两个重要目标,即1)语言能力和2)文化扎根,并特别强调文化意识。为了实现这些双重目标,我们提出了一种双源策略,指导收集针对每个目标量身定制的数据,从原生网络alt-text中获取文化信息,并从MLLM生成的标题中获取语言信息。作为一个具体的实现,我们引入了MELLA,一个多模态、多语言数据集。实验结果表明,在MELLA上进行微调后,八种语言在各种MLLM骨干上均普遍有所性能提升,模型能够生成“厚描述”。我们验证了性能提升来自文化知识增强和语言能力增强。我们的数据集可在https://opendatalab.com/applyMultilingualCorpus找到。
一个有趣的工作!