NeoBabel: 多语言视觉生成开放之塔

发表
Mohammad Mahdi DerakhshaniMohammad Mahdi Derakhshani 提交
作者: Mohammad Mahdi Derakhshani, Dheeraj Varghese, Marzieh Fadaee, Cees G. M. Snoek

摘要

文本到图像生成技术的发展主要以英语为中心,这为非英语使用者带来了障碍,并加剧了数字不平等。虽然现有系统依赖翻译管道,但这会引入语义漂移、计算开销和文化错位。我们引入了 NeoBabel,这是一种新颖的多语言图像生成框架,在性能、效率和包容性方面树立了新的帕累托前沿,支持六种语言:英语、中文、荷兰语、法语、印地语和波斯语。该模型采用大规模多语言预训练和高分辨率指令微调相结合的方式进行训练。为了评估其能力,我们将两个仅限英语的基准扩展为多语言版本:m-GenEval 和 m-DPG。NeoBabel 实现了最先进的多语言性能,同时保持了强大的英语能力,在 m-GenEval 上得分为 0.75,在 m-DPG 上得分为 0.68。值得注意的是,它在英语任务上与领先模型表现相当,但在多语言基准测试中分别超出它们 +0.11 和 +0.09,尽管这些模型是基于多语言基础 LLM 构建的。这证明了我们有针对性的对齐训练在保持和扩展跨语言泛化方面的有效性。我们进一步引入了两个新指标,以严格评估多语言对齐和对代码混合提示的鲁棒性。值得注意的是,NeoBabel 达到了或超越了仅限英语的模型,同时其模型规模小 2-4 倍。我们发布了一个开放工具包,包括所有代码、模型检查点、一个包含 1.24 亿多语言文本-图像对的精选数据集,以及标准化的多语言评估协议,以推进包容性人工智能研究。我们的工作表明,多语言能力并非一种权衡,而是提高生成式人工智能鲁棒性、效率和文化保真度的催化剂。
查看 arXiv 页面查看 PDF

评论

Mohammad Mahdi DerakhshaniMohammad Mahdi Derakhshani
论文提交者

文生图生成技术的发展一直以英语为中心,这为非英语使用者制造了障碍,并加剧了数字不平等。尽管现有系统依赖翻译管道,但这些管道会引入语义漂移、计算开销和文化错位。我们引入了 NeoBabel,这是一种新颖的多语言图像生成框架,在性能、效率和包容性方面树立了新的帕累托前沿,支持六种语言:英语、中文、荷兰语、法语、印地语和波斯语。该模型通过结合大规模多语言预训练和高分辨率指令微调进行训练。为了评估其能力,我们将两个仅限英语的基准扩展为多语言对应版本:m-GenEval 和 m-DPG。NeoBabel 在保持强大英语能力的同时,实现了最先进的多语言性能,在 m-GenEval 上得分 0.75,在 m-DPG 上得分 0.68。值得注意的是,它在英语任务上与领先模型表现相当,但在多语言基准上分别超出它们 0.11 和 0.09,尽管这些模型是基于多语言基础 LLM 构建的。这表明我们有针对性的对齐训练在保持和扩展跨语言泛化方面的有效性。我们进一步引入了两个新指标,以严格评估多语言对齐以及对代码混合提示的鲁棒性。值得注意的是,NeoBabel 在匹配或超越仅限英语模型的同时,其模型大小缩小了 2-4 倍。我们发布了一个开放工具包,包括所有代码、模型检查点、一个包含 1.24 亿多语言文本-图像对的精选数据集,以及标准化的多语言评估协议,以推进包容性 AI 研究。我们的工作表明,多语言能力并非一种权衡,而是提高生成式 AI 鲁棒性、效率和文化保真度的催化剂。