Aya Vision:推进多语言多模态新境界

发表
AKAK 提交
作者: Saurabh Dash, Yiyang NanYiyang Nan, John Dang, Arash Ahmadian, Shivalika Singh, Madeline Smith, Bharat Venkitesh, Vlad Shmyhlo, Viraat Aryabumi, Walter Beller-Morales, Jeremy Pekmez, Jason Ozuzu, Pierre Richemond, Acyr Locatelli, Nick Frosst, Phil Blunsom, Aidan Gomez, Ivan Zhang, Marzieh Fadaee, Manoj Govindassamy, Sudip Roy, Matthias Gallé, Beyza Ermis, Ahmet Üstün, Sara Hooker

摘要

构建多模态语言模型面临根本性挑战:需要对齐视觉和语言模态,策划高质量的指令数据,并避免在引入视觉后现有纯文本能力的退化。在多语言环境下,这些困难被进一步放大,对不同语言的多模态数据的需求加剧了现有的数据稀缺问题,机器翻译经常扭曲含义,并且灾难性遗忘更加明显。为了解决上述挑战,我们引入了涵盖数据和建模的新技术。首先,我们开发了一种合成标注框架,该框架可策划高质量、多样化的多语言多模态指令数据,使 Aya Vision 模型能够在多种语言中对多模态输入产生自然、人类偏好的响应。作为补充,我们提出了一种跨模态模型合并技术,该技术可以减轻灾难性遗忘,有效保留纯文本能力,同时增强多模态生成性能。与 Qwen-2.5-VL-7B、Pixtral-12B 等强大的多模态模型,甚至更大的 Llama-3.2-90B-Vision 相比,Aya-Vision-8B 取得了同类最佳的性能。我们进一步将此方法扩展到 Aya-Vision-32B,其性能优于其尺寸两倍以上的模型,例如 Molmo-72B 和 LLaMA-3.2-90B-Vision。我们的工作推动了多模态前沿的多语言进展,并提供了有效弯曲计算需求同时提供极高性能的技术见解。
查看 arXiv 页面查看 PDF

评论

AKAK
论文提交者

Screenshot 2025-05-14 at 9.40.52 AM.png