Aria:开源多模态原生混合专家模型

10月08日发表
04月12日由 Haoning Wu, TeoHaoning Wu, Teo 提交
作者: Dongxu LiDongxu Li, Yudong Liu, Haoning Wu, TeoHaoning Wu, Yue Wang, Zhiqi Shen, Bowen(Brian) QuBowen Qu, Xinyao NiuXinyao Niu, Guoyin WangGuoyin Wang, Bei Chen, JunnanLiJunnan Li

摘要

信息以多种模态呈现。多模态原生 AI 模型对于整合真实世界的信息和提供全面的理解至关重要。虽然存在专有的多模态原生模型,但它们的不开放性为采用(更不用说适应)带来了障碍。为了填补这一空白,我们推出了 Aria,一个开放的多模态原生模型,在各种多模态、语言和编码任务中都具有一流的性能。Aria 是一个混合专家模型,每个视觉 token 和文本 token 分别激活 3.9B 和 3.5B 参数。它优于 Pixtral-12B 和 Llama3.2-11B,并且在各种多模态任务上与最佳专有模型具有竞争力。我们按照 4 阶段流程从头开始预训练 Aria,该流程逐步赋予模型强大的语言理解、多模态理解、长上下文窗口和指令跟随能力。我们开源了模型权重以及一个代码库,该代码库便于在实际应用中轻松采用和调整 Aria。

评论

Haoning Wu, TeoHaoning Wu, Teo
论文作者
论文提交者

模型:https://huggingface.co/rhymes-ai/Aria/

代码:https://github.com/rhymes-ai/Aria/

网站:https://rhymes.ai/

Aymeric RoucherAymeric Roucher

感谢这次精彩的发布!

这是我的总结:

image.png

Rhymes AI 发布 Aria:小型多模态 MoE,击败 GPT-4o 和 Gemini-1.5-Flash ⚡️

新玩家加入游戏!Rhymes AI 刚刚宣布,并推出了 Aria——一个多模态强力模型,正在超越其自身水平。

主要见解:

🧠 专家混合架构:总共 25.3B 个参数,但只有 3.9B 个激活。

🌈 多模态:文本/图像/视频 → 文本。

📚 新颖的训练方法:“多模态原生”,其中多模态训练直接在预训练期间开始,而不仅仅是在之后附加

📏 长 64K token 上下文窗口

🔓 Apache 2.0 许可证,权重、代码和演示均开源

⚡️ 在基准测试方面,Aria 让一些大牌黯然失色。

  • 在 MMMU 或 MathVista 等多个视觉基准测试中,它击败了 Pixtral 12B 或 Llama-3.2-12B。

  • 在长视频任务中,它甚至超越了更大的 GPT-4o,甚至在解析冗长文档时也胜过 Gemini 1.5 Flash。

但 Rhymes AI 不仅仅是在炫耀基准测试。他们已经让 Aria 为一个名为“Beago”的真实增强搜索应用程序提供动力。它甚至以极高的准确率处理最近发生的事件!

他们与 AMD 合作,使其速度比 Perplexity 或 Gemini 搜索等竞争对手快得多。🚀

Yury PanikovYury Panikov

太棒了。谢谢!

Saeed SojasiSaeed Sojasi

太棒了

Saeed SojasiSaeed Sojasi

太棒了

Dattu SharmaDattu Sharma

这篇论文很值得一读。我们写了一篇关于这篇论文和另外几篇论文的 summary blog,例如

  1. TPI LLM

  2. Differential Transformer

  3. ARIA

您可以在这里找到它。请阅读一下 :)