⏶112
Aria:开源多模态原生混合专家模型
10月08日发表
04月12日由
Haoning Wu, Teo 提交

作者:
Dongxu Li, Yudong Liu,
Haoning Wu, Yue Wang, Zhiqi Shen,
Bowen Qu,
Xinyao Niu,
Guoyin Wang, Bei Chen,
Junnan Li


摘要
信息以多种模态呈现。多模态原生 AI 模型对于整合真实世界的信息和提供全面的理解至关重要。虽然存在专有的多模态原生模型,但它们的不开放性为采用(更不用说适应)带来了障碍。为了填补这一空白,我们推出了 Aria,一个开放的多模态原生模型,在各种多模态、语言和编码任务中都具有一流的性能。Aria 是一个混合专家模型,每个视觉 token 和文本 token 分别激活 3.9B 和 3.5B 参数。它优于 Pixtral-12B 和 Llama3.2-11B,并且在各种多模态任务上与最佳专有模型具有竞争力。我们按照 4 阶段流程从头开始预训练 Aria,该流程逐步赋予模型强大的语言理解、多模态理解、长上下文窗口和指令跟随能力。我们开源了模型权重以及一个代码库,该代码库便于在实际应用中轻松采用和调整 Aria。
评论

感谢这次精彩的发布!
这是我的总结:
Rhymes AI 发布 Aria:小型多模态 MoE,击败 GPT-4o 和 Gemini-1.5-Flash ⚡️
新玩家加入游戏!Rhymes AI 刚刚宣布,并推出了 Aria——一个多模态强力模型,正在超越其自身水平。
主要见解:
🧠 专家混合架构:总共 25.3B 个参数,但只有 3.9B 个激活。
🌈 多模态:文本/图像/视频 → 文本。
📚 新颖的训练方法:“多模态原生”,其中多模态训练直接在预训练期间开始,而不仅仅是在之后附加
📏 长 64K token 上下文窗口
🔓 Apache 2.0 许可证,权重、代码和演示均开源
⚡️ 在基准测试方面,Aria 让一些大牌黯然失色。
在 MMMU 或 MathVista 等多个视觉基准测试中,它击败了 Pixtral 12B 或 Llama-3.2-12B。
在长视频任务中,它甚至超越了更大的 GPT-4o,甚至在解析冗长文档时也胜过 Gemini 1.5 Flash。
但 Rhymes AI 不仅仅是在炫耀基准测试。他们已经让 Aria 为一个名为“Beago”的真实增强搜索应用程序提供动力。它甚至以极高的准确率处理最近发生的事件!
他们与 AMD 合作,使其速度比 Perplexity 或 Gemini 搜索等竞争对手快得多。🚀

这篇论文很值得一读。我们写了一篇关于这篇论文和另外几篇论文的 summary blog,例如
TPI LLM
Differential Transformer
ARIA
您可以在这里找到它。请阅读一下 :)
模型:https://huggingface.co/rhymes-ai/Aria/
代码:https://github.com/rhymes-ai/Aria/
网站:https://rhymes.ai/