Falcon-H1:重新定义效率与性能的混合头语言模型家族

发表
Jingwei ZuoJingwei Zuo 提交
作者: Jingwei ZuoJingwei Zuo, Maksim Velikanov, Ilyas ChahedIlyas Chahed, Younes BYounes Belkada, Dhia Eddine Rhayem, Guillaume Kunsch, Hakim Hacid, Hamza Yous, BrahimFarhatBrahim Farhat, Ibrahim Khadraoui, Mugariya Farooq, Giulia CampesanGiulia Campesan, Ruxandra Cojocaru, Yasser Djilali, Shi Hu, Iheb ChaabaneIheb Chaabane, Puneesh Khanna, Mohamed El Amine SeddikMohamed El Amine Seddik, Ngoc Dung Huynh, Phuc Le Khac, Leen AlQadi, Billel Mokeddem, Mohamed ChamiMohamed Chami, Abdalgader AbubakerAbdalgader Abubaker, Mikhail Lubinets, Kasper PiskorskiKacper Piskorski, Slim FrikhaSlim Frikha

摘要

在本报告中,我们介绍了Falcon-H1,这是一个新型的大型语言模型(LLM)系列,其特点是采用混合架构设计,针对不同用例优化了高性能和高效率。与早期仅基于Transformer或Mamba架构构建的Falcon模型不同,Falcon-H1采用了一种并行的混合方法,将基于Transformer的注意力机制与状态空间模型(SSM)相结合,后者以其卓越的长上下文记忆能力和计算效率而闻名。我们系统地重新审视了模型设计、数据策略和训练动态,挑战了该领域的传统做法。Falcon-H1发布了多种配置,包括0.5B、1.5B、1.5B-deep、3B、7B和34B参数的基础版和指令微调版。同时还提供了量化指令微调模型,在Hugging Face Hub上总计发布了超过30个检查点。Falcon-H1模型展现了业界领先的性能以及卓越的参数和训练效率。旗舰级的Falcon-H1-34B模型在性能上媲美甚至超越了高达70B规模的模型,如Qwen3-32B、Qwen2.5-72B和Llama3.3-70B,同时使用了更少的参数和数据。较小的模型也显示出类似趋势:Falcon-H1-1.5B-Deep可与当前领先的7B-10B模型相媲美,而Falcon-H1-0.5B的性能与2024年典型的7B模型相当。这些模型在推理、数学、多语言任务、指令遵循和科学知识方面表现出色。Falcon-H1支持高达256K的上下文token和18种语言,适用于广泛的应用场景。所有模型均在宽松的开源许可下发布,彰显了我们致力于无障碍且有影响力的AI研究的承诺。
查看 arXiv 页面查看 PDF
Falcon-H1:重新定义效率与性能的混合头语言模型家族

评论

Jingwei ZuoJingwei Zuo
论文作者
论文提交者

这份80多页的报告深入探讨了Falcon-H1背后的关键设计决策——从架构创新和数据策略,到挑战LLM开发传统实践的训练方法 🔥

Peter EdwardsPeter Edwards
此评论已隐藏。
TimeLordRapsTimeLordRaps

终于等到 SOTA 混合模型了

TimeLordRapsTimeLordRaps

感谢您为创建这个重要的起点所付出的巨大努力