FlexOlmo: 灵活数据使用的开放语言模型

发表
Niklas MuennighoffNiklas Muennighoff 提交
作者: Weijia Shi, Akshita Bhagia, Kevin Farhat, Niklas Muennighoff, Pete Walsh, Jacob Morrison, Dustin Schwenk, Shayne Longpre, Jake Poznanski, Allyson Ettinger, Daogao Liu, Margaret Li, Dirk Groeneveld, Mike Lewis, Wen-tau Yih, Luca Soldaini, Kyle Lo, Noah A. Smith, Luke Zettlemoyer, Pang Wei Koh, Hannaneh Hajishirzi, Ali Farhadi, Sewon Min

摘要

我们介绍FlexOlmo,这是一类新型的语言模型(LMs),它支持(1)无需数据共享的分布式训练,其中不同的模型参数在封闭数据集上独立训练;以及(2)数据灵活的推理,其中这些参数及其相关数据可以灵活地包含或排除在模型推理中,无需进一步训练。FlexOlmo采用了一种专家混合(MoE)架构,每个专家都在封闭数据集上独立训练,然后通过新的领域信息路由进行整合,无需任何联合训练。FlexOlmo在FlexMix上进行训练,FlexMix是我们整理的一个语料库,包含公开可用数据集以及七个领域专用数据集,它们代表了对封闭数据集的真实近似。我们评估了参数高达370亿(200亿活跃)的模型在31个多样化的下游任务上的表现。我们展示了在公共数据上训练的通用专家可以与来自其他数据所有者的独立训练专家有效结合,平均带来41%的相对改进,同时允许用户根据数据许可或权限要求选择不使用某些数据。我们的方法还平均优于之前的模型合并方法10.1%,并且在相同训练FLOPs下,超越了没有数据限制训练的标准MoE。总而言之,这项研究为受监管行业中拥有敏感或受保护数据的数据所有者和研究人员提供了一个解决方案。FlexOlmo通过将数据保留在本地并支持推理过程中对数据访问的细粒度控制,从而在尊重数据所有者偏好的同时,能够从封闭数据中受益。
查看 arXiv 页面查看 PDF