⏶3
机器学习生态系统解剖:Hugging Face 上的 200 万个模型
发表
由
Clem 🤗 提交

作者:
Benjamin Laufer,
Hamidah Oderinwale, Jon Kleinberg


摘要
许多人观察到,生成式机器学习(ML)和人工智能(AI)模型的开发和部署遵循一种独特的模式,即对预训练模型进行调整和微调以适应特定的下游任务。然而,关于这些相互作用结构的实证研究有限。本文分析了 Hugging Face 上 186 万个模型,Hugging Face 是一个领先的模型开发同行生产平台。我们对模型家族树(连接微调模型与其基础或父模型的网络)的研究揭示了庞大的微调谱系,其规模和结构差异很大。我们使用进化生物学视角研究 ML 模型,利用模型元数据和模型卡来衡量模型家族中性状的遗传相似性和突变。我们发现模型倾向于表现出家族相似性,这意味着当它们属于同一模型家族时,它们的遗传标记和性状表现出更多的重叠。然而,这些相似性在某些方面与标准的无性繁殖模型不同,因为突变是快速且有方向性的,因此两个“兄弟姐妹”模型倾向于比父/子对表现出更多的相似性。对这些突变方向性漂移的进一步分析揭示了关于开放机器学习生态系统的定性见解:许可证反直觉地从限制性商业许可证漂移到宽松或著作权共享许可证,这通常违反了上游许可证的条款;模型从多语言兼容性演变为仅支持英语的兼容性;模型卡长度缩短并通过更多地转向模板和自动生成的文本进行标准化。总的来说,这项工作朝着经验性地理解模型微调迈出了一步,并表明生态模型和方法可以产生新颖的科学见解。

非常酷的工作!从进化生物学的角度思考开源模型及其变体作为家族,并分析“模型家族的遗传相似性和性状突变”很有趣。
这些是HF上第2500、250、50和25大家族: