⏶145
更智能、更好、更快、更长:用于快速、内存高效和长上下文微调和推理的现代双向编码器
12月18日发表
04月12日由
Jeremy Howard 提交

作者:
Benjamin Warner,
Antoine Chaffin,
Benjamin Clavié,
Orion Weller,
Oskar Hallström,
Said Taghadouini, Alexis Gallagher,
Raja Biswas,
Faisal Ladhak,
Tom Aarsen,
Nathan Cooper,
Griffin Adams,
Jeremy Howard,
Iacopo Poli












摘要
仅编码器 Transformer 模型(如 BERT)在检索和分类任务方面,相对于更大的仅解码器模型,提供了出色的性能-尺寸权衡。尽管 BERT 是众多生产管道的主力,但自发布以来,在 Pareto 改进方面一直有限。在本文中,我们介绍了 ModernBERT,将现代模型优化引入仅编码器模型,代表了相对于旧编码器的重大 Pareto 改进。ModernBERT 模型在 2 万亿个 token 上训练,原生序列长度为 8192,在包含各种分类任务以及不同领域(包括代码)的单向量和多向量检索的大量评估中表现出最先进的结果。除了强大的下游性能外,ModernBERT 也是速度最快、内存效率最高的编码器,专为在常见 GPU 上进行推理而设计。
评论

这是我目前使用 ModernBERT 在 CoNLL-2003 上进行的一些实验:
https://github.com/stefan-it/modern-bert-ner
:)
我们对 ModernBERT 的发布感到非常兴奋——它感觉可以成为各种有趣的新创公司和研究项目的基础。
事实上,论文和博客文章中提到的内容只是冰山一角。在各种方面微调模型有很多机会,我预计这将远远超出我们目前有限的探索所取得的成就。