我们是否仍然需要用掩码语言模型预训练编码器?




摘要
评论

关于 token 分类部分,最让我困扰的是 CoNLL-2003(我没有检查论文中使用的其他 token 分类数据集)存在严重的偏见:测试集的 10.77% 由于泄露或重复而不可靠(这是我用作 https://huggingface.co/blog/lbourdois/lle 示例的数据集)。

你好,
感谢你的提问!
你完全正确 — EuroBERT 架构不适合用于 token 分类,这主要是因为它的分词器,正如我们在论文中解释的:https://arxiv.org/abs/2503.05500。
然而,保持架构不变(即使它并非对所有任务都是最优的)以及让所有模型接触完全相同的数据,是我们实验设计的关键部分。这种设置使我们能够隔离训练目标的影响。在这些受控条件下,我们展示了 CLM 在 token 分类方面优于 MLM,并且我们相信这一发现是具有普遍性的。

学习高质量的文本表示是广泛的自然语言处理(NLP)任务的基础。虽然编码器预训练传统上依赖于掩码语言建模(MLM),但最新证据表明,使用因果语言建模(CLM)预训练的解码器模型可以有效地被重新用作编码器,并且在文本表示基准测试中通常超越传统编码器。然而,目前尚不清楚这些增益是否反映了 CLM 目标的内在优势,还是源于模型和数据规模等混杂因素。在本文中,我们通过一系列大规模、精心控制的预训练消融实验来解决这个问题,共训练了 38 个模型,参数范围从 2.1 亿到 10 亿,并进行了超过 15,000 次微调和评估运行。我们发现,虽然使用 MLM 进行训练通常在文本表示任务中表现更好,但 CLM 训练的模型数据效率更高,并显示出更好的微调稳定性。基于这些发现,我们通过实验表明,在固定的计算训练预算下,一种依次应用 CLM 和 MLM 的两阶段训练策略能够实现最佳性能。此外,我们证明,当从现有的预训练 CLM 模型初始化时,这种策略变得更具吸引力,从而减少了训练一流编码器模型所需的计算负担。我们发布了所有项目产物,以促进进一步的研究。
arXiv explained 对这篇论文的解读 👉 https://arxivexplained.com/papers/should-we-still-pretrain-encoders-with-masked-language-modeling

谢谢分享 🤗! 对于想要快速阅读的人,我们也写了一篇博客文章:https://huggingface.co/blog/Nicolas-BZRD/encoders-should-not-be-only-pre-trained-with-mlm
让我们来看看 token 分类:
关于 CLM 优于 MLM 的假设存在一个问题:
所有的 MLM 模型都使用了 EuroBERT。而 EuroBERT 在 token 分类方面表现非常糟糕,参考 EuroBERT 论文(表 1:https://arxiv.org/pdf/2503.05500)。
因此,这个假设在使用 EuroBERT 时可能是正确的,但对于例如 XLM-R 来说则绝对不适用。
我多年前在 CoNLL-2003 上对 GPT-2 和 BERT 进行过比较。CLM 明显落后,请看这里。