⏶74

我们是否仍然需要用掩码语言模型预训练编码器？

07月01日发表

07月08日由 Nicolas-BZRD 提交

作者: Hippolyte Gisserot-Boukhlef, Nicolas-BZRD Nicolas Boizard, Manuel Faysse, Duarte M. Alves, Emmanuel Malherbe, André F. T. Martins, Celine Hudelot Céline Hudelot, Colombo Pierre Colombo

摘要

学习高质量的文本表示对于广泛的NLP任务至关重要。虽然编码器预训练传统上依赖于掩码语言建模（MLM），但最新证据表明，使用因果语言建模（CLM）预训练的解码器模型可以有效地重新用作编码器，在文本表示基准上通常超越传统编码器。然而，目前尚不清楚这些收益是反映了CLM目标固有的优势，还是源于模型和数据规模等混杂因素。在本文中，我们通过一系列大规模、精心控制的预训练消融实验来解决这个问题，共训练了30个模型，参数范围从2.1亿到10亿，并进行了超过15,000次微调和评估运行。我们发现，虽然使用MLM进行训练通常在文本表示任务中表现出更好的性能，但CLM训练的模型在数据效率方面更高，并显示出改进的微调稳定性。基于这些发现，我们通过实验表明，在固定的计算训练预算下，一种顺序应用CLM然后MLM的两阶段训练策略可以实现最佳性能。此外，我们证明，当从现有LLM生态系统中现成的预训练CLM模型进行初始化时，这种策略变得更具吸引力，从而减少了训练一流编码器模型所需的计算负担。我们已在 https://hf.co/MLMvsCLM 发布所有项目工件，以促进进一步研究。

查看 arXiv 页面查看 PDF

Stefan Schweter

让我们来看看 token 分类：

关于 CLM 优于 MLM 的假设存在一个问题：

所有的 MLM 模型都使用了 EuroBERT。而 EuroBERT 在 token 分类方面表现非常糟糕，参考 EuroBERT 论文（表 1：https://arxiv.org/pdf/2503.05500）。

因此，这个假设在使用 EuroBERT 时可能是正确的，但对于例如 XLM-R 来说则绝对不适用。

我多年前在 CoNLL-2003 上对 GPT-2 和 BERT 进行过比较。CLM 明显落后，请看这里。

gaochangkuan

在文本表示（例如嵌入向量召回）方面，是否存在双向编码的编码器模型可能优于同等规模解码器模型的情况？

Loïck BOURDOIS

关于 token 分类部分，最让我困扰的是 CoNLL-2003（我没有检查论文中使用的其他 token 分类数据集）存在严重的偏见：测试集的 10.77% 由于泄露或重复而不可靠（这是我用作 https://huggingface.co/blog/lbourdois/lle 示例的数据集）。

Nicolas-BZRD

论文作者

论文提交者

你好，

感谢你的提问！

你完全正确 — EuroBERT 架构不适合用于 token 分类，这主要是因为它的分词器，正如我们在论文中解释的：https://arxiv.org/abs/2503.05500。

然而，保持架构不变（即使它并非对所有任务都是最优的）以及让所有模型接触完全相同的数据，是我们实验设计的关键部分。这种设置使我们能够隔离训练目标的影响。在这些受控条件下，我们展示了 CLM 在 token 分类方面优于 MLM，并且我们相信这一发现是具有普遍性的。

Nicolas-BZRD

论文作者

论文提交者

学习高质量的文本表示是广泛的自然语言处理（NLP）任务的基础。虽然编码器预训练传统上依赖于掩码语言建模（MLM），但最新证据表明，使用因果语言建模（CLM）预训练的解码器模型可以有效地被重新用作编码器，并且在文本表示基准测试中通常超越传统编码器。然而，目前尚不清楚这些增益是否反映了 CLM 目标的内在优势，还是源于模型和数据规模等混杂因素。在本文中，我们通过一系列大规模、精心控制的预训练消融实验来解决这个问题，共训练了 38 个模型，参数范围从 2.1 亿到 10 亿，并进行了超过 15,000 次微调和评估运行。我们发现，虽然使用 MLM 进行训练通常在文本表示任务中表现更好，但 CLM 训练的模型数据效率更高，并显示出更好的微调稳定性。基于这些发现，我们通过实验表明，在固定的计算训练预算下，一种依次应用 CLM 和 MLM 的两阶段训练策略能够实现最佳性能。此外，我们证明，当从现有的预训练 CLM 模型初始化时，这种策略变得更具吸引力，从而减少了训练一流编码器模型所需的计算负担。我们发布了所有项目产物，以促进进一步的研究。

Grant Singleton

arXiv explained 对这篇论文的解读 👉 https://arxivexplained.com/papers/should-we-still-pretrain-encoders-with-masked-language-modeling

Nicolas-BZRD

论文作者

论文提交者

谢谢分享 🤗! 对于想要快速阅读的人，我们也写了一篇博客文章：https://huggingface.co/blog/Nicolas-BZRD/encoders-should-not-be-only-pre-trained-with-mlm

我们是否仍然需要用掩码语言模型预训练编码器？

摘要

评论