⏶10
ModernBERT 或 DeBERTaV3?探究架构和数据对Transformer编码器模型性能的影响
04月11日发表
04月14日由
Stefan Schweter 提交

作者:
Wissam Antoun, Benoît Sagot, Djamé Seddah

摘要
像 DeBERTaV3 和 ModernBERT 这样的预训练 transformer-encoder 模型引入了旨在提高效率和性能的架构进步。尽管 ModernBERT 的作者报告称,在多个基准测试中,其性能优于 DeBERTaV3,但由于缺乏公开的训练数据以及未使用共享数据集进行比较,因此很难确定这些提升是归因于架构改进还是训练数据的差异。在这项工作中,我们通过在与 CamemBERTaV2(DeBERTaV3 法语模型)相同的数据集上预训练 ModernBERT,隔离模型设计的影响,从而进行了一项受控研究。我们的结果表明,之前的模型世代在样本效率和整体基准性能方面仍然更胜一筹,ModernBERT 的主要优势在于更快的训练和推理速度。然而,与早期的模型(如 BERT 和 RoBERTa)相比,新提出的模型仍然提供了有意义的架构改进。此外,我们观察到高质量的预训练数据加速了收敛,但并未显着提高最终性能,这表明可能存在基准饱和。这些发现表明,在评估 transformer 模型时,区分预训练数据与架构创新非常重要。
对 ModernBERT 与其他架构的出色比较。
NER 或 QA 未在 ModernBERT 论文中提及,而本文非常清楚地表明,ModernBERT 在这些类型的任务中存在一些问题。
此外,我非常感兴趣是否有人可以训练不带 RoPe 的 ModernBERT,以查看这是否是 NER 性能不佳的真正原因。(遗憾的是,我没有可用于此消融研究的多 GPU。)