预测即将到来的词元顺序可以提高语言建模效果

发表
Zayd Muhammad Kawakibi ZuhriZayd Muhammad Kawakibi Zuhri 提交
作者: Zayd Muhammad Kawakibi ZuhriZayd M. K. Zuhri, EddErland Hilman Fuadi, Alham Fikri AjiAlham Fikri Aji

摘要

多Token预测(MTP)已被提出作为一种辅助目标,以提高语言模型训练中的下一个Token预测(NTP),但其改进不一致,在标准的NLP基准测试中表现不佳。我们认为,MTP准确预测未来Token作为辅助损失过于困难。因此,我们提出了Token顺序预测(TOP),该方法通过学习排序损失训练模型,使其能够按接近度对即将出现的Token进行排序。与MTP的多个Transformer层相比,TOP仅需要一个额外的unembedding层。我们使用NTP、MTP和TOP目标预训练了3.4亿、18亿和70亿参数的模型。在八个标准的NLP基准测试上的结果表明,TOP在规模化训练中整体上优于NTP和MTP。我们的代码可在https://github.com/zaydzuhri/token-order-prediction获取。
查看 arXiv 页面查看 PDF
预测即将到来的词元顺序可以提高语言建模效果

评论

Zayd Muhammad Kawakibi ZuhriZayd Muhammad Kawakibi Zuhri
论文作者
论文提交者

多词预测(MTP)被提出作为一种辅助目标,用于改进语言模型训练中的下一词预测(NTP),但其改进效果并不一致,在标准的 NLP 基准测试中表现不佳。我们认为 MTP 的精确未来词预测作为辅助损失过于困难。相反,我们提出了词序预测(TOP),它训练模型使用学习排序损失来预测未来词的接近程度。与 MTP 的多个 Transformer 层相比,TOP 仅需要一个额外的非嵌入层。我们使用 NTP、MTP 和 TOP 目标预训练了 3.4 亿、18 亿和 70 亿参数的模型。在八个标准 NLP 基准测试上的结果表明,即使在规模化应用中,TOP 的整体表现也优于 NTP 和 MTP。我们的代码可在 https://github.com/zaydzuhri/token-order-prediction 上获取。