将领域知识融入材料标记化

发表
yerim Ohyerim Oh 提交
作者: yerim OhYerim Oh, Jun-Hyung Park, Junho Kim, SungHo Kim, SangKeun Lee

摘要

虽然语言模型越来越多地应用于材料科学领域,但典型的模型依赖于最初为自然语言处理开发的以频率为中心的 tokenization 方法。然而,这些方法经常产生过度的碎片化和语义损失,无法维持材料概念的结构和语义完整性。为了解决这个问题,我们提出了一种新的 tokenization 方法 MATTER,该方法将材料知识集成到 tokenization 中。基于在我们的材料知识库上训练的 MatDetector 和一种在 token 合并中优先考虑材料概念的重新排序方法,MATTER 保持了已识别的材料概念的结构完整性,并防止在 tokenization 期间发生碎片化,确保它们的语义意义保持完整。实验结果表明,MATTER 优于现有的 tokenization 方法,在生成和分类任务中分别实现了 4% 和 2% 的平均性能提升。这些结果强调了领域知识对于科学文本处理中的 tokenization 策略的重要性。我们的代码可在 https://github.com/yerimoh/MATTER 获取
查看 arXiv 页面查看 PDF

评论

yerim Ohyerim Oh
论文作者
论文提交者

image.png