⏶1
MOLE: 使用大型语言模型提取和验证科学论文中的元数据
发表
由
Zaid Alyafeai 提交

作者:
Zaid Alyafeai, Maged S. Al-Shaibani,
Bernard Ghanem

摘要
元数据提取对于数据集的编目和保存至关重要,尤其考虑到当前科学研究的指数级增长,它能够实现有效的研究发现和可重现性。尽管 Masader(Alyafeai 等人,2021 年)为从阿拉伯语 NLP 数据集的学术文章中提取广泛的元数据属性奠定了基础,但它严重依赖人工标注。在本文中,我们提出了 MOLE,一个利用大型语言模型(LLMs)从涵盖阿拉伯语以外语言数据集的科学论文中自动提取元数据属性的框架。我们的模式驱动方法处理多种输入格式的整个文档,并包含强大的验证机制以确保一致的输出。此外,我们引入了一个新基准来评估此任务的研究进展。通过对上下文长度、少样本学习和网页浏览集成的系统分析,我们证明了现代 LLMs 在自动化此任务方面显示出有前景的结果,并强调了未来需要进一步改进以确保一致和可靠的性能。我们公开发布代码:https://github.com/IVUL-KAUST/MOLE 和数据集:https://huggingface.co/datasets/IVUL-KAUST/MOLE,供研究社区使用。
论文:https://arxiv.org/pdf/2505.19800
代码:https://github.com/IVUL-KAUST/MOLE
数据:https://hf.co/datasets/IVUL-KAUST/MOLE
博客:https://ivul-kaust.github.io/MOLE/blog
演示:https://moleform-production.up.railway.app