⏶2
CRAWLDoc:一个用于书目文档鲁棒排序的数据集
发表
由
Fabian Karl 提交
作者:
Fabian Karl, Ansgar Scherp
摘要
出版物数据库依赖于从各种网络来源准确提取元数据,然而,网络布局和数据格式的多样性给元数据提供商带来了挑战。本文介绍了一种新的上下文相关网页文档排序方法 CRAWLDoc。从出版物的 URL(例如数字对象标识符)开始,CRAWLDoc 检索着陆页和所有链接的网络资源,包括 PDF、ORCID 个人资料和补充材料。它将这些资源以及锚文本和 URL 嵌入到统一的表示中。为了评估 CRAWLDoc,我们创建了一个新的、手动标注的数据集,包含来自计算机科学领域六大出版商的 600 篇出版物。我们的 CRAWLDoc 方法展示了在不同出版商和数据格式下,相关文档的鲁棒且与布局无关的排序。它为从具有各种布局和格式的网页文档中改进元数据提取奠定了基础。我们的源代码和数据集可在 https://github.com/FKarl/CRAWLDoc 获取。
本文介绍了 CRAWLDoc,一种用于链接网络文档上下文排名的D新方法。此外,还展示了一个包含来自六家顶级计算机科学出版社的 600 篇出版物的手动标注数据集。
源代码和数据集均可在以下地址获取:https://github.com/FKarl/CRAWLDoc