⏶3
基于 Hugging Face 知识图谱的推荐、分类和追踪基准测试
发表
由
Qiaosheng Chen 提交

作者:
Qiaosheng Chen, Kaijia Huang, Xiao Zhou, Weiqing Luo, Yuanning Cui, Gong Cheng

摘要
开源机器学习 (ML) 资源(例如模型和数据集)的快速增长加速了信息检索 (IR) 研究。然而,现有平台(如 Hugging Face)并未明确利用结构化表示,限制了高级查询和分析,例如跟踪模型演变和推荐相关数据集。为了弥补这一空白,我们构建了 HuggingKG,这是第一个从 Hugging Face 社区构建的用于 ML 资源管理的大规模知识图谱。HuggingKG 拥有 260 万个节点和 620 万条边,捕捉了领域特定的关系和丰富的文本属性。这使我们能够进一步提出 HuggingBench,一个多任务基准,包含三个新颖的测试集合,用于资源推荐、分类和跟踪等 IR 任务。我们的实验揭示了 HuggingKG 和派生任务的独特特性。这两个资源都已公开可用,有望推进开源资源共享和管理方面的研究。
HuggingKG 是一个大规模知识图谱,通过 HuggingBench 支持高级查询和分析,从而增强了开源 ML 资源的管理。
HuggingBench