基于 Hugging Face 知识图谱的推荐、分类和追踪基准测试

发表
Qiaosheng ChenQiaosheng Chen 提交
作者: Qiaosheng ChenQiaosheng Chen, Kaijia Huang, Xiao Zhou, Weiqing Luo, Yuanning Cui, Gong Cheng

摘要

开源机器学习 (ML) 资源(例如模型和数据集)的快速增长加速了信息检索 (IR) 研究。然而,现有平台(如 Hugging Face)并未明确利用结构化表示,限制了高级查询和分析,例如跟踪模型演变和推荐相关数据集。为了弥补这一空白,我们构建了 HuggingKG,这是第一个从 Hugging Face 社区构建的用于 ML 资源管理的大规模知识图谱。HuggingKG 拥有 260 万个节点和 620 万条边,捕捉了领域特定的关系和丰富的文本属性。这使我们能够进一步提出 HuggingBench,一个多任务基准,包含三个新颖的测试集合,用于资源推荐、分类和跟踪等 IR 任务。我们的实验揭示了 HuggingKG 和派生任务的独特特性。这两个资源都已公开可用,有望推进开源资源共享和管理方面的研究。
查看 arXiv 页面查看 PDF

评论

Qiaosheng ChenQiaosheng Chen
论文作者
论文提交者

HuggingKG 是一个大规模知识图谱,通过 HuggingBench 支持高级查询和分析,从而增强了开源 ML 资源的管理。

  💻 <strong>GitHub</strong>

  <a href="https://github.com/nju-websoft/HuggingBench">代码仓库</a>



  📄 <strong>论文</strong>

  <a href="https://arxiv.org/abs/2505.17507">ArXiv 链接</a>





  📊 <strong>数据</strong>

  <a href="https://huggingface.co/collections/cqsss/huggingbench-67b2ee02ca45b15e351009a2">

HuggingBench