FreshStack: 构建用于评估技术文档检索的真实基准

04月17日发表
04月17日由 Nandan ThakurNandan Thakur 提交
作者: Nandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov

摘要

我们介绍了 FreshStack,一个可重用的框架,用于从社区提出的问题和答案中自动构建信息检索(IR)评估基准。FreshStack 执行以下步骤:(1)从代码和技术文档中自动收集语料库,(2)从社区提出的问题和答案中生成知识点,以及(3)知识点级别支持,使用检索技术和混合架构的融合检索文档。我们使用 FreshStack 在快速增长、最新和利基主题上构建五个数据集,以确保任务足够具有挑战性。在 FreshStack 上,现有的检索模型在开箱即用时,在所有五个主题上都显著低于 oracle 方法,表明有很大的空间来提高 IR 质量。此外,我们确定了重排序器没有明显提高第一阶段检索准确率的情况(五个主题中的两个)。我们希望 FreshStack 将促进未来在构建现实、可扩展且未受污染的 IR 和 RAG 评估基准方面的工作。FreshStack 数据集可在以下网址获取:https://fresh-stack.github.io
查看 arXiv 页面查看 PDF

评论

Nandan ThakurNandan Thakur
论文提交者

网站和数据集将在以下网址提供:https://fresh-stack.github.io/

Joseph [open/acc] PollackJoseph [open/acc] Pollack

很高兴看到你持续的工作和开源贡献,尤其现在这个话题真的越来越受欢迎了。 期待将这个添加到我的工具箱,并期待代码发布,希望能有一个易于使用的命令行工具 :-)