FACTORY:一个用于长篇事实性验证的挑战性人类验证提示集

发表
Mingda ChenMingda Chen 提交
作者: Mingda Chen, Yang Li, Xilun Chen, Adina Williams, Gargi Ghosh, Scott Yih

摘要

长篇事实性评估衡量模型对简短提示生成准确、全面响应的能力。现有基准通常缺乏人工验证,导致潜在的质量问题。为了解决这一限制,我们引入了 FACTORY,这是一个大规模、人工验证的提示集。FACTORY 采用模型在环方法开发并经人工完善,包含具有挑战性的提示,这些提示是事实寻求、可回答且明确的。我们使用 FACTORY 和现有数据集对 6 个最先进的语言模型进行了人工评估。我们的结果表明 FACTORY 是一个具有挑战性的基准:与其他数据集相比,最先进模型响应中约 40% 的主张并非事实,而其他数据集仅为 10%。我们的分析指出了 FACTORY 相对于先前基准的优势,强调了其可靠性以及模型对长尾事实进行推理的必要性。
查看 arXiv 页面查看 PDF

评论

Mingda ChenMingda Chen
论文提交者

FACTORY 是一个大规模、经过人工验证且具有挑战性的长篇事实性提示集。