UQ:在未解决问题上评估语言模型

发表
Niklas MuennighoffNiklas Muennighoff 提交
作者: Fan NieFan Nie, Ken LiuKen Ziyu Liu, Zihao Wang, Rui Sun, Wei Liu, Weijia Shi, Huaxiu Yao, Linjun Zhang, Andrew Y. Ng, James Zou, Sanmi Koyejo, Yejin Choi, Percy Liang, Niklas Muennighoff

摘要

基准测试推动着人工智能研究的进步。一个有效的基准测试应该兼具 难度和现实性:问题既要挑战前沿模型,也要 反映实际应用。然而,当前的范式面临着难度与现实性的矛盾:考试类基准测试通常人为地增加了难度,但现实世界价值有限;而基于真实用户交互的基准测试则往往偏向于简单、高频的问题。在这项工作中,我们探索了一种截然不同的范式:在未解决的问题上评估模型。我们不采用一次性评分的静态基准测试,而是精心策划未解决的问题,并通过验证者辅助筛选和社区验证,随时间异步评估模型。我们引入了 UQ,这是一个包含 500 个具有挑战性、多样化问题的测试平台,这些问题均来自 Stack Exchange,涵盖了从计算机科学理论、数学到科幻和历史等主题,旨在考察推理、事实准确性和浏览等能力。UQ 的设计兼具难度和现实性:未解决的问题通常很难,并且在人类寻求答案时自然出现,因此解决这些问题能直接带来现实世界的价值。我们的贡献有三方面:(1)UQ-Dataset 及其收集管道,该管道结合了基于规则的过滤器、LLM 裁判和人工审查,以确保问题质量(例如,定义明确且具有挑战性);(2) UQ-Validators,复合验证策略,利用生成器-验证器差距提供评估信号,并预先筛选候选解决方案以供人工审查;(3) UQ-Platform,一个开放平台,专家们在该平台上共同验证问题和解决方案。最优秀模型的 UQ 验证通过率仅为 15%,初步的人工验证已在通过的模型中识别出了正确的答案。UQ 为评估前沿模型在现实世界的开放式挑战指明了方向,在这些挑战中取得成功可以推动人类知识的前沿。我们在 https://uq.stanford.edu 发布了 UQ。
查看 arXiv 页面查看 PDF
UQ:在未解决问题上评估语言模型

评论

Niklas MuennighoffNiklas Muennighoff
论文提交者

大型语言模型能解决未解的问题吗?答案是部分……更多详情请参阅 https://uq.stanford.edu 🙂

Pranav PawarPranav Pawar

非常喜欢这个概念!

我很快就会去 https://uq.stanford.edu/questions 看看能否审查一些问题,并将它们标记为已解决/未解决。