ProfBench:需要专业知识才能回答和判断的多领域评分标准

发表
Shizhe DiaoShizhe Diao 提交
作者: Zhilin Wang, Jaehun Jung, Ximing Lu, Shizhe Diao, Ellie Evans, Jiaqi Zeng, Pavlo Molchanov, Yejin Choi, Jan Kautz, Yi Dong

摘要

AI 生成总结
ProfBench 使用人类专家标准评估专业领域的大型语言模型,揭示了专有模型和开源模型之间的挑战和性能差异。
评估大型语言模型(LLM)的进展通常受限于验证响应的挑战, 将评估限制在数学、编程和简短问答等任务上。然而, 许多实际应用需要评估 LLM 处理专业文档、综合信息以及根据用户查询生成全面报告的能力。 我们引入了 ProfBench:一个包含 7000 多个响应-标准对的集合,由具有物理学博士、化学博士、金融 MBA 和咨询 MBA 专业知识的人类专家进行评估。我们通过减轻自我增强偏差 并将评估成本降低 2-3 个数量级,构建了稳健且经济实惠的 LLM-Judges 来评估 ProfBench 评估标准,使其公平且易于更广泛的社区使用。 我们的研究结果表明,ProfBench 对即使是最先进的 LLM 也构成了重大挑战,GPT-5-high 等表现最佳的模型总体性能仅为 65.9\%。 此外,我们发现了专有模型和开源模型之间显著的性能差异, 并提供了关于扩展思维在解决复杂专业领域任务中所扮演角色的见解。 数据:https://huggingface.co/datasets/nvidia/ProfBench 和代码: https://github.com/NVlabs/ProfBench
查看 arXiv 页面查看 PDF

评论

Shizhe DiaoShizhe Diao
论文提交者

ProfBench:需要专业知识才能回答和判断的多领域评估标准