⏶9
立场:AI 竞赛为 GenAI 评估提供了实证严谨性的黄金标准
发表
由
Meg Risdal 提交

作者: D. Sculley, Will Cukierski,
Phil Culliton,
Sohier Dane, Maggie Demkin, Ryan Holbrook,
Addison Howard,
Paul Mooney,
Walter Reade,
Megan Risdal,
Nate Keating





摘要
在这篇立场文件中,我们观察到生成式人工智能(Generative AI)的实证评估正处于一个危机时刻,因为传统的机器学习评估和基准测试策略不足以满足评估现代 GenAI 模型和系统的需求。这有很多原因,包括这些模型通常具有几乎无限的输入和输出空间,通常没有明确定义的真实目标(ground truth),并且通常表现出基于先前模型输出上下文的强大反馈循环和预测依赖性。在这些关键问题之上,我们认为 数据泄露(leakage) 和 数据污染(contamination) 的问题实际上是 GenAI 评估中最重要且最难解决的问题。有趣的是,AI 竞赛领域已经发展出有效的措施和实践来应对数据泄露,以阻止竞赛环境中的不端行为者作弊。这使得 AI 竞赛成为一种特别有价值(但未被充分利用)的资源。现在是时候让该领域将 AI 竞赛视为 GenAI 评估中实证严谨性的“黄金标准”,并充分利用其结果并赋予其应有的价值。
在本文中,我们认为 AI 竞赛是 GenAI 评估的黄金标准。它们是该领域一种未充分利用的工具,用于解决泄露和污染问题,而泄露和污染是 GenAI 系统面临的严峻挑战,需要注重新颖性的评估。