⏶29
BigCodeArena:通过执行揭示代码生成中更可靠的人类偏好
发表
由
taesiri 提交

作者:
Terry Yue Zhuo, Xiaolong Jin,
Hange Liu, Juyong Jiang, Tianyang Liu, Chen Gong, Bhupesh Bishnoi, Vaisakhi Mishra, Marek Suppa, Noah Ziems, Saiteja Utpala, Ming Xu, Guangyu Song,
Kaixin Li, Yuhan Cao,
Bo Liu, Zheng Liu, Sabina Abdurakhmanova, Wenhao Yu, Mengzhao Jia, Jihan Yao,
Kenneth Hamilton, Kumar Shridhar,
Minh Chien Vu, Dingmin Wang, Jiawei Liu, Zijian Wang, Qian Liu, Binyuan Hui, Meg Risdal,
Ahsen Khaliq, Atin Sood, Zhenchang Xing, Wasi Uddin Ahmad, John Grundy, David Lo, Banghua Zhu, Xiaoning Du,
Torsten Scholak,
Leandro von Werra









摘要
AI 生成总结
BigCodeArena 是一个用于代码生成的开放式人工评估平台,支持实时执行和交互,揭示了 LLM 在编码任务中的偏好和能力。众包模型评估平台,如Chatbot Arena,能够从人类视角进行实时评估,以评估模型响应的质量。在编码领域,手动检查LLM生成内容的质量是极其困难的,因为它需要理解长段的原始代码并专门模拟代码执行。为此,我们推出了BigCodeArena,一个开放的人工代码生成评估平台,并支持全面的实时执行环境。基于Chatbot Arena,BigCodeArena能够执行LLM生成的代码,并允许人类与执行过程和结果进行交互。我们收集了10个广泛使用的LLMs的14,000多个原始代码中心对话会话,涵盖10种语言和8种执行环境。在这些对话中,我们确定了超过4,700个具有成对人类偏好的多轮样本。进一步分析揭示了LLMs在由任务、语言和框架定义的细粒度领域中未被充分探索的偏好。为了系统地检查前沿LLMs的代码理解和生成能力,我们根据收集的数据构建了两个基准,即BigCodeReward和AutoCodeArena。对于BigCodeReward,我们对4,700个对话进行了后处理,并评估了奖励模型与人类偏好之间的一致性。评估表明,大多数LLMs在提供执行结果时,在判断编码偏好方面具有卓越的表现。受这些发现的启发,我们提出了AutoCodeArena,一个自动Elo评分基准,旨在评估LLMs的编码质量,而无需人工参与。我们发现,像GPT-5、Claude-Sonnet-4和Claude-Opus-4这样的专有LLMs在最近的新兴模型中仍然在代码生成性能方面处于领先地位。
评论

论文作者
你好,我是首席作者!
立即体验 BigCodeArena: Hugging Face Space
运行代码: GitHub
探索合集: Hugging Face Collection
众包模型评估平台,例如 Chatbot Arena,允许从人类视角进行实时评估,以评估模型响应的质量。在编码领域,手动检查 LLM 生成内容的质量非常具有挑战性,因为它需要理解长段的原始代码并有目的地模拟代码执行。为此,我们推出了 BigCodeArena,这是一个面向代码生成的开放式人类评估平台, backed by a comprehensive and on-the-fly execution environment。基于 Chatbot Arena,BigCodeArena 能够执行 LLM 生成的代码,并允许人类与执行过程和结果进行交互。我们收集了来自 10 种广泛使用的 LLM 的 14,000 多个原始代码中心对话会话,涵盖 10 种语言和 8 种类型的执行环境。在这些对话中,我们确定了超过 4,700 个具有成对人类偏好的多轮样本。进一步的分析揭示了 LLM 在由任务、语言和框架定义的细粒度领域中未被充分探索的偏好。为了系统地检查前沿 LLM 的代码理解和生成能力,我们根据收集的数据构建了两个基准,即 BigCodeReward 和 AutoCodeArena。对于 BigCodeReward,我们对 4,700 个对话进行了后处理,并评估了奖励模型与人类偏好之间的一致性。评估表明,大多数 LLM 在提供执行结果时,在判断编码偏好方面表现出色。受这些发现的启发,我们提出了 AutoCodeArena,这是一个自动 Elo 评级基准,旨在无需人类参与即可评估 LLM 的编码质量。我们发现,像 GPT-5、Claude-Sonnet-4 和 Claude-Opus-4 这样的专有 LLM 在最新的新兴模型中仍然在代码生成性能方面处于领先地位。