⏶14
AetherCode:评估大型语言模型在顶级编程竞赛中获胜的能力
发表
由
Zihan Wang 提交
作者:
Zihan Wang, Jiaze Chen, Zhicheng Liu, Markus Mak, Yidi Du, Geonsik Moon, Luoqi Xu, Aaron Tua, Kunshuo Peng, Jiayi Lu, Mingfei Xia, Boqian Zou, Chenyang Ran, Guang Tian, Shoutai Zhu, Yeheng Duan, Zhenghui Kang, Zhenxing Lin, Shangshu Li, Qiang Luo, Qingshen Long, Zhiyong Chen, Yihan Xiao, Yurong Wu, Daoguang Zan, Yuyi Fu, Mingxuan Wang, Ming Ding
摘要
竞争性编程已成为评估大型语言模型(LLMs)的推理和编码能力的关键基准。尽管在现有基准测试中取得了令人印象深刻的进展,但我们认为当前的评估高估了模型的熟练程度,掩盖了 LLMs 与顶尖人类程序员之间存在的巨大差距。这种差距源于两个关键限制:基准问题难度和范围不足,以及低质量测试用例带来的评估偏差。为解决这些不足,我们提出了 AetherCode,这是一个新的基准测试,它从 IOI 和 ICPC 等顶级编程竞赛中提取问题,提供了更广泛的覆盖范围和更高的难度。AetherCode 进一步结合了通过自动化生成和人工策展混合方式构建的全面、专家验证的测试套件,确保了严格和可靠的评估。通过结合具有挑战性的问题设计和强大的评估,AetherCode 为 LLM 能力提供了更真实的衡量标准,并为代码推理领域的未来研究树立了新的标杆。
竞争性编程已成为评估大型语言模型(LLMs)推理和编码能力的关键基准。尽管在现有基准上取得了令人瞩目的进步,但我们认为目前的评估过分夸大了模型的熟练程度,掩盖了 LLMs 与顶尖人类程序员之间存在的巨大差距。这种差距源于两个主要限制:基准问题难度和范围不足,以及低质量测试用例造成的评估偏差。为了解决这些不足,我们提出了 AetherCode,一个新基准,它从 IOI 和 ICPC 等顶级编程竞赛中汲取问题,提供更广泛的覆盖和更高的难度。AetherCode 进一步整合了通过自动化生成和人工策划混合方法构建的全面、专家验证的测试套件,确保了严格可靠的评估。通过结合具有挑战性的问题设计和稳健的评估,AetherCode 更真实地衡量了 LLMs 的能力,并为代码推理领域的未来研究设定了新的标准。