ALE-Bench:一个用于长周期目标驱动算法工程的基准

发表
Takuya AkibaTakuya Akiba 提交
作者: Yuki ImajukuYuki Imajuku, Kohki Horie, Yoichi Iwata, Kensho Aoki, Naohiro Takahashi, Takuya AkibaTakuya Akiba

摘要

人工智能系统在算法工程方面的表现如何?算法工程应用于包裹递送路线、机组人员调度、工厂生产计划和电网平衡等领域的难题优化。我们推出了 ALE-Bench,一个新的基准,用于评估人工智能系统在基于分数的算法编程竞赛中的表现。ALE-Bench 借鉴了 AtCoder 启发式竞赛的实际任务,提出了计算难度高且没有已知精确解的优化问题。与持续时间短、通过/失败编码基准不同,ALE-Bench 鼓励在较长的时间范围内进行迭代解决方案改进。我们的软件框架支持利用测试运行反馈和可视化的交互式代理架构。我们对前沿 LLM 的评估表明,虽然它们在特定问题上表现出高性能,但在跨问题的一致性和长程问题解决能力方面,与人类相比仍存在显着差距。这凸显了需要这个基准来促进未来人工智能的进步。
查看 arXiv 页面查看 PDF
ALE-Bench:一个用于长周期目标驱动算法工程的基准

评论

Takuya AkibaTakuya Akiba
论文作者
论文提交者

ALE-Bench (ALgorithm Engineering Benchmark,算法工程基准) 是下一代 LLM 基准,用于算法编码,旨在通过试错测试在复杂问题上的长期推理能力。

这是同类中的第一个基准,建立在 AtCoder Heuristic Contests (AHC) 的过往问题之上。 与传统的竞赛编码基准不同,它具有难以优化的难题,其真正的最优解是 计算上无法达到的(例如,NP-hard 问题)。 人类参与者花费数周时间迭代地改进他们的程序以提高他们的分数。 ALE-Bench 模拟 AI 参与 AHC 以测试 AI 是否可以像顶尖人类专家一样,发现 创造性的高分解决方案,这些解决方案甚至经常是组织者意想不到的。