AlphaOPT:利用自改进型 LLM 经验库制定优化程序

发表
Ao QuAo Qu 提交
作者: Minwei Kong, Ao Qu, Xiaotong Guo, Wenbin Ouyang, Chonghe Jiang, Han Zheng, Yining Ma, Dingyi Zhuang, Yuhan Tang, Junyi Li, Hai Wang, Cathy Wu, Jinhua Zhao

摘要

AI 生成总结
AlphaOPT 是一个自改进库,它使 LLM 能够从有限的演示和求解器反馈中学习,从而在不进行昂贵再训练的情况下改进各行业的优化建模。
优化建模使得各行业能够做出关键决策,但自动化仍然困难: 非正式语言必须映射到精确的数学公式和可执行的求解器代码。 先前的 LLM 方法要么依赖于脆弱的提示,要么依赖于成本高昂且泛化能力有限的再训练。 我们提出了 AlphaOPT,一个自我改进的经验库,它使 LLM 能够从有限的演示(即使仅有答案,没有金标准程序)和求解器反馈中学习, 而无需标注的推理轨迹或参数更新。AlphaOPT 以持续的两阶段循环运行:(i) 一个库学习阶段,反思失败的尝试,提取经过求解器验证的结构化见解,形式为 {分类法,条件,解释,示例};(ii) 一个库演化阶段,诊断检索失调并完善存储见解的适用条件,从而提高跨任务的迁移。 这种设计 (1) 从有限的演示中高效学习,无需人工整理的理由; (2) 通过更新库而不是模型权重来持续扩展,无需昂贵的再训练; (3) 使知识明确和可解释,便于人工检查和干预。 实验表明,AlphaOPT 随着数据量的增加而稳步提高(从 100 个训练项增加到 300 个训练项,从 65% 提高到 72%),并且在仅用答案训练时,在超出分布的 OptiBench 数据集上,其性能超越了最强基线 7.7%。代码和数据可在: https://github.com/Minw913/AlphaOPT 获取。
查看 arXiv 页面查看 PDF

评论

Ao QuAo Qu
论文提交者

优化建模至关重要,但通常需要深厚的专业知识。AlphaOPT 引入了一个自我改进的经验库,使大型语言模型能够从求解器反馈和有限的演示中学习——无需重新训练或标注推理轨迹。
通过迭代反思失败的尝试并完善结构化见解({分类、条件、解释、示例}),AlphaOPT 不断提高其在各种运筹学任务中的建模能力。
这是迈向运筹学领域自主、可解释和持续学习型 LLM 系统的一个有希望的步骤。