⏶3

调试衰减指数：重新思考代码大型语言模型的调试策略

06月23日发表

06月26日由 Muntasir Adnan 提交

作者: Muntasir Adnan, Carlos C. N. Kuhn

摘要

AI调试的有效性遵循可预测的指数衰减模式；大多数模型在仅仅2-3次尝试后就会失去60-80%的调试能力，尽管迭代调试对于实用的代码生成系统来说是一项关键能力。我们引入了调试衰减指数（DDI），这是一个量化调试何时失效并预测干预点的数学框架。我们的战略性“重新开始”方法在调试过程中的关键点从利用转向探索，这表明适时干预可以挽救调试的有效性。DDI揭示了当前AI调试的一个根本性限制，并为优化迭代代码生成策略提供了第一个量化框架。

查看 arXiv 页面查看 PDF

Muntasir Adnan

论文作者

论文提交者

我很高兴分享我们的最新研究，该研究识别出 AI 模型处理迭代调试时的一个根本性局限性：”调试衰减指数：重新思考代码 LLM 的调试策略”

我们开发了调试衰减指数 (DDI)，这是一个数学框架，用于量化调试何时变得无效并预测最佳干预点。我们的策略性“重新开始”方法在计算出的阈值处清除对话历史，而不是继续失败的调试尝试。

结果：对 18 种最先进模型的测试显示，通过策略性重启获得了持续改进。值得注意的例子包括 Llama3.1 准确率从 72.6% 提高到 82.8%，DeepSeek-Coder-V2 从 84.1% 提高到 92.1%，且无需额外计算成本。

启示：这挑战了更多的调试迭代必然会改善结果的假设。指数衰减模式表明模型陷入了失败的解决方案路径，而不是探索替代方案。

DDI 框架为迭代代码生成提供了一个新的评估指标，也为优化调试工作流程提供了一个实用策略。数学公式在不同模型架构中表现出鲁棒性。

调试衰减指数：重新思考代码大型语言模型的调试策略

摘要

评论