自我纠正基准:揭示并解决大型语言模型中的自我纠正盲点

发表
Ken TsuiKen Tsui 提交
作者: Ken TsuiKen Tsui

摘要

尽管大型语言模型(LLM)已具有变革性,但它们仍然会犯错误并可能探索无效的推理路径。自校正对于可信赖的 LLM 来说是一项重要能力,特别是对于自回归 LLM。虽然 LLM 可以识别用户输入中的错误,但它们表现出一种系统性的“自校正盲点”——无法纠正其自身输出中相同的错误。为了系统地研究这种现象,我们引入了自校正基准(Self-Correction Bench),这是一个系统框架,通过在三个复杂性级别进行受控错误注入来衡量这种现象。通过测试 14 个模型,我们发现平均盲点率为 64.5%。我们发现多项证据表明这种局限性与训练数据构成有关:人类训练演示主要显示无错误的响应,而不是错误校正序列,这与通过结果反馈学习错误校正的强化学习(RL)训练模型不同。值得注意的是,简单地添加“Wait”将盲点减少了 89.3%,这表明该能力存在但需要激活。我们的工作强调了当前 LLM 的一个关键局限性,并为提高其可靠性和可信赖性提供了潜在途径。
查看 arXiv 页面查看 PDF

评论

Huu NguyenHuu Nguyen

出色的工作 @kenhktsui !

Ken TsuiKen Tsui
论文作者
论文提交者

谢谢 @huu-ontocord !