反馈摩擦:LLMs 难以充分吸收外部反馈

发表
JiangJiang 提交
作者: Dongwei Jiang, Alvin ZhangAlvin Zhang, Andrew Wang, Nicholas AndrewsNicholas Andrews, Daniel Khashabi

摘要

最新研究表明,当获得外部反馈时,大语言模型(LLMs)具备一定的能力来改进其响应。然而,这些模型能够多有效地、多彻底地整合外部反馈仍不清楚。在理想情况下,如果LLMs收到接近完美和完整的反馈,我们会期望它们能够完全整合这些反馈,并将它们的错误答案更正为正确答案。在本文中,我们通过设计一个受控的实验环境,系统地研究了LLMs整合反馈的能力。对于每个问题,一个求解器模型会尝试给出解决方案,然后一个能够访问接近完整的真值答案的反馈生成器会生成有针对性的反馈,之后求解器会再次尝试。我们使用包括Claude 3.7(有无扩展思考模式)在内的最先进语言模型,评估了这一流程在数学推理、知识推理、科学推理以及通用多领域评估等多种任务上的表现。令人惊讶的是,即使在这些接近理想的条件下,求解器模型仍然持续表现出对反馈的抵抗性,我们将这一局限性称为“反馈摩擦”(FEEDBACK FRICTION)。为了缓解这一局限性,我们尝试了基于采样的策略,例如逐步提高温度(参数)和明确拒绝之前尝试的错误答案,这些策略带来了一些改进,但仍未能帮助模型达到目标性能。我们还对“反馈摩擦”的潜在原因进行了严格的探索,排除了模型过度自信和数据熟悉度等因素。我们希望,突出LLMs中存在的这一问题并排除一些显而易见的原因,将有助于未来在自我改进方面的研究。
查看 arXiv 页面查看 PDF

评论

JiangJiang
论文提交者

近期研究表明,当获得外部反馈时,大语言模型(LLMs)可以自我提升其响应。但是,它们能多有效地整合这些反馈呢?

我们系统地测试了这一点——结果发现,即使反馈质量很高且有真实数据支持,它们也无法完全整合反馈!