⏶6
熵最小化在LLM推理中的不可思议的有效性
发表
由
Shivam Agarwal 提交
作者: Shivam Agarwal, Zimin Zhang, Lifan Yuan, Jiawei Han, Hao Peng
摘要
熵最小化(EM)训练模型将其概率质量更集中在其最自信的输出上。我们表明,仅凭这个简单的目标,无需任何标注数据,就可以显著提高大型语言模型(LLM)在具有挑战性的数学、物理和编程任务上的性能。我们探索了三种方法:(1) EM-FT 最小化 token 级别的熵,类似于指令微调,但作用于从模型生成的未标注输出;(2) EM-RL:强化学习,将负熵作为唯一最大化的奖励;(3) EM-INF:推理时 logit 调整,无需任何训练数据或参数更新即可减少熵。在 Qwen-7B 上,EM-RL 在没有任何标注数据的情况下,实现了与 GRPO 和 RLOO 等在 6 万个标注示例上训练的强大 RL 基线相当或更优的性能。此外,EM-INF 使 Qwen-32B 在具有挑战性的 SciCode 基准测试上匹敌甚至超越了 GPT-4o、Claude 3 Opus 和 Gemini 1.5 Pro 等专有模型的性能,同时比自洽性(self-consistency)和顺序细化(sequential refinement)提高了 3 倍效率。我们的发现表明,许多预训练的 LLM 拥有之前被低估的推理能力,仅通过熵最小化就可以有效地激发这些能力,而无需任何标注数据,甚至无需任何参数更新。
熵最小化(EM)训练模型将其概率质量更加集中于其最自信的输出上。我们展示了仅凭这一简单目标,无需任何标注数据,就可以大幅提升大语言模型(LLMs)在有挑战性的数学、物理和编程任务上的性能。我们探索了三种方法:(1)EM-FT 类似于指令微调,在从模型中提取的未标注输出上最小化 token 级别的熵;(2)EM-RL:使用负熵作为唯一需要最大化的奖励的强化学习;(3)EM-INF:推理时进行 logit 调整以降低熵,无需任何训练数据或参数更新。在 Qwen-7B 上,EM-RL 在无需任何标注数据的情况下,实现了与 GRPO 和 RLOO 等在 6 万个标注示例上训练的强大强化学习基线模型相当或更优的性能。此外,EM-INF 使 Qwen-32B 在具有挑战性的 SciCode 基准测试中能够匹敌或超越 GPT-4o、Claude 3 Opus 和 Gemini 1.5 Pro 等专有模型的性能,同时比自洽性和顺序细化效率高出 3 倍。我们的发现表明,许多预训练的 LLMs 拥有以前被低估的推理能力,仅通过熵最小化即可有效地激发这些能力,无需任何标注数据,甚至无需任何参数更新。