⏶28
CDE: 面向大型语言模型中高效强化学习的 Curiosity-Driven Exploration (好奇心驱动的探索)
发表
由
TongZheng 提交
作者:
Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu,
Rui Liu,
Tong Zheng, Hongtu Zhu, Dong Yu
摘要
AI 生成总结
好奇心驱动探索(CDE)通过利用行动者和评论家提供的内在好奇心信号,增强了带有可验证奖励的强化学习(RLVR),从而改进了大型语言模型(LLM)的探索并减少了过早收敛。具有可验证奖励的强化学习(RLVR)是增强大语言模型(LLM)推理能力的强大范例。然而,目前的 RLVR 方法通常探索不佳,导致过早收敛和熵崩溃。为了解决这个挑战,我们引入了好奇心驱动的探索(CDE),这是一个利用模型自身内在好奇心来指导探索的框架。我们用来自 actor 和 critic 的信号来形式化好奇心:对于 actor,我们使用其生成响应的困惑度;对于 critic,我们使用多头架构的价值估计方差。这两个信号都在 RLVR 框架内充当探索奖励来指导模型。我们的理论分析表明,actor 维度的奖励本质上会惩罚过度自信的错误并促进正确响应之间的多样性;此外,我们将 critic 维度的奖励与 RL 中成熟的基于计数器的探索奖励联系起来。在实践中,我们的方法在 AIME 基准上使用 GRPO/PPO 比标准的 RLVR 提高了约 +3 个点。进一步的分析确定了 RLVR 中的校准崩溃机制,揭示了常见的 LLM 故障模式。
具有可验证奖励的强化学习(RLVR)是增强大型语言模型(LLMs)推理能力的强大范式。然而,目前的 RLVR 方法通常探索不足,导致过早收敛和熵崩溃。为了解决这一挑战,我们引入了好奇心驱动的探索(CDE),这是一个利用模型自身内在好奇心来指导探索的框架。我们使用来自 actor 和 critic 的信号来形式化好奇心:对于 actor,我们使用其生成响应的困惑度;对于 critic,我们使用多头架构的值估计方差。这两个信号都作为 RLVR 框架内的探索奖励来指导模型。我们的理论分析表明,actor 级别的奖励固有地惩罚过度自信的错误并促进正确响应的多样性;此外,我们将 critic 级别的奖励与 RL 中成熟的基于计数的探索奖励联系起来。在实际应用中,我们的方法在 AIME 基准测试上比使用 GRPO/PPO 的标准 RLVR 提高了约 3 个点。进一步的分析识别出 RLVR 中的校准崩溃机制,揭示了常见的 LLM 故障模式。