⏶23
首次回报,熵诱导探索
发表
由
Ge Zhang 提交
作者:
Tianyu Zheng,
Tianshun Xing, Qingshui Gu, Taoran Liang, Xingwei Qu, Xin Zhou, Yizhi Li, Zhoufutu Wen, Chenghua Lin, Wenhao Huang,
Qian Liu, Ge Zhang, Zejun Ma



摘要
可验证奖励强化学习 (RLVR) 提高了大型语言模型 (LLM) 的推理能力,但它在不稳定的探索方面面临挑战。我们提出了 FR3E (First Return, Entropy-Eliciting Explore),一个结构化的探索框架,它识别推理轨迹中的高不确定性决策点,并执行有针对性的试运行以构建语义接地的中间反馈。我们的方法提供有针对性的指导,而无需依赖密集监督。在数学推理基准测试 (AIME24) 上的实证结果表明,FR3E 促进了更稳定的训练,产生了更长、更连贯的响应,并增加了完全正确轨迹的比例。这些结果强调了该框架通过更健壮和结构化的探索来改进 LLM 推理的有效性。
评论

感谢您的出色工作!
我对FR3E生成的所有token的优势计算有一些疑问。
1). 每个 \( Sj \) 采样的路径是否被归为一组(GRPO),它们的优势值是否使用GRPO方法计算并乘以 \( \alphaj \)?
$$ A^{'}(Sj,P{j,m}) = \alphaj \cdot A(Sj,P{j,m}) = \alphaj \cdot \frac{r{j,m} - V(Sj)}{\mathbf{std}(R_j)} $$
其中 \( Rj = {r{j,m}}_{m=1}^M \)。
2). 在计算梯度时,是否将生成轨迹中的所有token(不包括查询)与上述优势值一起使用,然后应用GRPO目标函数?
我真诚地感谢您能提前解答我这些疑问。
基于可验证奖励的强化学习 (RLVR) 提高了大型语言模型 (LLM) 的推理能力,但其在不稳定的探索中面临挑战。我们提出了 FR3E (First Return, Entropy-Eliciting Explore),一个结构化的探索框架,旨在识别推理轨迹中的高不确定性决策点,并执行有针对性的试探性操作以构建语义接地的中间反馈。我们的方法无需密集监督即可提供有针对性的指导。数学推理基准测试 (AIME24) 上的经验结果表明,FR3E 促进了更稳定的训练,生成了更长、更连贯的响应,并增加了完全正确轨迹的比例。这些结果凸显了该框架通过更稳健和结构化的探索来改进 LLM 推理的有效性。