通过强化学习的混合潜在推理

发表
Zhenrui YueZhenrui Yue 提交
作者: Zhenrui YueZhenrui Yue, Bowen Jin, Huimin Zeng, Honglei Zhuang, Zhen Qin, Jinsung Yoon, Lanyu Shang, Jiawei Han, Dong Wang

摘要

大型语言模型 (LLM) 的最新进展引入了隐式推理,作为自回归推理的一种有前途的替代方案。通过利用前一步的隐藏状态进行内部计算,隐式推理受益于更具信息量的特征,而不是采样离散的思维链 (CoT) 路径。然而,隐式推理方法通常与 LLM 不兼容,因为它们的连续范式与自回归生成的离散性质相冲突。此外,这些方法依赖于 CoT 轨迹进行训练,因此未能利用 LLM 固有的推理模式。在这项工作中,我们通过利用强化学习 (RL) 来探索 LLM 的内在能力,从而研究隐式推理。为此,我们引入了混合推理策略优化 (HRPO),这是一种基于 RL 的混合隐式推理方法,它:(1) 通过一个可学习的门控机制将先前的隐藏状态整合到采样到的 token 中,并且 (2) 在训练初期主要使用 token 嵌入进行初始化,然后逐渐纳入更多隐藏特征。这种设计保持了 LLM 的生成能力,并鼓励使用离散和连续表示的混合推理。此外,混合 HRPO 通过 token 采样将随机性引入隐式推理,从而无需 CoT 轨迹即可进行基于 RL 的优化。在各种基准上的广泛评估表明,HRPO 在知识密集型和推理密集型任务中均优于先前的方法。此外,经过 HRPO 训练的 LLM 仍然具有可解释性,并表现出有趣的特性,例如跨语言模式和更短的完成长度,突出了我们基于 RL 的方法的潜力,并为未来在隐式推理方面的工作提供了见解。
查看 arXiv 页面查看 PDF

评论

Zhenrui YueZhenrui Yue
论文作者
论文提交者

大型语言模型 (LLM) 的最新进展引入了隐式推理,作为自回归推理的一个有前景的替代方案。通过使用前一步骤的隐藏状态执行内部计算,隐式推理受益于更具信息量的特征,而不是采样离散的思维链 (CoT) 路径。然而,隐式推理方法通常与 LLM 不兼容,因为其连续范式与自回归生成的离散性冲突。此外,这些方法依赖于 CoT 轨迹进行训练,因此未能利用 LLM 固有的推理模式。在这项工作中,我们通过利用强化学习 (RL) 发掘 LLM 的内在能力来探索隐式推理。为此,我们引入了混合推理策略优化 (HRPO),这是一种基于 RL 的混合隐式推理方法,它 (1) 通过可学习的门控机制将先前的隐藏状态集成到采样词元中,以及 (2) 在训练开始时主要使用词元嵌入,然后逐步加入更多隐藏特征。这种设计保持了 LLM 的生成能力,并激励使用离散和连续表示进行混合推理。此外,混合 HRPO 通过词元采样为隐式推理引入了随机性,从而无需 CoT 轨迹即可实现基于 RL 的优化。在各种基准上进行的广泛评估表明,HRPO 在知识密集型和推理密集型任务中都优于先前的方法。此外,经过 HRPO 训练的 LLM 保持可解释性,并表现出有趣的特性,例如跨语言模式和更短的完成长度,突显了我们基于 RL 的方法的潜力,并为未来隐式推理领域的工作提供了见解。