⏶5
用于强化微调的先验提示工程
发表
由
Pittawat Taveekitworachai 提交

作者:
Pittawat Taveekitworachai, Potsawee Manakul, Sarana Nutanong,
Kunat Pipatanakul


摘要
本文研究了强化微调(RFT)背景下的先验提示工程(pPE),在RFT中,语言模型(LMs)通过奖励信号被激励去表现出最大化性能的行为。尽管现有RFT研究主要关注算法、奖励塑造和数据整理,但先验提示的设计——即在训练期间添加到查询前方的、用以引出诸如逐步推理等行为的指令——仍未得到充分探索。我们研究了不同的pPE方法能否在RFT之后引导语言模型内化不同的行为。受推理时提示工程(iPE)的启发,我们将五种代表性的iPE策略——推理、规划、基于代码的推理、知识召回和空示例利用——转化为相应的pPE方法。我们使用Qwen2.5-7B模型,并采用每种pPE方法进行实验,然后在域内和域外基准测试集(例如 AIME2024、HumanEval+ 和 GPQA-Diamond)上评估其性能。我们的结果表明,所有经过pPE训练的模型都超过了其采用iPE提示的对应模型,其中空示例pPE方法实现了最大的平均性能提升,并在 AIME2024 和 GPQA-Diamond 上取得了最高的提升,超过了常用的推理方法。此外,通过调整一个行为分类框架,我们证明了不同的pPE策略在得到的模型中灌输了不同的行为风格。这些发现将pPE定位为RFT中一个强大但尚未得到充分研究的方向。
本文研究了在强化微调 (RFT) 背景下的前置提示工程 (pPE),其中语言模型 (LMs) 通过奖励信号被激励去表现出最大化性能的行为。尽管现有的 RFT 研究主要关注于算法、奖励塑造和数据整理,但前置提示的设计——即在训练期间添加到查询前以引发诸如分步推理之类的行为的指令——仍未得到充分探索。我们研究了不同的 pPE 方法是否能在 RFT 后引导 LMs 内化不同的行为。受推理时提示工程 (iPE) 的启发,我们将五种代表性的 iPE 策略——推理、规划、基于代码的推理、知识回忆和空示例利用——转化为对应的 pPE 方法。我们使用 Qwen2.5-7B 对每种 pPE 方法进行了实验,然后在域内和域外基准测试(例如:AIME2024、HumanEval+ 和 GPQA-Diamond)上评估了性能。我们的结果表明,所有经过 pPE 训练的模型都超过了使用 iPE 提示的对应模型,其中空示例 pPE 方法取得了最大的平均性能提升,并在 AIME2024 和 GPQA-Diamond 上取得了最高提升,超过了常用的推理方法。此外,通过采用行为分类框架,我们表明不同的 pPE 策略能够培养得到的模型具有不同的行为模式。这些发现将 pPE 定位为 RFT 中一个强大但仍未得到充分研究的维度。