⏶5

用于强化微调的先验提示工程

05月20日发表

05月22日由 Pittawat Taveekitworachai 提交

作者: Pittawat Taveekitworachai, Potsawee Manakul, Sarana Nutanong, Kunat Pipatanakul

摘要

本文研究了强化微调（RFT）背景下的先验提示工程（pPE），在RFT中，语言模型（LMs）通过奖励信号被激励去表现出最大化性能的行为。尽管现有RFT研究主要关注算法、奖励塑造和数据整理，但先验提示的设计——即在训练期间添加到查询前方的、用以引出诸如逐步推理等行为的指令——仍未得到充分探索。我们研究了不同的pPE方法能否在RFT之后引导语言模型内化不同的行为。受推理时提示工程（iPE）的启发，我们将五种代表性的iPE策略——推理、规划、基于代码的推理、知识召回和空示例利用——转化为相应的pPE方法。我们使用Qwen2.5-7B模型，并采用每种pPE方法进行实验，然后在域内和域外基准测试集（例如 AIME2024、HumanEval+ 和 GPQA-Diamond）上评估其性能。我们的结果表明，所有经过pPE训练的模型都超过了其采用iPE提示的对应模型，其中空示例pPE方法实现了最大的平均性能提升，并在 AIME2024 和 GPQA-Diamond 上取得了最高的提升，超过了常用的推理方法。此外，通过调整一个行为分类框架，我们证明了不同的pPE策略在得到的模型中灌输了不同的行为风格。这些发现将pPE定位为RFT中一个强大但尚未得到充分研究的方向。

查看 arXiv 页面查看 PDF

Pittawat Taveekitworachai

论文作者

论文提交者

本文研究了在强化微调 (RFT) 背景下的前置提示工程 (pPE)，其中语言模型 (LMs) 通过奖励信号被激励去表现出最大化性能的行为。尽管现有的 RFT 研究主要关注于算法、奖励塑造和数据整理，但前置提示的设计——即在训练期间添加到查询前以引发诸如分步推理之类的行为的指令——仍未得到充分探索。我们研究了不同的 pPE 方法是否能在 RFT 后引导 LMs 内化不同的行为。受推理时提示工程 (iPE) 的启发，我们将五种代表性的 iPE 策略——推理、规划、基于代码的推理、知识回忆和空示例利用——转化为对应的 pPE 方法。我们使用 Qwen2.5-7B 对每种 pPE 方法进行了实验，然后在域内和域外基准测试（例如：AIME2024、HumanEval+ 和 GPQA-Diamond）上评估了性能。我们的结果表明，所有经过 pPE 训练的模型都超过了使用 iPE 提示的对应模型，其中空示例 pPE 方法取得了最大的平均性能提升，并在 AIME2024 和 GPQA-Diamond 上取得了最高提升，超过了常用的推理方法。此外，通过采用行为分类框架，我们表明不同的 pPE 策略能够培养得到的模型具有不同的行为模式。这些发现将 pPE 定位为 RFT 中一个强大但仍未得到充分研究的维度。

用于强化微调的先验提示工程

摘要

评论