通过合成任务和强化学习教会大型语言模型保持上下文忠实性

发表
sszssz 提交
作者: sszShuzheng Si, Hans ZhaoHaozhe Zhao, Cheng Gao, Yuzhuo Bai, Zhitong Wang, Bofei Gao, Kangyang Luo, Wenhao Li, Yufei Huang, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun

摘要

教会大型语言模型(LLM)忠实于提供的上下文对于构建可靠的信息检索系统至关重要。因此,我们提出了一个系统的框架 CANOE,以在没有人工标注的情况下,提高 LLM 在短文本和长文本生成任务中的忠实度。具体来说,我们首先合成了包含四种不同任务的短文本问答(QA)数据,以构建高质量且易于验证的训练数据,无需人工标注。此外,我们提出了 Dual-GRPO,一种基于规则的强化学习方法,该方法包含三个根据合成的短文本 QA 数据衍生的定制规则奖励,同时优化短文本和长文本响应生成。值得注意的是,Dual-GRPO 消除了手动标注偏好数据以训练奖励模型的需要,并避免了仅依赖合成的短文本 QA 数据时对短文本生成的过度优化。实验结果表明,CANOE 在 11 个不同的下游任务中极大地提高了 LLM 的忠实度,甚至超越了最先进的 LLM,例如 GPT-4o 和 OpenAI o1。
查看 arXiv 页面查看 PDF

评论

sszssz
论文作者
论文提交者

代码、数据和模型可在以下链接获取:https://github.com/S1s-Z/CANOE。

sszssz
论文作者
论文提交者

凭借仅 7B 的参数,CANOE 已超越 GPT-4o 和 OpenAI o1 等最先进的 LLM。

WX20250526-101024@2x.png

sszssz
论文作者
论文提交者

CANOE 首先合成易于验证的短格式问答数据,然后提出带有设计的基于规则奖励的 Dual-GRPO,以提高 LLM 的可靠性。

WX20250526-100403@2x.png

sszssz
论文作者
论文提交者

在十一个数据集上的实验结果 (%)。更多详情请参阅我们的论文!

WX20250526-102915@2x.png