R1-RE: 基于 RLVR 的跨领域关系抽取

发表
TongZhengTongZheng 提交
作者: Runpeng DaiRunpeng Dai, TongZhengTong Zheng, Run Yang, Hongtu Zhu

摘要

关系抽取(RE)是自然语言处理中的一项核心任务。传统方法通常将关系抽取框架化为一个监督学习问题,直接将上下文映射到标签——这种方法经常面临域外(OOD)泛化能力差的问题。受人类标注员工作流程的启发,我们将关系抽取重新定义为一项由标注指南引导的推理任务,并引入了R1-RE,这是首个用于关系抽取任务的可验证奖励强化学习(RLVR)框架。我们的方法激发了小型语言模型在标注任务中的推理能力,显著提高了域外鲁棒性。我们在公共的Sem-2010数据集和私有的MDKG数据集上评估了我们的方法。R1-RE-7B模型取得了大约70%的平均域外准确率,与GPT-4o等领先的专有模型不相上下。此外,我们的全面分析为关系抽取的RLVR范式的训练动态和新兴推理行为提供了新颖的见解。
查看 arXiv 页面查看 PDF

评论

TongZhengTongZheng
论文作者
论文提交者

关系抽取(RE)是自然语言处理中的一项核心任务。传统方法通常将RE构建为监督学习问题,直接将上下文映射到标签——这种方法经常面临域外(OOD)泛化能力差的问题。受人类标注者工作流程的启发,我们将RE重新定义为由标注指南引导的推理任务,并引入了R1-RE,这是首个用于RE任务的可验证奖励强化学习(RLVR)框架。我们的方法激发了小型语言模型在标注任务中的推理能力,从而显著提高了域外鲁棒性。我们使用公开的Sem-2010数据集和私有的MDKG数据集对我们的方法进行了评估。R1-RE-7B模型实现了大约70%的平均域外准确率,与GPT-4o等领先的专有模型相当。此外,我们的综合分析为RE的RLVR范式的训练动态和涌现推理行为提供了新颖的见解。