⏶6
选择性了解:一种用于领域特定问答的内部-外部知识自选框架
发表
由
HeBolei 提交
作者:
Bolei He, Xinran He,
Run Shao, Shanfu Shu, Xianwei Xue, Mingquan Cheng, Haifeng Li, Zhenhua Ling
摘要
大型语言模型 (LLMs) 在通用问答中表现出色,但在特定领域场景中常常遇到困难。检索增强生成 (RAG) 引入了外部知识,但由于检索噪音而存在幻觉和延迟问题。持续预训练可以内化领域知识,但成本高昂且缺乏跨领域灵活性。我们将这一挑战归因于领域知识的长尾分布,这导致部分但有用的内部知识未被充分利用。我们进一步认为,知识获取应该是渐进式的,效仿人类学习:首先理解概念,然后将其应用于复杂推理。为解决此问题,我们提出了 Selct2Know (S2K),一个具有成本效益的框架,通过内部-外部知识自选择策略和选择性监督微调来内化领域知识。我们还引入了一个结构化推理数据生成管道,并集成了 GRPO 以增强推理能力。在医疗、法律和金融问答基准上的实验表明,S2K 的性能始终优于现有方法,并以显著更低的成本达到了领域预训练 LLM 的水平。
大型语言模型(LLM)在通用问答方面表现良好,但在特定领域场景中常常遇到困难。检索增强生成(RAG)引入了外部知识,但由于检索噪声而存在幻觉和延迟问题。持续预训练能够内化领域知识,但成本高昂且缺乏跨领域灵活性。我们将这一挑战归因于领域知识的长尾分布,导致部分但有用的内部知识未被充分利用。我们进一步认为,知识获取应该是循序渐进的,模仿人类学习:先理解概念,然后将其应用于复杂推理。为此,我们提出了Selct2Know (S2K),一个经济高效的框架,通过内部-外部知识自选择策略和选择性监督微调来内化领域知识。我们还引入了一个结构化推理数据生成管道,并集成了GRPO以增强推理能力。在医疗、法律和金融问答基准上的实验表明,S2K始终优于现有方法,并且在成本显著降低的情况下,与领域预训练的LLM相当。