必要时进行引导:具有回溯功能的大型语言模型的灵活引导

发表
Zifeng ChengZifeng Cheng 提交
作者: Jinwei Gan, Zifeng ChengZifeng Cheng, Zhiwei Jiang, Cong Wang, Yafeng Yin, Xiang Luo, Yuchen Fu, Qing Gu

摘要

大型语言模型(LLM)在许多生成任务中都取得了卓越的性能。然而,如何有效地将其与期望的行为对齐仍然是一个重大挑战。激活引导(Activation steering)是一种有效且经济高效的方法,它在推理阶段直接修改 LLM 的激活,使其响应与期望的行为对齐,并避免了高昂的微调成本。现有方法通常会无差别地干预所有生成内容,或者仅依赖问题来确定干预,这限制了对干预强度的准确评估。为此,我们提出了灵活的带回溯激活引导(Flexible Activation Steering with Backtracking, FASB)框架,该框架通过在生成过程中跟踪 LLM 的内部状态,并同时考虑问题和生成的内容,来动态地确定干预的必要性和强度。由于在检测到行为偏差后进行干预通常为时已晚,我们进一步提出了回溯机制来纠正偏离的 token,并将 LLM 引向期望的行为。在 TruthfulQA 数据集和六个多项选择数据集上的广泛实验表明,我们的方法优于基线方法。我们的代码将在 https://github.com/gjw185/FASB 发布。
查看 arXiv 页面查看 PDF

评论

Zifeng ChengZifeng Cheng
论文作者
论文提交者

大型语言模型 (LLM) 在许多生成任务中都取得了卓越的性能。然而,有效地将其与期望的行为对齐仍然是一个重大挑战。激活引导是一种有效且经济高效的方法,它在推理阶段直接修改 LLM 的激活,将它们的响应与期望的行为对齐,并避免了高昂的微调成本。现有方法通常不加区分地干预所有生成内容,或仅依赖问题来决定干预,这限制了对干预强度的准确评估。为此,我们提出了带有回溯的灵活激活引导 (FASB) 框架,该框架在生成过程中通过跟踪 LLM 的内部状态,并同时考虑问题和生成内容,来动态确定干预的必要性和强度。由于在检测到偏离期望行为后的干预往往为时已晚,我们进一步提出了回溯机制来纠正偏离的 token,并将 LLM 引导至期望的行为。在 TruthfulQA 数据集和六个多项选择数据集上的大量实验表明,我们的方法优于基线。