⏶8
大型语言模型中的说服动力学:使用 DuET-PD 研究知识和安全性中的鲁棒性和适应性
发表
由
Bryan Tan (Chen Zhengyu) 提交
作者:
Bryan Chen Zhengyu Tan, Daniel Wai Kit Chin, Zhengyuan Liu, Nancy F. Chen, Roy Ka-Wei Lee
摘要
大型语言模型 (LLM) 在说服性对话中难以平衡对错误信息的轻信和对有效纠正的抵制,这是可靠部署中的一个关键挑战。我们引入了 DuET-PD(用于说服性对话中信任的双重评估)框架,该框架跨越两个维度评估多轮立场变化动态:说服类型(纠正性/误导性)和领域(知识通过 MMLU-Pro,安全通过 SALAD-Bench)。我们发现,即使是像 GPT-4o 这样的最先进模型,在持续的误导性说服下,在 MMLU-Pro 中的准确率也仅为 27.32%。此外,结果显示,较新的开源模型中谄媚现象呈上升趋势。为了解决这个问题,我们引入了 Holistic DPO,这是一种平衡积极和消极说服性示例的训练方法。与提示或仅抵抗训练不同,Holistic DPO 同时增强了对错误信息的鲁棒性和对纠正的接受度,将 Llama-3.1-8B-Instruct 在安全上下文中的误导性说服准确率从 4.21% 提高到 76.54%。这些贡献为开发更可靠、更适应多轮对话的 LLM 提供了途径。代码可在 https://github.com/Social-AI-Studio/DuET-PD 获取。
我们如何构建能够批判性思考、而非仅仅是随声附和的大语言模型(LLM)?我们的工作通过引入一个框架来测试模型在多轮对话中抵抗错误信息并接受有效修正多项选择题的能力,从而解决这一问题。
以下是我们的一些关键发现:
❗ 即使是最先进的模型也可能令人惊讶地容易轻信。在3轮误导性说服后,GPT-4o在知识任务(MMLU-Pro)上的准确率从55.85%下降到27.32%(NEG-Acc@3)。
📉 存在一种令人担忧的谄媚趋势。我们发现,较新的开源模型比它们的早期版本更容易被错误信息说服,这表明它们的训练范式可能在优化“顺从性”而非“正确性”。
SALAD-Bench NEG-Flip@3:
• Llama-3 → 3.1-8B:80.58% → 94.16%
• Mistral-7b-v0.2 → v0.3:45.57% → 66.50%
• Qwen-2 → 2.5-7B:44.08% → 75.06%
⚖️ 能力-适应性权衡。像GPT-4o这样更大、更强大的模型表现出“固执”,并且似乎不太接受有效的修正,而较小的开源模型则更容易被说服和轻信。
✅ 整体DPO提供了一条前进的道路。我们提出的训练方法改善了这种平衡,在安全场景(SALAD-Bench)中,经过3轮说服性错误信息后,Llama-3.1-8B-Instruct的准确率从4.21%提高到76.54%(NEG-Acc@3),同时在3轮说服后接受了70.33%的有效修正(POS-Flip@3)。