⏶4
大型语言模型会“感受”吗?情感电路的发现与控制
发表
由
Chenxi Wang 提交

作者: Chenxi Wang, Yixuan Zhang, Ruiji Yu, Yufei Zheng, Lang Gao, Zirui Song, Zixiang Xu, Gus Xia, Huishuai Zhang, Dongyan Zhao, Xiuying Chen
摘要
AI 生成总结
本研究揭示并验证了大语言模型中的情感通路,实现了生成文本的高精度情感控制。随着大型语言模型(LLM)对情商需求的增长,一个关键的挑战在于理解产生情感表达的内部机制,以及控制生成文本中的情感。本研究解决了三个核心问题:(1)LLM是否包含塑造情感表达的与上下文无关的机制?(2)这些机制以何种形式存在?(3)它们能否被用于通用的情感控制?我们首先构建了一个受控数据集SEV(Scenario-Event with Valence,情境-事件与效价),以引发跨情感的可比内部状态。随后,我们提取了与上下文无关的情感方向,揭示了跨上下文的一致的情感编码(Q1)。我们通过分析性分解和因果分析,识别出局部实现情感计算的神经元和注意力头,并通过消融和增强干预验证了它们的因果作用。接下来,我们量化了每个子层对模型最终情感表征的因果影响,并将识别出的局部组件整合到驱动情感表达的连贯的全局情感电路中(Q2)。直接调制这些电路在测试集上实现了99.65%的情感表达准确率,优于基于提示和引导的方法(Q3)。据我们所知,这是首次系统研究揭示和验证LLM中的情感电路,为可解释性和可控情商提供了新的见解。



大型语言模型(LLM)有感觉吗?
本文揭示了大型语言模型(LLM)内部的“情绪电路”,这些电路在生成过程中塑造情绪表达。
通过电路级别的控制,能够以 99.65% 的准确率实现六种基本情绪(愤怒、悲伤、快乐、恐惧、厌恶和惊喜)的调节,为可解释和可控的情绪智能铺平了道路。
完整的、可复现的流程,包含开源代码和可立即尝试的演示,可在以下链接获取:
🔗 https://github.com/Aurora-cx/EmotionCircuits-LLM