人格向量:监控和控制语言模型中的性格特质

发表
Runjin ChenRunjin Chen 提交
作者: Runjin Chen, Andy Arditi, Henry Sleight, Owain Evans, Jack Lindsey

摘要

大型语言模型通过一个模拟的“助手”角色与用户互动。尽管“助手”通常被训练得有帮助、无害和诚实,但它有时会偏离这些理想状态。在本文中,我们在模型的激活空间中识别出与几种特质(如邪恶、谄媚和产生幻觉的倾向)相对应的方向——即人格向量。我们证实,这些向量可用于在部署时监控“助手”人格的波动。接着,我们应用人格向量来预测和控制训练过程中发生的人格转变。我们发现,微调后有意和无意的人格变化都与沿相关人格向量的移动密切相关。这些变化可以通过事后干预来缓解,或者从一开始就通过一种新的预防性引导方法来避免。此外,人格向量可用于在数据集和单个样本层面上标记那些会导致不良人格变化的训练数据。我们提取人格向量的方法是自动化的,并且只需提供自然语言描述,即可应用于任何感兴趣的人格特质。
查看 arXiv 页面查看 PDF

评论

Runjin ChenRunjin Chen
论文提交者

在本文中,我们识别出人工智能模型神经网络中控制其性格特征的活动模式。我们将这些模式称为“人格向量”,它们大致类似于当一个人体验不同情绪或态度时大脑中“点亮”的区域。人格向量可用于:

  1. 监控模型人格在对话过程中或训练过程中是否以及如何变化

  2. 减轻不理想的人格转变,或防止其在训练中产生

  3. 识别将导致这些转变的训练数据

AYDIN KULANAYDIN KULAN

我认为使用单位来增加对话的关注度没有害处。我相信如果你将制裁和对话分开处理,你会更成功。 https://github.com/tarikkaya/aix