⏶1
BiasGym: 奇妙偏见及其发现(和消除)方法
发表
由
Sekh Mainul Islam 提交

作者:
Sekh Mainul Islam, Nadav Borenstein, Siddhesh Milind Pawar, Haeun Yu, Arnav Arora, Isabelle Augenstein

摘要
理解大型语言模型(LLM)权重中编码的偏见和刻板印象对于制定有效的缓解策略至关重要。偏见行为通常是微妙且难以分离的,即使是刻意引发也一样,这使得系统分析和去偏见变得尤为困难。为了解决这个问题,我们引入了 BiasGym,一个简单、经济高效且可泛化的框架,用于可靠地注入、分析和缓解 LLM 中的概念关联。BiasGym 由两个组件组成:BiasInject,它通过基于 token 的微调将特定偏见注入模型,同时保持模型冻结;以及 BiasScope,它利用这些注入的信号来识别和引导负责偏见行为的组件。我们的方法能够为机制分析持续引发偏见,支持有针对性的去偏见而不会降低下游任务的性能,并且泛化到训练期间未见的偏见。我们展示了 BiasGym 在减少现实世界刻板印象(例如,来自某个国家的人是“鲁莽的司机”)和探测虚构关联(例如,来自某个国家的人有“蓝色皮肤”)方面的有效性,显示了其在安全干预和可解释性研究方面的实用性。
评论

论文作者
论文提交者