AMBEDKAR:通过带知识增强的解码方法进行多级偏见消除,以实现语言模型的鲁棒宪法对齐

发表
Aman ChadhaAman Chadha 提交
作者: Snehasis Mukhopadhyay, Aryan Kasat, Shivam Dubey, Rahul Karthikeyan, Dhruv Sood, Vinija Jain, Aman ChadhaAman Chadha, Amitava Das

摘要

大型语言模型(LLMs)可能会无意中反映其训练数据中存在的社会偏见,从而导致有害或带有偏见的输出。在印度背景下,我们对一系列模型进行的实证评估表明,与种姓和宗教相关的偏见尤为突出。然而,大多数现有的缓解策略都以西方为中心,未能解决这些当地的细微差别。我们提出了 AMBEDKAR,一个受印度宪法制定者、印度宪法架构师 B. R. Ambedkar 博士的平均主义愿景启发的框架,旨在根据第 14 至 17 条,将 LLM 输出引导至公平、中立和包容。我们的方法引入了一个宪法意识解码层,由印度人工智能宪法指导,并且仅在推理时应用,而无需对基础模型进行任何参数更新。我们采用一种推测性解码算法,可在生成过程中主动减少种姓和社群偏见。该缓解层直接在解码过程中运行,避免了对模型内部的更改,并降低了与重新训练相关的计算和基础设施成本。我们将推测性解码重新解释为一种公平机制,而不仅仅是效率工具。在此框架中,一个小型语言模型(SLM)充当潜在有偏见的生成器,而一个受宪法指导的大型语言模型(LLM)充当验证器。LLM 不会加速生成,而是强制 SLM 输出生成公平的轨迹。这种角色互换产生了“通过推测实现公平”的范式。与基线相比,我们的方法将偏见绝对减少了 26.41%。我们的源代码、数据集和结果可在 https://anonymous.4open.science/r/AMBEDKAR-983B/ 获取。
查看 arXiv 页面查看 PDF

评论

Aman ChadhaAman Chadha
论文作者
论文提交者

AMBEDKAR 将大型语言模型 (LLM) 中的偏见缓解重新构建为一种推理时解码目标,引入了一种受宪法指导的投机性解码管道,该管道在不修改模型权重的情况下实现了对种姓和宗教偏见的稳健降低。

➡️ 我们 AMBEDKAR 框架的关键亮点

🧪 公平感知投机性解码:引入了一种新颖的解码时架构,其中小型语言模型 (SLM) 充当有偏见的生成器,大型语言模型 (LLM) 充当宪法验证器。验证器根据反事实一致性重新评估草稿模型生成的投机性 token,通过在身份扰动提示上的输出之间计算 Jensen-Shannon 散度来最小化偏见。

🧩 反事实增强 + 宪法验证器:应用对抗性扰动(例如,种姓/宗教互换、反义词)来构建对比提示。在从印度宪法第 14-17 条派生出的经过精心策划的问答语料库上训练的验证器模型,通过衡量这些变体之间的一致性来评估输出的公平性,从而在生成过程中实现规范性约束。

🧠 身份推理探测 + 解码目标:引入“身份推理率”(IIR) 作为偏见指标——模型从提示中准确恢复掩码身份(例如,“达利特”)的程度。解码目标得到增强,以惩罚反事实之间的 Jensen-Shannon 散度过高,在 token 选择过程中平衡似然性和公平性,从而实现身份不变的补全。