DoLa:通过对比层解码提高大型语言模型的真实性

09月07日发表
04月12日由 AKAK 提交
作者: Yung-Sung ChuangYung-Sung Chuang, Yujia XieYujia Xie, Hongyin LuoHongyin Luo, Yoon Kim, James Glass, Pengcheng HePengcheng He

摘要

尽管大型语言模型(LLM)具有令人印象深刻的能力,但它们容易产生幻觉,即生成的内容偏离了预训练期间看到的事实。我们提出了一种简单的解码策略,用于减少预训练 LLM 的幻觉,该策略不需要以检索到的外部知识为条件,也不需要额外的微调。我们的方法通过对比从将后期层与早期层投影到词汇空间获得的 logits 中的差异来获得下一个标记分布,利用了 LLM 中的事实知识通常被证明定位于特定的 Transformer 层这一事实。我们发现,这种按层对比解码(DoLa)方法能够更好地呈现事实知识,并减少不正确事实的生成。DoLa 在多项选择题任务和开放式生成任务中始终如一地提高了真实性,例如,在 TruthfulQA 上将 LLaMA 系列模型的性能绝对提高了 12-17%,证明了其在使 LLM 可靠地生成真实事实方面的潜力。

评论

Joao GanteJoao Gante

transformers 实现正在此处添加:https://github.com/huggingface/transformers/pull/29619

Vlad-Lucian IsaiaVlad-Lucian Isaia

这篇论文 https://arxiv.org/html/2402.06925v1 声称,在 factscore ds 上,束搜索是最有效的策略,而 dola 是最弱的。您对此有何看法?我没有在您的论文中看到束搜索与 dola 的比较

Joao GanteJoao Gante

@vlisaia 这篇论文中关于 DoLa 似乎有些奇怪的地方(见附录,F 节和表 32)。不确定这是 DoLa 的属性还是实现中的错误——如果是后者,那么 DoLa 的结果可能被低估了 :)

Vlad-Lucian IsaiaVlad-Lucian Isaia

谢谢,刚刚查看了这些章节。那么,您的团队是否有机会看到 dola 与束搜索的比较?