⏶35
DoLa:通过对比层解码提高大型语言模型的真实性
09月07日发表
04月12日由
AK 提交

作者:
Yung-Sung Chuang,
Yujia Xie,
Hongyin Luo, Yoon Kim, James Glass,
Pengcheng He


摘要
尽管大型语言模型(LLM)具有令人印象深刻的能力,但它们容易产生幻觉,即生成的内容偏离了预训练期间看到的事实。我们提出了一种简单的解码策略,用于减少预训练 LLM 的幻觉,该策略不需要以检索到的外部知识为条件,也不需要额外的微调。我们的方法通过对比从将后期层与早期层投影到词汇空间获得的 logits 中的差异来获得下一个标记分布,利用了 LLM 中的事实知识通常被证明定位于特定的 Transformer 层这一事实。我们发现,这种按层对比解码(DoLa)方法能够更好地呈现事实知识,并减少不正确事实的生成。DoLa 在多项选择题任务和开放式生成任务中始终如一地提高了真实性,例如,在 TruthfulQA 上将 LLaMA 系列模型的性能绝对提高了 12-17%,证明了其在使 LLM 可靠地生成真实事实方面的潜力。
评论
这篇论文 https://arxiv.org/html/2402.06925v1 声称,在 factscore ds 上,束搜索是最有效的策略,而 dola 是最弱的。您对此有何看法?我没有在您的论文中看到束搜索与 dola 的比较
transformers
实现正在此处添加:https://github.com/huggingface/transformers/pull/29619