口头采样:如何缓解模式崩溃并解锁 LLM 的多样性

发表
Simon YuSimon Yu 提交
作者: Eleanor ZhangJiayi Zhang, Simon YuSimon Yu, DerekDerek Chong, Anthony Sicilia, Michael R. Tomz, Christopher D. Manning, Weiyan Shi

摘要

AI 生成总结
偏好数据中的典型性偏差会导致LLM发生模式崩溃,并引入了口头化采样作为一种提示策略,以增强多样性,同时不损害准确性或安全性。
训练后对齐通常会降低LLM的多样性,从而导致一种称为模式崩溃的现象。与 prior work 将此效应归因于算法限制不同,我们确定了一个根本的、普遍存在的数据层驱动因素:偏好数据中的典型性偏差,即注释者由于认知心理学中的既定发现而系统地偏爱熟悉文本。我们在理论上形式化了这种偏差,在偏好数据集上进行了经验验证,并证明它在模式崩溃中起着核心作用。基于这种分析,我们引入了Verbalized Sampling,一种简单、无需训练的提示策略,以规避模式崩溃。VS提示模型在一组响应上口头表达一个概率分布(例如,“生成5个关于咖啡的笑话及其对应的概率”)。全面的实验表明,VS在创意写作(诗歌、故事、笑话)、对话模拟、开放式问答和合成数据生成方面显著提高了性能,而没有牺牲事实准确性和安全性。例如,在创意写作方面,VS比直接提示提高了1.6-2.1倍的多样性。我们还观察到一个新兴趋势,即能力更强的模型从VS中获益更多。总之,我们的工作为模式崩溃提供了一个新的以数据为中心的视角,并提供了一种实用的推理时间补救措施,有助于释放预训练的生成多样性。
查看 arXiv 页面查看 PDF

评论

Simon YuSimon Yu
论文作者
论文提交者

Verbalized Sampling (VS) 是一种简单的提示策略,可将 LLM 的多样性提高 2-3 倍。它的工作原理是让模型生成具有概率的多个响应,然后从该分布中进行采样。VS 是无需训练的(通过提示即可与任何 LLM 配合使用),与模型无关(GPT、Claude、Gemini、Llama 等),与温度无关,并且在创意写作、社交模拟、合成数据生成和开放式问答等任务中有效。