⏶7
对齐如何缩小生成视界
发表
由
Chenghao Yang 提交
作者: Chenghao Yang, Ari Holtzman
摘要
尽管对齐的大型语言模型(LLM)具有令人印象深刻的能力,但它们生成的输出往往缺乏多样性。这种生成中的稳定性是由什么驱动的呢?我们通过模型输出分布中概率集中的视角来研究这种现象。为了量化这种集中度,我们引入了分支因子(BF)——一个与标记无关的度量,用于表示生成过程中可能出现的下一个有效步骤的数量。我们的实证分析揭示了两个关键发现:(1)BF通常随着生成进程的推进而降低,这表明LLM在生成时变得更加可预测。(2) 对齐微调从一开始就显著锐化了模型的输出分布,相对于基础模型,将BF降低了近一个数量级(例如,从12降至1.2)。这种显著的降低有助于解释为什么对齐模型通常对解码策略不那么敏感。基于这一见解,我们发现这种稳定性对复杂推理具有惊人的影响。例如,对齐的思维链(CoT)模型(例如,DeepSeek-蒸馏模型)利用了这种效应;通过生成更长的推理链,它们将生成推向后期更具确定性(更低BF)的阶段,从而产生更稳定的输出。我们假设对齐微调并没有从根本上改变模型的行为,而是将其引向风格化标记(例如“当然”),这些标记解锁了基础模型中已经存在的低熵轨迹。这种观点得到了“推力”实验的支持,这些实验表明使用此类标记提示基础模型也可以类似地降低BF。总而言之,我们的发现确立了BF作为理解和控制LLM输出的强大诊断工具——阐明了对齐如何减少变异性,CoT如何促进稳定生成,以及如何引导基础模型偏离多样性。
📜 论文:https://arxiv.org/abs/2506.17871
🌐 网站:https://yangalan123.github.io/branching_factor/
💻 源代码:https://github.com/yangalan123/LLMBranchingFactor