CLUE:基于隐藏状态聚类的经验式非参数验证

发表
Zhenwen LiangZhenwen Liang 提交
作者: Zhenwen LiangZhenwen Liang, Ruosen Li, Yujun Zhou, Linfeng Song, Dian Yu, Xinya Du, Haitao Mi, Dong Yu

摘要

AI 生成总结
大型语言模型中的隐藏状态将正确性编码为可分离的签名,使得一个极简验证器(CLUE)在重排序和准确性方面优于文本级和基于置信度的方法。
评估大型语言模型(LLM)输出的质量是一个关键的挑战。以前的方法要么依赖于文本级信息(例如,奖励模型、多数投票),这可能会过度拟合肤浅的线索,要么依赖于经过校准的令牌概率置信度,这在校准较差的模型上会失败。然而,这两种信号实际上都是更丰富的信息来源的局部投影:模型内部的隐藏状态。早期层(更接近令牌嵌入)保留了支撑文本判断的语义和词汇特征,而后期层则越来越多地与输出对数对齐,嵌入了与置信度相关的信息。本文将隐藏状态直接作为验证的统一基础。我们表明,解决方案的正确性被编码为隐藏激活轨迹中几何上可分离的签名。为了验证这一点,我们提出了 CLUE(聚类和基于经验的验证),这是一个刻意极简的非参数验证器。CLUE 没有可训练参数,仅通过隐藏状态差值来总结每个推理轨迹,并通过最近质心距离到由过去经验形成的“成功”和“失败”簇进行正确性分类。该方法的简单性突出了底层信号的强度。经验上,CLUE 在重新排序候选者方面持续优于 LLM 作为判别器基线,并且与现代基于置信度的方法相当或超过了它们,在 AIME 24/25 和 GPQA 上都提高了 top-1 和多数投票准确率。亮点是,在 AIME 24 上,使用 1.5B 模型,CLUE 将准确率从 56.7%(多数@64)提高到 70.0%(top-maj@16)。
查看 arXiv 页面查看 PDF