⏶16
标注高效的通用诚实对齐
发表
由
Run-Ze Fan 提交

作者: Shiyu Ni, Keping Bi, Jiafeng Guo, Minghao Tang, Jingtong Wu, Zengxin Han, Xueqi Cheng
摘要
AI 生成总结
EliCal 是一个两阶段框架,结合了自洽性监督和最小正确性标注,以有限的标注工作量实现了大语言模型近乎最优的诚实度对齐。诚实对齐——大型语言模型(LLMs)识别其知识边界并表达校准信心的能力——对于可信赖的部署至关重要。现有方法要么依赖于免训练的置信度估计(例如,token 概率、自一致性),要么依赖于带有正确性标注的基于训练的校准。虽然有效,但通过基于训练的校准实现通用诚实对齐需要昂贵的大规模标注。为了支持标注效率更高的训练,我们引入了 Elicitation-Then-Calibration(EliCal),一个两阶段框架,首先使用廉价的自一致性监督来引出内部置信度,然后使用少量正确性标注来校准此置信度。为了支持大规模研究,我们发布了 HonestyBench,一个涵盖十个自由格式 QA 数据集的基准,其中包含 560,000 个训练实例和 70,000 个评估实例,并附带了正确性和自一致性信号的标注。实验表明,EliCal 仅用 1,000 个正确性标注(占完整监督的 0.18%)即可实现接近最优的对齐,并且在未见过的 MMLU 任务上的对齐性能优于仅校准的基线,为 LLMs 中的通用诚实对齐提供了一个可扩展的解决方案。
注释高效的通用诚实对齐