ReFIne:一个具有可靠性、忠实性和可解释性的可信大型推理模型框架

发表
Chung-En, SunChung-En, Sun 提交
作者: Chung-En, SunChung-En Sun, Ge Yan, Akshay Kulkarni, Tsui-Wei Weng

摘要

AI 生成总结
ReFIne 是一个新颖的训练框架,通过结构化轨迹、明确的信息披露和置信度估计,提高了推理模型的可解释性、忠实性和可靠性,从而增强了其可信度。
长链思维(CoT)推理的最新进展主要侧重于答案准确性和令牌效率,而忽略了对可信度至关重要的方面。我们认为,可用的推理系统必须是可信的,具有三个特征:可解释性、忠实性和可靠性。为此,我们提出了ReFIne,一种新的训练框架,它集成了监督微调GRPO,以鼓励模型:(i) 通过生成结构化的、基于标签的、易于人类理解的高级规划推理过程来提高可解释性;(ii) 通过明确披露指导每个解决方案的决定性信息,并提供一致的横截面引用来增强忠实性;(iii) 通过提供对推导的健全性以及最终答案的置信度的自我评估来提高可靠性。我们将ReFIne应用于不同规模(1.7B/4B/8B)的Qwen3模型,并在不同难度的数学基准上进行评估。我们的实验结果表明,ReFIne模型生成更清晰、结构更合理的推理过程(可解释性+44.0%),更真实地揭示了其底层决策过程(忠实性+18.8%),并提供了信息丰富的置信度估计(可靠性+42.4%)。这些发现突出了一个被忽视但重要的方向:推理模型不仅应针对准确性进行优化,还应针对更广泛的可信度维度进行优化。我们的代码可在以下网址获取: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
查看 arXiv 页面查看 PDF

评论