求解-检测-验证:借助弹性生成式验证器实现推理时扩展

发表
ZhongZhong 提交
作者: ZhongJianyuan Zhong, Zeju LiZeju Li, Zhijian Xu, Xiangyu WenXiangyu Wen, Kezhi Li, Qiang Xu

摘要

大型语言模型(LLM)对复杂任务的推理本质上涉及解决方案准确性与计算效率之间的权衡。后续的验证步骤虽然旨在提高性能,但引入了自身的挑战性权衡,进一步使情况复杂化:如果天真地在测试时与 LLM 集成,复杂的生成式奖励模型(GenRMs)计算成本可能过高,而更简单、更快速的方法可能缺乏可靠性。为了克服这些挑战,我们引入了 FlexiVe,这是一种新型生成式验证器,它利用灵活分配验证预算策略,在快速、可靠的“快思”和一丝不苟的“慢思”之间灵活平衡计算资源。我们进一步提出了 Solve-Detect-Verify 流水线,这是一种高效的推理时扩展框架,它智能地集成了 FlexiVe,主动识别解决方案完成点以触发有针对性的验证并提供集中的求解器反馈。实验表明,FlexiVe 在 ProcessBench 上准确定位推理轨迹中的错误方面实现了卓越的准确性。此外,在具有挑战性的数学推理基准(AIME 2024、AIME 2025 和 CNMO)上,我们的完整方法在推理准确性和推理效率方面均优于自洽性等基线方法。我们的系统提供了一种可扩展且有效的解决方案,以在测试时增强 LLM 的推理能力。
查看 arXiv 页面查看 PDF

评论

ZhongZhong
论文作者
论文提交者

本文介绍了 Flexive,一个新颖的生成验证器,以及 Solve-Detect-Verify (求解-检测-验证) 流程,以解决大型语言模型 (LLM) 推理中准确性和计算效率之间的权衡问题。

Flexive 动态平衡“快思考”(快速、资源高效的错误诊断)和“慢思考”(细致、计算密集型分析),使用灵活验证预算分配策略。该策略首先使用高效的并行评估来衡量验证难度,必要时再升级到更深入的分析。Flexive 使用 Group Relative Policy Optimization (GRPO) 进行错误检测训练。

Solve-Detect-Verify 流程将 Flexive 集成到一个高效的推理时缩放框架中。它包含三个阶段:

  • 求解 (Solve):LLM 生成初步解决方案。

  • 检测 (Detect):一种轻量级机制监控 LLM 输出中的犹豫关键词,并使用对数概率评估解决方案是否完整,可能提前暂停生成。

  • 验证与改进 (Verify and Refine):Flexive 评估候选解决方案。如果正确,则最终确定。如果发现错误,Flexive 的反馈指导求解器生成一个全新的、改进的解决方案。