分数推理通过潜在引导向量提升推理计算性能

发表
Sheng LiuSheng Liu 提交
作者: Sheng Liu, Tianlang Chen, Pan Lu, Haotian Ye, Yizheng Chen, Lei Xing, James Zou

摘要

测试时计算已成为提高大型语言模型 (LLM) 性能的强大范例,生成多个输出或优化单个链可以显著提高答案的准确性。然而,现有方法(如 Best-of-N、多数投票和自我反思)通常以统一的方式对所有输入进行推理,忽略了不同问题可能需要不同级别的推理深度这一事实。在这项工作中,我们提出了 Fractional Reasoning,这是一种无需训练且与模型无关的框架,可以在推理时连续控制推理强度,从而超越了固定指令提示的限制。我们的方法通过提取与更深层次推理相关的潜在引导向量,并以可调的缩放因子重新应用它来实现,从而使模型能够根据每个输入的复杂性定制其推理过程。这支持两种关键的测试时缩放模式:(1)提高基于广度的策略(例如,Best-of-N、多数投票)的输出质量,以及(2)提高基于深度的策略(例如,自我反思)中单个推理链的正确性。在 GSM8K、MATH500 和 GPQA 上的实验表明,Fractional Reasoning 始终如一地提高了各种推理任务和模型的性能。
查看 arXiv 页面查看 PDF
分数推理通过潜在引导向量提升推理计算性能

评论

Sheng LiuSheng Liu
论文提交者

测试时计算已成为一种强大的范例,可以提高大型语言模型(LLM)的性能,其中生成多个输出或改进单个链可以显著提高答案的准确性。然而,像 Best-of-N、多数投票和自我反思等现有方法通常以统一的方式跨输入应用推理,忽略了不同的问题可能需要不同级别的推理深度。在这项工作中,我们提出了 Fractional Reasoning,这是一个无需训练且与模型无关的框架,可以在推理时连续控制推理强度,超越了固定指令提示的限制。我们的方法通过提取与更深层次推理相关的潜在转向向量,并以可调节的缩放因子重新应用它,从而使模型能够根据每个输入的复杂性定制其推理过程。这支持两种关键的测试时缩放模式:(1)提高基于广度策略(例如,Best-of-N、多数投票)中的输出质量,以及(2)提高基于深度策略(例如,自我反思)中单个推理链的正确性。在 GSM8K、MATH500 和 GPQA 上的实验表明,Fractional Reasoning 始终如一地提高了跨不同推理任务和模型的性能。

项目页面:https://shengliu66.github.io/fractreason/

Github:https://github.com/shengliu66/FractionalReason