⏶2

分数推理通过潜在引导向量提升推理计算性能

06月18日发表

06月30日由 Sheng Liu 提交

作者: Sheng Liu, Tianlang Chen, Pan Lu, Haotian Ye, Yizheng Chen, Lei Xing, James Zou

摘要

测试时计算已成为提高大型语言模型 (LLM) 性能的强大范例，生成多个输出或优化单个链可以显著提高答案的准确性。然而，现有方法（如 Best-of-N、多数投票和自我反思）通常以统一的方式对所有输入进行推理，忽略了不同问题可能需要不同级别的推理深度这一事实。在这项工作中，我们提出了 Fractional Reasoning，这是一种无需训练且与模型无关的框架，可以在推理时连续控制推理强度，从而超越了固定指令提示的限制。我们的方法通过提取与更深层次推理相关的潜在引导向量，并以可调的缩放因子重新应用它来实现，从而使模型能够根据每个输入的复杂性定制其推理过程。这支持两种关键的测试时缩放模式：（1）提高基于广度的策略（例如，Best-of-N、多数投票）的输出质量，以及（2）提高基于深度的策略（例如，自我反思）中单个推理链的正确性。在 GSM8K、MATH500 和 GPQA 上的实验表明，Fractional Reasoning 始终如一地提高了各种推理任务和模型的性能。

查看 arXiv 页面查看 PDF

Sheng Liu

论文提交者

测试时计算已成为一种强大的范例，可以提高大型语言模型（LLM）的性能，其中生成多个输出或改进单个链可以显著提高答案的准确性。然而，像 Best-of-N、多数投票和自我反思等现有方法通常以统一的方式跨输入应用推理，忽略了不同的问题可能需要不同级别的推理深度。在这项工作中，我们提出了 Fractional Reasoning，这是一个无需训练且与模型无关的框架，可以在推理时连续控制推理强度，超越了固定指令提示的限制。我们的方法通过提取与更深层次推理相关的潜在转向向量，并以可调节的缩放因子重新应用它，从而使模型能够根据每个输入的复杂性定制其推理过程。这支持两种关键的测试时缩放模式：（1）提高基于广度策略（例如，Best-of-N、多数投票）中的输出质量，以及（2）提高基于深度策略（例如，自我反思）中单个推理链的正确性。在 GSM8K、MATH500 和 GPQA 上的实验表明，Fractional Reasoning 始终如一地提高了跨不同推理任务和模型的性能。

项目页面：https://shengliu66.github.io/fractreason/

Github：https://github.com/shengliu66/FractionalReason

分数推理通过潜在引导向量提升推理计算性能

摘要

评论