Table-R1:面向表格推理的推理时缩放

发表
Yilun ZhaoYilun Zhao 提交
作者: Zheyuan Yang, Lyuhao Chen, Arman Cohan, Yilun ZhaoYilun Zhao

摘要

在本文中,我们提出了探索表格推理任务中推理时放大的首次研究。我们开发并评估了两种后训练策略来实现推理时放大:从前沿模型推理轨迹进行蒸馏,以及带有可验证奖励的强化学习(RLVR)。对于蒸馏,我们引入了一个由DeepSeek-R1生成的大规模推理轨迹数据集,我们用它来微调LLMs,得到Table-R1-SFT模型。对于RLVR,我们提出了任务特定的可验证奖励函数,并应用GRPO算法获得了Table-R1-Zero模型。我们在多样化的表格推理任务上评估了Table-R1系列模型,包括简答问答、事实验证和自由形式问答。值得注意的是,Table-R1-Zero模型在仅使用一个7B参数的LLM的情况下,其性能匹配或超过了GPT-4.1和DeepSeek-R1。它对域外数据集也展示了强大的泛化能力。广泛的消融和定性分析揭示了指令微调、模型架构选择和跨任务泛化的益处,以及在RL训练期间基本表格推理能力的涌现。
查看 arXiv 页面查看 PDF

评论

Yilun ZhaoYilun Zhao
论文作者
论文提交者

本研究首次系统地调查了表格推理任务中的推理时缩放(inference-time scaling)。