⏶61
TaTToo:用于表格推理中测试时间扩展的工具接地思维 PRM
发表
由
Jiaru Zou 提交

作者: Jiaru Zou,
Soumya Roy,
Vinay Kumar Verma, Ziyi Wang, David Wipf,
Pan Lu, Sumit Negi, James Zou, Jingrui He


摘要
AI 生成总结
TaTToo,一种新颖的基于表格的进程奖励模型,通过明确处理表格特有的操作并集成基于工具的验证,增强了表格推理能力,从而在性能上显著优于现有的 PRM。过程奖励模型(PRM)最近已成为增强大型推理模型(LRM)推理能力的一个强大框架,尤其是在测试时扩展(TTS)的背景下。然而,它们在表格推理领域监督 LRM 的潜力仍未得到充分探索。通过详细的实证分析,我们发现现有的 PRM,尽管广泛用于监督仅文本的推理步骤,但在表格特定操作(如子表格检索和模式交互)方面存在困难,从而导致关键的性能瓶颈。为了解决这一局限性,我们提出了 TaTToo,一个新颖的表格基础 PRM 框架,该框架(i)明确地推理表格推理步骤,以及(ii)集成基于工具的验证以提供精确的奖励监督。具体来说,我们首先设计了一个可扩展的数据策管流水线,通过整合表格验证的推理过程和基于工具的执行,构建了超过 60,000 个高质量的步骤级标注。基于收集到的数据,我们以双阶段范式训练 TaTToo:冷启动监督微调以捕获工具使用推理模式,然后进行带有工具基础奖励整形(tool-grounded reward shaping)的强化学习,以使我们的模型与基于表格的验证对齐。我们对我们新设计的 PRM 引起的策略改进进行了全面评估。在涵盖数值推理、事实核查和数据分析的 5 个具有挑战性的表格推理基准测试中,TaTToo 在推理时将下游策略 LRM 提高了 30.9%,以仅 8B 参数超越了 Qwen-2.5-Math-PRM-72B 等强大的 PRM 基线,并展示了跨不同 TTS 策略的强大泛化能力。
🚀 TATTOO – 一种新颖的、以工具为基础的表格推理过程奖励模型 (PRM)
🔎 我们做什么: - 进行详细的初步分析,诊断先前 PRM 在表格特定步骤监督(检索和模式交互)方面的性能瓶颈。
构建一个拥有 60,000 多个实例的数据集,并进行工具增强、步骤级别验证。
采用双阶段代理训练范式进行训练,以在每步评估过程中更好地利用工具。
在各种 TTS 策略下有效扩展,包括 Best-of-N、Beam Search 和 DVTS。
💡 为什么这很重要: TATTOO 表明,集成工具的思维 PRM 可以同时监督思维和表格操作,为更好的推理和验证提供更可靠的奖励信号。
👉 论文:https://arxiv.org/pdf/2510.06217