⏶1
TabDSR: 复杂表格数据数值推理的分解、清洗和推理方法
发表
由
Changjiang Jiang 提交
作者:
Changjiang Jiang, Fengchang Yu, Haihua Chen, Wei Lu, Jin Zeng
摘要
AI 生成总结
结合查询分解、表格清理和思维程序推理的框架,提高了大型语言模型在复杂表格数值推理任务上的性能。对表格数据进行复杂推理在真实世界的数据分析中至关重要,但大型语言模型(LLMs)由于复杂的查询、嘈杂的数据和有限的数值能力而常常表现不佳。为了解决这些问题,我们提出了 \method,一个由以下部分组成的框架:(1)一个查询分解器,用于分解复杂问题,(2)一个表格清理器,用于清理和过滤嘈杂的表格,以及(3)一个基于程序思维链(PoT)的推理器,用于生成可执行代码以从清理后的表格中导出最终答案。为了确保无偏评估并减少数据泄露,我们引入了一个新数据集 CalTab151,专门为表格上的复杂数值推理而设计。实验结果表明,\method 持续优于现有方法,在 TAT-QA、TableBench 和 \method 上分别实现了 8.79%、6.08% 和 19.87% 的准确率提升,达到了最先进(SOTA)的性能。此外,我们的框架与主流 LLMs 无缝集成,为复杂的表格数值推理提供了强大的解决方案。这些发现强调了我们的框架在增强 LLM 复杂表格数值推理性能方面的有效性。数据和代码可根据请求提供。
我们的论文“TabDSR: 分解、净化和推理表格数据中复杂的数值推理”已被 EMNLP 2025 Findings 接收 🎉。