⏶20
T2R-bench:一个用于从真实世界工业表格生成文章级报告的基准
发表
由
Yang Jian 提交
作者: Jie Zhang, Changzai Pan, Kaiwen Wei, Sishi Xiong, Yu Zhao, Xiangyu Li, Jiaxin Peng, Xiaoyan Gu, Jian Yang,
Wenhan Chang, Zhenhe Wu, Jiang Zhong, Shuangyong Song, Yongxiang Li, Xuelong Li

摘要
为了探索大型语言模型(LLM)在表格推理方面的能力,已经进行了广泛的研究。然而,将表格信息转化为报告的必备任务,对工业应用来说仍然是一个重大的挑战。这项任务受到两个关键问题的困扰:1)表格的复杂性和多样性导致推理结果不理想;2)现有的表格基准测试缺乏能力来充分评估这项任务的实际应用。为了填补这一空白,我们提出了表格到报告(table-to-report)任务,并构建了一个名为T2R-bench的双语基准测试,其中关键信息从表格流向报告。该基准测试包含457个工业表格,均来源于真实世界场景,涵盖19个行业领域以及4种工业表格类型。此外,我们提出了一套评估标准来公平地衡量报告生成的质量。对25个广泛使用的LLM进行的实验显示,即使是Deepseek-R1这类最先进的模型,整体得分也仅为62.71,这表明LLM在T2R-bench上仍有提升空间。源代码和数据将在接受后提供。
😎 T2R-bench:用于从真实工业表格生成文章级报告的基准
本文介绍了一个名为 T2R-bench 的新基准,旨在评估大型语言模型(LLMs)从复杂工业表格生成详细报告的能力——这是现实应用中常见但具有挑战性的任务。
🧩 问题与动机:
虽然 LLMs 在表格问答和文本到 SQL 等任务上有所改进,但它们在从多样化和复杂的工业表格生成准确、连贯且有见地的报告方面仍然存在困难。现有基准未能充分反映实际工业需求。
📊 数据集概述:
T2R-bench 包含来自 19 个领域和 4 种表格类型的 457 个真实工业表格,体现了高度的多样性和复杂性。每个表格都配有一份人类编写的参考报告。
📐 评估标准:
作者提出了一个全面的评估框架来衡量报告质量,重点关注信息准确性、连贯性、分析深度和结论质量。
🤖 实验洞察:
对 25 个流行 LLMs 的测试表明,即使是 Deepseek-R1 等顶级模型,整体性能也仅达到 62.71%,这表明在现实世界的表格到报告任务中仍有很大的改进空间。
🔮 结论:
T2R-bench 填补了评估 LLMs 在实际工业报告生成方面的重要空白。数据集和代码将在发表后发布。