⏶8
为什么开源大语言模型在数据分析方面表现不佳?一项系统性实证研究
发表
由
Ningyu Zhang 提交
作者:
Yuqi Zhu, Yi Zhong, Jintian Zhang, Ziheng Zhang, Shuofei Qiao, Yujie Luo, Lun Du, Da Zheng, Huajun Chen,
Ningyu Zhang
摘要
大型语言模型(LLM)在自动化数据分析任务方面前景广阔,但开源模型在这种推理密集型场景中面临显著限制。在这项工作中,我们研究了增强开源LLM数据分析能力的策略。通过策划一个包含多样化真实场景的种子数据集,我们从三个维度评估了模型:数据理解、代码生成和战略规划。我们的分析揭示了三个关键发现:(1)战略规划质量是模型性能的主要决定因素;(2)交互设计和任务复杂性显著影响推理能力;(3)数据质量在实现最佳性能方面表现出比多样性更大的影响。我们利用这些见解开发了一种数据合成方法,证明了开源LLM分析推理能力的显著提高。
我们研究了增强开源大型语言模型(LLM)数据分析能力的策略。通过精心策划包含多样化、真实场景的种子数据集,我们从三个维度评估了模型:数据理解、代码生成和战略规划。
我们的分析揭示了三个关键发现:(1) 战略规划质量是模型性能的主要决定因素;(2) 交互设计和任务复杂性显著影响推理能力;(3) 数据质量在实现最佳性能方面比多样性具有更大的影响。我们利用这些见解开发了一种数据合成方法,展示了开源LLM分析推理能力的显著提升。