DeepAnalyze:用于自主数据科学的智能体大型语言模型

发表
Shaolei ZhangShaolei Zhang 提交
作者: Shaolei Zhang, Ju Fan, Meihao Fan, Guoliang Li, Xiaoyong Du

摘要

AI 生成总结
DeepAnalyze-8B,一个具身式LLM,通过课程式训练和数据驱动的轨迹合成,自主完成从原始数据到研究报告的数据科学流程。
从原始数据源到分析师级别深度研究报告的自主数据科学,一直是一个长期存在的挑战,随着强大大型语言模型(LLMs)的出现,现在正变得可行。近期基于工作流的数据代理在特定的数据任务上表现出有希望的结果,但由于依赖于预定义的流程,在实现完全自主数据科学方面仍然存在根本性限制。在本文中,我们介绍了DeepAnalyze-8B,第一个专为自主数据科学设计的智能LLM,能够自动完成从数据源到分析师级别深度研究报告的端到端流程。为了应对高复杂度的数据科学任务,我们提出了一种基于课程的智能训练范式,模仿人类数据科学家的学习轨迹,使LLMs能够在真实环境中逐步获取和整合多种能力。我们还提出了一种数据驱动的轨迹合成框架,用于构建高质量的训练数据。通过智能训练,DeepAnalyze学会执行广泛的数据任务,从数据问答、专业分析任务到开放式数据研究。实验表明,DeepAnalyze仅用80亿参数,性能就优于基于最先进的专有LLMs构建的先前工作流型代理。DeepAnalyze的模型、代码和训练数据均已开源,为自主数据科学铺平了道路。
查看 arXiv 页面查看 PDF

评论

Shaolei ZhangShaolei Zhang
论文提交者

DeepAnalyze-8B 是首个用于自主数据科学的智能体式 LLM。它能够在无人干预的情况下自主完成广泛的数据中心任务,支持:
- 🛠 完整的数据科学流程: 自动执行数据准备、分析、建模、可视化和报告生成等任何数据科学任务。
- 🔍 开放式数据研究: 对包括结构化数据(数据库、CSV、Excel)、半结构化数据(JSON、XML、YAML)和非结构化数据(TXT、Markdown)在内的多样化数据源进行深入研究,最终生成分析师级别的研究报告。
- 📊 完全开源: DeepAnalyze 的模型代码训练数据演示均已开源,允许您部署或扩展自己的数据分析助手。