⏶202
DataFlow: 一个由大型语言模型驱动的统一数据准备和工作流自动化框架,面向以数据为中心的人工智能时代
发表
由
bohan zeng 提交
作者: Hao Liang,
Xiaochen Ma, Zhou Liu,
Zhen Hao Wong, Zhengyang Zhao, Zimo Meng, Runming He, Chengyu Shen, Qifeng Cai, Zhaoyang Han, Meiyi Qiang, Yalin Feng, Tianyi Bai,
Zewei Pan, Ziyi Guo, Yizhen Jiang, Jingwen Deng, Qijie You, Peichao Lai, Tianyu Guo, Chi Hsu Tsai, Hengyi Feng, Rui Hu, Wenkai Yu, Junbo Niu, Bohan Zeng, Ruichuan An, Lu Ma, Jihao Huang,
Yaowei Zheng, Conghui He, Linpeng Tang, Bin Cui, Weinan E, Wentao Zhang
摘要
AI 生成总结
DataFlow 是一个由大型语言模型驱动的数据准备框架,可提高各种任务的数据质量和可重现性,通过自动生成管道来提升大型语言模型的性能。大型语言模型(LLM)对高质量数据的需求迅速增长,这使得对可扩展、可靠且语义丰富的预处理数据管道的需求日益迫切。然而,当前的实践仍然以临时脚本和松散指定的工作流为主,它们缺乏原则性抽象,阻碍了可复现性,并且对模型在循环中的数据生成支持有限。为了解决这些挑战,我们提出了 DataFlow,一个统一且可扩展的 LLM 驱动数据准备框架。DataFlow 的设计具有系统级抽象,能够实现模块化、可重用和可组合的数据转换,并提供 PyTorch 风格的管道构建 API,用于构建可调试和可优化的数据流。该框架包含近 200 个可重用操作符和六个通用管道,涵盖文本、数学推理、代码、Text-to-SQL、智能体 RAG 和大规模知识提取。为了进一步提高可用性,我们引入了 DataFlow-Agent,它通过操作符合成、管道规划和迭代验证,自动将自然语言规范转换为可执行管道。在六个代表性用例中,DataFlow 持续提升了下游 LLM 的性能。我们的数学、代码和文本管道优于精选的人工数据集和专门的合成基线,在 Text-to-SQL 中比 SynSQL 提高了高达 +3% 的执行准确性,在代码基准上平均提高了 +7%,在 MATH、GSM8K 和 AIME 上提高了 1-3 分。此外,DataFlow 生成的统一 10K 样本数据集使基础模型能够超越在 1M Infinity-Instruct 数据上训练的同类模型。这些结果表明,DataFlow 为可靠、可复现和可扩展的 LLM 数据准备提供了实用且高性能的基础,并为未来以数据为中心的 AI 发展奠定了系统级基础。
代码链接: https://github.com/OpenDCAI/DataFlow