Easy Dataset:一个用于从非结构化文档中合成LLM微调数据的统一且可扩展的框架

发表
Yaowei ZhengYaowei Zheng 提交
作者: Ziyang Miao, Qiyu Sun, Jingyuan Wang, GYCYuchen Gong, Yaowei ZhengYaowei Zheng, LiShiqi Li, Richong Zhang

摘要

大型语言模型(LLMs)在通用任务上表现出色,但由于高质量领域数据的稀缺,将其适应特定领域仍然具有挑战性。现有数据合成工具在有效从异构文档中提取可靠的微调数据方面常常力不从心。为了解决这一限制,我们提出了Easy Dataset,这是一个通过直观的图形用户界面(GUI)从非结构化文档合成微调数据的统一框架。具体而言,Easy Dataset允许用户轻松配置文本提取模型和分块策略,将原始文档转换为连贯的文本块。然后,它利用一种以角色为导向的提示方法,使用公开可用的LLMs生成多样化的问答对。在整个流程中,一个人机协作的可视化界面便于审查和完善中间输出,以确保数据质量。在金融问答任务上的实验表明,在合成数据集上对LLMs进行微调显著提高了领域特定性能,同时保留了通用知识。源代码和可安装包可在https://github.com/ConardLi/easy-dataset获取,并在GitHub上获得了超过9,000颗星。
查看 arXiv 页面查看 PDF

评论

Yaowei ZhengYaowei Zheng
论文作者
论文提交者

代码:https://github.com/ConardLi/easy-dataset