大型语言模型用于数据合成

发表
Yihong TangYihong Tang 提交
作者: Yihong TangYihong Tang, Menglin Kong, Lijun Sun

摘要

生成能够忠实捕捉真实世界分布统计结构的人工数据是数据建模中的一个基本挑战。传统方法通常依赖于强大的参数假设或手动结构设计,并且在处理高维或异构领域时表现不佳。大型语言模型(LLM)的最新进展揭示了它们作为真实世界分布的灵活、高维先验的潜力。然而,当应用于数据合成时,基于LLM的标准采样效率低下,受限于固定的上下文限制,并且无法确保统计一致性。鉴于此,我们引入了LLMSynthor,一个通用数据合成框架,它将LLM转变为由分布反馈引导的结构感知模拟器。LLMSynthor将LLM视为非参数Copula模拟器,用于建模高阶依赖关系,并引入LLM提案采样(LLM Proposal Sampling)以生成基础提案分布,从而在无需拒绝的情况下提高采样效率。通过最小化汇总统计量空间中的差异,迭代合成循环对齐真实数据和人工数据,同时逐步揭示和完善潜在的生成结构。我们在受控和真实世界环境中,使用隐私敏感领域(例如,电子商务、人口和移动)的异构数据集(涵盖结构化和非结构化格式)评估了LLMSynthor。LLMSynthor生成的人工数据表现出高统计保真度、实用性和跨数据适应性,使其成为经济学、社会科学、城市研究及其他领域的宝贵工具。
查看 arXiv 页面查看 PDF
大型语言模型用于数据合成
大型语言模型用于数据合成

评论

Yihong TangYihong Tang
论文作者
论文提交者

LLMSynthor 是一种由大型语言模型驱动的通用合成数据生成工具,能够以各种格式重现目标数据集的边际和联合结构。

如果您觉得这篇论文有趣或有用,请考虑点赞 — 我们计划很快开源该软件包。