属性作为文本基因:利用 LLM 作为遗传算法模拟器进行条件合成数据生成

发表
GUANGZENG HANGUANGZENG HAN 提交
作者: GUANGZENG HANGuangzeng Han, Weisi Liu, Xiaolei Huang

摘要

大型语言模型(LLMs)在生成合成数据方面表现出色,但确保其质量和多样性仍然具有挑战性。我们提出了Genetic Prompt,一个结合了遗传算法和LLMs的创新框架,用于增强合成数据生成。我们的方法将语义文本属性视为基因序列,并利用LLM模拟交叉和变异操作。这种遗传过程通过创建新颖的属性组合来提高数据质量和多样性,从而产生比真实世界数据更接近的合成分布。为了优化父代选择,我们还集成了一个主动学习方案,该方案扩展了后代搜索空间。我们在多个NLP任务上的实验揭示了几项关键发现:Genetic Prompt不仅显著优于最先进的基线,而且在各种生成器模型尺寸和规模上都表现出稳健的性能。此外,我们证明了将我们的合成数据与原始训练集融合可以显著提升下游模型的性能,尤其是在类别不平衡的情况下。我们的发现证实了Genetic Prompt是为广泛的NLP应用生成高质量合成数据的有效方法。
查看 arXiv 页面查看 PDF

评论

GUANGZENG HANGUANGZENG HAN
论文作者
论文提交者

大型语言模型(LLMs)在生成合成数据方面表现出色,但保证其质量和多样性仍然是一个挑战。我们提出了 Genetic Prompt,一种将遗传算法与 LLMs 相结合以增强合成数据生成的创新框架。我们的方法将语义文本属性视为基因序列,并利用 LLM 模拟交叉和变异操作。这种遗传过程通过创建新颖的属性组合来提高数据质量和多样性,从而产生更接近真实世界数据的合成分布。为了优化父代选择,我们还集成了一个主动学习方案,该方案扩展了后代搜索空间。我们在多个 NLP 任务上的实验揭示了几个关键发现:Genetic Prompt 不仅显著优于最先进的基线,而且在各种生成器模型尺寸和规模上都表现出稳健的性能。此外,我们证明了将我们的合成数据与原始训练集融合可以显著提升下游模型的性能,尤其是在类别不平衡的情况下。我们的研究结果证实,Genetic Prompt 是为广泛的 NLP 应用生成高质量合成数据的有效方法。