先提示候选,再蒸馏:一个用于LLM驱动数据标注的师生框架

发表
Mingxuan XiaMingxuan Xia 提交
作者: Mingxuan XiaMingxuan Xia, Haobo Wang, Yixuan Li, Zewei Yu, Jindong Wang, Junbo Zhao, Runze Wu

摘要

近年来,大型语言模型(LLMs)在数据标注方面展现出巨大潜力,显著降低了与下游应用相关的劳动力成本。然而,现有方法大多采用一种激进策略,即通过提示 LLM 为每个未标注样本确定一个单一的黄金标签。由于 LLM 固有的不确定性,它们经常为难度较大的样本生成不正确的标签,严重损害了下游应用的数据质量。受人类行为中对模糊性的规避(ambiguity aversion)启发,我们提出了一种新颖的候选标注范式,其中鼓励大型语言模型在遇到不确定性时输出所有可能的标签。为了确保为下游任务提供唯一的标签,我们开发了一个教师-学生框架 CanDist,该框架使用小型语言模型(SLM)对候选标注进行蒸馏。我们进一步提供了严格的论证,表明从教师 LLM 蒸馏候选标注相比直接使用单一标注提供了更优越的理论保证。在六个文本分类任务上的大量实验验证了我们所提出方法的有效性。源代码可在 https://github.com/MingxuanXia/CanDist 获取。
查看 arXiv 页面查看 PDF

评论

Mingxuan XiaMingxuan Xia
论文作者
论文提交者

这项工作通过提出一种新颖的师生框架CanDist,研究了LLM驱动的数据标注,该框架首先提示教师LLM生成候选标签,然后蒸馏学生SLM以识别真实标签。我们阐明了候选标注表现出更好的统计特性,并且从理论上证明了从LLM的候选标注中进行蒸馏更具抗噪性。经验上,我们表明CanDist优于各种基于LLM和SLM的方法。我们希望我们的工作能启发未来的研究,以利用弱标注者的候选标注。