寻宝:利用训练时标记实时定位长尾

发表
Daniel D'souzaDaniel D'souza 提交
作者: Daniel D'souza, Julia Kreutzer, Adrien Morisot, Ahmet Üstün, Sara Hooker

摘要

现代机器学习中最深远的挑战之一是如何在稀有和代表性不足的特征所构成的长尾问题上表现良好。大型通用模型虽然针对多项任务进行训练,但在高频使用场景下表现最佳。训练后,很难使模型在训练语料库中代表性不足的特定使用场景中表现出色。依赖提示工程或少样本示例来最大化特定测试用例的输出质量可能会令人沮丧,因为模型可能对微小变化高度敏感,以不可预测的方式做出反应,或者依赖固定的系统提示来维持性能。在这项工作中,我们提出问题:“我们能否优化训练协议,以同时提高推理时在代表性不足的使用场景下的可控性和性能?”我们重新审视了训练和推理技术之间的区别,以提高长尾性能,同时为用户提供一套模型经过训练能够响应的控制杆。我们创建了数据特征和任务来源的详细分类法,以显式控制生成属性并在推理时隐式地调节生成。我们微调了一个基础模型来自动推断这些标记,这使得它们在推理时变为可选。这种原则性强且灵活的方法在性能上产生了显著提升,尤其是在训练分布长尾部分的示例上。尽管我们观察到使用我们的标记后,开放式生成质量的胜率平均提升了5.7%,但在代表性不足的领域中,我们看到了超过9.1%的增益。我们还在诸如CodeRepair等代表性不足的任务上观察到高达14.1%的相对提升,并在长度指令遵循评估中获得了35.3%的绝对改进。
查看 arXiv 页面查看 PDF
寻宝:利用训练时标记实时定位长尾

评论

Daniel D'souzaDaniel D'souza
论文提交者

在特定测试案例中,依赖提示工程来最大化输出质量可能会令人沮丧,因为模型可能对微小变化高度敏感,以不可预测的方式响应,或者依赖固定的系统提示来维持性能。

在这项工作中,我们提出问题:

我们能否优化训练协议,以在推理时同时提高对代表性不足用例的可控性和性能?

我们创建了一个详细的数据特征和任务来源分类法,用于标注我们的训练数据。这使得模型能够隐式地调节生成内容,用户能够在推理时显式地控制生成属性。

该框架带来了:

🔍长尾性能提升 ✅

🎛️推理时用户显式控制 ✅

📈跨任务的普遍性增益 ✅

T2___Prefix_Cond_Train_Test.png