⏶24
超越一刀切:用于高效NLG评估提示的逆向学习
发表
由
chenghao xiao 提交
作者:
Hanhua Hong,
Chenghao Xiao,
Yang Wang,
Yiqi Liu, Wenge Rong, Chenghua Lin


摘要
由于有效输出的多样性,评估自然语言生成 (NLG) 系统具有挑战性。虽然人工评估是黄金标准,但它存在不一致性、缺乏标准化和人口统计学偏差等问题,限制了可复现性。基于 LLM 的评估提供了一种可扩展的替代方案,但对提示设计高度敏感,微小的变化可能导致显著差异。在这项工作中,我们提出了一种逆向学习方法,该方法学习从模型输出到其输入指令的有效逆向映射,从而能够自动生成高效的、针对特定模型的评估提示。我们的方法只需要一个评估样本,并消除了耗时的人工提示工程的需求,从而提高了效率和鲁棒性。我们的工作有助于开辟一个新方向,以实现更鲁棒和高效的基于 LLM 的评估。

评论

论文作者
很高兴在这里分享我们的 Inverse-Qwen 模型!
https://huggingface.co/kou199024/Inverse-Qwen2.5-7B-BlackBox.
更多逆向模型即将推出。
尽管使用大型语言模型作为评判者已成为一种不可避免的做法,但评估提示词的构建主要依赖于人工编写或大型语言模型生成。我们提出一个框架,通过反演建模来生成有效的自然语言生成 (NLG) 评估提示词。通过训练一个针对每个“正向模型”的反演模型,我们可以通过给反演模型一个单样本示例——即对要评估的示例文本给出我们期望的分数——来恢复一个最适合该正向模型的提示词。我们表明这种方法效果良好,并且能够很好地泛化到评估更大规模的文本,显著优于人工编写的提示词以及正向模型生成的提示词。