超越一刀切:用于高效NLG评估提示的逆向学习

发表
chenghao xiaochenghao xiao 提交
作者: Hanhua HongHanhua Hong, chenghao xiaoChenghao Xiao, Yang WangYang Wang, Yiqi LiuYiqi Liu, Wenge Rong, Chenghua Lin

摘要

由于有效输出的多样性,评估自然语言生成 (NLG) 系统具有挑战性。虽然人工评估是黄金标准,但它存在不一致性、缺乏标准化和人口统计学偏差等问题,限制了可复现性。基于 LLM 的评估提供了一种可扩展的替代方案,但对提示设计高度敏感,微小的变化可能导致显著差异。在这项工作中,我们提出了一种逆向学习方法,该方法学习从模型输出到其输入指令的有效逆向映射,从而能够自动生成高效的、针对特定模型的评估提示。我们的方法只需要一个评估样本,并消除了耗时的人工提示工程的需求,从而提高了效率和鲁棒性。我们的工作有助于开辟一个新方向,以实现更鲁棒和高效的基于 LLM 的评估。
查看 arXiv 页面查看 PDF
超越一刀切:用于高效NLG评估提示的逆向学习

评论

chenghao xiaochenghao xiao
论文作者
论文提交者

尽管使用大型语言模型作为评判者已成为一种不可避免的做法,但评估提示词的构建主要依赖于人工编写或大型语言模型生成。我们提出一个框架,通过反演建模来生成有效的自然语言生成 (NLG) 评估提示词。通过训练一个针对每个“正向模型”的反演模型,我们可以通过给反演模型一个单样本示例——即对要评估的示例文本给出我们期望的分数——来恢复一个最适合该正向模型的提示词。我们表明这种方法效果良好,并且能够很好地泛化到评估更大规模的文本,显著优于人工编写的提示词以及正向模型生成的提示词。

Hanhua HongHanhua Hong
论文作者

很高兴在这里分享我们的 Inverse-Qwen 模型!

https://huggingface.co/kou199024/Inverse-Qwen2.5-7B-BlackBox.

更多逆向模型即将推出。