⏶24

超越一刀切：用于高效NLG评估提示的逆向学习

04月29日发表

05月05日由 chenghao xiao 提交

作者: Hanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin

摘要

由于有效输出的多样性，评估自然语言生成 (NLG) 系统具有挑战性。虽然人工评估是黄金标准，但它存在不一致性、缺乏标准化和人口统计学偏差等问题，限制了可复现性。基于 LLM 的评估提供了一种可扩展的替代方案，但对提示设计高度敏感，微小的变化可能导致显著差异。在这项工作中，我们提出了一种逆向学习方法，该方法学习从模型输出到其输入指令的有效逆向映射，从而能够自动生成高效的、针对特定模型的评估提示。我们的方法只需要一个评估样本，并消除了耗时的人工提示工程的需求，从而提高了效率和鲁棒性。我们的工作有助于开辟一个新方向，以实现更鲁棒和高效的基于 LLM 的评估。

查看 arXiv 页面查看 PDF

chenghao xiao

论文作者

论文提交者

尽管使用大型语言模型作为评判者已成为一种不可避免的做法，但评估提示词的构建主要依赖于人工编写或大型语言模型生成。我们提出一个框架，通过反演建模来生成有效的自然语言生成 (NLG) 评估提示词。通过训练一个针对每个“正向模型”的反演模型，我们可以通过给反演模型一个单样本示例——即对要评估的示例文本给出我们期望的分数——来恢复一个最适合该正向模型的提示词。我们表明这种方法效果良好，并且能够很好地泛化到评估更大规模的文本，显著优于人工编写的提示词以及正向模型生成的提示词。

Hanhua Hong

论文作者

很高兴在这里分享我们的 Inverse-Qwen 模型！

https://huggingface.co/kou199024/Inverse-Qwen2.5-7B-BlackBox.

更多逆向模型即将推出。

超越一刀切：用于高效NLG评估提示的逆向学习

摘要

评论