⏶5
无效且不可靠?探讨使用大语言模型作为评判者
发表
由
taesiri 提交

作者: Khaoula Chehbouni, Mohammed Haddou, Jackie Chi Kit Cheung, Golnoosh Farnadi
摘要
评估自然语言生成(NLG)系统仍然是自然语言处理(NLP)的核心挑战,而旨在通用化的大型语言模型(LLMs)的兴起使这一挑战更加复杂。最近,大型语言模型作为评委(LLJs)已成为传统指标的有前景的替代方案,但其有效性仍有待充分探索。这篇立场论文认为,目前对 LLJs 的热情可能过于仓促,因为它们的采用速度超过了对其作为评估者的可靠性和有效性的严格审查。借鉴社会科学的测量理论,我们识别并批判性地评估了使用 LLJs 的四个核心假设:它们充当人类判断代理的能力、作为评估者的能力、可扩展性和成本效益。我们探讨了这些假设中的每一个如何可能受到 LLMs、LLJs 或 NLG 评估当前实践的固有局限性的挑战。为了使我们的分析有据可依,我们探讨了 LLJs 的三个应用:文本摘要、数据标注和安全对齐。最后,我们强调了在 LLJs 评估中需要更负责任的评估实践,以确保它们在领域中日益增长的作用能够支持,而不是损害 NLG 的进展。
> 评估自然语言生成(NLG)系统仍然是自然语言处理(NLP)的核心挑战,随着旨在成为通用的大型语言模型(LLMs)的兴起,这一挑战变得更加复杂。最近,将大型语言模型作为裁判(LLJs)已成为传统指标的有前景的替代方案,但其有效性仍有待深入研究。本立场论文认为,目前对LLJs的热情可能为时过早,因为它们的采用速度已经超过了对其作为评估者可靠性和有效性的严格审查。借鉴社会科学中的测量理论,我们识别并批判性地评估了使用LLJs的四个核心假设:它们充当人类判断代理的能力、作为评估者的能力、它们的可扩展性以及它们的成本效益。我们研究了这些假设中的每一个如何可能受到LLMs、LLJs或NLG评估当前实践的固有局限性的挑战。为了支持我们的分析,我们探讨了LLJs的三个应用:文本摘要、数据标注和安全对齐。最后,我们强调了在LLJs评估中需要更负责任的评估实践,以确保它们在领域中日益增长的作用能够支持而非破坏NLG的进步。