大型语言模型的角色扮演评估

发表
Yassine El BoudouriYassine El Boudouri 提交
作者: Yassine El BoudouriYassine El Boudouri, Walter Nuninger, Julian Alvarez, Yvan Peter

摘要

大型语言模型(LLM)在采纳角色和进行角色扮演方面展现出显著能力。然而,评估这项能力面临重大挑战,因为人工评估耗费资源,而自动化评估可能存在偏差。为了解决这个问题,我们引入了角色扮演评估基准(RPEval),这是一个新颖的基准,旨在从四个关键维度评估LLM的角色扮演能力:情感理解、决策、道德一致性和角色内连贯性。本文详细介绍了RPEval的构建并提供了基线评估。我们的代码和数据集可在 https://github.com/yelboudouri/RPEval 获取。
查看 arXiv 页面查看 PDF

评论

Yassine El BoudouriYassine El Boudouri
论文作者
论文提交者

大家好,

我们建立了一个基准,用于评估大型语言模型(LLMs)的角色扮演能力。我们正在构建一个排行榜,其中收录了对开源模型和专有模型的评估。迄今为止,我们已经使用本文中介绍的RPEval方法评估了8个不同的模型。

如果您有希望我们纳入的特定模型,或者对改进评估有任何建议,欢迎随时分享!