⏶20
PersonaFeedback:一个大规模人工标注的个性化基准
发表
由
Tiannan Wang 提交
作者: Meiling Tao, Chenghao Zhu, Dongyi Ding,
Tiannan Wang, Yuchen Eleanor Jiang,
Wangchunshu Zhou
摘要
随着大型语言模型(LLMs)通用能力的快速提升,LLM个性化,即如何构建能够生成针对不同用户画像定制的个性化响应或服务的LLM系统,已成为一个日益重要的研究和工程问题。然而,与许多用于评估通用/推理能力的新发布挑战性基准不同,缺乏用于评估LLM个性化的高质量基准极大地阻碍了该领域的进展。为了解决这个问题,我们引入了PersonaFeedback,一个新的基准,它直接评估LLMs在给定预定义用户画像和查询的情况下提供个性化响应的能力。与要求模型从历史交互中推断隐含用户画像的现有基准不同,PersonaFeedback将画像推断与个性化解耦,专注于评估模型生成针对显式画像定制的响应的能力。PersonaFeedback包含8298个人工标注的测试用例,根据用户画像的上下文复杂性以及区分两个个性化响应之间细微差别的难度,这些用例被分为易、中、难三个等级。我们对各种模型进行了全面的评估。实证结果表明,即使是能够解决复杂现实世界推理任务的最先进LLMs,在PersonaFeedback的困难等级上也可能表现不佳,即使是人类评估者也可能觉得难以区分。此外,我们对各种类型的系统的失败模式进行了深入分析,表明当前的检索增强框架不应被视为个性化任务的事实解决方案。所有基准数据、标注协议和评估流程将公开可用,以促进未来在LLM个性化方面的研究。
随着大型语言模型 (LLM) 普遍能力的迅速提升,LLM 个性化,即如何构建能够生成为不同用户画像量身定制的个性化响应或服务的 LLM 系统,已成为一个日益重要的研究和工程问题。然而,与许多用于评估普遍/推理能力的新挑战性基准不同,缺乏高质量的 LLM 个性化评估基准极大地阻碍了该领域的进展。为了解决这个问题,我们引入了 PersonaFeedback,这是一个新的基准,直接评估 LLM 在给定预定义用户画像和查询的情况下提供个性化响应的能力。与要求模型从历史交互中推断隐含用户画像的现有基准不同,PersonaFeedback 将用户画像推断与个性化解耦,专注于评估模型生成适合明确用户画像的响应的能力。PersonaFeedback 包含 8298 个人工标注的测试用例,根据用户画像的上下文复杂性以及区分两个个性化响应之间细微差别的难度,这些测试用例被分为容易、中等和困难三个等级。我们对广泛的模型进行了全面评估。实证结果表明,即使是能够解决复杂现实世界推理任务的最新 LLM,也可能在 PersonaFeedback 的困难等级上表现不佳,即使是人类评估者也可能觉得其中的区别具有挑战性。此外,我们对各种系统中的失败模式进行了深入分析,表明当前的检索增强框架不应被视为个性化任务的既定解决方案。所有基准数据、标注协议和评估流程将公开可用,以促进未来 LLM 个性化方面的研究。
数据集:https://huggingface.co/datasets/PersonalAILab/PersonaFeedback