使用配置文件感知型大型语言模型作为评估器来评估播客推荐

发表
Marco De NadaiMarco De Nadai 提交
作者: Francesco FabbriFrancesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De NadaiMarco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas

摘要

评估个性化推荐仍然是一个核心挑战,尤其是在播客等长音频领域,传统的离线指标存在曝光偏差问题,而 A/B 测试等在线方法成本高昂且受操作限制。本文提出了一种新颖的框架,该框架利用大型语言模型(LLM)作为离线裁判,以可扩展和可解释的方式评估播客推荐的质量。我们的两阶段配置文件感知方法首先从 90 天的收听历史中提取自然语言用户配置文件。这些配置文件总结了主题兴趣和行为模式,作为用户偏好的紧凑、可解释的表示。我们没有用原始数据提示 LLM,而是使用这些配置文件提供高级的、语义丰富的上下文,使 LLM 能够更有效地推理用户兴趣与推荐剧集之间的一致性。这降低了输入复杂性并提高了可解释性。然后提示 LLM 根据配置文件与剧集的匹配情况提供细粒度的逐点和成对判断。在一项有 47 名参与者参与的对照研究中,我们的配置文件感知裁判与人类判断高度吻合,并且优于或匹配使用原始收听历史记录的变体。该框架为推荐系统中的迭代测试和模型选择提供了高效的配置文件感知评估。
查看 arXiv 页面查看 PDF

评论

Marco De NadaiMarco De Nadai
论文作者
论文提交者

非常激动地与大家分享我们的研究成果“使用感知用户画像的LLM作为评估器评估播客推荐”,该研究已被 RecSys ’25 LBR 赛道录用。

📌 挑战:评估推荐系统是一项棘手的任务——离线指标存在偏差,在线测试成本高昂,而人工评估则无法规模化。

🧠 我们的解决方案:我们将大型语言模型(LLM)用作可解释的、感知用户画像的离线评估器。我们将用户 90 天的行为提炼成自然语言画像,总结其兴趣、习惯和风格。然后,我们提示 LLM 评估推荐内容与其兴趣的匹配程度。

✅ 关键收获:感知用户画像的 LLM 评估器在与人类判断的匹配程度上,可以达到甚至超过仅使用原始历史记录的方法。