搜索竞技场:分析搜索增强型大语言模型

发表
Patrick (Tsung-Han) WuPatrick (Tsung-Han) Wu 提交
作者: Mihran Miroyan, Patrick (Tsung-Han) WuTsung-Han Wu, Logan King, Tianle Li, Jiayi Pan, Xinyan Hu, Wei-Lin Chiang, Anastasios N. Angelopoulos, Trevor Darrell, Narges Norouzi, Joseph E. Gonzalez

摘要

搜索增强语言模型将网络搜索与大型语言模型 (LLM) 结合,以提高响应的可靠性和时效性。然而,分析这些系统仍然具有挑战性:现有数据集规模有限,范围狭窄,通常局限于静态、单轮的事实核查问题。在这项工作中,我们引入了 Search Arena,一个众包的、大规模的、人类偏好数据集,包含超过 24,000 对用户与搜索增强型 LLM 的多轮交互。该数据集涵盖了不同的意图和语言,包含完整的系统轨迹和约 12,000 个人类偏好投票。我们的分析表明,用户偏好受引文数量的影响,即使引用的内容并未直接支持其归因的主张,揭示了感知可信度与实际可信度之间的差距。此外,用户偏好因引用来源而异,揭示了社区驱动的平台通常更受欢迎,而静态百科全书式来源并非总是合适和可靠的。为了评估不同设置下的性能,我们进行了跨领域分析,在通用聊天环境中测试搜索增强型 LLM,并在搜索密集型设置中测试传统 LLM。我们发现网络搜索在非搜索设置中不会降低性能,甚至可能提高性能;然而,如果仅依赖模型的参数知识,搜索设置中的质量会受到显著影响。我们开源了该数据集,以支持该方向的未来研究。我们的数据集和代码可在以下网址获取:https://github.com/lmarena/search-arena
查看 arXiv 页面查看 PDF

评论

Patrick (Tsung-Han) WuPatrick (Tsung-Han) Wu
论文作者
论文提交者

搜索增强型语言模型将网络搜索与大型语言模型(LLM)相结合,以提高响应的基础性和时效性。然而,分析这些系统仍然充满挑战:现有数据集规模有限,范围狭窄,通常局限于静态、单轮的事实核查问题。在这项工作中,我们引入了 Search Arena,这是一个众包的、大规模的人类偏好数据集,包含超过 24,000 对用户与搜索增强型 LLM 的多轮交互。该数据集涵盖了不同的意图和语言,并包含完整的系统追踪记录以及大约 12,000 个人类偏好投票。我们的分析显示,用户偏好受到引用数量的影响,即使引用的内容并不直接支持所归因的声明,这揭示了感知可信度与实际可信度之间的差距。此外,用户偏好因引用来源而异,表明社区驱动平台普遍受到青睐,而静态百科全书式来源并非总是合适和可靠。为了评估不同设置下的性能,我们进行了跨领域分析,在通用聊天环境中测试搜索增强型 LLM,并在搜索密集型设置中测试传统 LLM。我们发现网络搜索在非搜索设置中并不会降低性能,甚至可能有所提升;然而,在搜索设置中,如果仅依赖模型的参数知识,质量会受到显著影响。我们已开源该数据集,以支持该方向的未来研究。我们的数据集和代码可在以下网址获取:https://github.com/lmarena/search-arena。