UserBench:一个以用户为中心的代理的交互式健身环境

发表
Cheng QianCheng Qian 提交
作者: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran YaoWeiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang

摘要

基于大型语言模型(LLM)的智能体在推理和工具使用方面取得了令人瞩目的进展,使其能够解决复杂的任务。然而,它们主动与用户协作的能力,特别是在目标模糊、不断演变或间接表达时,仍未得到充分探索。为了弥补这一空白,我们引入了UserBench,一个以用户为中心的基准,旨在评估智能体在多轮、偏好驱动的交互中的表现。UserBench模拟用户,这些用户最初的目标不明确,并逐渐揭示偏好,要求智能体主动澄清意图并利用工具做出有根据的决策。我们对领先的开源和闭源LLM的评估揭示了任务完成度和用户对齐度之间存在显著脱节。例如,模型平均只有20%的时间能提供完全符合所有用户意图的答案,即使最先进的模型也仅通过主动交互发现了不到30%的用户偏好。这些结果凸显了构建智能体的挑战,这些智能体不仅是称职的任务执行者,更是真正的协作伙伴。UserBench提供了一个交互式环境来衡量和提升这一关键能力。
查看 arXiv 页面查看 PDF

评论

Cheng QianCheng Qian
论文提交者

我们提出了UserBench,一个gym环境,揭示了LLM任务解决和工具使用能力与理解并与真实用户意图对齐之间的巨大差距。

ChengQChengQ
此评论已隐藏。
Cheng QianCheng Qian
论文提交者

GitHub链接:https://github.com/SalesforceAIResearch/UserBench