⏶4
τ^2-Bench:在双重控制环境下评估对话式智能体
发表
由
Honghua Dong 提交
作者: Victor Barres, Honghua Dong, Soham Ray, Xujie Si,
Karthik Narasimhan
摘要
现有会话式AI代理基准模拟的是单控制环境,其中只有AI代理可以使用工具与世界交互,而用户则作为被动的信息提供者。这与现实世界中的场景(如技术支持)不同,在这些场景中,用户需要积极参与修改(共享)世界的状态。为了弥补这一差距,我们引入了tau^2-bench,它有四个关键贡献:
1) 一个新颖的电信双控制领域,建模为Dec-POMDP,其中代理和用户都使用工具在共享的动态环境中行动,这考验了代理的协作和通信能力,
2) 一个组合式任务生成器,可以从原子组件中程序化地创建多样化、可验证的任务,确保领域覆盖和可控的复杂性,
3) 一个与环境紧密耦合的可靠用户模拟器,其行为受工具和可观察状态的约束,从而提高模拟保真度,
4) 通过多次消融实验对代理性能进行细粒度分析,包括区分由推理错误和通信/协作错误引起的问题。
特别地,我们的实验表明,当代理从无用户环境转向双控制环境时,性能显著下降,凸显了指导用户的挑战。总体而言,tau^2-bench为那些既需要有效推理又需要引导用户行动的代理提供了一个受控的测试平台。


现有对话式AI智能体的基准测试模拟的是单控环境,其中只有AI智能体可以使用工具与世界交互,而用户则是一个被动的信息提供者。这与现实世界场景(如技术支持)不同,在这些场景中,用户需要积极参与修改(共享)世界的状态。为了弥补这一空白,我们引入了 τ²-bench,它有四个关键贡献:
1) 一个新颖的电信双控领域,建模为 Dec-POMDP,其中智能体和用户都使用工具在共享的动态环境中行动,这考验了智能体的协作和沟通能力,
2) 一个组合式任务生成器,通过原子组件以编程方式创建多样化、可验证的任务,确保领域覆盖和可控的复杂性,
3) 一个与环境紧密耦合的可靠用户模拟器,其行为受工具和可观察状态的约束,从而提高了模拟的保真度,
4) 通过多重消融实验对智能体性能进行细粒度分析,包括区分推理与沟通/协作引起的错误。
特别地,我们的实验表明,当智能体从无用户(no-user)环境转向双控(dual-control)环境时,性能显著下降,这凸显了指导用户的挑战。总的来说,τ²-bench 为必须有效推理并指导用户行动的智能体提供了一个受控的测试平台。