⏶2
Auto-SLURP:用于评估智能个人助理中多智能体框架的基准数据集
发表
由
shen 提交
作者:
Lei Shen, Xiaoyu Shen
摘要
近年来,由大型语言模型(LLMs)驱动的多智能体框架发展迅速。尽管取得了这些进展,但仍然显著缺乏专门用于评估其性能的基准数据集。为了弥合这一差距,我们引入了Auto-SLURP,这是一个旨在评估基于LLM的多智能体框架在智能个人助理情境下性能的基准数据集。Auto-SLURP通过重新标注数据并集成模拟服务器和外部服务,扩展了最初为自然语言理解任务开发的原始SLURP数据集。这一增强功能实现了全面的端到端评估流程,涵盖语言理解、任务执行和响应生成。我们的实验表明,Auto-SLURP对当前最先进的框架提出了重大挑战,突显出真正可靠和智能的多智能体个人助理仍处于发展阶段。数据集和相关代码可在以下地址获取:https://github.com/lorashen/Auto-SLURP/。
亲爱的 AK 和 HF 团队,
我们想分享我们最近的工作 Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant
论文:https://arxiv.org/abs/2504.18373
Github:https://github.com/lorashen/Auto-SLURP/
Auto-SLURP 是一个基准数据集,旨在评估智能个人助理背景下基于 LLM 的多智能体框架。
此致,
Lei Shen