⏶2

Auto-SLURP：用于评估智能个人助理中多智能体框架的基准数据集

04月25日发表

05月07日由 shen 提交

作者: Lei Shen, Xiaoyu Shen

摘要

近年来，由大型语言模型（LLMs）驱动的多智能体框架发展迅速。尽管取得了这些进展，但仍然显著缺乏专门用于评估其性能的基准数据集。为了弥合这一差距，我们引入了Auto-SLURP，这是一个旨在评估基于LLM的多智能体框架在智能个人助理情境下性能的基准数据集。Auto-SLURP通过重新标注数据并集成模拟服务器和外部服务，扩展了最初为自然语言理解任务开发的原始SLURP数据集。这一增强功能实现了全面的端到端评估流程，涵盖语言理解、任务执行和响应生成。我们的实验表明，Auto-SLURP对当前最先进的框架提出了重大挑战，突显出真正可靠和智能的多智能体个人助理仍处于发展阶段。数据集和相关代码可在以下地址获取：https://github.com/lorashen/Auto-SLURP/。

查看 arXiv 页面查看 PDF

shen

论文作者

论文提交者

亲爱的 AK 和 HF 团队，

我们想分享我们最近的工作 Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant

论文：https://arxiv.org/abs/2504.18373

Github：https://github.com/lorashen/Auto-SLURP/

Auto-SLURP 是一个基准数据集，旨在评估智能个人助理背景下基于 LLM 的多智能体框架。

此致，

Lei Shen

Auto-SLURP：用于评估智能个人助理中多智能体框架的基准数据集

摘要

评论