Auto-SLURP:用于评估智能个人助理中多智能体框架的基准数据集

发表
shenshen 提交
作者: shenLei Shen, Xiaoyu Shen

摘要

近年来,由大型语言模型(LLMs)驱动的多智能体框架发展迅速。尽管取得了这些进展,但仍然显著缺乏专门用于评估其性能的基准数据集。为了弥合这一差距,我们引入了Auto-SLURP,这是一个旨在评估基于LLM的多智能体框架在智能个人助理情境下性能的基准数据集。Auto-SLURP通过重新标注数据并集成模拟服务器和外部服务,扩展了最初为自然语言理解任务开发的原始SLURP数据集。这一增强功能实现了全面的端到端评估流程,涵盖语言理解、任务执行和响应生成。我们的实验表明,Auto-SLURP对当前最先进的框架提出了重大挑战,突显出真正可靠和智能的多智能体个人助理仍处于发展阶段。数据集和相关代码可在以下地址获取:https://github.com/lorashen/Auto-SLURP/
查看 arXiv 页面查看 PDF

评论

shenshen
论文作者
论文提交者

亲爱的 AK 和 HF 团队,

我们想分享我们最近的工作 Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant

论文:https://arxiv.org/abs/2504.18373

Github:https://github.com/lorashen/Auto-SLURP/

Auto-SLURP 是一个基准数据集,旨在评估智能个人助理背景下基于 LLM 的多智能体框架。

此致,

Lei Shen