智能体技能在实际场景中的表现如何:现实设置下大模型技能使用基准测试

发表
Yujian LiuYujian Liu 提交
作者: Yujian Liu, Jiabao Ji, Li An, Tommi Jaakkola, Yang Zhang, Shiyu Chang

摘要

AI 生成总结
研究表明,在技能必须被检索和完善而非手工制作的现实条件下,基于大语言模型的智能体的技能利用率会显著下降,尽管有针对性的完善策略可以部分恢复性能。
智能体技能(Agent skills)是可复用的、特定领域的知识产物,已成为扩展基于 LLM 的智能体的一种流行机制,但目前仍缺乏对技能使用性能的正规基准测试。现有的技能基准测试主要关注过于理想化的条件,即直接为 LLM 的每个任务提供手工制作的、窄域定制的特定任务技能;而在许多现实场景中,LLM 智能体可能必须自行搜索和选择相关技能,且即使是最匹配的技能也可能并未针对该任务进行良好定制。在本文中,我们首次在渐进式挑战的现实设定下对技能效用进行了全面研究,在这种设定下,智能体必须从包含 3.4 万个真实技能的大型集合中检索技能,并且可能无法获得任何手工策划的技能。我们的发现表明,技能带来的益处是脆弱的:随着设定变得更加真实,性能增益会持续衰减,在最具挑战性的场景中,通过率接近于无技能的基线。为了缩小这一差距,我们研究了技能优化策略(包括查询相关和查询无关的方法),并表明当初始技能具有合理的相关性和质量时,查询相关的优化可以显著恢复损失的性能。我们进一步在 Terminal-Bench 2.0 上证明了检索和优化的通用性,将 Claude Opus 4.6 的通过率从 57.7% 提高到 65.5%。我们的结果在多个模型上保持一致,突显了基于 LLM 的智能体技能的潜力及当前的局限性。我们的代码可在 https://github.com/UCSB-NLP-Chang/Skill-Usage 获取。
查看 arXiv 页面查看 PDF

评论

Yujian LiuYujian Liu
论文提交者

智能体技能(Agent skills)作为可重用的、特定领域的知识产物,已成为扩展基于 LLM 智能体的流行机制,但目前仍缺乏对其技能使用性能的正式基准测试。现有的技能基准测试主要集中在过于理想化的条件下,即直接为 LLM 提供针对每个任务精心设计、窄领域定制的技能;而在许多现实场景中,LLM 智能体可能必须自行搜索和筛选相关技能,且即使是最匹配的技能也可能并未针对该任务进行良好定制。在本文中,我们首次在渐进挑战的现实设置下对技能效用进行了全面研究。在这种设置中,智能体必须从包含 3.4 万个真实技能的大型集合中检索技能,且可能无法获得任何人工策划的技能。我们的研究结果表明,技能带来的益处是脆弱的:随着设置变得更加贴近现实,性能提升会持续下降,在最挑战的场景中,通过率接近无技能的基准线。为了缩小这一差距,我们研究了技能精炼策略,包括查询特定(query-specific)和查询无关(query-agnostic)的方法,并证明当初始技能具有合理的关联性和质量时,查询特定精炼可以显著恢复损失的性能。我们进一步在 TERMINAL-BENCH 2.0 上验证了检索和精炼的普适性,结果显示它们将 Claude Opus 4.6 的通过率从 57.7% 提升至 65.5%。我们的结果在多个模型中保持一致,凸显了基于 LLM 的智能体技能既充满潜力,又面临当前的局限性。