AutoLibra:基于开放式反馈的智能体指标归纳

发表
Hao ZhuHao Zhu 提交
作者: Hao ZhuHao Zhu, Phil Cuvin, Xinkai Yu, Charlotte Ka Yee Yan, Jason Zhang, Diyi Yang

摘要

智能体主要通过任务成功率指标进行评估和优化,这些指标通常是粗粒度的,依赖于专家的手动设计,并且未能奖励中间的涌现行为。我们提出了 AutoLibra,这是一个用于智能体评估的框架,它将开放式的人类反馈(例如,“如果你发现按钮是禁用的,不要再点击它了”或“这个智能体自主决定要做什么的能力太强了”)转化为用于评估智能体轨迹中细粒度行为的指标。AutoLibra 通过将反馈关联到智能体的行为、对相似的正向和负向行为进行聚类,并创建具有清晰定义和具体示例的度量指标来实现这一点,这些指标可用于提示作为评估者的LLM-as-a-Judge。我们进一步提出了两个元指标来评估一组(诱导产生的)指标与开放反馈的对齐程度:“覆盖度”(coverage)和“冗余度”(redundancy)。通过优化这些元指标,我们通过实验证明了 AutoLibra 能够比先前智能体评估基准中提出的指标诱导出更具体的智能体评估指标,并发现新的指标来分析智能体。我们还展示了 AutoLibra 在智能体改进方面的两个应用:首先,我们表明 AutoLibra 诱导产生的指标在各种文本游戏任务上比任务成功率更能作为更好的提示工程目标,将智能体性能相对于基线平均提升了20%。其次,我们表明 AutoLibra 可以迭代选择用于网络导航智能体的高质量微调数据。我们的结果表明,AutoLibra 是一个强大的、与任务无关的工具,可用于评估和改进语言智能体。
查看 arXiv 页面查看 PDF

评论

Hao ZhuHao Zhu
论文作者
论文提交者

AutoLibra 是一种自动构建代理评估系统的方法,它利用开放式反馈(自由文本,而非偏好或评分),无需专家启发式规则。我们展示了它普遍适用于各种LLM代理,包括网页代理、协作代理、社交代理和文本游戏代理,涵盖了 WebArena、WebVoyager、CoGym、Sotopia 和 Balrog (Baba-Is-AI & MiniHack) 等平台。我们发现它不仅能得出比专家(上述论文作者)提出的指标更具体的指标,还能发现被忽视的指标。AutoLibra导出的指标还可以用作人类提示工程师和自动代理训练方法的优化目标。

Hao ZhuHao Zhu
论文作者
论文提交者

查看以下预告片,了解 AutoLibra 方法的概览

autolibra_teaser_v2.jpg