Claw-Eval:迈向自主智能体可信评估

发表
Lei LiLei Li 提交
作者: BoWen YeBowen Ye, Rang LiRang Li, Qibin Yang, Yuanxin LiuYuanxin Liu, Linli Yao, Hanglong Lv, Zhihui Xie, Chenxin An, Lei LiLei Li, Lingpeng Kong, Qi Liu, Zhifang Sui, Tong Yang

摘要

AI 生成总结
Claw-Eval 通过提供跨多种模态的综合评估,并结合轨迹感知评分和安全性评估,解决了智能体基准测试中的局限性。
大语言模型正越来越多地作为自主智能体被部署在真实软件环境中,执行多步工作流。然而,现有的智能体基准测试存在三个关键局限性:(1) 仅检查最终输出的轨迹不透明评分;(2) 安全性和鲁棒性评估规范不足;(3) 模态覆盖范围和交互范式狭窄。我们推出了 Claw-Eval,这是一个解决上述所有缺陷的端到端评估套件。它包含 300 个经人工验证的任务,涵盖三大类(通用服务编排、多模态感知与生成、多轮专业对话)下的 9 个子类。智能体的每一步操作都通过三个独立的证据通道(执行追踪、审计日志和环境快照)记录,从而实现对 2,159 个细粒度评分项的轨迹感知评分。该评分协议评估完成度、安全性和鲁棒性,报告三次尝试中的平均得分、Pass@k 和 Pass^k,以区分真正的能力和幸运的结果。对 14 个前沿模型的实验表明:(1) 轨迹不透明的评估系统性地不可靠,漏掉了混合流水线捕获的 44% 的安全性违规和 13% 的鲁棒性失败;(2) 受控的错误注入主要降低了一致性而非峰值能力,Pass^3 下降高达 24%,而 Pass@3 保持稳定;(3) 多模态性能差异巨大,大多数模型在视频任务上的表现逊于文档或图像,且没有单个模型能在所有模态中占据主导地位。除了基准测试,Claw-Eval 还指明了智能体开发的可操作方向,阐明了构建不仅具备能力而且可可靠部署的智能体所需的条件。
查看 arXiv 页面查看 PDF

评论

Lei LiLei Li
论文作者
论文提交者

Claw-Eval

Mishig DavaadorjMishig Davaadorj
Claw-Eval:迈向自主智能体的可信评估

Claw-Eval 是一个针对自主智能体的端到端评估套件,旨在解决当前基准测试中的一个关键盲点:仅评估最终输出会忽略危险的中间行为。该套件涵盖 9 个类别的 300 项任务,并引入了包含 2,159 个评分细则项的轨迹感知评分系统。通过收集三个独立的证据通道并在 3 次试验中运行 Pass@k 评分,Claw-Eval 能够对“完成度”、“安全性”和“鲁棒性”进行可信的衡量。对 14 个前沿模型的测试显示,忽略轨迹的评估会漏掉 44% 的安全性违规和 13% 的鲁棒性失效。

核心思想

Claw-Eval 为智能体的每次执行收集三个独立的证据通道:执行轨迹(逐步动作)、审计日志(系统级记录)和环境快照(检查点的世界状态)。通过对这三个通道进行交叉引用,评分系统可以捕获单通道会忽略的问题——例如一个智能体虽然产生了正确的最终输出,但在中间步骤中采取了危险动作。

ThreeChannels

方法/路径

关键的方法论洞察在于“轨迹忽略型”与“轨迹感知型”评估的区别。轨迹忽略型评估仅检查最终输出,而轨迹感知型评估则检查智能体动作的整个序列。论文证明,忽略轨迹的评估会系统性地低估风险:它漏掉了 44% 的安全性违规(例如智能体在产生正确结果前访问了未授权资源)和 13% 的鲁棒性失效(例如智能体通过脆弱的重试循环偶然获胜)。

OpaqueVsAware

结果

Claw-Eval 从三个维度为智能体打分:完成度(是否完成任务?)、安全性(是否避免了有害行为?)和鲁棒性(是否能持续成功?)。每项任务进行 3 次独立试验并使用 Pass@k 以消除方差。在受测的 14 个前沿模型中,没有一个模型能同时在三个维度上获得高分,这揭示了当前智能体架构中存在的根本权衡。2,159 个评分细则项确保了对 300 个任务和 9 个类别的细粒度覆盖。

ScoringTriad