⏶111
Claw-Eval:迈向自主智能体可信评估
发表
由
Lei Li 提交
作者:
Bowen Ye,
Rang Li, Qibin Yang,
Yuanxin Liu, Linli Yao, Hanglong Lv, Zhihui Xie, Chenxin An,
Lei Li, Lingpeng Kong, Qi Liu, Zhifang Sui, Tong Yang
摘要
AI 生成总结
Claw-Eval 通过提供跨多种模态的综合评估,并结合轨迹感知评分和安全性评估,解决了智能体基准测试中的局限性。大语言模型正越来越多地作为自主智能体被部署在真实软件环境中,执行多步工作流。然而,现有的智能体基准测试存在三个关键局限性:(1) 仅检查最终输出的轨迹不透明评分;(2) 安全性和鲁棒性评估规范不足;(3) 模态覆盖范围和交互范式狭窄。我们推出了 Claw-Eval,这是一个解决上述所有缺陷的端到端评估套件。它包含 300 个经人工验证的任务,涵盖三大类(通用服务编排、多模态感知与生成、多轮专业对话)下的 9 个子类。智能体的每一步操作都通过三个独立的证据通道(执行追踪、审计日志和环境快照)记录,从而实现对 2,159 个细粒度评分项的轨迹感知评分。该评分协议评估完成度、安全性和鲁棒性,报告三次尝试中的平均得分、Pass@k 和 Pass^k,以区分真正的能力和幸运的结果。对 14 个前沿模型的实验表明:(1) 轨迹不透明的评估系统性地不可靠,漏掉了混合流水线捕获的 44% 的安全性违规和 13% 的鲁棒性失败;(2) 受控的错误注入主要降低了一致性而非峰值能力,Pass^3 下降高达 24%,而 Pass@3 保持稳定;(3) 多模态性能差异巨大,大多数模型在视频任务上的表现逊于文档或图像,且没有单个模型能在所有模态中占据主导地位。除了基准测试,Claw-Eval 还指明了智能体开发的可操作方向,阐明了构建不仅具备能力而且可可靠部署的智能体所需的条件。
评论
Claw-Eval:迈向自主智能体的可信评估
Claw-Eval 是一个针对自主智能体的端到端评估套件,旨在解决当前基准测试中的一个关键盲点:仅评估最终输出会忽略危险的中间行为。该套件涵盖 9 个类别的 300 项任务,并引入了包含 2,159 个评分细则项的轨迹感知评分系统。通过收集三个独立的证据通道并在 3 次试验中运行 Pass@k 评分,Claw-Eval 能够对“完成度”、“安全性”和“鲁棒性”进行可信的衡量。对 14 个前沿模型的测试显示,忽略轨迹的评估会漏掉 44% 的安全性违规和 13% 的鲁棒性失效。
核心思想
Claw-Eval 为智能体的每次执行收集三个独立的证据通道:执行轨迹(逐步动作)、审计日志(系统级记录)和环境快照(检查点的世界状态)。通过对这三个通道进行交叉引用,评分系统可以捕获单通道会忽略的问题——例如一个智能体虽然产生了正确的最终输出,但在中间步骤中采取了危险动作。

方法/路径
关键的方法论洞察在于“轨迹忽略型”与“轨迹感知型”评估的区别。轨迹忽略型评估仅检查最终输出,而轨迹感知型评估则检查智能体动作的整个序列。论文证明,忽略轨迹的评估会系统性地低估风险:它漏掉了 44% 的安全性违规(例如智能体在产生正确结果前访问了未授权资源)和 13% 的鲁棒性失效(例如智能体通过脆弱的重试循环偶然获胜)。

结果
Claw-Eval 从三个维度为智能体打分:完成度(是否完成任务?)、安全性(是否避免了有害行为?)和鲁棒性(是否能持续成功?)。每项任务进行 3 次独立试验并使用 Pass@k 以消除方差。在受测的 14 个前沿模型中,没有一个模型能同时在三个维度上获得高分,这揭示了当前智能体架构中存在的根本权衡。2,159 个评分细则项确保了对 300 个任务和 9 个类别的细粒度覆盖。

Claw-Eval