⏶9
xbench:通过与职业对齐的真实世界评估追踪智能体的生产力扩展
发表
由
Fangfu Liu 提交
作者:
Kaiyuan Chen, Yixin Ren, Yang Liu, Xiaobo Hu, Haotong Tian, Tianbao Xie,
Fangfu Liu, Haoye Zhang, Hongzhang Liu, Yuan Gong, Chen Sun, Han Hou, Hui Yang, James Pan, Jianan Lou, Jiayi Mao, Jizheng Liu, Jinpeng Li, Kangyi Liu, Kenkun Liu, Rui Wang, Run Li, Tong Niu, Wenlong Zhang, Wenqi Yan, Xuanzheng Wang, Yuchen Zhang, Yi-Hsin Hung, Yuan Jiang, Zexuan Liu, Zihan Yin, Zijian Ma, Zhiwen Mo
摘要
我们引入了 xbench,这是一个动态的、职业对齐的评估套件,旨在弥合 AI 智能体能力与真实世界生产力之间的差距。尽管现有基准通常侧重于孤立的技术技能,但它们可能无法准确反映智能体在专业环境中提供的经济价值。为解决这个问题,xbench 针对具有商业重要性的领域,其评估任务由行业专业人士定义。我们的框架创建了与生产力价值高度相关的指标,能够预测技术-市场契合度(TMF),并有助于跟踪产品能力随时间的变化。作为我们的初步实现,我们提出了两个基准:招聘和营销。对于招聘领域,我们从真实的猎头业务场景中收集了 50 个任务,以评估智能体在公司匹配、信息检索和人才寻源方面的能力。对于营销领域,我们评估智能体将网红与广告商需求匹配的能力,使用精心策划的 836 名候选网红池,根据 50 个广告商要求评估其性能。我们展示了针对领先的当代智能体的初步评估结果,为这些专业领域建立了基线。我们持续更新的评估集和评估结果可在 https://xbench.org 获取。
项目页面:https://xbench.org/
代码:https://github.com/xbench-ai/xbench-evals