⏶20
Web-CogReasoner: 迈向面向Web代理的知识诱导认知推理
发表
由
Eohan G 提交

作者:
Yuhan Guo, Cong Guo, Aiwen Sun, Hongliang He, Xinyu Yang, Yue Lu, Yingji Zhang, Xuntao Guo, Dong Zhang, Jianzhuang Liu, Jiang Duan,
Yijia Xiao, Liangjian Wen, Hai-Ming Xu, Yong Dai

摘要
多模态大规模模型显著推动了网络智能体的发展,使其能够像人类认知一样感知和交互数字环境。在本文中,我们认为网络智能体必须首先获得足够的知识才能有效地进行认知推理。因此,我们将网络智能体的能力分解为两个基本阶段:知识内容学习和认知过程。为了将其形式化,我们提出了 Web-CogKnowledge 框架,将知识分为事实知识、概念知识和程序知识。在该框架中,知识内容学习对应于智能体的记忆和理解过程,这依赖于前两种知识类型,代表学习的“内容”。相反,认知过程对应于探索,其基础是程序知识,定义了推理和行动的“方式”。为了促进知识获取,我们构建了 Web-CogDataset,这是一个从 14 个真实世界网站中整理出的结构化资源,旨在系统地灌输网络智能体所需的核心知识。该数据集作为智能体的概念基础——构建理解的“名词”——以及学习如何推理和行动的基础。在此基础上,我们通过一种新颖的知识驱动的思维链(CoT)推理框架来操作这些过程,开发和训练我们提出的智能体 Web-CogReasoner。大量的实验表明它比现有模型具有显著的优越性,特别是在推广到结构化知识是决定性因素的未见任务时。为了实现严格评估,我们引入了 Web-CogBench,这是一个全面的评估套件,旨在评估和比较智能体在所描绘的知识领域和认知能力方面的性能。我们的代码和数据已在 https://github.com/Gnonymous/Web-CogReasoner 开源。
Web-CogReasoner
📑 arXiv | 🐍 代码 | 🤗 模型 | 🤗 数据集
🌐 主页 | 💬 博客
Web-CogReasoner 引入了一种范式转变,从简单地增强网络代理,到系统地从头构建其认知能力。受布鲁姆分类学的启发,我们将代理能力分解为知识内容学习(事实性、概念性)和认知过程(程序性),从而实现可解释和目标导向的行为。它建立在大型多模态模型之上,在复杂的网络任务中执行知识驱动的思维链(CoT)推理,其中每个推理步骤都透明地基于特定的知识类型,从而确保了可解释性和强大的泛化能力。
为了支持这一点,我们引入了:
Web-CogKnowledge 框架:一个受布鲁姆分类学启发的两阶段训练范式(知识内容学习 → 认知推理),用于增强网络代理的认知能力。
Web-CogReasoner:一个知识驱动的多模态代理,通过在我们的 Web-CogDataset 中进行模仿学习进行训练。
Web-CogDataset:一个课程式数据集,包含 3 个知识级别(事实性、概念性、程序性)的 12 项细粒度任务,支持逐步的技能习得。
Web-CogBench:一个专门用于评估网络代理是否具备有效网络导航所需先验知识和认知能力的基准。
📑 arXiv: https://arxiv.org/abs/2508.01858
🐍 代码: https://github.com/Gnonymous/Web-CogReasoner
🤗 模型: https://huggingface.co/Gnonymous/Web-CogReasoner
🤗 数据集: https://huggingface.co/datasets/Gnonymous/Web-CogDataset
💬 博客: https://Gnonymous.github.io/blogs/Web-CogReasoner
🌐 主页: https://Gnonymous.github.io/Web-CogReasoner
```bibtex
@article{guo2025web,
title={Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents},
author={Guo, Yuhan and Guo, Cong and Sun, Aiwen and He, Hongliang and Yang, Xinyu and Lu, Yue and Zhang, Yingji and Guo, Xuntao and Zhang, Dong and Liu, Jianzhuang and others},
journal={arXiv preprint arXiv:2508.01858},
year={2025}
}
```