当模型所知超越其可解释范围时:量化人机协作中的知识转移

发表
Ben ShiBen Shi 提交
作者: Quan Shi, Carlos E. Jimenez, Shunyu Yao, Nick Haber, Diyi Yang, Karthik Narasimhan

摘要

近期人工智能推理的进展已在各项任务中带来了实质性改进。一个关键的开放问题是,这些改进是否也能带来更好的知识迁移:即模型能够以人类可以理解、应用和学习的方式来传达推理。为了探究这一点,我们引入了知识整合与迁移评估(KITE),一个用于衡量人机知识迁移能力的概念和实验框架,并开展了首次大规模人类研究(N=118),该研究明确旨在测量这一能力。在我们两阶段的设置中,人类首先与AI共同构思问题解决策略,然后独立实施解决方案,从而隔离了模型解释对人类理解的影响。我们的研究结果表明,尽管模型的基准性能与协作成果相关,但这种关系却显著不一致,存在明显的异常值,这表明知识迁移需要专门的优化。我们的分析确定了促成成功知识迁移的行为和战略因素。我们发布了代码、数据集和评估框架,以支持未来关于沟通对齐模型的工作。
查看 arXiv 页面查看 PDF

评论

Ben ShiBen Shi
论文提交者

代码、数据、可视化工具,请访问:https:kite-live.vercel.app