基于计算机使用构建通用用户模型

发表
Omar ShaikhOmar Shaikh 提交
作者: Omar Shaikh, Shardul Sapkota, Shan Rizvi, Eric Horvitz, Joon Sung Park, Diyi Yang, Michael S. Bernstein

摘要

人机交互领域早已设想,技术能够理解我们——从我们的偏好和习惯,到我们日常行为的时间和目的。然而,当前的用户模型仍然是碎片化的,仅针对特定应用而设计,且无法进行实现这些愿景所需的灵活推理。本文提出了一种通用用户模型(GUM)的架构,该模型通过观察您与计算机的任何交互来了解您。GUM 将任何非结构化的用户观察数据(例如,设备截图)作为输入,并构建带有置信度权重的命题,以捕捉用户的知识和偏好。GUM 可以通过与朋友的消息记录推断出用户正在准备参加的婚礼。或者通过观察多次停滞的编辑以及切换到阅读相关文献,识别出用户在处理协作者对草稿的反馈时遇到困难。GUM 引入了一种架构,能够从多模态观察中推断出关于用户的新命题,检索相关的命题以提供上下文,并持续修正现有的命题。为了说明 GUM 所支持的应用广泛性,我们展示了它们如何用上下文信息增强基于聊天的助手,管理操作系统通知以选择性地呈现重要信息,并使交互式智能体能够适应跨应用的偏好。我们还构建了主动式助手(GUMBOs),它们能够利用用户的 GUM,代表用户发现并执行有用建议。在我们的评估中,我们发现 GUM 能够对用户进行校准且准确的推断,以及基于 GUM 构建的助手能够主动识别并执行用户不会想到明确提出的操作。总而言之,GUM 引入了利用多模态模型来理解非结构化上下文的方法,使人机交互领域的长期愿景得以实现,并实现能够预测用户需求的全新交互式系统。
查看 arXiv 页面查看 PDF

评论

Omar ShaikhOmar Shaikh
论文提交者

如今的 LLM 对我们是谁知之甚少:它们只能看到我们在聊天中展示的内容。

为了协作和主动行动,AI 模型需要更广泛地了解我们的背景。我们提出了一种通用用户模型(General User Model)的架构——该模型通过观察我们与计算机的任何交互来推断偏好。

参见 https://generalusermodels.github.io