⏶5
Morae:为用户选择主动暂停 UI 代理
发表
由
taesiri 提交

作者:
Yi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel

摘要
用户界面 (UI) 代理有望使盲人和低视力 (BLV) 用户更容易访问无障碍或复杂的 UI。然而,目前的 UI 代理通常会端到端地执行任务,而不让用户参与关键选择或让他们了解重要的上下文信息,从而削弱了用户的主动性。例如,在我们的一项实地研究中,一位 BLV 参与者要求购买最便宜的苏打水,代理自动从几个价格相同的选项中选择了一个,而没有提及其他口味不同或评分更高的替代产品。为了解决这个问题,我们引入了 Morae,一个 UI 代理,它会在任务执行过程中自动识别决策点并暂停,以便用户做出选择。Morae 利用大型多模态模型来解释用户查询以及 UI 代码和屏幕截图,并在需要做出选择时提示用户进行澄清。在一项针对 BLV 参与者进行的真实网络任务研究中,与包括 OpenAI Operator 在内的基线代理相比,Morae 帮助用户完成了更多任务,并选择了更能满足他们偏好的选项。更广泛地说,这项工作体现了一种混合主动性方法,在这种方法中,用户受益于 UI 代理的自动化,同时能够表达他们的偏好。
Morae 推出了一种多模态 UI 代理,它会主动暂停以等待用户选择,并使用提示来澄清选项,从而提高盲人和低视力用户的用户能动性。