GUI-KV:具有时空感知的 KV 缓存实现高效 GUI 代理

发表
taesiritaesiri 提交
作者: Kung-Hsiang Huang, Haoyi Qiu, Yutong Dai, Caiming Xiong, Chien-Sheng Wu

摘要

AI 生成总结
GUI-KV 是一种用于 GUI 智能体的 KV 缓存压缩方法,通过利用空间和时间冗余来提高效率,在保持准确性的同时降低了计算成本。
基于视觉语言模型的图形用户界面(GUI)代理已成为自动化人机工作流程的有前景的方法。然而,它们也面临效率低下的挑战,因为它们需要处理长序列的高分辨率屏幕截图并解决长期任务,这使得推理缓慢、成本高且内存受限。虽然键值(KV)缓存可以缓解这个问题,但在图像密集型上下文中的完整缓存存储是不可行的。现有的缓存压缩方法效果不佳,因为它们没有考虑到 GUI 的空间和时间冗余。在本研究中,我们首先分析了 GUI 代理工作负载中的注意力模式,发现与自然图像不同,注意力稀疏度在所有 Transformer 层中都普遍较高。这一见解促使我们采用简单的统一预算分配策略,并通过实验证明该策略优于更复杂的分层变体方案。在此基础上,我们引入了 GUI-KV,一种即插即用的 KV 缓存压缩方法,用于 GUI 代理,无需重新训练。GUI-KV 结合了两种新技术:(i) 空间显著性引导,它用隐藏状态的 L2 范数增强注意力分数,以更好地保留语义上重要的视觉 token;(ii) 时间冗余评分,它将前一帧的键投影到当前帧的键子空间,以优先剪裁冗余历史。在标准的 GUI 代理基准和模型上,GUI-KV 的性能优于有竞争力的 KV 压缩基线,在适度的预算下接近完整缓存的准确率。值得注意的是,在 AgentNetBench 基准的一个 5 截图场景中,GUI-KV 将解码 FLOPs 减少了 38.9%,同时将步进准确率比完整缓存基线提高了 4.1%。这些结果表明,利用 GUI 特定的冗余可以实现高效可靠的代理性能。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

基于视觉语言模型的图形用户界面(GUI)代理已成为自动化人机工作流的有前途的方法。然而,它们也面临效率低下带来的挑战,因为它们需要处理长序列的高分辨率屏幕截图并解决长周期任务,从而导致推理缓慢、成本高昂且受内存限制。虽然键值(KV)缓存可以缓解这个问题,但在图像密集型场景下,存储完整的缓存是不可行的。现有的缓存压缩方法效果不佳,因为它们没有考虑到 GUI 的空间和时间冗余。在这项工作中,我们首先分析了 GUI 代理工作负载中的注意力模式,发现与自然图像不同,GUI 代理所有 Transformer 层中的注意力稀疏度普遍很高。这一见解促使我们采用简单的统一预算分配策略,该策略在经验上优于更复杂的层变化方案。在此基础上,我们引入了 GUI-KV,一种即插即用的 KV 缓存压缩方法,用于 GUI 代理,无需重新训练。GUI-KV 结合了两种新技术:(i)空间显著性引导,它通过隐藏状态的 L2 范数增强注意力分数,以更好地保留语义上重要的视觉标记;(ii)时间冗余评分,它将前一帧的键投影到当前帧的键子空间,以优先剪除冗余历史。在标准的 GUI 代理基准和模型上,GUI-KV 的性能优于有竞争力的 KV 压缩基线,在适度的预算下,其准确率接近完整缓存。值得注意的是,在 AgentNetBench 基准上,在 5 帧截图的设置中,GUI-KV 将解码 FLOPs 减少了 38.9%,同时将步骤精度比完整缓存基线提高了 4.1%。这些结果表明,利用 GUI 特有的冗余可以实现高效可靠的代理性能。