⏶6

GUI-KV：具有时空感知的 KV 缓存实现高效 GUI 代理

10月01日发表

10月02日由 taesiri 提交

作者: Kung-Hsiang Huang, Haoyi Qiu, Yutong Dai, Caiming Xiong, Chien-Sheng Wu

摘要

AI 生成总结

GUI-KV 是一种用于 GUI 智能体的 KV 缓存压缩方法，通过利用空间和时间冗余来提高效率，在保持准确性的同时降低了计算成本。

基于视觉语言模型的图形用户界面（GUI）代理已成为自动化人机工作流程的有前景的方法。然而，它们也面临效率低下的挑战，因为它们需要处理长序列的高分辨率屏幕截图并解决长期任务，这使得推理缓慢、成本高且内存受限。虽然键值（KV）缓存可以缓解这个问题，但在图像密集型上下文中的完整缓存存储是不可行的。现有的缓存压缩方法效果不佳，因为它们没有考虑到 GUI 的空间和时间冗余。在本研究中，我们首先分析了 GUI 代理工作负载中的注意力模式，发现与自然图像不同，注意力稀疏度在所有 Transformer 层中都普遍较高。这一见解促使我们采用简单的统一预算分配策略，并通过实验证明该策略优于更复杂的分层变体方案。在此基础上，我们引入了 GUI-KV，一种即插即用的 KV 缓存压缩方法，用于 GUI 代理，无需重新训练。GUI-KV 结合了两种新技术：(i) 空间显著性引导，它用隐藏状态的 L2 范数增强注意力分数，以更好地保留语义上重要的视觉 token；(ii) 时间冗余评分，它将前一帧的键投影到当前帧的键子空间，以优先剪裁冗余历史。在标准的 GUI 代理基准和模型上，GUI-KV 的性能优于有竞争力的 KV 压缩基线，在适度的预算下接近完整缓存的准确率。值得注意的是，在 AgentNetBench 基准的一个 5 截图场景中，GUI-KV 将解码 FLOPs 减少了 38.9%，同时将步进准确率比完整缓存基线提高了 4.1%。这些结果表明，利用 GUI 特定的冗余可以实现高效可靠的代理性能。

查看 arXiv 页面查看 PDF

taesiri

论文提交者

基于视觉语言模型的图形用户界面（GUI）代理已成为自动化人机工作流的有前途的方法。然而，它们也面临效率低下带来的挑战，因为它们需要处理长序列的高分辨率屏幕截图并解决长周期任务，从而导致推理缓慢、成本高昂且受内存限制。虽然键值（KV）缓存可以缓解这个问题，但在图像密集型场景下，存储完整的缓存是不可行的。现有的缓存压缩方法效果不佳，因为它们没有考虑到 GUI 的空间和时间冗余。在这项工作中，我们首先分析了 GUI 代理工作负载中的注意力模式，发现与自然图像不同，GUI 代理所有 Transformer 层中的注意力稀疏度普遍很高。这一见解促使我们采用简单的统一预算分配策略，该策略在经验上优于更复杂的层变化方案。在此基础上，我们引入了 GUI-KV，一种即插即用的 KV 缓存压缩方法，用于 GUI 代理，无需重新训练。GUI-KV 结合了两种新技术：（i）空间显著性引导，它通过隐藏状态的 L2 范数增强注意力分数，以更好地保留语义上重要的视觉标记；（ii）时间冗余评分，它将前一帧的键投影到当前帧的键子空间，以优先剪除冗余历史。在标准的 GUI 代理基准和模型上，GUI-KV 的性能优于有竞争力的 KV 压缩基线，在适度的预算下，其准确率接近完整缓存。值得注意的是，在 AgentNetBench 基准上，在 5 帧截图的设置中，GUI-KV 将解码 FLOPs 减少了 38.9%，同时将步骤精度比完整缓存基线提高了 4.1%。这些结果表明，利用 GUI 特有的冗余可以实现高效可靠的代理性能。

GUI-KV：具有时空感知的 KV 缓存实现高效 GUI 代理

摘要

评论