⏶41
超越准确率:揭示工具集成推理中的低效模式
发表
由
SII-sqs 提交
作者:
Qisheng Su, Shiting Huang,
Zhen Fang,
Ziyan Chen, Zehui Chen, Feng Zhao
摘要
AI 生成总结
研究人员引入了 PTE(预填充 Token 等效值),这是一种用于衡量工具集成推理场景效率的硬件感知指标。通过考虑 KV 缓存效率低下和长工具响应,该指标比传统的 token 计数能更好地关联实际推理延迟。在现实世界的工具集成推理(TIR)场景中,大语言模型(LLM)将推理与外部工具调用交织在一起,低效的一个主要来源是工具调用在 LLM 请求之间产生了停顿,并导致 KV 缓存(KV-Cache)被驱逐,迫使重新计算。此外,外部工具返回的冗长的、未经筛选的响应会膨胀 KV 缓存,因此每个解码步骤都需要花费更多时间加载不断增长的缓存,导致随着上下文长度增加,速度稳步下降。然而,现有的效率指标(如 token 计数和工具调用次数)无法捕捉真实的模型推理延迟。为了解决这个问题,我们引入了 PTE(预填充 Token 等效值),这是一个硬件感知的 TIR 效率指标,它统一了内部推理和外部工具使用的成本,同时明确考虑了不可复用的 KV 缓存和长工具响应场景。在高并发工业环境中的验证表明,PTE 与墙钟延迟(wall-clock latency)的一致性明显优于标准 token 计数,同时在不同硬件配置文件中保持了一致的效率排名。我们在五个 TIR 基准上进行了广泛实验,量化了它们的 PTE 成本,并识别出 TIR 中出现的四种低效模式。我们还发现,PTE 成本较高的轨迹往往推理正确性较低,这表明单纯使用更多工具并不能提高答案质量。
评论
超越准确率:揭示工具集成推理中的低效模式
工具集成推理 (TIR) 允许语言模型调用外部工具(如代码解释器),但每次工具调用都会触发 KV 缓存的驱逐和膨胀,而现有的效率指标(如 Token 计数、工具调用次数)无法捕获这一点。本文提出了 PTE(预填充 Token 等效值),这是一种硬件感知指标,统一了内部推理和外部工具使用的成本,并识别了 TIR 系统中四种常见的低效模式。
核心思想
每次外部工具调用都会迫使模型驱逐已缓存的键值状态并重新预填充上下文,从而产生简单的 Token 计数指标无法观察到的延迟峰值。PTE 将内部生成和外部工具调用开销都转换为一个可比单位——等效预填充 Token 数量——从而真实反映实际硬件上的运行时间成本。

方法/路径
PTE 的计算方法是在目标硬件上分析实际的预填充和解码成本,然后将每个推理步骤和工具调用映射到其预填充 Token 等效值。利用 PTE,作者分析了一系列支持 TIR 的模型,并识别出四种截然不同的低效模式:冗余工具调用、过度的上下文重新预填充、工具使用前不必要的思维链,以及重复的失败调用。


结果
在多个基准测试中,较高的 PTE 成本与较低的正确率相关——在工具交互上花费更多算力的模型往往给出更差的答案。这表明目前的 TIR 系统在无生产力的工具调用上浪费了大量资源,而针对 PTE 进行优化可以同时提高效率和准确性。

在现实世界的工具集成推理(TIR)场景中,低效的一个主要来源是工具调用在 LLM 请求之间造成的停顿以及导致的 KV 缓存逐出。此外,外部工具返回的未经长且过滤的响应会使 KV 缓存膨胀,因此每个解码步骤都需要花费更多时间加载不断增长的缓存,随着上下文长度的增加,速度稳步下降。然而,现有的效率指标(如 token 计数和工具调用次数)无法捕捉这种真实的计算成本。为了解决这个问题,我们引入了 PTE(预填充 Token 等效值),这是一种硬件感知的 TIR 效率指标。它统一了内部推理和外部工具使用的成本,同时明确考虑了不可重复使用的 KV 缓存和长工具响应场景,从而更好地反映了现实情况。我们在五个 TIR 基准上进行了广泛实验,量化了它们的 PTE 成本,并识别了 TIR 中出现的四种低效模式。在模拟的高并发工业环境中,PTE 对墙钟延迟(wall-clock latency)的解释能力明显优于 token 计数指标。我们还发现,具有更高 PTE 成本的轨迹往往推理正确性较低,这表明仅仅使用更多工具并不能提高答案质量。PTE 为工具集成推理的效率提供了新的视角。代码已开源。