压缩后的大型语言模型能否真正具备自主行动能力?对大型语言模型压缩中自主行动能力的一次实证评估

发表
PeijieDongPeijieDong 提交
作者: PeijieDongPeijie Dong, Zhenheng Tang, Xiang LiuXiang Liu, Lujun Li, Xiaowen Chu, Bo Li

摘要

训练后压缩降低了大型语言模型(LLMs)的计算和内存成本,从而实现资源高效部署。然而,现有的压缩基准仅关注语言建模(例如,困惑度)和自然语言理解任务(例如,GLUE 准确性),忽略了智能体能力——工作流、工具使用/函数调用、长上下文理解和实际应用。我们引入了 Agent Compression Benchmark (ACBench),这是第一个用于评估压缩如何影响 LLMs 智能体能力的综合基准。ACBench 涵盖 (1) 跨 4 种能力的 12 个任务(例如,用于工作流生成的 WorfBench,用于长上下文检索的 Needle-in-Haystack),(2) 量化(GPTQ, AWQ)和剪枝(Wanda, SparseGPT),以及 (3) 15 个模型,包括小型模型(Gemma-2B)、标准模型(Qwen2.5 7B-32B)和蒸馏推理 LLMs(DeepSeek-R1-Distill)。我们的实验揭示了压缩权衡:4 位量化保留了工作流生成和工具使用(下降 1%-3%),但将实际应用准确性降低了 10%-15%。我们引入了 ERank、Top-k 排名相关性和 Energy 来系统化分析。ACBench 为在智能体场景下优化 LLM 压缩提供了可操作的见解。代码可在 https://github.com/pprp/ACBench 找到。
查看 arXiv 页面查看 PDF

评论

PeijieDongPeijieDong
论文作者
论文提交者

代码可在 https://github.com/pprp/ACBench 中找到