⏶5

压缩后的大型语言模型能否真正具备自主行动能力？对大型语言模型压缩中自主行动能力的一次实证评估

05月26日发表

05月28日由 PeijieDong 提交

作者: Peijie Dong, Zhenheng Tang, Xiang Liu, Lujun Li, Xiaowen Chu, Bo Li

摘要

训练后压缩降低了大型语言模型（LLMs）的计算和内存成本，从而实现资源高效部署。然而，现有的压缩基准仅关注语言建模（例如，困惑度）和自然语言理解任务（例如，GLUE 准确性），忽略了智能体能力——工作流、工具使用/函数调用、长上下文理解和实际应用。我们引入了 Agent Compression Benchmark (ACBench)，这是第一个用于评估压缩如何影响 LLMs 智能体能力的综合基准。ACBench 涵盖 (1) 跨 4 种能力的 12 个任务（例如，用于工作流生成的 WorfBench，用于长上下文检索的 Needle-in-Haystack），(2) 量化（GPTQ, AWQ）和剪枝（Wanda, SparseGPT），以及 (3) 15 个模型，包括小型模型（Gemma-2B）、标准模型（Qwen2.5 7B-32B）和蒸馏推理 LLMs（DeepSeek-R1-Distill）。我们的实验揭示了压缩权衡：4 位量化保留了工作流生成和工具使用（下降 1%-3%），但将实际应用准确性降低了 10%-15%。我们引入了 ERank、Top-k 排名相关性和 Energy 来系统化分析。ACBench 为在智能体场景下优化 LLM 压缩提供了可操作的见解。代码可在 https://github.com/pprp/ACBench 找到。

查看 arXiv 页面查看 PDF

PeijieDong

论文作者

论文提交者

代码可在 https://github.com/pprp/ACBench 中找到

压缩后的大型语言模型能否真正具备自主行动能力？对大型语言模型压缩中自主行动能力的一次实证评估

摘要

评论