⏶3
NetPress: 针对网络应用的动态生成 LLM 评测基准
发表
由
Yajie Zhou 提交
作者:
Yajie Zhou, Jiajun Ruan, Eric S. Wang, Sadjad Fouladi, Francis Y. Yan, Kevin Hsieh, Zaoxing Liu
摘要
尽管人们对大型语言模型(LLMs)和智能体在特定领域基准测试的兴趣日益增长,但当前的评估仍局限于静态、小规模的数据集,尤其是在网络操作等需要部署可靠性的高风险任务中。我们推出了NetPress,这是一个用于评估网络应用中LLM智能体的自动化基准测试生成框架。NetPress引入了一种统一的抽象,包含状态和动作,能够动态生成多样化的查询集以及相应的真实值。在运行时,用户可以指定基准配置,即时生成数百万个查询。除了动态基准构建,NetPress还与网络模拟器集成,提供真实的环境反馈,支持对正确性、安全性和延迟进行全面评估。我们将NetPress应用于三个代表性应用程序,揭示了智能体行为中细微的有趣差异,而这些差异是静态、仅注重正确性的基准测试常常遗漏的。NetPress将LLM评估推向基础设施中心领域的现实、可扩展测试,有助于弥合基准性能与实际部署准备度之间的差距。代码可在 https://github.com/Froot-NetSys/NetPress 获取。
NetPress 是第一个专门为评估大语言模型(LLM)在网络和系统应用中的性能而设计的基准测试工具。它能为每个应用动态生成包含超过 10,000 个独特查询的基准数据集,涵盖了广泛的复杂性。NetPress 还为大语言模型的输出提供自动化和全面的评估指标,包括正确性、安全性以及延迟,所有评估都通过真实模拟器进行。