DFIR-Metric: 用于评估大型语言模型在数字取证和事件响应中表现的基准数据集

发表
Bilel CherifBilel Cherif 提交
作者: Bilel CherifBilel Cherif, Tamas BisztrayTamas Bisztray, Richard A. DubniczkyRichard A. Dubniczky, aaesha aldahmaniAaesha Aldahmani, Saeed Alshehhi, Norbert TihanyiNorbert Tihanyi

摘要

数字取证和事件响应(DFIR)涉及分析数字证据以支持法律调查。大型语言模型(LLMs)为 DFIR 任务(如日志分析和内存取证)提供了新的机会,但在高风险环境中,其容易出错和产生幻觉的特性引发了担忧。尽管人们的兴趣日益增长,但目前还没有一个全面的基准来评估 LLMs 在理论和实践 DFIR 领域的表现。为了弥补这一差距,我们提出了 DFIR-Metric,一个包含三个组件的基准:(1)知识评估:一组 700 个经过专家评审的多项选择题,来源于行业标准认证和官方文档;(2)实际取证挑战:150 个 CTF 式任务,测试多步推理和证据关联;以及(3)实际分析:来自 NIST 计算机取证工具测试程序 (CFTT) 的 500 个磁盘和内存取证案例。我们使用 DFIR-Metric 评估了 14 个 LLMs,分析了它们在不同试验中的准确性和一致性。我们还引入了一个新的指标,任务理解得分(Task Understanding Score, TUS),旨在更有效地评估在准确率接近零的场景下模型的表现。该基准为推进 AI 在数字取证领域的应用提供了一个严谨、可复现的基础。所有脚本、人工制品和结果都可以在项目网站 https://github.com/DFIR-Metric 获取。
查看 arXiv 页面查看 PDF

评论

Bilel CherifBilel Cherif
论文作者
论文提交者

衡量 LLM 在 DFIR 中的能力