⏶2
TechniqueRAG:用于网络威胁情报文本中对抗技术标注的检索增强生成
发表
由
Ahmed Lekssays 提交

作者:
Ahmed Lekssays,
Utsav Shukla,
Husrev Taha Sencar,
Md Rizwan Parvez

摘要
准确识别安全文本中的对抗技术对于有效的网络防御至关重要。然而,现有方法面临一个根本性的权衡:它们要么依赖领域精度有限的通用模型,要么需要资源密集型的流程,这些流程依赖于大型标注数据集和特定任务优化,例如定制的困难负样本挖掘和去噪,而这些资源在特定领域很少可用。我们提出了 TechniqueRAG,一个领域特定的检索增强生成 (RAG) 框架,它通过集成现成的检索器、指令微调的 LLMs 以及少量文本-技术对来弥合这一差距。我们的方法通过仅在有限的领域内示例上微调生成组件来解决数据稀缺问题,从而避免了资源密集型的检索训练。虽然传统 RAG 通过耦合检索和生成来减轻幻觉,但其对通用检索器的依赖常常引入噪声候选项,限制了领域特定的精度。为了解决这个问题,我们通过零样本 LLM 重排序增强了检索质量和领域特异性,这种方法明确地将检索到的候选项与对抗技术对齐。在多个安全基准上的实验表明,TechniqueRAG 在无需广泛的特定任务优化或标注数据的情况下,实现了最先进的性能,同时全面的分析提供了进一步的见解。
总结:
TechniqueRAG 是一个领域特定的检索增强生成(RAG)框架,用于识别网络安全文本中的对抗性技术。它通过仅使用少量数据微调生成组件,避免了通用模型和资源密集型流程的限制。为了提高准确率,它使用零样本大型语言模型(LLM)重排序来优化检索结果。TechniqueRAG 在无需大量的标注数据或定制优化的情况下,在安全基准测试中优于现有方法。