AttnTrace: 用于长上下文LLM的基于注意力的上下文回溯

发表
yanting wangyanting wang 提交
作者: Yanting Wang, Runpeng Geng, Ying Chen, Jinyuan Jia

摘要

长上下文大型语言模型(LLM),例如 Gemini-2.5-Pro 和 Claude-Sonnet-4,越来越多地用于赋能高级人工智能系统,包括检索增强生成(RAG)管道和自主代理。在这些系统中,LLM 接收指令以及上下文——通常由从知识数据库或内存中检索的文本组成——并根据指令生成上下文相关的响应。最近的研究设计了解决方案,以追溯到上下文中对 LLM 生成的响应贡献最大的文本子集。这些解决方案具有许多现实世界应用,包括执行攻击后取证分析以及提高 LLM 输出的可解释性和可信度。尽管已经付出了巨大的努力,但最先进的解决方案,如 TracLLM,往往导致高计算成本,例如,TracLLM 需要数百秒才能对单个响应-上下文对执行追溯。在这项工作中,我们提出了 AttnTrace,一种基于 LLM 为提示生成的注意力权重的新上下文追溯方法。为了有效利用注意力权重,我们引入了两种旨在增强 AttnTrace 有效性的技术,并为我们的设计选择提供了理论见解。我们还对 AttnTrace 进行了系统评估。结果表明,AttnTrace 比现有最先进的上下文追溯方法更准确、更高效。我们还表明,AttnTrace 可以通过归因优先检测范式改进最先进的方法在长上下文下检测提示注入。作为一个现实世界应用,我们证明 AttnTrace 可以有效地识别旨在操纵 LLM 生成评论的论文中注入的指令。代码位于 https://github.com/Wang-Yanting/AttnTrace
查看 arXiv 页面查看 PDF

评论

yanting wangyanting wang
论文提交者

演示版可在 https://huggingface.co/spaces/SecureLLMSys/AttnTrace 查看。代码可在 https://github.com/Wang-Yanting/AttnTrace 获取。