⏶1
Haystack 工程:异构和智能体长上下文评估的上下文工程
发表
由
Mufei Li 提交
作者:
Mufei Li, Dongqi Fu, Limei Wang, Si Zhang, Hanqing Zeng, Kaan Sancak, Ruizhong Qiu, Haoyu Wang, Xiaoxin He, Xavier Bresson, Yinglong Xia, Chonglin Sun, Pan Li
摘要
AI 生成总结
HaystackCraft,一个使用维基百科的新基准,通过模拟嘈杂检索和代理工作流程来评估长上下文 LLM 的鲁棒性,揭示了在处理干扰项和级联错误方面的挑战。现代长上下文大型语言模型 (LLM) 在合成的“大海捞针” (NIAH) 基准测试中表现出色,但此类测试忽略了有偏见的检索和代理工作流如何产生嘈杂的上下文。我们认为,有必要进行“稻草堆工程”,以构建嘈杂的长上下文,从而忠实地捕捉现实世界中的关键因素——来自异构有偏见检索器的干扰以及代理工作流中的级联错误——以测试模型的长上下文鲁棒性。我们通过 HaystackCraft 实例化了这一点,HaystackCraft 是一个建立在完整的英语维基百科超链接网络和多跳问题之上的新型 NIAH 基准。HaystackCraft 评估了异构检索策略(例如,稀疏、密集、混合和基于图的)如何影响干扰项的构成、稻草堆的排序以及下游 LLM 的性能。HaystackCraft 进一步将 NIAH 扩展到模拟代理操作的动态、依赖于 LLM 的设置,其中模型会改进查询、反思过去的推理并决定何时停止。对 15 个长上下文模型的实验表明:(1) 尽管更强的密集检索器会引入更具挑战性的干扰项,但基于图的重排序同时提高了检索效率并减轻了更具破坏性的干扰项;(2) 在代理测试中,即使是 Gemini 2.5 Pro 和 GPT-5 等高级模型也会因自生成的干扰项而遭受级联失败,或难以提前停止。这些结果凸显了代理长上下文推理中持续存在的挑战,并确立 HaystackCraft 作为未来进步的有价值的测试平台。
评论
论文作者
论文提交者
- 检索策略会影响干扰项的构成和背景资料的排序,进而影响 LLM 在 NIAH 测试中的表现。
- 选择合适的检索策略可以同时提高检索召回率、排名和 LLM 的性能。
- 在动态和多轮 NIAH 中,增加推理轮次比增加上下文窗口大小更具挑战性。