⏶3
SealQA:提高搜索增强语言模型的推理能力标准
发表
由
Tu Vu 提交
作者: Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng,
Tu Vu
摘要
我们引入了 SealQA,这是一个新的挑战性基准,用于评估在网络搜索结果冲突、嘈杂或无助于解决问题的寻求事实问题上的搜索增强语言模型(Search-Augmented Language models)。SealQA 有三种形式:(1) Seal-0(主要)和 (2) Seal-Hard,它们评估事实准确性和推理能力,其中 Seal-0 专注于那些聊天模型(例如 GPT-4.1)通常达到接近零准确率的最具挑战性的问题;以及 (3) LongSeal,它将 SealQA 扩展到测试“大海捞针”设置中的长上下文、多文档推理。我们的评估揭示了当前模型的关键局限性:即使是前沿的 LLM 在所有 SealQA 形式中表现都欠佳。在 Seal-0 上,配备 o3 和 o4-mini 等工具的前沿智能体模型在最佳推理努力下分别仅达到 17.1% 和 6.3% 的准确率。我们发现,像 DeepSeek-R1-671B 和 o3-mini 这样的高级推理模型极易受到嘈杂搜索结果的影响。值得注意的是,增加测试时计算量并没有在 o3-mini、o4-mini 和 o3 上带来可靠的性能提升,性能常常会停滞不前甚至早期下降。此外,虽然最近的模型受“迷失在中间”(lost-in-the-middle)问题的影响较小,但当面临大量干扰项时,它们仍然无法在 LongSeal 中可靠地识别相关文档。为了促进未来的工作,我们已在 huggingface.co/datasets/vtllms/sealqa 发布 SealQA。
SealQA:一个挑战性基准,用于评估检索增强生成或过度使用大型语言模型(LLMs)的情况,其中问题会触发相互冲突、模棱两可或无用的网络搜索结果。
核心要点:
前沿大型语言模型在Seal-0(SealQA的核心数据集)上表现不佳,大多数聊天型大型语言模型(包括带浏览功能的GPT-4.1)都达到了接近零的准确率。
更多的测试时计算资源无法带来可靠的性能提升:O系列模型通常很早就会达到瓶颈或性能下降。
高级推理模型(例如DeepSeek-R1)可能极易受到嘈杂搜索结果的影响。
“中间丢失”问题(即长文本中间的信息容易被忽略)不再是主要问题,但模型仍然无法在干扰项中可靠地识别出相关文档。