⏶27
REST:通过一次性提出多个问题来对大型推理模型进行压力测试
发表
由
Zinan Tang 提交
作者:
Zhuoshi Pan, Qizhi Pei, Yu Li, Qiyao Sun,
Zinan Tang, H. Vicky Zhao, Conghui He, Lijun Wu
摘要
近来的大型推理模型(LRMs)在特定任务基准上取得了显著进展,但其评估方法仍然受限于孤立的问题解决范式。现有基准主要通过顺序测试来评估单问题推理能力,这导致了一些关键限制:(1)容易受到数据污染的影响且挑战性不足(例如,DeepSeek-R1 在 MATH500 上的准确率达到 97.0%),迫使我们不得不投入大量人力,耗费高昂成本来持续创建新问题;(2)未能评估模型在多上下文压力下的表现,而这是真实世界部署的一项关键要求。为了弥合这一差距,我们提出了 REST(通过同步测试进行推理评估),这是一个压力测试框架,它能让 LRM 同时面对多个问题。除了基础的推理能力,REST 还专门评估了几个以往测试不足的能力:上下文优先级分配、跨问题干扰抵抗能力以及动态认知负荷管理。我们的评估揭示了一些惊人的发现:即使是像 DeepSeek-R1 这样的最先进(SOTA)模型,在压力测试下也表现出显著的性能下降。至关重要的是,REST 展现出比现有基准更强的区分能力,揭示了在单问题评估中表现相近、接近性能天花板的模型之间存在的显著性能差异。我们的分析还得出了一些关键的机制性见解:(1)“过度思考陷阱”是导致性能下降的一个关键因素;(2)采用 “long2short” 技术训练的模型,在 REST 测试下能更好地保持其单问题处理时的性能,表现优于标准训练的对应模型。这些结果确立了 REST 作为一个成本效益高、面向未来的评估范式,它能更好地反映真实世界的推理需求,同时减少对持续人工标注的依赖。
有趣的工作。