为什么 Transformer 在上下文学习时无法预测时间序列?

发表
YUFA ZHOUYUFA ZHOU 提交
作者: YUFA ZHOUYufa Zhou, Yixiao Wang, Surbhi Goel, Anru R. Zhang

摘要

AI 生成总结
理论分析表明,与经典线性模型相比,Transformer(特别是线性自注意力模型)在时间序列预测方面存在局限性,在链式推理下预测会塌缩到均值。
时间序列预测 (TSF) 在机器学习领域仍然是一个具有挑战性且尚未完全解决的问题,尽管近期在利用大型语言模型 (LLM) 方面取得了显著进展,而 LLM 主要依赖于 Transformer 架构。实证证据一致表明,即使是强大的 Transformer 模型,在 TSF 任务上通常也无法超越更简单的模型,例如线性模型;然而,对这一现象的严格理论理解仍然有限。在本文中,我们通过情境学习 (ICL) 理论的视角,对 Transformer 在 TSF 方面的局限性进行了理论分析。具体来说,在 AR(p) 数据下,我们得出以下结论:(1) 线性自注意力 (LSA) 模型在情境预测方面无法实现比经典线性模型更低的期望均方误差 (MSE);(2) 随着上下文长度趋于无穷大,LSA 渐近地恢复了最优线性预测器;以及 (3) 在思维链 (CoT) 风格推理下,预测会指数级地衰减到均值。我们通过精心设计的实验对这些发现进行了实证验证。我们的理论不仅阐明了几个先前未被充分研究的现象,还为设计更有效的预测架构提供了实际见解。我们希望我们的工作能鼓励更广泛的研究社区重新审视 TSF 的基本理论局限性,并批判性地评估在没有深入审查的情况下直接应用日益复杂的架构。
查看 arXiv 页面查看 PDF

评论

YUFA ZHOUYUFA ZHOU
论文作者
论文提交者

“为什么 Transformer 在上下文学习(In-Context Learning)中无法预测时间序列?”

📄 arxiv.org/abs/2510.09776 💻 github.com/MasterZhou1/ICL-Time-Series

Transformer 在自然语言处理(NLP)和计算机视觉领域占据主导地位,但在时间序列预测(TSF)领域,其表现却持续不如简单的线性模型。 为什么会出现这种情况——尽管拥有远超线性模型的参数量和计算量?

我们的论文提供了这一现象的首个理论解释。 我们通过上下文学习(ICL)理论的视角,结合 AR(p) 过程,对 Transformer 进行了分析,提供了严谨的洞察,并对许多先前凭经验观察到的现象给出了忠实的解释。

我们推导出: 1️⃣ 线性自注意力(LSA)≈ 压缩线性回归 → 在期望上无法超越普通最小二乘法(OLS)。 2️⃣ LSA 与最优线性预测器之间存在严格的有限样本差距。 3️⃣ 即使拥有无限的上下文,该差距也仅以 1/n 的速率消失。 4️⃣ 在思维链(Chain-of-Thought,CoT)展开下,预测呈指数级趋向于均值而坍缩


实证验证 合成 AR 基准测试证实了我们的理论:

  • 教师强制(Teacher Forcing)下,LSA 能够追踪真实值,但从未超越 OLS。
  • 在* CoT 展开*下,两者均发生坍缩,LSA 更早失效。
  • 增加上下文长度或深度会带来边际收益递减。

关键启示

  • “注意力机制并非时间序列预测的万能钥匙。”
  • 时间序列预测的瓶颈源于架构的表征能力限制,而非训练或优化问题。

这项工作连接了ICL 理论经典时间序列分析,为下一代预测架构奠定了基础。

机器学习 #Transformer #时间序列 #ICL #ML理论 #深度学习 #TSF