⏶43
LongLLaDA:释放扩散式大语言模型的长上下文能力
发表
由
Liu Xiaoran 提交
作者:
Xiaoran Liu, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
摘要
大语言扩散模型,或称扩散 LLM,已成为自然语言处理 (NLP) 研究的重要焦点,大量工作致力于理解其可扩展性和下游任务性能。然而,它们的长期上下文能力仍未被探索,缺乏系统的分析或上下文扩展方法。在这项工作中,我们首次系统性地比较了扩散 LLM 和传统自回归 LLM 的长上下文性能。我们首先确定了扩散 LLM 的一个独特特性:与自回归 LLM 不同,它们在直接上下文外推过程中保持了显著稳定的困惑度。此外,当自回归模型在“大海捞针”任务中上下文超出其预训练长度时会彻底失败,我们发现扩散 LLM 则表现出独特的局部感知现象,从而能够成功地从最近的上下文片段中检索信息。我们从旋转位置嵌入 (RoPE) 缩放理论的角度解释了这两种现象。基于这些观察,我们提出了 LongLLaDA,一种将 LLaDA 与基于 NTK 的 RoPE 外推相结合的免训练方法。我们的结果验证了已建立的外推缩放定律对于扩展扩散 LLM 的上下文窗口仍然有效。此外,我们确定了扩散 LLM 在哪些长上下文任务中优于自回归 LLM,以及在哪些任务中表现不佳。因此,这项研究为扩散 LLM 建立了首个上下文外推方法,同时提供了对未来长上下文扩散 LLM 研究至关重要的理论见解和经验基准。
大语言扩散模型(或扩散 LLMs)已成为自然语言处理研究的一个重要焦点,研究人员投入了大量精力来理解它们的可扩展性和下游任务性能。然而,它们的长期上下文能力仍未被探索,缺乏系统的分析或上下文扩展方法。在这项工作中,我们首次系统地研究了扩散 LLMs 和传统自回归 LLMs 的长上下文性能。我们首先发现扩散 LLMs 具有独特的特性,与自回归 LLMs 不同,它们在直接上下文外推过程中保持着惊人地稳定困惑度。此外,当自回归模型在上下文超出其预训练长度的“大海捞针”任务中完全失效时,我们发现扩散 LLMs 表现出独特的局部感知现象,使其能够从最近的上下文片段中成功检索。我们通过旋转位置嵌入 (RoPE) 缩放理论解释了这两种现象。基于这些观察,我们提出了 LongLLaDA,一种无需训练的方法,将 LLaDA 与基于 NTK 的 RoPE 外推法相结合。我们的结果验证了既定的外推缩放定律对于扩展扩散 LLMs 的上下文窗口仍然有效。此外,我们确定了扩散 LLMs 表现优于自回归 LLMs 的长上下文任务,以及它们表现不足的任务。因此,本研究建立了第一个用于扩散 LLMs 的上下文外推方法,同时提供了对推进未来长上下文扩散 LLMs 研究至关重要的理论见解和经验基准。