⏶60
探索大型语言模型在一步文本生成中的潜在能力
发表
由
Gleb Mezentsev 提交
作者:
Gleb Mezentsev,
Ivan Oseledets
摘要
最近的一项研究表明,大型语言模型(LLMs)仅通过一个经过专门训练的输入 embedding,就能通过自回归生成重建令人惊讶的长文本——可达数千个 token。在这项工作中,我们探索了在没有自回归的情况下是否也能实现这种重建。我们发现,冻结的 LLMs 仅通过两个学习到的 embedding,就能在一次前向传播中生成数百个准确的 token。这揭示了 LLMs 一种令人惊讶且未被充分探索的能力——无需迭代解码即可进行多 token 生成。我们研究了这些 embeddings 的行为,并深入了解它们编码的信息类型。我们还凭经验表明,尽管这些表示对于给定文本来说不是唯一的,但它们在 embedding 空间中形成了连接和局部区域——这一特性表明存在学习一个专门编码器进入该空间的潜力。



最近一项研究表明,大型语言模型 (LLMs) 可以通过自回归生成,仅从一个经过特殊训练的输入嵌入中重建令人惊讶的长文本——长达数千个 token。在这项工作中,我们探索了在没有自回归的情况下是否可以实现这种重建。我们发现,在仅提供两个学习到的嵌入的情况下,冻结的 LLMs 可以在一次前向传播中生成数百个准确的 token。这揭示了 LLMs 一个令人惊讶且尚未充分探索的能力——无需迭代解码的多 token 生成。我们研究了这些嵌入的行为,并深入了解了它们编码的信息类型。我们还通过实验表明,尽管这些表示对于给定文本不是唯一的,但它们在嵌入空间中形成了连接且局部化的区域——这一特性暗示了学习一个专门编码器进入该空间的潜力。