⏶17
逐句预测
发表
由
Hyeonbin Hwang 提交
作者:
Hyeonbin Hwang, Byeongguk Jeon,
Seungone Kim, Jiyeon Kim, Hoyeon Chang, Sohee Yang, Seungpil Won, Dohaeng Lee, Youbin Ahn, Minjoon Seo

摘要
自回归语言模型(LM)一次生成一个标记,而人类推理则在更高层次的抽象上运作——句子、命题和概念。这种对比引出了一个核心问题:LM能否也学习对结构化的语义单元而非原始标记序列进行推理?在这项工作中,我们研究了预训练LM是否可以通过在其学习到的表示基础上构建,从而提升到这种抽象推理空间。我们提出了一个框架,该框架通过自回归地预测下一个句子的连续嵌入来使预训练的标记级LM在句子空间中运行。我们探索了两种受经典表示学习启发的嵌入范式:1) 语义嵌入,通过自编码学习以保留表面含义;以及 2) 上下文嵌入,通过预测下一个句子训练以编码预期结构。我们在两种推理模式下评估了这两种方法:离散模式,它在重新编码之前将每个预测的嵌入解码为文本;以及连续模式,它完全在嵌入空间中进行推理以提高效率。在数学、逻辑、常识和规划这四个领域,连续推理下的上下文嵌入与思维链(CoT)表现相当,同时平均将推理时的浮点运算量减少了一半。我们还展示了可扩展性和模块化适应性的早期迹象。最后,为了可视化潜在轨迹,我们引入了SentenceLens,这是一种诊断工具,可将中间模型状态解码为可解释的句子。总而言之,我们的结果表明预训练LM可以有效地过渡到潜在嵌入空间内的抽象结构化推理。
在这项工作中,我们提出了一个框架,使语言模型能够以一种潜在但可解释的方式,在更高的抽象层次上进行推理(即句子级别)。Github:https://github.com/hbin0701/pred-sent