语言模型是单射的,因此是可逆的

发表
Tommaso MencattiniTommaso Mencattini 提交
作者: Giorgos NikolaouGiorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, Andrea SantilliAndrea Santilli, Yannis Panagakis, Emanuele Rodola'

摘要

AI 生成总结
Transformer 语言模型被证明是单射的,允许从隐藏激活中精确重建输入,这对透明度和安全性有影响。
Transformer 组件,如非线性激活和归一化,本质上是非单射的,这表明不同的输入可能映射到相同的输出,从而阻碍从模型的表示中精确恢复输入。在本文中,我们挑战了这一观点。首先,我们从数学上证明了将离散输入序列映射到其相应的连续表示序列的 Transformer 语言模型是单射的,因此是无损的,这是一个在初始化时建立并在训练期间保留的属性。其次,我们通过对六个最先进的语言模型进行数十亿次碰撞测试,实证证实了这一结果,并且没有观察到碰撞。第三,我们将单射性操作化:我们引入了 SipIt,这是第一个能够可靠且高效地从隐藏激活中重建精确输入文本的算法,建立了线性时间保证并在实践中展示了精确可逆性。总的来说,我们的工作将单射性确立为语言模型的一个基本且可利用的属性,对透明度、可解释性和安全部署具有直接影响。
查看 arXiv 页面查看 PDF

评论

Tommaso MencattiniTommaso Mencattini
论文提交者

Transformer 组件,如非线性激活和归一化,本质上是非内射的,这表明不同的输入可能映射到相同的输出,并阻止从模型的表示中精确恢复输入。在本文中,我们挑战了这一观点。首先,我们通过数学证明,将离散输入序列映射到其对应的连续表示序列的 Transformer 语言模型是内射的,因此是无损的,这一特性在初始化时就已建立并在训练期间得以保留。其次,我们通过对六个最先进的语言模型进行数十亿次碰撞测试,并在经验上证实了这一结果,未观察到任何碰撞。第三,我们将内射性付诸实践:我们引入了 SipIt,这是第一个能够可靠且高效地从隐藏激活中重建精确输入文本的算法,它提供了线性时间保证并在实践中展示了精确可逆性。总的来说,我们的工作将内射性确立为语言模型的一个基本且可利用的属性,对透明度、可解释性和安全部署具有直接影响。