⏶17
端到端层次序列建模的动态分块
发表
由
Samuel Arcadinho 提交

作者: Sukjun Hwang, Brandon Wang, Albert Gu
摘要
尽管近年来语言模型(LM)取得了令人难以置信的进展,这主要得益于从为特定任务设计的专用模型转向基于强大架构(如 Transformer)的通用模型,后者能从原始数据中学习一切,但分词等预处理步骤仍然是实现真正的端到端基础模型的障碍。我们引入了一系列新技术,这些技术实现了动态分块机制,该机制能够自动学习与模型其余部分联合学习的内容和上下文相关的分段策略。将其整合到一个显式分层网络(H-Net)中,可以取代(隐式分层的)分词-LM-反分词流程,实现一个完全端到端学习的单一模型。在计算和数据量匹配的情况下,一个在字节级别操作的单层H-Net优于一个在BPE词元上操作的强大Transformer语言模型。将这种分层结构迭代到多个阶段,通过建模多个抽象级别进一步提高了其性能,展示了在数据扩展性方面显著的优势,并能与两倍大小的基于词元的Transformer模型相媲美。在英语上预训练的H-Nets显示出显著增强的字符级鲁棒性,并且在没有任何启发式方法或显式监督的情况下,定性地学习到有意义的数据依赖分块策略。最后,在分词启发式方法较弱的语言和模态(如中文、代码或DNA序列,在数据效率上比基线提高了近4倍)中,H-Net相对于分词流程的改进进一步增加,这表明了真正的端到端模型在从未经处理的数据中学习和更好扩展的潜力。
评论

其中一位作者在 X 上的帖子:https://x.com/sukjun_hwang/status/1943703574908723674?s=46&t=KYwlyP7fHVw9cFnwZFzIag

在相同问题空间中的另一种方法是tokun,在我看来它没有得到足够的关注。它提出了一种更简单的架构解决方案,将“token”重新定义为其组成字节嵌入的固定大小复合体,这样主LLM就不会有一个巨大的稀疏嵌入向量输入。
并非说它本身更好,更多只是提供一个思考的方向
这是无分词器LLM的解决方案吗?