看文本:从分词到视觉阅读

发表
Ling XingLing Xing 提交
作者: Ling XingLing Xing, Alex Jinpeng Wang, Rui Yan, Hongyu Qu, Zechao Li, Jinhui Tang

摘要

AI 生成总结
SeeTok 是一种以视觉为中心的方法,将文本渲染为图像并使用预训练的多模态 LLM 来解释它们,与传统的子词分词相比,提供了效率和鲁棒性方面的改进。
人类看到文本。人类通过将单词识别为视觉对象(包括它们的形状、布局和模式)来阅读,然后将它们与含义联系起来,这使我们能够有效地处理拼写错误、扭曲的字体和各种脚本。然而,现代大型语言模型(LLM)依赖于子词分词,将文本分解为来自固定词汇表的片段。虽然这种方法对于高资源语言有效,但它会过度分割低资源语言,产生冗长、语言上无意义的序列并增加计算量。在这项工作中,我们挑战了这种根深蒂固的范式,转向以视觉为中心的替代方案。我们的方法SeeTok将文本呈现为图像(视觉文本),并利用预训练的多模态LLM来解释它们,重用从大规模多模态训练中学到的强大OCR和文本-视觉对齐能力。在三种不同的语言任务中,SeeTok匹配或超越了子词分词器,同时所需的token数量减少了4.43倍,FLOPs减少了70.5%,并在跨语言泛化、对排版噪声的鲁棒性和语言层次方面获得了额外收益。SeeTok标志着从符号分词向类人视觉阅读的转变,并朝着更自然、更具认知启发性的语言模型迈进了一步。
查看 arXiv 页面查看 PDF

评论

Ling XingLing Xing
论文作者
论文提交者

人们阅读文本。我们的方法通过视觉处理文本,标志着从符号标记化向类人视觉阅读的转变。