⏶38

Glyph: 通过视觉文本压缩扩展上下文窗口

10月20日发表

10月21日由 Jiale Cheng 提交

作者: Jiale Cheng, Yusen Liu, Xinyu Zhang, Yulin Fei, Wenyi Hong, Ruiliang Lyu, Weihan Wang, Zhe Su, Xiaotao Gu, Xiao Liu, Yushi Bai, Jie Tang, Hongning Wang, Minlie Huang

摘要

AI 生成总结

Glyph 使用视觉语言模型将长文本输入压缩成图像，在长上下文任务中实现了显著的 token 压缩和性能提升。

大型语言模型（LLMs）越来越依赖长上下文建模来完成文档理解、代码分析和多步推理等任务。然而，将上下文窗口扩展到百万级 token 会带来高昂的计算和内存成本，限制了长上下文 LLMs 的实用性。在本工作中，我们采用一种不同的视角——视觉上下文缩放——来应对这一挑战。我们不是扩展基于 token 的序列，而是提出 Glyph，一个将长文本渲染成图像并使用视觉-语言模型（VLMs）进行处理的框架。这种方法在保留语义信息的同时，显著压缩了文本输入。我们还设计了一个 LLM 驱动的遗传搜索，以识别最佳的视觉渲染配置，从而平衡准确性和压缩率。通过广泛的实验，我们证明了我们的方法在各种长上下文基准测试中，实现了 3-4 倍的 token 压缩，同时保持了与 Qwen3-8B 等领先 LLMs 相当的准确性。这种压缩还带来了大约 4 倍的预填充和解码速度提升，以及大约 2 倍的 SFT 训练速度提升。此外，在极端压缩的情况下，一个 128K 上下文的 VLM 可以扩展到处理 1M token 级别的文本任务。另外，渲染的文本数据也对文档理解等现实世界的跨模态任务有益。我们的代码和模型发布在 https://github.com/thu-coai/Glyph。

查看 arXiv 页面查看 PDF

Jiale Cheng

论文提交者

🪶 Glyph：通过视觉-文本压缩扩展上下文窗口

Glyph 通过视觉-文本压缩为长上下文 LLM 引入了一种新范例——将文本渲染成图像，并通过 VLM 进行处理以提高信息密度。

🧩 高效压缩：
在长上下文基准测试中，实现了3-4 倍的 token 减少，准确度损失极小。

⚡ 更快的推理和训练：
推理速度提升高达 4 倍，SFT 训练速度提升高达 2 倍。

📏 极强的压缩能力：
通过高度紧凑的视觉表示，使 128K 上下文模型能够处理 1M token 的任务。

🌐 即将开源：
代码和模型即将发布，以促进由视觉驱动的上下文扩展。

InfiniCode

这不正是 Deepseek OCR 论文的主题吗？

Glyph: 通过视觉文本压缩扩展上下文窗口

摘要

评论