TPTT:将预训练Transformer改造为巨擘

发表
Fabien FurfaroFabien Furfaro 提交
作者: Fabien FurfaroFabien Furfaro

摘要

大型语言模型(LLM)的最新进展已使自然语言处理取得了显著进步,但其计算和内存需求仍然是一个重大挑战,特别是对于长上下文推理而言。我们引入了TPTT(Transforming Pretrained Transformer into Titans),这是一个新颖的框架,旨在通过高效的线性化注意力机制和先进的内存管理来增强预训练的Transformer模型。TPTT采用了诸如Memory as Gate (MaG) 和 mixed linearized attention (LiZA) 等技术。它与Hugging Face Transformers库完全兼容,通过参数高效微调(LoRA),无需完全重新训练即可无缝适应任何因果LLM。我们在MMLU基准测试中展示了TPTT对大约10亿参数模型的有效性,观察到效率和准确性均有显著提升。例如,Titans-Llama-3.2-1B 在精确匹配(Exact Match, 简称EM)方面比其基线提高了20%。统计分析以及与最新先进方法的比较证实了TPTT的实际可扩展性和鲁棒性。代码可在 https://github.com/fabienfrfr/tptt 获取。Python 包可在 https://pypi.org/project/tptt/ 获取。
查看 arXiv 页面查看 PDF

评论

Fabien FurfaroFabien Furfaro
论文作者
论文提交者

代码:https://github.com/fabienfrfr/tptt

Titans-Llama 模型:https://huggingface.co/ffurfaro/Titans-Llama-3.2-1B

Python 包:https://pypi.org/project/tptt/