Prot2Token:基于下一词元预测的统一蛋白质建模框架

发表
Mahdi PourmirzaeiMahdi Pourmirzaei 提交
作者: Mahdi PourmirzaeiMahdi Pourmirzaei, Farzaneh Esmaili, Salhuldin Alqarghuli, Mohammadreza Pourmirzaei, Ye Han, Kai Chen, Mohsen Rezaei, Duolin Wang, Dong Xu

摘要

蛋白质预测任务的多样性传统上需要专门模型,这阻碍了广泛适用且计算高效的蛋白质语言模型(PLMs)的发展。在这项工作中,我们引入了 Prot2Token,这是一个统一框架,它通过将从序列级属性和残基特异性属性到复杂的蛋白质间相互作用等广泛的蛋白质相关预测转换为标准化的下一个词元预测格式来克服这些挑战。Prot2Token 的核心是采用一个自回归解码器,该解码器以预训练蛋白质编码器的嵌入为条件,并在可学习的任务词元的引导下执行多样化的预测。这种架构独特地促进了多任务学习,使单个模型能够以更高的效率掌握大量任务。我们在各种基准上进行了广泛的实验验证,证明了 Prot2Token 在不同类型的蛋白质预测任务中强大的预测能力。主要结果包括显著加速(例如,比带MSA的AlphaFold2快近1000倍),并且性能通常媲美甚至超越专门方法。此外,我们引入了一种辅助自监督解码器预训练方法,以提高空间敏感任务的性能。因此,Prot2Token 为蛋白质建模提供了一个迈向多功能、高通量范式的重大一步,有望加速生物发现和新型疗法的开发。代码可在 https://github.com/mahdip72/prot2token 获取。
查看 arXiv 页面查看 PDF

评论

Mahdi PourmirzaeiMahdi Pourmirzaei
论文作者
论文提交者

Prot2Token 证明,通过一种新的分词方案(该方案将序列、结构和相互作用图转化为一个共享词汇表),将广泛的蛋白质预测问题构建成一个单一的下一个token预测任务,可以取代当前由狭窄的、针对特定任务的模型组成的零散系统,转而采用一个统一的GPT风格的解码器。通过简单地引入下一个token预测,该框架取得了可媲美的准确性,并且在与结构相关的基准测试中,比 AlphaFold2 快几个数量级,这使得高通量分析在标准硬件上变得实用。在一个生物信息学和蛋白质建模仍然依赖于高度专业化架构的领域,Prot2Token 提供了一条将它们统一在一个自回归Transformer预测器内的具体路径。