用于改进的从头肽段测序的普适生物序列重排序

发表
xiang wyatt zhangxiang wyatt zhang 提交
作者: Zijie Qiu, Jiaqi Wei, Xiang Zhang, Sheng Xu, Kai Zou, Zhi Jin, Zhiqiang Gao, Nanqing Dong, Siqi Sun

摘要

从头多肽测序是蛋白质组学中的一项关键任务。然而,当前基于深度学习的方法的性能受到限制,由于质谱数据的固有复杂性和噪声信号的异质分布,导致数据特异性偏差。我们提出了RankNovo,这是第一个深度重排序框架,它通过利用多个测序模型的互补优势来增强从头多肽测序。RankNovo采用列表式重排序方法,将候选多肽建模为多重序列比对,并利用轴向注意力从候选者中提取信息丰富的特征。此外,我们引入了两个新指标,PMD(多肽质量偏差)和RMD(残差质量偏差),它们通过量化多肽在序列和残基水平上的质量差异来提供精细的监督。大量实验表明,RankNovo不仅超越了用于生成重排序预训练训练候选者的基础模型,而且树立了新的最先进基准。此外,RankNovo对未见的模型(其生成结果在训练期间未被暴露)表现出强大的零样本泛化能力,突出其稳健性和作为多肽测序通用重排序框架的潜力。我们的工作提出了一种新颖的重排序策略,从根本上挑战了现有的单模型范式,并推进了准确从头测序的前沿。我们的源代码已在GitHub上提供。
查看 arXiv 页面查看 PDF

评论

xiang wyatt zhangxiang wyatt zhang
论文提交者

使用 MSA transformer 对生物序列进行重新排序,以获得最理想的一个序列