PRING: 重新思考蛋白质-蛋白质相互作用预测,从对到图

发表
Zhiyuan LiuZhiyuan Liu 提交
作者: Xinzhe ZhengXinzhe Zheng, Hao Du, Fanding Xu, Jinzhe LiJinzhe Li, Zhiyuan Liu, Wenkang Wang, Tao Chen, Wanli Ouyang, Stan Z. Li, Yan Lu, Nanqing Dong, Yang Zhang

摘要

基于深度学习的计算方法在预测蛋白质-蛋白质相互作用(PPI)方面取得了可喜的成果。然而,现有基准主要侧重于孤立的成对评估,忽视了模型重建具有生物学意义的PPI网络的能力,而这对于生物学研究至关重要。为了弥补这一空白,我们引入了PRING,这是首个从图级别视角评估蛋白质-蛋白质相互作用预测的综合基准。PRING整理了一个高质量、多物种的PPI网络数据集,包含21,484种蛋白质和186,818个相互作用,并设计了完善的策略来解决数据冗余和泄漏问题。在此黄金标准数据集的基础上,我们建立了两种互补的评估范式:(1)拓扑导向任务,评估物种内和跨物种的PPI网络构建;以及(2)功能导向任务,包括蛋白质复合体通路预测、GO模块分析和必需蛋白质鉴定。这些评估不仅反映了模型理解网络拓扑结构的能力,而且有助于蛋白质功能注释、生物模块检测乃至疾病机制分析。对序列相似性、朴素序列、蛋白质语言模型和结构等四类代表性模型进行了大量实验,结果表明,当前的PPI模型在恢复PPI网络的结构和功能特性方面存在潜在局限性,凸显了其在支持实际生物应用方面的不足。我们相信PRING为社区开发更有效的PPI预测模型提供了一个可靠的平台。PRING的数据集和源代码可在https://github.com/SophieSarceau/PRING获取。
查看 arXiv 页面查看 PDF

评论

Zhiyuan LiuZhiyuan Liu
论文提交者

基于深度学习的计算方法在预测蛋白质-蛋白质相互作用(PPIs)方面取得了可喜的成果。然而,现有基准主要侧重于孤立的成对评估,忽视了模型重建具有生物学意义的PPI网络的能力,而这对于生物学研究至关重要。为了弥补这一空白,我们引入了PRING,这是首个从图层面评估蛋白质-蛋白质相互作用预测的综合基准。PRING整理了一个高质量、多物种的PPI网络数据集,包含21,484种蛋白质和186,818个相互作用,并采用精心设计的策略来解决数据冗余和泄露问题。在此黄金标准数据集的基础上,我们建立了两种互补的评估范式:(1)拓扑导向任务,评估物种内和跨物种PPI网络的构建;(2)功能导向任务,包括蛋白质复合体通路预测、GO模块分析和必需蛋白质验证。这些评估不仅反映了模型理解网络拓扑的能力,还促进了蛋白质功能注释、生物模块检测乃至疾病机制分析。对四类代表性模型——包括基于序列相似性、朴素序列、蛋白质语言模型和结构的方法——进行的大量实验表明,当前的PPI模型在恢复PPI网络的结构和功能特性方面存在潜在局限性,凸显了在支持真实世界生物学应用方面的差距。我们相信PRING为社区开发更有效的PPI预测模型提供了一个可靠的平台。PRING的数据集和源代码可在此网址获取。