⏶0
Ankh3:结合序列去噪与补全的多任务预训练,增强蛋白质表示
发表
由
Hazem Essam 提交

作者:
Hazem Alsamkary,
Mohamed Elshaffei,
Mohamed Elkerdawy, Ahmed Elnaggar

摘要
蛋白质语言模型(PLMs)已成为检测蛋白质序列复杂模式的强大工具。然而,PLMs 完全捕获蛋白质序列信息的能力可能受到仅关注单一预训练任务的限制。尽管添加数据模态或监督目标可以提高 PLMs 的性能,但预训练通常仍集中于对受损序列进行去噪。为了突破 PLMs 的界限,我们的研究探索了一种多任务预训练策略。我们开发了 Ankh3 模型,该模型在两个目标上联合优化:具有多种掩码概率的掩码语言建模,以及仅依赖蛋白质序列作为输入进行蛋白质序列补全。这种多任务预训练表明,PLMs 仅从蛋白质序列中就能学习到更丰富、更具泛化能力的表示。结果表明,在下游任务(如二级结构预测、荧光、GB1 适应度和接触预测)中性能得到了提高。多任务的整合使得模型对蛋白质特性有了更全面的理解,从而带来了更稳健和准确的预测。
Ankh3-Large: https://huggingface.co/ElnaggarLab/ankh3-large
Ankh3-XL: https://huggingface.co/ElnaggarLab/ankh3-xl