2023-01-29
近日,北京大学化学与分子工程学院、北大-清华生命科学联合中心、北京大学合成与功能生物分子中心王初教授课题组与北京大学生命科学学院、蛋白质与植物基因研究国家重点实验室、北京大学生物医学前沿创新中心苏晓东教授课题组合作在Nature Chemical Biology杂志上发表了题为“Co-evolution-based prediction of metal-binding sites in proteomes by machine learning”的研究文章。在该工作中,作者开发了一种名为MetalNet的计算方法,基于机器学习和蛋白质共进化信号分析来预测蛋白质中的金属结合位点,为研究金属蛋白质组和金属生物学提供了新的工具。 金属离子具有独特的物理和化学性质,在蛋白质中发挥着稳定结构、物质运输、催化反应和信号传导等重要功能。因此,对蛋白质组中金属结合蛋白以及具体金属结合位点的鉴定有助于加深人们对蛋白质功能的理解和认识。最近,通过从多序列比对中计算得到残基之间的共进化信号并结合机器学习,科学家们可以实现对蛋白质结构和蛋白-蛋白相互作用的精准预测。受此启发,作者探究了共进化信号在蛋白质金属结合位点上的分布情况,并发展了基于共进化信号和机器学习预测蛋白质组中金属结合蛋白和金属结合位点的计算方法。 作者以残基对的氨基酸类型频率矩阵作为输入,将金属结合的半胱氨酸、组氨酸、天冬氨酸和谷氨酸(“CHED”)共进化残基对作为正样本,将非金属结合的CHED共进化残基对作为负样本,用于训练得到预测效果良好的机器学习模型。鉴于金属结合位点通常有多个残基与金属离子配位,作者将机器学习模型预测的残基对组装成残基网络,通过基于图模型的过滤器得到一个相对完整的网络簇,将预测方法的准确度进一步提升。总的来说,该方法只需要将多序列比对衍生的共进化信息作为输入,而不依赖于任何已知的序列或结构基序来进行预测。 作者将该命名为MetalNet的预测方法用于对多个蛋白质组数据集进行预测,在原核物种数据集中预测的潜在金属结合蛋白接近一半可以被同源蛋白中的结构直接支持或从其他蛋白质数据库中获得间接支持。作者还在生化和结构水平上验证了MetalNet预测得到的几个此前未被注释的全新金属结合蛋白,包括一个来自大肠杆菌的蛋白citX中的锌结合位点。最后,作者将MetalNet应用于人剪接体蛋白质组的预测,可以准确预测得到目前已经解析的剪接体蛋白结构中报道的所有已知锌离子结合位点,展示了MetalNet预测真核蛋白金属结合位点的潜力。 王初、苏晓东和王初课题组的刘源副研究员为该论文的共同通讯作者。北京大学化学与分子工程学院2017级博士研究生程瑶、2018届博士毕业生王浩博、北京大学生命科学学院2022届博士毕业生徐华和刘源为该论文的共同第一作者。王初课题组的马斌,陈学敏、曾欣和王相贺等合作者也为该课题作出了贡献。该工作得到了国家自然科学基金委、北京分子科学国家研究中心等的经费支持。关闭窗口