APP下载

马占山学科组在医学病毒生物信息学领域取得重要突破

2023-03-23

  近日,国际期刊"Journal of Medical Virology"《医学病毒学杂志》在线刊发了题为:“VC (virome-comparison): a novel approach to comparing viromes based on virus species specificity and virome specificity diversity”的论文。该文中提出了一种比较病毒组的新算法,能够高效率的找出某一病毒组特有或者富集的病毒种类等功能。为比较研究病毒组提供了一套崭新的算法和软件技术。文中还提出了病毒“特异性多样性”的新概念和度量方法,特异性多样性概念综合了病毒时空分布和数量(丰度),并采用热力学中Renyi熵来度量特异性多样性。新概念及其度量方法的提出具有重要的理论意义。按当年SCI影响因子(=20.6),该期刊目前在病毒学领域排名第二。     

  健康人体仅肠道中就存在约380亿病毒个体,其数量是人体体细胞的百倍,身体其他部位包括皮肤、口腔、生殖道、呼吸道等部位都存在大量病毒;病毒甚至可以存在于某些人的血液中而与其宿主相安无事(所谓潜伏感染)。这些病毒的集合称之为病毒组 (Virome)。要比较两个或多个病毒组,找出其特有或者富集的病毒种类是一个貌似简单,实际上非常复杂的计算问题。类似问题在计算机科学领域属于“NP-hard”问题(NP难题)。简单的说,对于此类问题,当问题大到一定程度时,即使用人类所建造的最强大计算机,仍然可能无法获得问题最优解。类似问题之一, “推销员最短路径” (Traveling Salesman Problem (TSP)) 问题或许可以较好的解释此类问题的难度。 

  TSP问题最早提出于19世纪,问题可以描述为:推销员需要访遍N个城市,但禁止重复访问。换句话说,该推销员要“打卡”所有城市,但不允许重复“打卡”。同时,推销员为了节省时间,希望获得最短路径。显然,如果是2个或者3个城市,幼儿园小朋友都可以瞬间给出答案。如果是4-5个城市,小学生用铅笔应该能够算出答案。但当城市数量增加到一定程度后,问题难度则是直线上升(实际上可能比指数增长还要快)!1950年代,美国兰德公司曾公开奖励解决TSP问题,当时的世界纪录仅仅是49个城市。换言之,20世纪50年代世界的算力仅仅能为推销员算出“打卡”49个城市的最短路径。2006年,世界纪录也仅仅是85900 个城市,但其计算所花时间是136CPU年, 而且是为其研发出了高度智能化的算法。“136 CPU年” 时间意味着,如果没有超级并行计算机,而采用单个CPU计算的话,需要计算 136年。 

  为了求解像VC 这样的NP-hard问题的最优解,通常是研发所谓 的heuristic 算法(启发式、探索式算法)而获得“次优解”。所谓“次优解”可以理解为能够满足实际应用的近似解。所谓启发式算法类似于“探索捷径”,其困难可能就在于如何寻找到适合解决问题的“灵感”。不幸的是,许多NP-hard问题的解决并不仅仅是数学家所喜好的理论探索,而是具有重要的经济价值。例如,TSP 问题显然可以应用于交通网络规划、物流网、光纤铺设等提供支撑。 

  VC算法包括病毒“特异性”、前面提到的特异性多样性、以及相对应的特异性检验和特异性多样性检验算法。VC能够高效的找到某个病毒组中特有的病毒种类或者富集的病毒种类。显然,该方法具有良好的应用前景。例如,文章中示范了找出IBD(肠炎) 病人特有或富集的病毒种类,这些信息能够为研究疾病诊治手段提供重要的技术支撑。当然,该方法其应用并不限于研究人类病毒,同样也适用于研究动植物和其它生态环境中的病毒组。该研究得到国家自然科学基金资助。 

  Ma ZS (2023) VC (virome-comparison): a novel approach to comparing viromes based on virus species specificity and virome specificity diversity. Journal of Medical Virology. https://doi.org/10.1002/jmv.28682 

关闭窗口
  • 二维码