4月18日,国际学术期刊PNAS 在线发表了中国科学院上海生命科学研究院生物化学与细胞生物学研究所系统生物学重点实验室陈洛南研究组题为Part mutual information for quantifying direct associations in networks 的最新研究成果。该成果首次提出“部分互信息”的新概念和理论,通过“部分互信息”量化网络中节点之间的直接相关性,可实现由观测数据直接构建网络。
在数据分析中,定量的标识变量的直接依赖性是一件非常重要的事情,特别是对于科学和工程中各种类型的网络重构和因果推断问题,都需要高精度的理论和方法。应用的最广泛的方法之一是偏相关性系数(partial correlation),但是偏相关性系数只能量化线性之间相关性和关联性,从而忽略非线性的关联性。然而,基于“条件独立性”(conditional independency)的“条件互信息”(CMI: conditional mutual information)可以从观察数据中量化变量之间非线性的直接关联性,优于线性的方法。但是,条件互信息存在着过低估计的问题,因而严重限制它的应用,特别是在网络节点有强相关的网络中,这个问题就更加严重。
基于这个问题,陈洛南研究组提出了全新的概念,即“偏独立性”(partial independency)以及新的度量方法,又称作“部分互信息”(PMI: part mutual information),不仅能够克服条件互信息的缺点,同时还能保持互信息和条件互信息的性质。特别是,陈洛南研究组首先定义了部分互信息用于量化变量之间的直接关联性,然后从理论上给出部分互信息和互信息以及条件互信息之间的内在联系。通过数值实验,陈洛南研究组证明了部分互信息的性质和优点,接着通过用Escherichia coli和Yeast的基因表达数据重构其基因调控网络,进一步验证了部分互信息在量化网络中非线性的直接关联性的优越性。该工作对大数据网络研究提供了全新的概念和理论,不仅可用于生物分子网络的高精度构建,而且可以应用于其他网络(领域)中各种复杂因素的因果关系推断。
该研究得到了中国科学院和国家自然科学基金委的经费支持。(来源:中科院上海生命科学研究院)
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。