蛋白质网络建模及预测
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1 基于蛋白质表达动态性的动态蛋白质网络

从时间上来看,蛋白质表达动态性表现为蛋白质在某些时刻表达,在某些时刻不表达;从空间上来看,蛋白质表达动态性表现为蛋白质在某些组织中表达,在某些组织中不表达。因此,如果在一个细胞中/某个时刻,两个蛋白质都不表达,那么它们之间的相互作用就不会发生。基因表达数据能够反映出在给定的时刻或条件下细胞中被转录的mRNA。根据中心性法则,蛋白质由mRNA翻译而来,从而蛋白质表达动态性信息可以从基因表达信息中获得。这类构建方法的主要思想是,首先根据基因的表达信息推导出蛋白质在各个时刻/条件下/组织中表达或未被表达的信息,然后结合静态蛋白质网络(所有的蛋白质相互作用集合),构建每个时刻/条件下/组织的蛋白质子网,这些反映了蛋白质表达动态性的子网构成了动态蛋白质网络,如图2-1所示。其中每个时刻/条件下/组织的蛋白质子网由这个时刻/条件下/组织中表达的蛋白质及其相互作用构成。

图2-1 由多个时刻子网组成的动态蛋白质网络示意图

由于微阵列基因表达数据存在不可避免的背景噪声,因此这类构建方法的关键在于如何判断蛋白质在各个时刻/条件下/组织中的表达动态性。在已有的动态蛋白质网络构建中,判断蛋白质表达动态性的方法不尽相同,如表2-1所示。

2005年,Lichtenberg等人[111]构建了基于时序基因表达数据的酵母动态蛋白质网络。基于时序基因表达数据,蛋白质被分为周期性表达蛋白质和持续性表达蛋白质两类,他们认为仅周期性表达的蛋白质存在动态性,且仅在基因表达数据中峰值所对应的时刻表达。因此,每个时刻的动态蛋白质子网,由该时刻出现的周期性表达蛋白质和所有持续性表达的蛋白质,以及它们之间的相互作用组成。基于预处理得到的小规模高可靠性的蛋白质相互作用以及周期性表达蛋白质识别策略,对比于包含5000多个蛋白质的酵母蛋白质组,这个酵母动态蛋白质网络中只包含300多个蛋白质,丢失了大量的蛋白质及其动态信息。因此,后续的方法不再区分周期性表达的蛋白质和持续性表达的蛋白质。另外,仅将基因表达数据中峰值所对应的时刻作为周期性表达蛋白质的表达时刻不符合生物事实,从而导致大量的蛋白质表达动态性信息的丢失,因此后续研究者开始采用阈值的方法来确定蛋白质的表达动态性。Hegde等人[112]构建了大肠杆菌在四个不同条件下的蛋白质网络,研究不同条件下蛋白质相互作用的动态改变。他们将基因芯片中每一个区域的平均表达水平作为该区域的阈值来区别噪声值和真实表达值。

表2-1 基于蛋白质表达动态性的动态网络构建方法

2011年,Tang等人[113]基于大量周期性表达的基因在酵母代谢周期中表达峰值都会大于一个常量这一现象,采用一个固定阈值来判断蛋白质的表达动态性,并基于此构建了酵母的动态蛋白质网络。这个阈值可以有效地过滤掉基因表达数据中的噪声,并且可以保留重要生物过程中基因表达的信息。这种固定阈值的选取依赖于对酵母周期性表达基因在某个具体的基因表达数据中峰值分布的研究,因此很难应用在同一物种的其他基因表达数据以及其他物种的基因表达数据上。另外,许多在酵母细胞周期转录水平一直很低的mRNA很容易被这个固定阈值过滤掉,而实际上这些mRNA也可能会被翻译成蛋白质,这会使得构建的动态蛋白质网络不可避免地丢失一些蛋白质以及它们表达的动态信息。

从这些问题出发,考虑到不可避免的背景噪声和每个基因各自的表达特性,Wang等人[125]提出了一个基于3-sigma准则的方法,根据每个基因的表达曲线为基因对应的蛋白质设计一个阈值,用于判断该蛋白质在什么时刻表达并处于活性状态。识别出每个蛋白质活性表达时刻点后,每个时刻上的动态蛋白质子网由该时刻处于活性的蛋白质及其相互作用组成。基于相同的静态蛋白质网络和基因表达数据,由于采用不同的阈值方法,Tang与Wang构建的动态蛋白质网络存在很大的差异。上述的动态蛋白质网络的构建主要采用阈值来区分微阵列基因表达数据中噪声和真实表达,从而提取蛋白质的表达动态性信息。大多数阈值或阈值方法缺少对噪声的系统性分析,缺少理论支持,从而在不同的基因表达数据上有很大的应用局限性。

目前,动态蛋白质网络构建的研究主要体现了蛋白质在时间动态性上的信息,结合空间上动态性的动态蛋白质网络构建还处于基础的研究阶段。尽管通过结合不同组织的基因表达数据构造的组织特异性蛋白质网络,可以反映蛋白质在空间上的表达动态性:在不同的组织中,某些蛋白质只能在特定的组织细胞中表达,从而影响相互作用的发生。而目前缺乏刻画蛋白质在空间上动态变化的动态网络构建方法。构建同时结合时间、空间动态性的动态蛋白质网络需要投入大量的研究精力。