添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
相关文章推荐
知识渊博的冰棍  ·  Spring ...·  3 月前    · 
失恋的茶壶  ·  C++调用C接口 - 掘金·  9 月前    · 
被表白的围巾  ·  assembly - What does ...·  1 年前    · 
首发于 深度学习地雷坑

综述翻译_深度学习应用于基因组学的简要概述(四)


4、基因组学应用

在这个部分,我们回顾了一些可以通过深度学习方法处理的基因组学问题,并讨论了在这些领域中深度学习是如何发展的。

4.1、基因表达

基因表达是一个被高度调控的过程,在这个过程中,DNA里的遗传信息被转化为功能性产物,比如蛋白质或其他分子,这个过程同时受到环境因素影响。换句话说,基因编码蛋白质合成过程,并通过调整其产生的蛋白质种类和数量,来自我调控细胞功能。我们在这里回顾了一些应用深度学习研究基因表达是如何受到调控的研究。

4.1.1、基因表达特征

公共数据库中出现越来越多不同物种的全基因组表达研究。比如Connectivity Map (CMap)项目是一个提供基因表达谱参考资料集合的数据库,这些基因表达谱可以用来识别功能性连接分子(functionally connected molecules ),CMap也极大地促进了利用计算机模型对这些数据进行生物学解释的过程。在同一个时间,最近的研究提示深度学习在基因表达数据上得到了更好的表现。Urda 等人(2017) 使用了一个深度学习方法分析RNA-seq基因表达谱数据,效果超过了LASSO(Least absolute shrinkage and selection operator)。

早期工作应用主成分分析(principal component analysis,PCA)对基因表达数据进行聚类分析,其经验主义结果表明这种计算工具无法有效处理一些复杂的生物学问题。而且,自从交叉实验(cross-experiment)数据集的可靠性受到技术噪音(technical noise)和不匹配的实验条件(unmatched experiment conditions)的限制后,研究人员开始考虑先对已有数据进行降噪和增强(enhancement),而不是直接寻找主成分(principal components)。

自从降噪自编码器不仅仅保留原始数据信息,而且能产生所有输入样本的输入分配(input distribution)的有意义且重要的性质后,人们就开始使用它了。即便是层次很浅的降噪自解码器也被证明能有效提取生物学见解。Danaee 等人 (2017)应用栈式降噪自编码器(stacked denoising autoencoders,SDAs)从基因表达谱数据中检测乳腺癌的功能性特征。Tan 等人 (2014, ADAGE)提出一种应用SDA的无监督方法来捕获乳腺癌数据中的关键生物学原理(key biological principles)。ADAGE是一个从大尺度基因表达数据集中提取相关模式的开源项目。 Tan 等人 (2016)进一步发展ADAGE来成功提取临床特征和分子特征。为了产生更好的符合生物学通路的标记(Signatures)并增强模型的鲁棒性( robustness ),Tan等人 (2017)发展了一个集成ADAGE( ensemble ADAGE,eADAGE )来整合模型中的稳定标记。这三个类似的工作都在铜绿假单胞菌( Pseudomonas aeruginosa )的基因表达数据上实验过。此外,Gupta等人(2015)确认了通过多层降噪自编码器处理增强数据( enhanced data )可以将酵母菌的微阵列分析表达数据( expression microarrays)聚类到已知的代表细胞周期进程的模块中。受到酵母菌的转录组学系统的分层结构的启发, Chen等人(2016b)应用了一个四层自编码器网络处理基因表达数据,每一层对应一个特殊的生物学进程。这个工作将稀疏性( sparsity )引进自编码器。前述研究已经清楚描绘了降噪自编码器的前沿进展超过主成分分析和独立成分分析( independent component analysis,ICA)。

一些自编码器的研究在靠近变分推理方法(variational inference),该方法被评估为能更灵活地捕获数据的内在依赖性(internal dependencies)。Way和Greene (2017a)训练了一种基于变分自编码器(VAE)的模型来揭露基因表达路径中的潜在模式,并将他们的三个变分自编码器结构和别的降维技术进行比较,包括之前提到的ADAGE。Dincer等人(2018)介绍了一个VAE特征的框架,DeepProfile,可以从表达数据中提取能预测急性骨髓性白血病的潜在变量。Sharifi-Noghabi 等人 (2018)提出的Deep Genomic Signature (DGS)是一对VAE,可以通过表达数据中的标记和非标记数据分别训练来预测转移。

另一个应用深度学习描述基因表达的线索是描述其两两比对关系(pairwise relationship)。Wang等人(2017b) 展示了CNN可以有效替代常用的person相关分析(Pearson correlation)来分析成对基因(pair of genes)。因此他们搭建了一个多任务CNN,该模型同时考虑了基因本体学语义(GO semantics)和基因间的相互作用,来提取更高水平基因对的代表性,以供将来的分类研究使用。该模型已被进一步扩展为两个共享参数的网络。

4.1.2、基因表达预测

深度学习在基因表达预测上的表现超过了其他算法。比如, Chen等人(2016c)提出的三层前馈神经网络(feed-forward neural network )用来预测选择的地标基因(landmark gene)的表达量,得到了比线性回归更好的结果。这个模型,D-GEX,是多任务设置的,并且在microarrays和RNA-Seqs两种类型的数据中测试过。Xie等人 (2017)展示了他们的基于多层感知机(MLP)和栈式降噪自编码器(SDA)的深度模型在从单核苷酸多态性基因型(SNP genotypes)中预测基因表达量化图(gene expression quantifications)上超过了Lasso和随机森林(Random Forests)。

在从基因序列进行预测时,深度学习模型成果丰富,尤其是在辨认局部DNA序列元件的上下文特异性角色(context-specific roles),然后进一步推断出来的调控角色(regulatory rules)可以被用来预测表达模式。成果的预测往往基于对生物学知识的合理运用。因此,它可以更有效地预分析DNA序列中的上下文信息, 而不是直接去做预测。深度学习模型可以追溯到两个早期的机器学习工作,他们应用贝叶森网络(Bayesian networks)从学习到的motifs去预测基因表达。

在大多数的应用中,深度学习算法的能力受到生物学限制。因此,比起单纯使用序列信息,在模型中结合表观遗传学数据可能会增加模型的解释力度。比如,在Lim 等人(2009), Cain等人(2011) 和 Dong 和Weng (2013)的研究中,组蛋白修饰作用( histone modifications )和基因调节的相关关系被试验性提出,并已经被一些深度学习工作研究 (Karli´c et al., 2010; Cheng et al., 2011; Dong et al., 2012; Ho et al., 2015)。 Singh 等人(2016a) 提出的DeepChrome,一个将一层MLP放在CNN上方的统一的有分辨能力的框架( unified discriminative framework ),在预测基因表达水平高或低的二元分类任务中取得0.8的平均曲线下面积(AUC)。导入数据被分到不同箱(bins)里,来发现不同组蛋白修饰信号( histone modification signals )中的结合相互作用( combinatorial interactions )。这个学习到的区域代表性( region representation )接着被反馈到一个多层感知机分类器( MLP classifier )里投射为基因表达水平。此外Singh等人(2016a, DeepChrome)还可视化了高级别的组合( high-order combinatorial )使模型可以解释。其他表观遗传学信息,比如DNA甲基化, miRNA,染色质特征( chromatin features )等也可以用在基因表达预测任务上。

生成模型也因为它能够捕获高级别的潜在相关关系被采用。比如,为了探索不同类型分子和基因扰动(molecular and genetic perturbation)下假定的(hypothetical)基因表达谱,Way 和 Greene (2017b)用TCGA(The Cancer Genome Atlas)pan-cancer项目的RNA-seq数据训练了一个VAE模型来捕获生物学相关的特征。他们的另一项工作评估了不同类型的VAE,并且比较了VAEs, PCA, ICA, 非负矩阵因子分解( non-negative matrix factorization,NMF)和前述的ADGAE。

4.2、调节基因组学(regulatory genomics)

基因表达调控是一个控制基因产物(RNA和蛋白质)表达水平高低的细胞过程。它增加了一个有机体的多功能性,并使其应对和适应周围环境。序列潜在的内部依赖性(interdependencies)限制了传统方法的灵活性。但是深度学习对过度表达(over-representation)的序列信息进行建模,因此可能可以识别出调控motifs,在基于其目标序列的情况下。

4.2.1、启动子和增强子

一个有机体岁有效的基因表达调控发生在基因调控早期的转录水平。增强子和启动子是两种被描述地最好的非编码DNA区域的功能元件,他们属于顺式作用元件(cis-regulatory elements,CREs)。读者可以通过阅读Wasserman和Sandelin (2004)和Li等人(2015a) 的综述来查找早期识别CREs的方法。

启动子位置靠近基因转录的起始位点,因此能启动特定基因的转录。传统的算法在启动子预测上表现不好,尽管这种预测总是伴随着高的假阳性率(high false positive rate)。敏感度的补偿往往以特异性为代价,并给予这个方法在应用上不足的精确度。一项最早的工作是Horton和Kanehisa (1992)完成的,他们应用神经网络预测大肠杆菌(E. coli)的启动子位点,并提供了神经网络与统计学方法的比较。Matis等人 (1996)也应用神经网络识别启动子,尽管他们的方法使用了GRAIL(Gene Relationships Across Implicated Loci)预测的一些基因上下文信息作为辅助。 这些早期的神经网络工作不够引人注意,不足以证明该方法比权重矩阵匹配方法(weight matrix matching methods)好。Umarov 和Solovyev (2017)最近的一项研究使用了不超过三层的CNN,证明了CNN比起传统方法在5种不同有机体中启动子识别的优越性。他们的训练模型被制作成网页应用称为CNNProm。一项更近的基于CNN的模型应用迁移学习设置在不同物种/数据集中预测增强子。另一个该研究的亮点是他们使用了对立训练数据( adversarial training data )的设计。

PEDLA是Liu等人 (2016a)提出的一种基于深度学习的增强子预测算法框架。它可以直接从异质性的类别不平衡数据中学到一个增强子预测器,该预测器可以从多种细胞类型或组织中生成。这个模型有一个嵌入机制可以处理类别不平衡问题,在这个问题中每个类别的先验概率(prior probability)是直接从训练数据中近似得到的。PEDLA首先是在H1细胞的9种类型数据中训练的,后来进一步扩展到一个迭代计划中,使其产生覆盖多种细胞/组织类型的预测器。PEDLA还与其他预测增强子的传统方法进行比较并超越了它们。

Min 等人(2016, DeepEnhancer)应用CNN超过了之前基于序列的SVM方法在一项任务中,该任务是从背景基因组学序列(background genomic sequences)中识别增强子。它们比较了不同设计的CNN并总结了最大池化(max-pooling)和批归一化(batch normalization)在增加分类准确度上的作用。同时他们还指出如果设计不合理,单纯增加深度结构的深度是没用的。他们最终的模型利用迁移学习从FANTOM5许可的增强子数据集训练到的模型,使用ENCODE细胞类型特异的增强子数据集进行微调得到。

Yang 等人(2017)展示了利用结合了CNN和RNN的BiRen,可以仅仅从DNA序列预测增强子。尽管证实了这种可能性,利用深度学习处理异质性数据上,BiRen还是有一定的提升空间的(比如5.1.3部分),因为BiRen与考虑了细胞/组织特异性的增强子标注器(enhancer markers)相比,还是存在明显缺陷的。

深度特征选择(Deep Feature Selection,DFS)是Li等人 (2015b)将稀疏性(sparsity)引入深度结构的一项尝试。传统来讲,稀疏性是通过增加一个正则项(regularization term)(比如LASSO, Elastic Net)来得到的。 Li等人 (2015b)使用了一种新方法,在这个方法中他们可以在输入水平( input level )自动选择一个激活的特征子集( active subset of features)来降低特征维度。这是通过在输入数据和输入层之间增加一层稀疏的一对一( one-to-one, point-wise product )线性层完成的。DFS广泛地可以应用于不同深度结构。比如Li等人 (2015b)证明的基于MLP的DFS( shallow DFS ),基于DNNs的DFS( Deep DFS ),并指出当反向传播( back-propagation)在深度网络中效果不好的时候,人们可以采取栈式收缩自编码器( stacked contractive autoencoder,ScA )和基于DBN的DFS模型,这个模型在用反向传播微调前用贪婪方法( greedy way )逐层预训练过。该作者开发了一个DFS的开源包,并描述了DFS比弹性网络( Elastic Net )和随机森林( Random Forest )能更好地识别增强子和启动子。Li 等人(2016a)进一步构建了一个监督的深度学习包称为DECRES,这是一个基于DFS的前馈神经网络,能够在全基因组范围内检测调控区域。

增强子-启动子相互作用(Enhancer-promoter interaction)总是基于功能性基因组学信号的不连续特征(non-sequence features)。Singh 等人(2016b, SPEID) 提出第一个在全基因组范围内推测增强子-启动子相互作用的深度学习方法,该方法只需要基于序列的特征,也可以是特定细胞类型中假定的( putative )增强子和启动子位置。他们的模型被证实比基于机器学习的DeepFinder要好。这个混合模型包括两个部分。第一个部分负责潜在特征之间的区别,这些特征可以从启动子和增强子间学习到,然后在两个分支( branch )里分别给与增强子和启动子,每个分支就是一个一层CNN加上一层ReLU激活层( rectified linear unit )。第二个部分是一个LSTM,负责提取的子序列特征( subsequence features )的有用组合( informative combinations )。他们的工作提供了基于序列确定长程基因调控( long-range gene regulation )的新见解。

这个部分我们想高亮的最后一点是类别不平衡数据集(class-imbalanced datasets),这是识别启动子和增强子的一个常见问题。如何解决这个问题会在5.1.1部分中讨论,比如Liu et al. (2016a) 和 Singh et al. (2016b)。

4.2.2、剪接

剪接指对前体信使RNA(pre-mRNA)的编辑,使其产生成熟的mRNA的过程,mRNA可以翻译成蛋白质。这个过程有效增加了蛋白质异构体的多样性。预测“剪接密码(splicing code)”是指理解剪接是如何调控并展示蛋白质的功能改变的。这对于理解蛋白质如何通过不同方式产生是必须的。

最初的机器学习尝试包括了朴素贝叶斯模型(naive Bayes model)和使用了上千个基于序列的特征的两层贝叶斯神经网络。早期应用在调控基因组学上的神经网络单纯重复了包括深度模型的典型机器学习模型。比如,Xiong等人 (2015)应用了一个全连接前馈神经网络,使用全基因组的外显子跳跃事件(exon skipping events)进行训练,该模型可以预测任何mRNA序列的剪接调控。他们应用这个模型分析了超过半个百万的人类基因组mRNA剪接密码,在成功识别数千个已知的致病突变外,还发现了很多新的候选致病剪接(disease-causing candidates)。这是一个例子,说明了好的表现来源于合适的数据来源而不是描述性的模型设计(descriptive model design)。Lee 和 Yoon (2015) 提出了基于DBN的方法,可以为预测剪接位点处理类别不平衡数据,同时还可以识别非规范的(non-Canonical)剪接位点。他们还提出了一个新的训练方法称为“有绝对梯度的改进对比散度“(boosted contrastive divergence with categorical gradients)方法,并且通过他们的实验展示了与对比散度或其他方法相比,新方法有更好的预测表现和更短的运行时间。

在许多例子中发生了可替代的剪接现象。就是说,同一个基因,在剪接过程中出现不同的外显子组合,最终生成了多个独特的蛋白质。这是y一个关键的影响基因表达的转录后调控机制,也为蛋白质组学的多样性做出贡献。Leung 等人(2014)开发了一个包含三个隐藏层的DNN模型,可以预测个体组织中的可选择剪接模式(alternative splicing patterns ),也可以检测跨组织的区别(across-tissue differences)。该模型的隐藏变量里包括了细胞文本信息(组织类型),来提取基因组学特征。这是一个应用深度学习预测剪接的初始工作。Jha 等人(2017)的一个最近为可选择剪接做的工作,是基于之前开发的BNN(Xiong et al., 2011)和DNN(Leung et al., 2014)模型设计的综合的深度学习模型。他们认为之前的工作是原始数据集的一个基线( baseline ),并通过整合额外的实验信息(比如组织类型),和提出新的目标功能,进一步开发了该模型。他们的模型可以识别剪接调控及其假定目标,也可以直接从基因组序列中推测对应的调控规则( corresponding regulatory rules )。

4.2.3、转录因子(Transcription factors,TFs)和RNA结合蛋白( RNA-binding proteins )

转录因子(Transcription factors,TFs)指结合到DNA序列上的启动子和增强子的蛋白质,RNA结合蛋白( RNA-binding proteins )则如名字所描述,两者都是生物学过程中重要的调控元件。目前针对特定TF的选择性候选结合目标( selecting candidate binding targets )的高通量测序技术受限于低效和高费用。研究人员希望通过计算机方法预测DNA序列上的TF结合位点,最开始用的是一致性序列( consensus sequences )或是其替代物,位置权重矩阵( position weight matrices )。后来的机器学习模型SVM使用k-mer特征。超过了之前的生成模型。

许多现有的深度学习模型通过卷积核(convolutional kernels)处理转录因子结合位点(transcription factor binding site,TFBS)预测任务。Alipanahi 等人 (2015, DeepBind)成功展示了使用CNN模型处理大尺度问题的TFBS任务。Chen等人(2017)结合了CNN表征学习(representation learning)以及再生核希尔伯特空间(reproducing kernel Hilbert space)的明确性优点,提出了卷积核网络(Convolutional Kernel Networks)来预测可以解释的TFBS。Zeng 等人(2016)完成了一个CNN结构的系统分析,来基于大的转录因子数据集预测DNA序列结合位点。Lanchantin等人(2016b)进一步探究了在TFBS任务中CNN,RNN和两者的结合,并提供了详尽的讨论和可视化技术。诚然CNN可以捕获DNA序列的大多数序列和空间特征,但是循环神经网络(RNN)以及双向循环神经网络( bidirectional recurrent networks,BRNN)在面对序列两个方向上的motif时也是十分有用。受到双链DNA对称性的启发,也就是一条链上的模式在另一条链互补的部分可能会同样出现, Shrikumar 等人(2017)提出了基于卷积的传统模型,该模型在同一条DNA上正反互补的部分共享参数, 并使用染色质ChIP-seq数据完成在体(in vivo)TFBS预测任务中展现了鲁棒性。这是一个新的工作,将CNN通过双向特点( bidirectional characterizations )应用到motifs上。

除了已经被证明只要针对特定问题合理设计就有效的CNN外,其他一些方法可以处理不同特征提取或多种数据资源。Cross-source数据经常是超越基础观察,在更高的抽象层次分享共同知识。因此需要被模型进一步整合。Zhang 等人(2015)提出一个多模态深度信任网络(DBN),能够自动从RNA序列提取结构特征。他们首先成功引入RNA序列的三级结构特征,来提升RNA结合蛋白作用位点的预测。Pan和Shen (2017, iDeep)为同样的目的开发了另一个多模态深度学习模型。这个模型包括DBNs和CNNs来整合从不同数据源提取的低水平表征(lower-level representations)。Cao 和Zhang (2017, gkm-DNN) 基于gapped k-mers frequency vectors (gkm-fvs) 来提取信息特征。标准化后的gkm-fvs输入给MLP模型,该模型用标准误差反向传播算法(standard error back-propagation algorithm, standard BP algorithm )和小批随机梯度下降法( mini-batch stochastic gradient descent )训练。通过结合gapped k-mer 方法和深度学习的优点, gkm-DNN得到了比gkm-SVM全面更好地结果。 Qin和Feng (2017, TFImpute) 提出一个基于CNN的模型,使用了领域自适应( domain adaptation )方法,这在3.2部分有详细讨论。该模型用无监督模式在有ChIP-seq的TF数据训练后用来预测新细胞类型的TF。

4.3、功能基因组学(functional genomics)

4.3.1、突变和功能性活动

以前从DNA序列预测功能性活动(functional activities)方法的一个缺陷是位置信息利用不充分。尽管Ghandi 等人(2014)通过引进alternative gapped k-mers (gkm-SVM)方法改进了k-mer方法,效果提升还是不够令人满意,因为基因序列还是仅仅由k-mer计数的向量表示,并不考虑序列中每一个片段的位置。尽管位置特异性的序列核(position-specific sequence kernels)是存在的,但是它将序列映射到更高维度的空间,因而效率不高。

比起传统方法,深度学习方法,比如CNN,天生对序列信号之间的位置关系起作用,并且计算复杂度较小。Kelley 等人(2016, Basset)提出基于CNN的开源包,该包用164种细胞类型的基因组学数据进行训练,能很好地提高从DNA序列预测功能性活动的效果。Basset允许研究人员开展单测序分析( single sequencing assay )和通过同时学习到的染色质亲和性( chromatin accessibility )对基因组中的突变进行标记。 Zhou 和Troyanskaya (2015, DeepSEA)贡献了另一个开源的深度卷积网络,可以从单纯的基因组学序列预测组蛋白修饰里非编码突变的功能性角色,TFBS,以及有高核苷酸分辨率( high nucleotide resolution )的DNA亲和性( DNA accessibility )。

突变的作用总是通过位点的独立或比对模型(independent or pairwise models)进行预测,但是这种方法不足以对高级别的依赖性进行建模。Riesselman 等人(2017, DeepSequence)采取了一种生成方法来追踪突变效果,这种方法是生物启发式贝叶斯深度潜在网络(biologically-motivated beyasian deep latent networks),比比对(pairwise)效果好。他们引入了DNA依赖的潜在变量,并可视化模型参数来描述结构距离(structural proximity)和DeepSequence捕获到的氨基酸相关关系。

4.3.2、亚细胞定位

亚细胞定位是通过生物学序列(biological sequence)预测细胞中蛋白质所在的亚细胞区室(subcellular compartment)。为了能够在互相之间发生相互作用,蛋白质至少需要短暂地停留在临近的区室中,因此蛋白质的定位揭示了蛋白质可能的功能和与其发生作用的蛋白质类别。多数之前的方法基于支持向量机也包括了手工生成的特征。比如,Shatkay 等人(2007, SherLoc)整合了不同序列和基于文本的特征(text-based features)。Pierleoni 等人(2006, BaCelLo)开发了一个二进制SVM层次结构(hierarchy of binary SVMs)。 Meinken 等人 (2012)报道了一个之前的工具,Wan 和Mak (2015) 包括了一个机器学习方法来进行亚细胞定位。

一些早期的深度学习工作是从SMV迁移到神经网络的,比如Emanuelsson 等人(2000)和Hawkins 和 Bod´en (2006)。Mooney 等人(2011) 基于一个N to 1神经网络开发了一个亚细胞定位预测器(SCLpred)。Sønderby 等人(2015) 应用LSTM从单纯的序列信息预测蛋白质亚细胞定位,并有很高的准确度。他们进一步增强了这个模型,通过在LSTM前增加一个卷积核(convolutional filters)作为motifs提取器,并引入了注意力机制(attention mechanism)来强迫LSTM关注蛋白质的特别分段(particular segments)。在实验中,他们可视化了卷积核和注意力机制的有效性。Almagro Armenteros 等人(2017) 提出了一个整合的结合模型DeepLoc,包括了四个模块,CNN,BLSTM,注意力体系(attention scheme)和全连接层。

高通量显微镜成像(High-throughput microscopy images)是一个还可以被进一步开发的生物学信息资源。显微镜成像的一个重要应用是自动检测细胞区室。P¨arnamaa 和Parts (2017, DeepYeast)设计了一个11层深度模型,可以给酵母菌细胞的荧光蛋白(fluorescent protein)进行亚细胞定位分类,其中包括8个卷积层和3个全连接层。模型的内部输出被可视化,并且从图像的透视角度进行解释。该作者总结道,低水平的网络功能是做图像特征抽取,高水平的层则负责定位分类。

4.4、结构基因组学(structural genomics)

4.4.1、蛋白质结构分类

由于蛋白质之间常拥有相同的演化起源(evolutionary origin),其之间常常分享结构相似性(structural similarities)。对蛋白质结构进行分类可以追溯到19世纪70年代,人们致力于掌握蛋白质折叠过程和蛋白质结构演化。基于结构或功能对蛋白质进行分组也促进了人们对于不断增加的序列化的基因组学的认识。

早期相似度测量的方法主要基于序列特性(sequence properties)(也就是基于比对,alignment-based)。比如FASTA (Pearson and Lipman, 1988), BLAST (Altschul et al., 1990), 或者PSI-BLAST (Altschul et al., 1997)。这些方法后来通过影响多种序列比对,位置特异性打分矩阵(position-specific scoring matrices,PSSM)和原始序列导出的文件(profiles)进行升级。或者是通过类似SMV的判别模型(discriminative models)进行升级。比如,Cang 等人(2015)应用了包括使用持续同调( persistent homology )的拓扑方法的SMV,来提取特征为蛋白质结构域和超家族进行分类。另一个表现很好的深度学习工作是基于蛋白质同源性检测( homology detection )( Chen et al. (2016a) 有一篇相关综述),来从氨基酸序列推断蛋白质的3维结构或功能。 Hochreiter等人 (2007)提出一个基于模型的方法,使用LSTM检测同源性。该模型使用BLOSUM矩阵或PAM矩阵计算相似度,矩阵不是先验确定的( priori fixed ),而是针对特定任务由LSTM学习到的。 Liu 等人 (2017, ProDec-BLSTM)对于蛋白质远同源性检测( protein remote homology detection )完成了一项类似工作,展示了使用BLSTM代替LSTM的效果提升。基于同源方法( homology based approaches )识别折叠( fold recognition )有一个缺点,即缺少检测蛋白质序列和折叠之间的关系,因为现在的方法基本上是基于已知的模型蛋白质( template protein )的折叠来对新的蛋白质的折叠进行分类。因此Hou 等人(2017, DeepSF)提出一个1维深度CNN从蛋白质序列直接预测蛋白质折叠分类。

还有一些基于现有基因功能注释集(gene function annotation vocabularies)(比如Gene Ontology (Park et al., 2005))来进行蛋白质分类的工作。出于类似的动机,BioVec被设计为一个深度学学习模型,可以产生生物学序列的分布式表征(distributed representation),该模型有诸如蛋白质家族分类的基因组学应用。每一个序列通过BioVec嵌入为一个高维向量,于是蛋白质家族的分类任务就变成单纯的分类任务了。

4.4.2、蛋白质二级结构

蛋白质二级结构(Protein secondary structure)指蛋白质局部片段的3维结构,可以对研究蛋白质结构,功能和演化提供信息。这个蛋白质SS传统上被细分为3个状态(state) (Pauling et al., 1951),或者通过DSSP算法分为8个状态 (Kabsch and Sander, 1983)。Q3和Q8被计算来评价3-state和8-state的模型预测效果,代表了成功预测的氨基酸残基二级结构的比例。另一个可以用来评价3-state预测的是segment of overlap (SOV) score。Rost 等人 (1994)建议合理的SS预测目标是Q3精确度达到85%。

在流行应用深度学习预测蛋白质SS前,机器学习算法被广泛应用,比如概率图模型(probabilistic graphical models),隐马尔科夫模型(hidden Markov models)和SMVs。在神经网络的萌芽阶段,最早被开发的是一个前馈网络,可以从氨基酸序列预测蛋白质SS和同源性。另一个预测蛋白质SS的工作应用了类似或稍微强化的s很静网络。Qian和Sejnowski (1988)完成了一个3-state预测上有影响力的工作,达到了64.3%的Q3精确度。他们基于连接的神经网络开发了一个级联结构,将正交编码作为输入窗口DNA序列(taking as input window DNA sequences with orthogonal encoding)。自从Rost 和 Sander (1993a,b)将3-state预测通过神经网络提升到70.8%后,就没有重要的进展了。声称模型的自由参数(free parameters)有边缘作用(marginal influence),Rost和Sander (1993a) 公认了他们的改进能影响从多序列比对(multiple alignments)得到的输入文件编码的演化信息。Riis 和 Krogh (1996)通过结构化神经网络得到了实用的相同表现。他们基于生物学知识给每个SS类设计了特别的网络,而导出的结果来源于过滤和集成平均(filtering and ensemble averaging)。基于PSI-BLAST生成的PSSM,Jones (1999, PSIPRED) 使用一个2阶段神经网络,得到了平均77%的Q3分数。其他常用的深度学习模型比如BRNN也广泛应用于蛋白质SS预测。

在有了更多的先验知识和各种特征后,预测蛋白质SS的新兴的深度结构被广泛研究。Faraggi 等人 (2012, SPINE X) 提出了一个六个步骤的迭代模型,每一个步骤的神经网络都跟随类似的结构处理特定的任务。Spencer 等人(2015) 训练了一个DBN模型,在这个模型中一个额外的隐藏层被构建来促进RBM的无监督逐层初始化。Li 和Yu (2016) 设计了一个级联模型,可以通过改变卷积核尺寸(kernel size)来影响CNN提取多种尺度的局部上下文特征,然后增加一个BRNN负责氨基酸序列中的长程依赖性,来捕获全局上下文特征。

Wang 等人(2016a, DeepCNF)通过扩展条件神经场(conditional neural fields,CDFs)来引入卷积设计,将Q3准确率大幅度提高到80%以上。DeepCNF可以捕获序列-结构关系和相邻残基的蛋白质SS标签相关关系。他们还达到了72%的Q8精确度,比一个监督的生成随机网络(generative stochastic network)获得的66.4%要好的多。Busia 等人(2016) 探索了该模型在8-state预测的表现,从简单的前馈网络到应用最近的CNN结构(比如Inception, ReSNet和DenseNet)。他们在计算机视觉(computer vision)中修改了成功CNN模型卷积运算子(convolution operators)的不同尺寸和剩余连接(residual connections),来更好地适应蛋白质SS预测任务。他们还强调了和视觉任务(vision tasks)相比的不同。上面提到的DeepCNF通过条件随机场(Conditional Random Field,CRF)包括了标签和临近残基的内在依赖性(interdependencies)。与DeepCNF不同, Busia 等人(2016)通过序列-序列建模将当下的预测条件设定为之前的预测标签( condition the current prediction to on previous predicted labels by sequence-to-sequence modeling)。

4.4.3、蛋白质三级结构和质量评估

蛋白质三级结构的预测被认为是人类理解蛋白质功能必要的部分,并且可以被应用到比如药物设计上。尽管如此,检测蛋白质结构的实验方法,比如X光晶体成像(X-ray crystallography)费用昂贵,而且有时候不实际。尽管被实验解决的蛋白质结构保存在蛋白质数据库(protein data bank)中,且数量不断增长,但是也只占了目前已经测序的蛋白质数量很小的一部分。因此,通过计算机建模来填补已测序的蛋白质数量和已经知道结构的蛋白质数量之间的差距可能是比较实际的方法。

蛋白质结构预测的两个基本挑战包括抽样和排序蛋白质结构模型。质量评估(Quality assessment,QA)指在天然结构(native structure)获得之前,预测蛋白质模型的绝对或相对质量并进行排序。一些之前的研究是基于机器学习模型的,比如(Ray et al., 2012, ProQ2)和(Uziela et al., 2016, ProQ3)。最近基于深度学习的工作(Uziela et al., 2017, ProQ3D) ,通过将SVMs替代为DNNs获得了大幅提升。与这些现有的依赖能量或评分功能(energy or scoring functions)的方法相反,Nguyen 等人(2014) 单纯基于几何形状(geometry)提出了一个稀疏栈式自编码分类器(a sparse stacked autoencoder classifier),使用了残基接触图(contact map)。另一个Cao 等人 (2016)的研究应用了DBN蛋白质结构预测方法。该模型可以评估任何protein decoy的质量。局部质量的评估比起全局预测还有很大的提升空间。Liu 等人(2016b) 引进三种基于栈式降噪自编码器的模型,作为深度学习方法评估个体蛋白质模型(individual protein models)质量的标准。

4.4.4、残基接触图(contact map)

蛋白质残基接触图是一个二分类2维矩阵,表示一个折叠的3维蛋白质结构里任意两个残基空间上的亲密程度(spatial closeness)。因此,预测残基-残基接触(residue-residue contact)对于蛋白质结构预测是很重要的,也很早就被浅神经网络(shallow neural networks)研究了。最近的工作进展到更深的网络。Lena 等人(2012) 堆叠了多个共享拓扑(topology)的标准三层前馈网络,考虑了预测残基-残基接触的空间和时间特征。Wang等人(2017e)还开发了一个超深度模型从氨基酸序列预测蛋白质接触(protein contacts)。他们的模型包括两个深度残差网络,可以分别处理1维和2维的特征,随后进一步在模型中考虑包括顺序和比对特征(h sequential and pairwise features) 。Zhang 等人(2017) 和Schreiber 等人(2017)都贡献了一个开源的多模态CNN模型给Hi-C(高通量染色体构象捕获技术,High-throughput chromosome conformation capture)残基接触图预测。Zhang 等人(2017, HiCPlus)第一个将低分辨率Hi-C矩阵内插(interpolated)成高分辨率的尺寸,然后然后训练模型,从低分辨率Hi-C矩阵预测高分辨率Hi-C矩阵,输出结果被重组( recombined )到完整的Hi-C互相作用矩阵( Hi-C interaction matrix )。 Schreiber 等人(2017, Rambutan)从核苷酸序列和DNaseI 实验信号数据( DNaseI assay signal data )预测高分辨率(1 kb)的Hi-C contacts。他们的模型包括两个臂( arm),每个臂单独处理一种类型的数据,学到的特征连起来( concatenated ),在全连接层中进一步与基因组学距离( genomic distance )结合。


蔡小明:综述翻译_深度学习应用于基因组学的简要概述(一)

蔡小明:综述翻译_深度学习应用于基因组学的简要概述(二)

蔡小明:综述翻译_深度学习应用于基因组学的简要概述(三)

蔡小明:综述翻译_深度学习应用于基因组学的简要概述(四)

蔡小明:综述翻译_深度学习应用于基因组学的简要概述(五)

蔡小明:综述翻译_深度学习应用于基因组学的简要概述(引文)

编辑于 2020-08-30 13:46

文章被以下专栏收录

    深度学习地雷坑

    深度学习地雷坑

    记录我学习深度学习过程中遇到的各种坑和解决方法