英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料
用差异分析识别生物标志物
摘要 疾病的发生和发展是一个复杂的过程,涉及基因突变和环境影响。疾病生物标志物(生物标志物)是致病过程的生物学特征,可以帮助做出诊断或预后决定,以便可以采取必要的干预措施来阻止疾病的蔓延。在后基因组时代,随着各种组学数据的积累,可能识别出可以帮助诊断和开发有效治疗的分子生物标志物。在本章中,我们总结了基于不同类型的组学数据鉴别生物标志物的差异分析的最新进展。差异分析是生物学中一种强有力且广泛使用的方法,其通过比较在不同条件下产生的分子数据集来识别生物标记。特别是,我们专注于基于考虑到不同生理条件与网络拓扑结构之间的差异的分子网络来识别生物标志物的方法。
关键词 基因生物标志物 基因组生物标志物 组学数据 通道生物标志物 网络生物标志物
2.1 引言
疾病通常由基因突变或/和环境影响引起,涉及各种生物过程。疾病风险的早期诊断能够帮助预防疾病的发展,精确的疾病状态的预后可以避免好的后果的不必要治疗,同时对不良后果及时采取干预措施。疾病生物标志物(生物标志物)是致病过程的生物学特征,可以帮助做出诊断或预后决定。生物标志物可用于预测某些人群的疾病风险,以便及时采取干预措施预防疾病。此外,生物标志物可以帮助鉴定异种疾病的亚型,例如乳腺癌,以便采取适当的治疗策略。在过去的几十年中,随着分子生物学和生物技术的发展,大量的分子数据被公开可用,这使得能够鉴定可以用作生物标志物的特定分子。例如,激素受体ER和PR可以用作生物标志物来预测患者对内分泌治疗的反应,而HER2癌基因可以作为浸润性乳腺癌的生物标志物并预测患者的存活。
尽管分子生物标志物取得了成功,但考虑到在蛋白质发生复杂的相互作用的人类基因组中超过20,000种基因来编码约30,000种蛋白质,所以识别可靠且有用的生物标志物并非易事。最近,随着生物技术的迅速发展,特别是在高通量技术中,全基因组筛选使得以一种有效的方式识别分子生物标志物成为可能。特别的是,各种#39;组学#39;(例如基因组学,转录组学和蛋白质组学)数据的积累使人们能够识别可预测疾病风险的潜在基因生物标记物。例如,基于全基因组关联研究(GWAS)能够基于疾病群体与正常/对照群体的比较提供与疾病相关的遗传变异。在具有里程碑意义的威康信托病例控制联盟(WTCCC)的研究中,许多DNA变异体和基因被确定与七种常见疾病有关。转录组谱使得能够监测数以万计的基因的表达,其中在不同生理条件之间差异表达的那些基因通常被认为是用于诊断和预后的潜在生物标志物。在他们的关键工作中,Golub等人基于基因表达谱鉴定了可成功区分急性髓性白血病(AML)与急性淋巴细胞白血病(ALL)的基因生物标志物。
尽管基于组学数据鉴定的基因生物标志物取得了一些成功,但大多数基因生物标志物不可靠并具有低重复性,其中从一个数据集鉴定的生物标志物有时无法在另一个数据集中针对相同疾病起作用。出现这种现象是因为许多疾病,特别是复杂的疾病,被广泛认为是生物系统失调的结果,而不是单个基因的突变,而基因生物标志物通常被认为在功能上彼此独立。因此,有必要从系统的角度来鉴定生物标志物。包括蛋白质 - 蛋白质相互作用网络,基因调控网络和代谢网络在内的分子网络可以准确描述生物系统,从而为系统性水平上预测生物标志物提供了一种替代方法。从分子网络中发现的生物标志物可以提供对疾病分子基础的洞察力,并有助于开发有效的治疗策略。例如,鉴定出癌症的网络生物标志物,Chen等人成功预测了乳腺癌转移。
在本章中,我们通过基于不同类型的组学数据的差异分析来调查生物标记物鉴定的最新进展,其中通过比较在不同条件下产生的分子数据集来鉴定生物标记物。在这里,生物标记的范围从基因到基因集,途径和网络。具体而言,我们专注于从分子网络中鉴定生物标志物的方法,其考虑到不同生理条件与网络拓扑结构之间的差异。
2.2 生物学中差异分析
差异分析是生物学中用于鉴定生物标志物的广泛使用的方法,其中生物学特征的差异例如基因或血压,跨越不同的物种或条件被普遍地调查,并且那些被显着改变的生物的标志物将被视为生物标志物。在本章中,生物标志物是指分子生物标志物,范围包括从基因到基因组/通路和网络。
如图2.1所示,分子生物标志物可以根据不同种类的数据进行识别,其中生成的生物标志物范围从单个基因到基因组和网络。目前,关于不同重大疾病的大量组学信息都是公开获得的。例如,可以从Gene Expression Omnibus和ArrayExpress检索患者的基因表达数据,蛋白质-蛋白质相互作用数据可以在BioGrid和STRING数据库以及基因通道数据可以在KEGG和Gene Ontology中获得。受公众可获得的数据丰富的启发,已经有大量计算方法被用来通过进行差异分析来鉴定生物标志物。在本章中,我们着重于转录组数据和蛋白质-蛋白质相互作用的差异分析。那些有兴趣从基因组和代谢数据中鉴定生物标志物的读者可以参考基于GWAS和代谢谱鉴定生物标志物的综述文章。对于不同类型的数据,确定的生物标志物是不同的。例如,可以用差异表达分析获得基因生物标志物,通过将一组基因视为实体来鉴定基因集生物标记,而通常通过考虑基因之间的功能相互作用来检测通路和网络生物标记。
在下面的章节中,将介绍用于对不同类型数据进行差异分析的不同计算方法。 尤其是,这些计算方法是基于它们识别的生物标志物的类型而引入的。
2.3 基因生物标志物
随着大量存储在公共数据库中的基因表达数据的积累,例如,GEO,越来越容易鉴定在病例和对照样本之间或不同疾病阶段之间显着差异表达的全基因组基因。 这些差异表达的基因通常被认为是潜在的生物标志物。 另一方面,那些能够区分不同条件样本的基因也被认为是重要的基因,并被用作生物标志物。
用于鉴定基因生物标志物的早期方法通常通过设定阈值来检测差异表达的基因,其中表达变化高于阈值的那些基因被用作基因生物标志物。例如DeRisi等人通过设置两倍变化阈值来检测差异表达的基因。不幸的是,遗传在基因表达数据中的噪音使得用这种任意设定的阈值检测可靠的差异表达基因成为一项具有挑战性的任务。因此,已经提出了很多统计学方法来检测更可靠的差异基因,例如,非参数方法和经验贝叶斯方法,其中大多数方法都基于统计检验。 Tusher等人提出的微阵列(SAM)统计方法的意义分析是确定表达变化的重要性的最广泛使用的工具之一,并且表现出良好的表现。 SAM根据其表达变化相对于该基因的重复测量的标准偏差向每个基因赋予分数,其中具有高于阈值的分数被认为是统计学显着的。后来,Wu提出了一种改进的SAM统计量,该统计量利用惩罚性线性回归模型来防止考虑到大量基因和相对少量样本的过拟合。 SAM及其改进版本都可以看作是普通t统计量的缩减,通常用于比较两个条件与样本复制。有两种以上的条件,通过考虑多种因素和/或多种变异来源,方差分析(ANOVA)将更加适合和强大。关于检测差异表达基因的统计检验的更多细节参见Cui和Churchill的综述文章。
除统计学检验外,基因生物标志物的鉴定可视为一项在机器学习领域得到充分研究的特征/变量选择问题,也称为生物信息学中的基因选择。在基因选择中,目标是选择一小组基因,这些基因可以导致疾病与正常或不同疾病之间的良好区分。例如,Golub等人(1999)发现了一组与急性粒细胞白血病和急性淋巴细胞白血病之间的类别独特性最相关的基因,并且与自组织图谱(SOM)一起使用时获得了高准确性。 Guyon等人(2002)提出了基于递归特征消除(RFE)的支持向量机(Support Vector Machine,SVM)的基因选择新方法,该方法能够消除基因冗余,同时得到更紧凑合理的基因集。当应用于真实的癌症数据集时,SVM-RFE可获得更好的分类性能,而且发现的基因与癌症更具生物相关性。后来,张等人(2006)开发了用于基因选择的递归支持向量机(R-SVM)算法,其与SVM-RFE相比表现出更好的性能。 Li等人(2001)提出了一种混合智能方法,该方法结合了遗传算法(GA)和k-最近邻(KNN)方法来识别能够区分不同类别样品的基因。随机森林是最近开发的一种分类算法,它利用分类树的集合,每一棵树都用数据的自举样本建立(Breiman 2001)。随机森林即使在嘈杂的变量下也表现出色,并且能够返回变量重要性的度量。当应用于基因选择时,随机森林显示出与其他流行分类方法相当的性能,同时识别一小组基因(Diaz-Uriarte和Alvarez de Andres 2006)。关于基因选择技术的更多细节参见最近的综述文章(Duval and Hao 2010; Saeys 等2007)。
最近,随着下一代测序成本的下降,越来越多的RNA-Seq数据可供使用。与微阵列相比,RNA-Seq能够发现未预料到的转录物,并检测到更少的假阳性转录物(McIntyre et al。2011)。不幸的是,由于微阵列数据和RNA-Seq数据之间的差异,用于检测微阵列中差异表达的基因的成熟方法不能立即转移到RNA-Seq数据的分析中。令人鼓舞的是,为此目的引入了很多工具,例如DESeq(Anders and Huber 2010),Cuffdiff 2(Trapnell et al。2013)和edgeR(Robinson et al。2010)。有兴趣的读者可以参考最近对不同工具的综合比较(Soneson和Delorenzi 2013)。
2.4 基因组生物标志物
上面确定的基因生物标记通常与感兴趣的表型无关,并且易于解释。然而,数据中遗传的噪声以及模型中用于识别差异基因的参数可能导致误报和误报。例如,当检测差异表达的基因时,没有设定阈值的标准标准。潘等人(2005)表明,阈值的不同选择可能会导致完全不同的生物学结论。虽然那些具有显着表达改变的基因更可能与感兴趣的表型相关,但也有许多重要的基因没有足够大的表达改变被丢弃,但这些基因的确与表型有关(Ben-Shaul 等2005;Breslin等,2004)。
在这种情况下,调查基因组而不是单个基因的基因组分析正成为解释基因表达数据的一种趋势,其中同一组中的基因更可能与相同的生物过程相关联。先进的基于知识的方法基因集富集分析(GSEA)属于这样的基因集分析方法之一,其基于Kolmogorov-Smirnov统计量对预定义基因集的丰富性进行评分(Subramanian等,2005)。评分的重要性用校正多重假设检验的经验排列检验来评估。与单基因生物标志物相比,由GSEA鉴定的基因集合是更加合理的解释数据的途径或过程。此外,GSEA不是专注于显着的差异基因,而是可以用适度的表达改变检测那些重要的基因。在此之后,已经提出了许多GSEA的变体,包括非参数富集统计(Barry等人2005;Hauml;nzelmann等人2013; Tian等人2005),电池测试(Dorum等人2009; Efron和Tibshirani 2007; Irizarry等,2009)和重点基因组测试(Jiang and Gentleman 2007; Wu et al。2010a)。在GSEA的这些变体版本中,Irizarry等人提出的简单富集分析(SEA)方法。 (2009)通过假定基因独立性估计了基于单样本t检验的富集,其表现出比GSEA更好的表现。然而,基因独立性假设有其局限性,如(Kim和Volsky 2005; Nam等人2006; Tamayo等人2012; Wang等人2008)所示。最近的综述文章(Chen 等2007; Dopazo 2009; Goeman and Buhlmann 2007; Liu 等2007; Nam and Kim 2008; Song and Black 2008)发现了更多用于分析基因组富集的统计方法。
最近,人们注意到,基因间相关性影响测试并导致I型错误。为了克服这个问题,已经提出了两种新的方法,即相关调整MEan RAnk基因组测试(CAMERA)(Wu和Smyth 2012)和基因表达定量集分析(QuSAGE)(Yaari等2013)说明基因间的相关性,并显示出更好的表现。未来,相信会出现更可靠的方法。
2.5 通道生物标志物
虽然基因组生物标志物考虑了与相同功能或过程相关的基因组,并且能够检测到具有适度变化的重要基因,但他们通常将基因集作为个体基因的联合并假定它们在功能上是独立的。分子通道表示一组功能相关基因之间的相互作用,并且生物学家们对这比基因组更感兴趣。众所周知,不是个体基因的突变,而是分子通道的功能障碍导致疾病的发生和发展,特别是复杂的疾病。因此,识别那些基础疾病的功能失调途径即途径生物标志物更为合理,与基因生物标志物和基因组生物标志物相比,它可以提高诊断的鲁棒性和准确性。此外,通道生物标志物更易于解释疾病的发展。在Reactome(Joshi-Tope et al。2005)和KEGG(Kanehisa and Goto 2000),Pathway Interaction Database(PID)(Schaefer 等 2009)等公共数据库中,描述基因活性的转录组数据丰富,有可能检测患者中那些异常功能的通道。
受此启发,已经开发了一些计算方法来鉴定与疾病相关的功能失调的途径。例如,Tarca等人(2009)提出了信号通路影响分析(SPIA)方法来衡量在给定条件下扰动对给定通路的影响。当应用于癌症数据集时,SPIA优于GSEA并成功识别已知参与癌症的途径。后来,瓦斯克等人(2010)开发了一种概率图形模型,称为PARADIGM,用于识别多形性胶质母细胞瘤(GBM)患者特异性通路活性。 PARADIGM能够整合不同类型的组学数据,并识别那些活动在患者中显着改变的途径,并且与SPIA相比,可以检测到更少的假阳性。最近,Haynes等人(2013)提出了一种新的方法,称为通路差异表达分析(DEAP),以确定疾病相关通路。与其他现有方法相比,DEAP能够检测通路中差异最大的部分。 DEAP成功地确定了与慢性阻塞性肺病和干扰素治疗有
全文共9535字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[10790],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。