英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料
利用差异分析识别生物标记物
摘要 疾病的发生和发展是一个复杂的过程,涉及基因突变和环境影响。疾病生物标志物(生物标志物)是致病过程的生物学特征,其可以帮助做出诊断或预后决定,从而可以采取必要的干预措施来预防疾病的发展。在后基因组时代,随着各种组学数据的积累,有可能识别出有助于诊断和开发有效治疗的分子生物标志物。在本章中,我们总结了基于不同类型的组学数据鉴别生物标记物的最新进展。差异分析是生物学中非常强大并且广泛使用的方法,其通过比较在不同条件下产生的分子数据集来识别生物标记物。特别地,我们关注基于分子网络识别生物标记物的方法,其考虑了不同生理条件与网络拓扑结构之间的差异。
关键词:基因生物标志物、基因组生物标志物、组学数据、通路生物标志物、网络生物标志物
2.1 绪论
通常由基因突变或(和)环境影响引起,涉及各种生物过程。疾病风险的早期诊断可以帮助预防疾病的发展,疾病状态的准确预测可以在情况良好时避免不必要的治疗,同时对不良情况采取及时的干预措施。疾病生物标志物(生物标志物)是致病过程的生物学特征,其可以帮助做出诊断或预后决定。生物标志物可用于预测某些人群的疾病风险,从而可以采取及时干预来预防该疾病。此外,生物标志物可以帮助鉴定异质性疾病的亚型,例如,乳腺癌,以便采取适当的治疗策略。在过去的几十年中,随着分子生物学和生物技术的发展,大量的分子数据可以公开获得,这使得可以作为生物标记物的特定分子的识别成为可能。例如,激素受体ER(雌激素受体)和PR(孕激素受体)可用作预测患者对内分泌治疗反应的生物标志物,而HER2致癌基因可作为浸润性乳腺癌的生物标志物并预测患者的存活(Ross 2009)。
尽管分子生物标志物取得了成功,但鉴于人类基因组中20,000多种基因编码约30,000种蛋白质,同时蛋白质之间发生着复杂的相互作用,因此识别出可靠且有用的生物标志物并非易事。最近,随着生物技术的快速发展,特别是在高通量技术中,全基因组筛选使分子生物标志物的有效识别成为可能。特别是,各种“组学”(例如基因组学,转录组学和蛋白质组学)数据的积累使人们能够识别可预测疾病风险的潜在基因生物标志物(Joyce和Palsson,2006)。例如,基于疾病群体与正常/对照群体的比较,全基因组关联研究(GWAS)能够提供与疾病相关的遗传变异。在具有里程碑意义的威康信托案件控制联盟(WTCCC)(2007)研究中,许多DNA变异和基因被鉴定为与七种常见疾病相关。转录组特征能够监测数万个基因的表达,其中在不同生理条件之间差异表达的那些基因通常被认为是用于诊断和预后的潜在生物标志物。在他们的关键工作中,Golub et al.(1999)根据基因表达谱识别了基因生物标志物,这些基因生物标志物可以成功地区分急性骨髓白血病(AML)急性淋巴细胞白血病(ALL)。
尽管这些基于组学数据而被识别的基因生物标记物取得了一些成绩,但是大多数基因生物标记物不可靠并且具有较差的再生性,在同一疾病中,从一个数据集识别的生物标记物有时不能在另一个数据集中使用。这种现象的产生是因为许多疾病特别是复杂的疾病,被公认为是生物系统失调的结果,而不是单个基因的突变,而基因通常假设生物标志物在功能上彼此独立。因此,有必要从系统的角度识别生物标志物。分子网络,包括蛋白质间相互作用网络,基因调控网络和代谢网络,可以准确地描述生物系统(Barabasi和Oltvai 2004),从而提供了一种在系统水平上预测生物标记物的替代方法。从分子网络中识别的生物标志物可以提供对疾病分子基础的深入了解,并有助于开发有效的治疗策略(Barabasi et al. 2011)。例如,随着在癌症中网络生物标记物的识别,Chen et al.(2011)成功预测了乳腺癌的转移。
在本章中,我们通过基于不同类型的组学数据的差异分析来调查生物标志物识别的最新进展,其中通过比较在不同条件下产生的分子数据集来识别生物标志物。在这里,生物标志物的范围包括基因、基因集、通路和网络。特别地,我们重点关注利用分子网络识别生物标记物的方法,并将不同生理条件和网络拓扑结构之间的差异考虑其中。
2.2生物学差异分析
差异分析是一种广泛使用的方法,用于鉴定生物学中的生物标记物,其中跨越不同物种或条件的生物学特征的差异被广泛研究,例如基因或血压,并且那些显著改变的生物学标志物将被视为生物标志物。在本章中,生物标志物被称为分子生物标志物,范围从基因到基因集/通路和网络。
如图2.1所示,可以基于不同类型的数据识别分子生物标志物,其中所得到的生物标志物范围从个体基因到基因组和网络。目前,关于不同主要疾病的大量组学数据是公开可用的。例如,患者的基因表达数据可以从高通量基因表达数据库(Barrett et al. 2009)和ArrayExpress(Parkinson et al. 2009)中检索,蛋白质间相互作用数据可以在BioGrid(Stark et al. 2006)和STRING(von Mering et al. 2005)数据库中免费获得。通路知识可以在KEGG(Kanehisa和Goto 2000)和Gene Ontology(Ashburner et al. 2000)中找到。受到丰富的公开可用数据启发,已经提出了许多计算方法来通过进行差异分析来识别生物标记物。在本章中,我们将重点放在转录组数据和蛋白质间相互作用的差异分析上。那些对从基因组和代谢数据中识别生物标志物感兴趣的读者可参考基于全基因组关联分析GWAS(Manolio et al. 2013)和代谢组学(Spratlin 2009)识别生物标志物的评论文章。对于不同类型的数据,生物标记物的识别是不同的。例如,可以通过差异表达分析获得基因生物标志物,通过将一组基因视为实体来识别基因集生物标志物,而通常通过考虑基因之间的功能性相互作用来检测通路和网络生物标志物。
图2.1 基于不同数据的生物标志物的识别
在以下部分中,将介绍用于对不同类型的数据进行差分分析的不同计算方法。特别地,基于它们识别的生物标志物的类型引入这些计算方法。
2.3基因生物标志物
随着存储在公共数据库中的大量基因表达数据的积累,例如 GEO,在病例和对照样本(de la Fuente 2010)之间或不同疾病阶段(Weigelt et al. 2005)之间识别出有着显著差异表达的全基因组基因变得越来越容易。这些差异表达的基因通常被认为是潜在的生物标志物。另一方面,那些能够区分不同条件样品的基因也被认为是重要基因并用作生物标志物。
用于识别基因生物标志物的早期方法通常通过设定阈值来检测差异表达的基因,其中表达变化高于阈值的那些基因用作基因生物标志物。例如,DeRiset et al.(1997)通过设置两倍变化阈值来检测差异表达的基因。不幸的是,在基因表达数据中存在的噪声使得用这样任意设定的阈值检测更多可靠的差异基因成为一项具有挑战性的任务。因此,已经提出了许多统计学方法来检测更可靠的差异基因,例如,非参数方法(Pan 2003)和经验贝叶斯方法(Efron et al.2004),其中大多数方法都是基于统计检验。 Tusher et al.(2001)提出的微阵列(SAM)统计方法的重要性分析是用于确定表达变化的重要性的最广泛使用的工具之一,并且表现出良好的性能。 SAM基于其相对于该基因的重复测量的标准偏差的表达变化为每个基因分配评分,其中具有高于阈值的分数的基因被认为是统计学显著的。后来,Wu(2005)提出了改进的SAM统计数据,该数据利用惩罚线性回归模型来防止因为考虑大量基因和相对少量样本而造成的过度拟合。 SAM及其改进版本都可以看作是普通t统计量的缩小,通常用于将两个条件与复制样本进行比较。在有两个以上的条件时,通过考虑多种因素和/或几种变异来源,方差分析(ANOVA)将更加合适和有效(Pavlidis 2003)。关于检测差异表达基因的统计检验的更多细节参见Cui和Churchill(2003)的综述论文。
除了统计测试之外,基因生物标志物的识别可以被视为特征/变量选择问题,其在机器学习领域中被充分研究,也被称为生物信息学中的基因选择。在基因选择中,目的是选择一小组基因,这些基因可以对疾病与正常或不同病症之间进行良好区分。例如,Golub et al.(1999)确定了一组与急性髓性白血病和急性淋巴细胞白血病之间的类别清晰度最相关的基因,并且当与自组织图(SOM)一起使用时获得高精确度。 Guyon et al.(2002)提出了一种新的基因选择方法即基于递归特征消除(RFE)的支持向量机(SVM),该方法能够消除基因冗余,同时获得更紧凑和合理的基因集。当应用于真实癌症数据集时,SVM-RFE产生更好的分类性能,并且发现识别的基因与癌症在生物学上具有更强的相关性。后来,Zhang et al.(2006)开发了一种用于基因选择的递归支持向量机(R-SVM)算法,与SVM-RFE相比,该算法表现出更好的性能。李等人(2001)提出了一种混合智能方法,结合遗传算法(GA)和k-最近邻(KNN)方法来识别能够区分不同类别样本的基因。随机森林是最近开发的分类算法,它利用分类树的集合,每个树都用数据的自举样本构建(Breiman 2001)。随机森林即使对于噪声变量也表现出优异的性能,并且能够返回变量重要性的度量。当应用于基因选择时,随机森林在识别一小组基因(Diaz-Uriarte和Alvarez de Andres 2006)时显示出与其他流行的分类方法相当的性能。关于基因选择技术的更多细节参见最近的综述论文(Duval和Hao 2010; Saeys et al. 2007)
最近,随着新一代测序成本的下降,越来越多的RNA-Seq数据可用。与微阵列(McIntyre等,2011)相比,RNA-Seq数据能够发现未预料到的转录物,并检测到更少的假阳性转录物。不幸的是,由于微阵列数据和RNA-Seq数据之间的差异,用于检测微阵列中差异表达基因的成熟方法不能立即转移到对RNA-Seq数据的分析。 令人鼓舞的是,为此目的引入了许多工具,例如 DESeq(Anders和Huber,2010),Cuffdiff 2(Trapnell et al. 2013)和edgeR(Robinson et al. 2010)。 有兴趣的读者可以参考最近对不同工具的综合比较(Soneson和Delorenzi 2013)。
2.4基因组生物标志物
上述识别的基因生物标志物通常与感兴趣的表型非常相关并且易于解释。然而,数据中遗留的噪声和模型中所包含的参数可能导致假阳性和假阴性。例如,在检测差异表达基因时,没有一个标准的原则去设定阈值。Pan et al.(2005)表明,不同的阈值选择会造成完全不同的生物学结论。尽管具有显著表达变化的基因更可能与感兴趣的表型相关,但也有许多没有足够大的表达变化的重要基因被丢弃,但这些基因确实与表型有关(Ben-Shaul et al. 2005; Breslin et al. 2004)。
在这种情况下,研究基因组而不是单个基因的基因组分析正在成为解释基因表达数据的趋势,其中同一组中的基因更可能与相同的生物过程相关联。基于知识的开创性方法基因集富集分析(GSEA)是一种基因集分析方法,它基于Kolmogorov-Smirnov统计(Subramanian et al. 2005)对预先定义的基因集的富集进行评分,这些基因集共享共同的生物学功能。通过经验置换测试来评估分数是否显著,该测试校正多个假设检验。与单基因生物标志物相比,GSEA识别出的基因组是对数据有更加合理解释的通路或过程。此外,GSEA可以检测那些具有适度表达变化的重要基因,而不是关注显著性的差异基因。此后,已经提出了许多GSEA的变体,包括非参数富集统计(Barry et al. 2005;Hauml;nzelmann et al. 2013; Tian et al. 2005),电池测试(Dorum et al. 2009; Efron和Tibshirani) 2007; Irizarry et al. 2009),重点基因组测试(Jiang and Gentleman 2007; Wu et al.2010a)。在这些变体版本的GSEA中,Irizarry et al. (2009)提出的简单富集分析(SEA)方法通过假设基因独立性来估计单样本t检验的富集性,其表现出比GSEA更好的性能。然而,基因独立性假设具有其局限性(如Kim和Volsky 2005; Nam et al. 2006; Tamayo et al. 2012; Wang et al. 2008)。用于分析基因集富集的更多统计方法可以在最近的综述论文中找到(Chen et al. 2007; Dopazo 2009; Goeman和Buhlmann 2007; Liu et al. 2007; Nam和Kim 2008; Song和Black 2008)。
最近,我们注意到基因间相关性影响了测试并导致I型错误。为了克服这个问题,已经提出了两种新的方法,即相关性调整的MEan RAnk基因集测试(CAMERA)(Wu和Smyth 2012)和基因表达的定量集分析(QuSAGE)(Yaari et al. 2013),用于解释基因间相关性并有着更好的表现。人们相信将来会出现更可靠的方法。
2.5通路生物标志物
尽管基因集生物标记物考虑了与相同功能或过程相关的基因组,并且能够检测到具有适度变化的重要基因,但它们通常将基因组视为单个基因的联合并假设它们在功能上是独立的。分子通路代表一组功能相关基因之间的相互作用,并且最感兴趣的是生物学家而不是基因组。众所周知,分子通路的功能障
全文共10208字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[1813]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。