英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
对从全基因组SNP基因分型平台得到的基因组波信号强度的调整(滤波)
摘要:在全基因组芯片具有大量插入克隆片段的设计,这往往说明在相关的克隆的基因组位置DNA拷贝数在杂交强度上是变化的。我们在Illumina公司和Affymetrix的SNP基因分型阵列发现这些“基因组波”,并且确认他们不是特定于平台。该基因组波产生的原因并不是很好理解,他们可能会阻止副本准确推断数变异(CNV)。通过测量1444样本上的同一个样品多次与不同的DNA数量的DNA浓度和基因分型,我们发现,DNA相关波的幅度与此有关。考虑多个基因组的功能,我们进一步发现该波浪信号模式最相关的GC内容。为了测量波的幅度,我们设一个GC-波因子(GCWF)量度,表示DNA量的可靠的预测(基于相关连续波的稀释采样系数= 0.994)。最后,我们开发了一种通过拟合回归模型GC含量,包括将它作为预测变量的计算方法,我们认为,这种方法提高了CNV的检测的准确性。随着SNP基因分型技术在全基因组上的广泛应用,我们的滤波方法将是重要的充分利用基因分型的样本进行CNV分析的方法
引言
许多基因组学应用和整个基因组的信号探针的强度的试验有关,并从这些检查不同的染色体区域信号强度的的信号推理基因的增减变化。这些探头差别很大,在基于阵列CGH进行的大小不等的几百个碱基对传统BAC克隆试验中,几十个对于寡核苷酸阵列和高密度碱基对单核苷酸多态性(SNP)基因分型阵列。通常情况下,一个信号强度测量表示计算每种探针或每个探针组,这些强度值用来制造收益或进行基因组的损失推理。各种数据标准化技术被开发,以更好地总结的强度值标记之间和实验数据之间的关系,并准确地捕获通常被称为拷贝数变异(CNV)的基因组得失。
近年来,随着高分辨率的CNV检测方法越来越普遍的应用,全基因组的空间自相关或者信号强度数据波模式可以用来精确发现CNV 干扰。我们使用术语“基因组波”来指代这些在所有的染色体的试验样本,在这里的不同的信号强度样本可能表现出波纹高度变化的幅度。这一现象以前被观察到,但却第一次在CNV检测方法中正式说明。之前所述的基因组波存在并用于CNV的全基因组拼接路径阵列检测,可以证明波状图案似乎是一个“aCGH数据的一般特征设置“的表示。他们开发了一种基于LOWESS回归的方法以“破”浪和改善CNV调用。此外,高村等人也描述了Affymetrix阵列的波状图案中的信号强度,他们通过图序列特征(GIM)算法等方法降低探针在基因组失衡地的信号噪声。也描述了在利用Affymetrix公司的SNP阵列研究癌症基因组CNV类似现象,并且通过赔偿的目的不同的PCR条件,调节PCR产物的长度和GC含量二次回归。
除了CGH平台阵列,其他检测CNV类似性质的平台也可能受到基因组波的影响。在我们使用的Illumina公司HumanHap550阵列基因分型实验中,我们观察到明显的基因组波样品的多批次性。在我们的研究中,对于商业DNA样品细胞库,在 BeadStudio软件上可以视觉上辨认,一般10%显示出强劲的波浪图案。基因组波的存在可能对CNV调用算法的性能产生不利影响,并且可能导致膨胀的假阳性的呼叫。综合分析在几个SNP基因分型平台强度图案,研究基因组波的原因,找出方法来减少来自两个上述试验波计算领域的错误,这是非常吸引人的。
在目前的研究中,我们首先执行的是比较分析在几个不同的基因组波中的高密度SNP基因分型阵列,并确认基因组波是不是一个特定于平台的现象。接下来,我们进行本地基因组的探索性分析功能(如GC含量,基因含量和节段性重复模式),寻找潜在的基因组功能与相关基因波。我们通过检查DNA潜力波的技术原因降解或蛋白污染来调查,并且通过测量来自同一样品连续稀释液来评估冲击DNA的数量。这些实验使我们能够确定研究基因组DNA样品的属性波并找到降低基因组波的实验方案。最后,我们提出了一个方法来计算减少的基因组波的影响,并通过结果表明,该方法减少的波状图案信号强度和改善CNV的准确性。
方法
基因分型方法
利用Illumina BeadChip芯片分型的所有的DNA样本是一个持续的全基因组关联研究的一部分神经母细胞瘤,满足在别处所述的严格的质量控制。根据BeadChip芯片(Illumina公司,圣地亚哥,CA,美国)方法利用Illumina进行基因分型的Infinium TM II HumanHap550在别处可以详细找到。所有的DNA样品调查由光密度分光光度法来测定质量和颜色,样品判定是在有足够质量用于基因分型在被测定中心应用基因组学的儿童医院费城进行。Illumina公司HumanHap1M阵列和Affymetrix公司制图对个人HapMap项目生成500K阵列提供对于基因分型的信号强度数据。基因分型的信号强度数据是从在费城医院收集招募儿童而生成的Affymetrix基因组范围的6.0阵列。在稀释实验中,不同数量的DNA(187.5,375,750,1500和2250纳克)从匿名个体被用于由Illumina公司HumanHap550阵列基因分型。
LOGR比率的推导的信号强度测量
LRR值是Illumina公司为设立一个标准化的信号强度标准最初开发的。对于每个SNP,把该信号强度A和B等位基因分别表示为X和Y,。然后,我们可以计算出R值作为Robserved = X Y。作为总信号强度的归一化的方法,LRR结构然后是计算log2(Robserved / Rexpected),其中Rexpected表示从规范的线性插值来计算基因型簇。对于Illumina的SNP阵列,该LRR值可以直接计算,并从BeadStudio软件输出。对于Affymetrix公司的阵列,我们首先提取等位基因特异性信号强度值(X和Y),由以下Affymetrix电动工具(http://www.affymetrix.com/support/developer/powertools/index.affx),使用构建规范的所有样品基因型集群,并计算LRR值。Affymetrix公司的全基因组6.0和Illumina公司HumanHap1M数组包含非多态标记,以提高基因组覆盖程度。对于每一个非多每个样品中标志物,我们采取所有的中值样本作为用于计算LRR的Rexpected值。
基因组功能分析
我们使用了非重叠窗口的方法测试在每个中值信号强度值是否有特别的基因组功能,包括窗口归属关系GC百分比,片段复制,基因的内容,外显子的内容,简单重复和保守的基因组区域。所有这些功能都注明在UCSC基因组浏览器注解数据库中。GC百分比数据在gc5Base表中;节段检索复制数据是在检索genomicSuperDups表;基因内容注释在refGene表,外显子注释被检索在refGene表,简单重复检索注解在simpleRepeat表中。检索最保守的基因组区域的注释是从phastConsElements28way表中检索。我们设切片基因组为10 KB,100 KB和1Mb的不重叠视窗;对于每个窗口,我们计算的分数都属于每个注释区域内的基本的基因组功能。少于三个单核苷酸多态性的窗从分析中排除。然后,我们计算出正中LRR之间的相关系数,并在在整个基因组的窗口注释每个碱基。
波因子和GC-波系数的推导
为了量化基因分型样品的信号变动的幅度,有必要开发一种方法度量波纹度。这一措施应该不在CNV的存在下(其产生极值信号强度测量),甚至是在不同的阵列之间标记的密度(例如,Illumina公司HumanHap300,HumanHap550和HumanHap1M数组)。我们已经开发出一种基于中值绝对偏差信号强度称为分波因素(WF)的方法。我们计算在基因组中的每个1Mb的不重叠的窗口的平均信号强度值(归一化信号强度为LRR值),并表示它们作为Yi(i = 1至3000用于人类基因组)。含有少于10个SNPs的窗被排除在外。然后我们计算平均信号强度和本地GC含量之间所有窗口的相关性,并表示这个值作为RGC。在这个研究中,用11号染色体上的所有窗进行计算。WF分数被定义为SWFfrac14;D1,等式的第一部分被用于分配的该SWF符号,以帮助区分不同的方向性波。所述第二部分涉及的中值绝对偏差计算,这是一种类似的算法的常用平均绝对偏差,但极值在结尾很少出现。因此,即使在大的CNV的基因分型的样品中的存在误差,该部分上WF得分的影响将被减少或消除,因为这些区域中的波用分布的尾部表示。每个特定的变异样品的信号强度可能是由于多种原因,GC含量只能解释WF的部分变性。为了量化归因于所述的信号变动产生的当地GC含量,我们开发了一种名为GC-波因子(GCWF)的参数。这项措施仅仅是产生的WF值和RGC的绝对值。直观上,WF和GCWF参数可以这样理解:WF表示信号变动,但是GCWF是更弹性比标准差衡量的异常值。研究方可以把GC含量作为方差由解释分数。而GCWF是汇总本地GC的信号波动的解释内容。
信号调整回归模型
我们开发了一个通过基因组波来调整信号在每个标记样品强度值的影响的简单的统计方法。不同于“平滑”回归基础那些试图从相邻借用调整标志信息的方法,我们的方法调整每个分管信号强度中的相邻的标记,因此对消除噪声找到真正CNV边界有很大帮助。假设一个样品中的标记有M个(例如,M =550K为Illumina公司HumanHap550数组)基因分型。我们将收集所有M常染色体标记物,其中至少1Mb的数据从中选出(例如,M =3K为Illumina公司HumanHap550数组)。这种方法减少响应变量的数目在回归模型中的影响,并消除了由于共存标记之间的依赖造成的潜在的相同的基因组区域。对于每个m个标记,我们收集其LRR值LJ(J = 1,...,M)和周围的1兆窗口GC百分比标记,然后配合线性回归模型:
其中,模型参数和利用最小二乘法估算。为了降低标记物在回归系数CNV区域内的效果,我们制约了分析标志物之间的LRR值,获得这些估计的回归参数后,对于每个基因分型阵列中M个标记,然后我们基于预期的信号强度值计算在周围的1MB的窗口中GC比例标记。调整后的信号强度值则简单地计算为所观察到的LRR值减去预期值(残留在回归模型)。该程序信号调整的实施PennCNV封装,可在http://www.openbioinformatics.org/penncnv找到。调整程序作为可以外部使用一个独立的应用程序PennCNV可以直接使用,并且也已直接掺入在CNV调用内PennCNV过程。
验证CNV定量PCR
在48个样品系统中,CNV区域的拷贝数被实时定量检查(应用生物系统公司,福斯特使用SYBR绿色染料市,CA,USA)。对数据采用PrimerExpress2.软件设计(可根据要求序列)。该Ct方法被用来通过在两个副本设置一个正常的数字编号量化基因组拷贝。 对全部CNV区域和所有样品,定量拷贝数通过估计1.0E-6到3.8E-4零复制的基因组区域,0.79-1.33为一个副本,1.58-2.52对于两个副本,2.63-3.36为三个副本,3.62-4.72为四份,因此牵连的高精确度Q-PCR检测验证CNV。
讨论
在这篇文章中,我们介绍了基因组波的冲击,并研究一些使用高密度SNP基因分型平台产生的信号强度的数据,探讨底层机制以及他们的存在。我们的实验为实现Illumina公司的Infinium平台准备最好的基因分型数据的质量分析说明了DNA的重要性,这是有可能的情况下为其它微阵列平台所共用,如Affymetrix公司的平台。此外,我们发现,我们的计算方法可以减少基因组的影响波和打捞数据、分析CNV波浪。
我们提出了两个措施来解决任何波状图案基因分型的样本。这些措施的主要优点是它们不依赖于外部数据模型或参考样品,并可以应用到许多不同的技术平台和不同阵列设计。我们进一步研究GCWF度量与强相关DNA的量,并且可以用来评估是否有效性的降低基因组波。此外我们有也尝试过自相关的其他措施,如GCWF,包括相邻的标记的信号强度的相关性与滞后1,滞后10,滞后100和500滞后距离。虽然,自相关性确实反映附近标记物相关趋势(含正值),它们因为DNA数量等原因不利于评价波的幅度或方向性。
虽然我们已经应用我们的方法来纠正基因组在Illumina的平台波,这种方法可能容易地扩展到其他全基因组阵列,如阵列CGH与BAC克隆或全基因组寡核苷酸阵列。不像SNP基因分型阵列,这些阵列利用非多态的探针杂交,然而,数据规范化技术(尤其是LRR的)推导仍然可以应用于这种用于减少变异横跨标记的方法,然后用数据建立回归模型对信号强度进行调整。同样,对于SNP基因分型与非多阵列标记,LRR结构的值也可以用同样的多重采样正常化的做法推导。与先前使用的描述的从每个样品内的相邻的标记的信号采集信息“平滑”技术的方法相比,我们的方法有利用周围的基因组区域的GC含量信息的优势。我们的的做法是,无论周边标记是否存在在相同的测试样本,在测试样品中的每个标记独立地调整,使得CNV真的边界上的任意一个测试样品不会被邻近的影响正常拷贝标记。此外,不同于调整“平滑”信号强度的方法,我们的模型是建立在全基因组的GC分布上的,这是对每个样品相同的处理,可以有效利用更多可用信息,以提高模型的构建效果。最后,即使单有成千上万的标记染色体,利用LOWESS回归计算都不得按比例增长。不同于平滑的方法,我们的方法仅使用至少有1 Mb远的常染色体记物建立回归模型。虽然这种简单的方法规避了相邻标记之间的依赖问题,也提高了模型的稳定性,但值得关注去弄清楚这个依赖问题。我们测试在图2中使用的10个不同集上的两个样品的标记的构造模型,并发现该回归模型参数相当稳定,并且几乎不受使用的不同标记的影响。由此产生的GCWF调整后数值几乎是一致的。
我们分享一些与N
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[151316],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。