英语原文共 19 页,剩余内容已隐藏,支付完成后下载完整资料
目录
读前须知:
转录本(transcript):也称为剪切体,由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA。一条基因通过内含子的不同剪接可构成不同的转录本。设计转录本实验可以研究内含子剪切机制、表观遗传、RNA编辑等。通常是考察一条基因对应的不同转录本的调节机制等。
基因座(locus,loci):又称座位。基因在染色体上所占的位置。在分子水平上,是有遗传效应的DNA序列。形象地说,一对染色体可想象为两条平行线,染色体上一个给定的位置,好比两平行线上的一点或一段,叫做基因座。一个基因座可以是一个基因,一个基因的一部分,或具有某种调控作用的DNA序列。基因座与位点(site)不同,后者是一个顺反子内部的突变位置,可以小到一个核苷酸对。
重叠群((contig):彼此可以通过末端的重叠序列相互连接形成连续的DNA长片段的一组克隆。
RPKM(Reads Per Kilobase per Million mapped reads):代表每百万reads中来自于某基因每千碱基长度的reads数。RPKM是将map到基因的read数除以map到基因组上的所有read数(以million为单位)与RNA的长度(以KB为单位)。
RNA-seq是二代测序技术中用来表示基因表达量或丰度的方法。在衡量基因表达量时,若是单纯以map到的read数来计算基因的表达量,在统计上是不合理的。因为在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为表达量较高,而错估基因真正的表现量,所以Ali Mortazavi等人在2008年提出以RPKM在估计基因的表现量。
FPKM(Fragments Per Kilobase of exon model per Million mapped reads):每1百万个map上的reads中map到外显子的每1K个碱基上的片段个数。
FPKM计算的是片段(fragments),而RPKM计算的是数据(reads)。Fragment比read的含义更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个read。FPKM和RPKM RPKM代表每千个碱基的转录每百万映射读取读取。 FPKM代表每千个碱基的转录每百万映射读取的碎片。
利用Trinity平台从RNA-seq进行从头转录本序列重建以生成参考信息并分析
摘要
从头组装RNA序列数据可以使研究者在不需要基因序列的情况下研究转录组学。这种方法可以被有效利用,比如,在非模式生物的生态和进化重要性,癌症样本或者微生物组。在这个协议中我们介绍了Trinity平台在非模式生物RNA序列数据的从头转录组组装的使用。我们也展示了Trinity支持的配套工具,用于下游应用,包括RSEM(转录丰度估算),R/Bioconductor 包用于在样品中鉴定差异表达的转录组,以及提供鉴定蛋白质编码基因的方法。在程序中,借助Trinity平台,我们提供了一种不需要基因组的转录组学分析工作流程。软件,文件和演示可以在http://trinityrnaseq.sourceforge.net免费获得。该协议的运行时间高度依赖于被分析数据的大小和复杂度。在本文详述的过程中分析的示例数据集可以在不到5小时的时间内处理完成。
介绍
基因组(DNA-seq)和转录组(RNA-seq)的高通量测序为研究存储在任何生物体中的基因和功能信息以前所未有的规模和速度开辟了道路。例如,RNA-seq原则上可以同时研究转录物结构(例如可变剪接),等位基因信息(例如SNP)和高分辨率和宽动态范围的表达[1]。这些进展极大地促进了遗传信息或研发资金有限的物种(包括许多非模式生物)中的功能基因组学研究,尽管这些生物被广泛研究,但仍具有重要的生态或进化意义。
尽管许多基因组学应用传统上依赖于高质量基因组序列的可用性,但此类序列仅针对极少数的已知生物体。此外,由于基因组的大小和重复内容,在许多情况下对基因组进行测序和组装仍然是一项昂贵的工作。相反地,由于仅转录了基因组的一小部分,RNA测序数据可提供迅捷且便宜的“快速通道”(任何实验室都可以达到),以描绘出用于下游应用的参考转录组,例如比对,系统发育或标记构建。确实,即使在全基因组测序项目中,RNA测序也已成为鉴定转录基因和注释外显子结构的重要证据。
要充分发挥RNA-seq的潜力,就需要一种计算方法,即使在没有基因组序列的情况下也可以组装转录组。存在两种将原始RNA-seq数据转换成转录本序列的主要方法:在基因组序列的指导下组装或从头组装[2,3]。基因组指导下的转录组研究方法已迅速成为模型生物RNA测序分析的标准方法,并且有一些对应的软件包[4,5]。但是,这种方法不能应用于不存在完整组装的基因组的生物,即使对于具有良好组装的基因组的生物,结果也可能因基因组组装版本而异。在这种情况下,需要一个从头开始的转录组汇编程序。但是,转录组的组装过程违反了许多为应用基因组DNA数据而开发的组装程序所依赖的假设。例如,一致的覆盖范围和“一个基因座-一个重叠群”范式对RNA是无效的:准确的转录组汇编程序将为每个不同的转录本(异构体)而不是每个基因座生成一个重叠群,并且不同的转录本具有不同的覆盖率,反映了它们不同的表达水平。
现在有几种可用于从头组装RNA序列的工具。Trans-ABySS[6],Velvet-Oases[7]和SOAPdenovo-trans(http://soap.genomics.org.cn/SOAPdenovo-Trans.html)都是早期开发的基因组组装程序的扩展。之前我们介绍了一种新型的转录组组装替代方法,称为Trinity[8]。 Trinity将RNA-测序数据划分为许多独立的de Bruijn图(理想情况下一个图有一个表达的基因),并使用并行计算从这些图重建转录本,包括可变剪接的异构体。 Trinity可以利用特定链的Illumina末端配对库,但也可以容纳非特定链的和单末端读取的数据。Trinity通过一个简单直观的界面即可准确地重建转录本,几乎不需要参数调整。几项独立研究表明,Trinity与替代方法(例如,参考文献[9-11];DREAM项目的替代剪接挑战,http://www.thedream-project.org/result/alternative-splicing)相比,非常有效。Grabherr等[8]在相对较短的时间内(自2011年5月在线发布以来)获得了大量引用,进一步证实了Trinity的可用性。Trinity的使用者研究了来自生物界的各种模式生物和非模式生物,它们来自小型实验室和大型基因组计划(例如,豌豆蚜基因组注释v2; Fabrice Legeai(国家农学研究所(INRA)) )和Terence Murphy(参考序列国家生物技术信息中心(NCBI),和A.P.的个人通讯)。
Trinity也拥有活跃的开发人员社区,极大地增强了其性能和实用性(请参见http:// trinityrnaseq.sourceforge.net)。例如,尽管第一个发行版的运行时表现在计算上效率不高[11],但Trinity开发人员社区通过提高并行度和改进算法,提高了效率,将内存需求减少了一半,并提高了处理速度(Henschel等人[12]和M.O.,未发布的数据)。此外,Trinity已转换为模块化平台,该平台可无缝使用第三方工具(如Jellyfish[13])来构建初始k-mer目录。集成到Trinity中的其他第三方工具增强了其重组转录组的实用性。例如,Trinity现在支持工具(例如RSEM[14],edgeR[15]和DESeq[16]),这些工具可以获取其输出记录并测试差异表达,同时考虑变异的技术和生物学来源[17-19]并校正多个假设检验。鉴于Trinity自发布以来的受欢迎程度和重大改进,提供利用其各种功能的详细程序是非常重要的。我们在此介绍的程序将进一步扩大Trinity在非模式生物研究中的用途。
Trinity RNA-seq汇编程序概述
Trinity的组装流水线由三个连续的模块组成:Inchworm,Chrysalis和Butterfly(图1)。我们强烈建议用户首先阅读Trinity的第一本出版物[8],以详细了解该方法,我们将在此简要介绍一下。
首先,从RNA-seq读数中提取所有重叠的k-mers。然后,Inchworm检查每个独特的k-mer的丰度降序,并使用基于(k-1)-mer重叠的扩展来生成转录重叠群。Inchworm通常会生成占优势的异构体的全长转录本,但只报告选择性剪接的转录本的独特部分。这种操作方法适用于重复序列(例如转录组)大量不足的数据集。
接下来,Chrysalis首先将相关的Inchworm重叠群群集为组件,并使用原始读取在共享读取支持和配对读取链接的基础上(如果可用)对脚本进行分组。此过程将可能源自选择性剪接的转录本或紧密
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[246023],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 通过高效供应一碳单位提高工程大肠杆菌中L-蛋氨酸的产量外文翻译资料
- 基于功能组学分析嗜热真菌嗜热毛壳菌纤维素降解机制外文翻译资料
- 采用原位分离丁醇的方式提高菠萝叶木质素水解物发酵产丁醇的量外文翻译资料
- 含锆金属有机框架和微波加热,将葡萄糖转化为5-羟甲基糠醛外文翻译资料
- 零价纳米铁颗粒和根际微生物对白柳植物修复能力的影响极其响应外文翻译资料
- 超声辅助深共晶溶剂萃取法绿色高效提取黄酮类化合物外文翻译资料
- 工业发酵过程中微生物竞争优势的代谢工程外文翻译资料
- w-转氨酶级联反应的最新进展外文翻译资料
- Bi2WO6微/纳米结构:合成、改性及可见光驱动光催化应用外文翻译资料
- 磷酸氧阴离子修饰的Bi2WO6/聚酰亚胺复合材料对四环素的太阳光催化降解外文翻译资料