映射至基因组Mapping_第1页
映射至基因组Mapping_第2页
映射至基因组Mapping_第3页
映射至基因组Mapping_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、映射至基因组(Mapping ) 第一步的工作是比对(alignment)。对于RNA-seq的比对,从来都不是一件容易 的事情。其难点如下: 1. 没有很好的比对棋板。现在的比对棋板都是基因组模板,而不是真正的转 录组棋板,也就是说,这对本来就不是很长的短序来说, 它很有可能是界 于两个exon之间。我们在比对junction的时候,一般还是假设它如果没 能在基因组模板中找到合适的位置的时候, 才考虑它是否是界于junction 上。这种人为的假设可能并不准确。 2. SNPs,碱基插入,删除,错配,或者质量不高的测序结果,从棋板至比 对序列本身,都存在着比基因比对更为复杂的问题。 3. 短

2、序可能会有多个100%的匹配位点。 4. 有些基因组可能需要庞大的内存空间。 为了解决最后一个问题,人们使用了很多办法,但基本上都会基于事先建立的引 索库。即所谓 启发式”比对(heuristic match)。首先使用一定长度的(通常是11 个碱基)的序列做为索引用的关键字,在匹配这一索引字之后,就很大程度地缩 小了其需要匹配的棋板范围。但是这一办法的问题在于不容易解决问题 2中的空 格,错配问题。所以在很多软件使用时,会要求人工确认高保真区,以及最高允 许2?3个错配。 现在比较快的 启发式”比对主要有两种算法,一种是哈希表(hash table), 一种是 BW压缩转换(Burrows

3、Wheeler transform, BWT)。前者速度快,但是对内存要 求比后者要高。 对于问题3, 一股而言,大部分软件使用的办法是只保留一个匹配位点,其中, 有些是只保留第一个匹配位点,有些是按照概率分布选取保留的位点。 当然,前 面已经提到过,可以使用 paired-end read来尽量避免问题3的出现。 对于问题1,可以使用外显子库来确定junction reads。有两种办法,一种是依 靠已知的外显子库来构建,另一种办法就是依据已经匹配好的短序来构建外显子 库(de novo assembly of transcriptome)。后者的不足是运算量大,对测序覆盖范 围要求高,最好

4、是使用 paired-end reads。 还有人发现,对于ploy(A)的处理会减少不能映身的短序数。 比如,Pickrell et al. 就发现,对于46bp的Illumina reads , 87%的短序可以映射至模板,7%可以映 射至junction library。如果对那些不能映射的短序,将在头或者尾含有的超过连 续4个的A或者T去除,就可以得到约0.005%的映射。 综合评价(Summarizing mapped reads ) 这一步,主要是基本于不同水平(外显子水平,转录水平,或者基因水平)进行 统计。最简单的办法就是统计落在每个外显上的短序数。 但是有研究表明,很多 (可

5、能超过15%)的短序会落在外显子两侧,这会影响统计的结果。另一种办 法就是统会落在内显子区域的短序数。 无论如何,即使是基因水平的综合评价,也还是有其它的一些问题。比如 overlapping的基因的统计。比如junction的统计。 标准化(Normalization ) 标准化对于样品内及样品间的比较而言是非常重要的。 标准化被分为两类,样品 内及样品问(between- and within-library )。 样品内标准化使得在同一样品内不得基因之间的表达差异变得有意义。 最常用到 的一个办法就是使用落在同一基因内的短序数除以单位基因长度。 比较常用的单 位是 RPKM (reads

6、 per kilobase of exon model per million mapped reads)。但是这 一方法也受到样品制备和测序方法的十扰。 而对于样品问标准化,最简单而直接的办法使用短序总数来平衡表达量。 然而短 序总数受测序深度的十扰,而且单个基因的短序数与实际的表达量并不一定会呈 线性比较关系。人们乂使用四分位(quantilenormlization)标准化的办法。但是有 研究说这一办法并没有实际的价值。还有提出使用对数分布法则 (power law distributions)来进行样品问标准化。但没有研究对这一处理方式进行验证。 差异表达(Differential e

7、xpression ) 差异表达分析的最终目的是将那些差异表达的基因(外显子等等)从海量数据中 提取出来。最终的结果显示一般来说是表格化的,这一表格按照一定的规则排序, 让人们能够尽可能简单地拿到想要的结果。 由于RNA-seq结果的离散性,人们一般都会使用统计模型来拟合实验得到的结 果。一般而言,RNA-seq的结果是比较附合伯松分布 (poisson distribution)的。 这一结果得到了单通道Illumina GA测序结果的实验验证。但是,伯松分布分析 结果常常在多组重复的样品问带来较高的假阳性,因为它低估了生物取样的样品 间误差。所以RNA-seq如何设置重复是一个很重要的问题

8、。为了平衡重复样品 所带来的误差,人们使用了 serial analysis of gene expression (SAGE) data。 现有的软件一般都是针对较为简单的实验设计的。 而对于复杂的实验设计,比如 说成对样品,时间依赖样品等等,还没有专门的,较好的解决方案。大多数都使 用edgeR的线性模型来进行分析。 后期系统生物学分析 简单地讲,前景是广阔的,但目前为止手段还是比较有限的,基本上就是 GO分 在转录组高通量测序数据分析过程中, 主要就是转录本的构建(拼接)及表达水 平的衡量,其次还包括可变剪接之类的转录后修饰等研究分析。因此,做过 RNA-seq转录组测序数据分析的童鞋们

9、一定使用过或至少听说过 Cufflinks这个 软件。 Cufflinks是加利福尼业大学伯克利分校数学和计算机生物实验室, 由LiorPachter 领导的StevenSalzberg 团队,和马里兰大学生物信息和计算机生物中心的 Steven Salzberg小组,以及加州理工学院的 Barbara Wold实验室联合作用的结 果。Cufflinks利用Tophat比对的结果(alignments)来组装转录本,估计这些 转录本的丰度,并且检测样本间的差异表达及可变剪接。这个软件其实是个套装, 包括四个部分分别命名为:cufflinks、cuffcompare、cuffmerge 及 cu

10、ffdiff。 tophat-Cufflinks-cuffdiff转录组分析大致流程如下: 第一步,利用tophat/bowtie比对结果(bam格式)及参考基因组构建转录本, 最终的转录本是以gtf格式保存的。 第二步,Cuffcompare主要是对两个或多个转录本集合中转录本相似情况的比较, 例如将第一步构建出的转录本与 ENSEMBL数据库中的转录本进行比较,评估转 录本构建情况,此外,根据构建的转录本与已知 ENSEMB L数据库中的转录本的 相对位置定义了一系列分类,例如内含子区域、反义、基因问区域转录本等等近 10种分类。 第三步,cuffmerge是将多个转录本集合合并成一套转录

11、本集合,例如将在多个 组织样本中构建的多套转录本合并成一套转录本, cuffmerge能够很好地完成去 除冗余。 第四步,cuffdiff衡量两个或多个样本问差异表达的基因,例如癌症与正常组织 间差异表达的转录本,此外还能衡量差异可变剪接体。 至此,转录本测序常规数据分析基本结束,接下来进行实验验证或深入数据分析。 OK,如果对cufflinks的流程理解没问题的话,现在问题来了! 在tophat-cufflinks -cuffdiff流程中,第一步对每一个样本会产生一个的 gtf 格式的转录本,因此若有n个样本就会有n个gtf.但是在对n个样本之间做差 异表达分析时,由于各样本之间的转录本集

12、合不相同。在做 cuffdiff时,却要求 输入一个gtf,以便对该gtf文件中转录本在不同样本间进行差异分析。 因此需要 将n个样本的gtf文件合并成一个。问题是,cufflinks有cuffcompare和cuffmerge 两个合并转录本的方法,这是应该选用那个?这两个有什么区别? 个人理解及经验分享: 这是所有初做NGS分析的很因惑的问题,事实上,对于多个样本构建的多套转 录本,如何得到统一的一套转录本,有下面三种方法: 1在转录本拼接之前,把各样本的比对 bam文件合并,然后用合并的 bam跑 cufflinks 2每个样本的比对bam文件分别单独跑cufflinks ,各样本的转录

13、本构建后,再 用 cuffcompare 合并为一套转录本。 3每个样本的比对bam文件分别单独跑cufflinks ,各样本的转录本构建后,再 用cuffmerge 合并为一套转录本。 这三种做法区别在于: 第一种方法流程相对简单,所有的工作都抛给 cufflinks 一人完成,你都不需要 知道cuffmerge、cuffcompare的用法。貌似是种完美解决方案。但很大的问题 是:cufflinks能处理得了最终合并的bam吗?对于小物种的样本还可以,但对 于人,若是7, 8个样本合成的bam , cufflinks吃不销! 第二和三种方法是类似的,都是在保留可变剪切结构的前提下,将转录本合并。 不同的是,cuffcompare只有A、B两条转录本结构相同的时候,才将A、B合并。 而cuffmerge是A、B某些部分互相overlap,就将它俩合并。事实上,cuffmerge 再做合并的时候,是把 overlap的transfrag 重新调用了 cufflinks ,合成一个 tran

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论