




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、DOI:10.3969/j.issn.1005-1678.2017.06.169转录组测序技术研究进展洪奇阳',毕行建2,王大宁I李子真二命海顷夏宁邵3,李少伟12(1.厦门大学国家传染病诊断试剂与疫苗工程技术研究中心生命科学学院,福建厦门361102;2.厦门大学分子疫苗学与分子诊断学国家重点实验室公共卫生学院,福建厦门361102)摘要伴随高通量测序技术的快速发展,转录组测序(RNA-Seq)技术在各个研究领域已经得到广泛的运用。RNA-Seq通过分析不同细胞或者组织转录组的表达情况来揭示细胞的基因表达情况,结构特点和调控规律。近年来基于高通量测序技术的RNA-Seq分析方法发展迅
2、速,涌现出一大批相关的分析方法和工具,如何根据实际需求选择合适的工具和分析流程,成为广大科研人员面临的问题。本文参照近几年在RNA-seq技术研究领域发表的文献,综述了RNA-Seq应用实际过程中涉及的分析方法、软件工具及其选用标准,为相关的研究和应用提供信息和参考。关键词转录组;高通量测序;数据处理与分析中图分类号S813:S8X)5文献标识码AResearchprogressonRNA-SeqtechnologyHONGQi-yang1,BIXing-jian2,WANGDa-ning*,LIZi-zhen1,YUHail,2A,XIANing-shao1*2,LIShao-wei1(1.
3、NationalInstituteofDiagnosticsandVaccineDevelopmentinInfectiousDisease,SchoolofLifeSciences,XiamenUniversity,Xiamen361102,China;2.StateKeyLaboratoryofMolecularVaccinologyandMolecularDiagnostics,schoolof.PublicHealth,XiamenUniversity,Xiamen361102,China)AbstractWiththeremarkableadvancesofhigh-throughp
4、utsequencingtechnology,transcriptomesequencing(RNA-Seq)technologyhasbeenwidelyusedinvariousresearchfields.RNA-Seqcandisclosegeneexpressionspectrum,structurefeatureandregulationnetworkinlivecellsbydifferentialRNA-Seqonwholecellsindifferentconditionsorfromdistincttissues.Whiletherapidapplicationofhigh
5、-throughputsequencingtechnology,therearealargenumberofemerginganalyticalmethodsandtoolsfbrRNA-Seq,whichsometimespuzzlestheresearchershowtomakeachoiceonanappropriatealgorithmanalysisandcorrespondingtool.Here,theanalyticalmethods,softwaretoolsandselectioncriteriaforpracticalRNA-Seqanalysiswerereviewed
6、intheliterature,andthenprovideinformationandinsightsforrelatedresearchandapplication.Keywordstranscriptome;highthroughputsequencing;dataprocessingandanalysis近年来,随着转录组学与高通量测序技术的高速发展,转录组学已经在研究生物体表型和基因表达方面占据了重要的地位。在众多的转录组学分析方法中,转录组测序技术(RNA-seq)以新一代高通量测序技术为基础,具备测序通量高、速度快、价格低、信噪比高等优势,目前已超越传统的基于杂交技术的芯片法和基
7、于一代Sanger测序的SAGE、MPSS、全长cDNA文库、EST文库等方法,成为转录组分析的主要手段。转录组从广义上是指特定条件下单个细胞或者细胞群体所转录的所有RNA集合,包括编码蛋白的mRNA和一些功能性的RNA,如rRNA、miRNA、ncRNA、tRNA等,从狭义上则单指编码蛋白的mRNA。转录组测序技术通过将样本中提取的总体RNA反资助项目:国家自然科学基金(81571996)作者简介:洪奇阳,男,硕士在读,研究方向:生物信息学,E-mail:qiyanghong2020;俞海,通信作者,男,博士,副教授,研究方向:生物信息学|E-mail:yuhaio转录成cDNA后进行高通量
8、测序来确定样品中整体转录组的表达情况。2005年以来,以Roche公司的454技术Jllumina公司的Solexa技术和ABI公司的SOLiD技术为代表的新一代测序技术的出现改变了以往基于杂交技术和Sanger测序技术的低效转录组学分析方法,使得一次的测序就能实现快速、大批量转录组检测,同时也极大的扩充了转录组分析的应用范围。现阶段的转录组测序应用包括转录本结构研究、转录本结构变异研究、基因表达水平研究、非编码区域功能研究、低丰度全新转录本发现等。根据不同的研究目的,转录组测序相关的分析方法和流程不尽相同,需要研究者根据实际情况选择适宜的分析方法来开展研究工作。目前基本的转录组测序分析流程可
9、分为为实验没汁与上机、数据预处理、序列定位与转录本识别、转录本定量与功能分析、差异基因表达分析、差异基因功能注释。本文将围绕RNA-Seq基本的分析流程综述各步骤的分析方法进展、相关软件以及需要注意的事项,为转录组测序技术的普及和应用提供有利的参考。1实验设计与上机过去的十年中,高通量测序技术发展迅速,随着各种测序平台不断更新,测序时间、测序成本已经显著下降,测序通量和准确度显著提高。现有的高通量测序方法可分为边连接边测序(sequencingbyligalion,SBL,BGI公司)、边合成边测序(sequencingbysynthesis,SBS,Illumina公司)、单分子实时测序(s
10、ingle-moleculereal-timesequencing,PacBio公司)和依赖于已有短读长技术在计算机内构建长读长的合成法(constructlongreadsinsilico,Illumina公司)。其中Illumina公司的测序平台技术最为成熟、稳定性高、数据可靠、平台间交叉性互补性好,其市场份额也最大。但Illumina测序平台由于采用单一的测序方法,可能产生的系统偏好性问题也不容忽视。在转录组测序实验设计过程中,需要根据不同实验目的合理的选择实验样本。此外根据高通量测序自身特点在设计实验时需要注意的地方包括:单端或双端测序的选择。单端测序成本较低,能满足注释完整的基因组大
11、部分后期分析需求,对于注释不完整的基因组则选用双端测序效果更好"。mRNA的提取方法。细胞内90%以上的RNA都是rRNA,真核生物mRNA在3,端具有poly(A)结构,可以通过这个特点使用Oligo(dT)富集mRNA,而原核生物由于不具备polyA则需通过去除rRNA的方式来获取mRNA。无论是真核还是原核细胞,对于样本量较少的样本则统一采用去除rRNA的方法,以减少mRNA的损失。测序深度或库大小。测序深度越深识别的转录本越多,定量也越准确,但过多的测序量也会带来噪音导致转录本的错误检测,潼慎的做法是使用饱和曲线来评估合适的测序深度。一般情况下,可以根据基因组大小取其三倍的有
12、效测序数据,如人类基因组大小3G,测序数据量以812G为宜。基于链特异文库获取的测序数据能区分正反链,可减少后续分析的复杂度并提升分析准确度,但价格较高读长越长对后续的定位和转录本识别越有利。生物学重复数不应该少于3个,足够的生物学重复是后期统计学分析的前提。注意批次效应,无论是样品还是测序仪,不同的批次产生的数据都会存在偏差,需要在实验设计时避免0当样本量过多或者其他原因导致不得不分批次测序时,应在测序操作过程尽可能减少操作差异性,并对测序后的数据使用批次矫正方法,如COMBATc,11uJcARSyN121o2数据预处理测序产生的原始数据是一系列以fastq格式存储的读段(Read),其中
13、包含了碱基质量信息和相关测序信息,如测序仪器名称,单双端,正反链等。原始数据在建库过程或者测序过程中由于多方面的因素,例如污染、错误操作、测序平台等,常常会存在低质量或者错误数据。如果不对这些存在问题的数据进行过滤,对后续分析(例如读段组装、定位和定量等)的质量和可信度将会产生很大影响。目前数据过滤中常用的质控软件是FastQC和NGSQCI3,其中FastQC是Illumina平台上最常用的软件,NGSQC13J则被用于更多平台。其他的质控软件有Qualimap2U4,HTQCW,QC.chain16,almostSignificanf17,fastq_clean18,FaQCs19-等。数
14、据预处理阶段包含的检测内容为测序质量、GC含量、接头、过表达的k-mers和重复序列等。根据这些检测结果可以对原始数据集进行低质量读段去除,切除部分低质量的碱基,去除接头,去除重复序列和过短序列等操作。相应的常用的软件为FASTX.Toolkit(Version0.0.14)20J和Trimmomatic(Version0.36)2,o值得注意的是越靠近读段的3'端,碱基质量会越差,这是由于测序策略引起的,和长时间PCR引入杂信号和酶活力衰减有关】。另外,VictorKunin等】在研究E.coli的16S核糖体时发现,5糖端的几个起始碱基ATGC比例常会存在较大波动,这是由于聚合前误
15、读导致,但不会对后续分析产生太大影响。3读段定位在获得预处理过的原始数据后,需将读段定位到参考基因组上(无参考基因组的物种,则需要先将读段组装成scaffolds,作为参考序列,常用软件为Trinity:24】),这是后续数据分析的基础E】。RNA在原核生物中只是简单的基因组转录产物,能与基因一一对应。但在真核生物的基因组中可能存在RNA的可变剪接,即单个基因产生的pre-mRNA通过不同的剪接形式形成多种mRNA异构体(isoforms),而来自这些异构体的读段有可能跨越两个外显子,常常无法定位到参考基因组上。按照是否考虑可变剪接可将现有读段定位软件分为两类:第一类软件用于处理具有可变剪接的
16、情况,这类软件首先采用常规的比对方法将读段定位到基因组上,对于无法成功定位的读段尝试将其分割后再重新与基因组定位,同时记录分割信息为后续的转录本查找提供依据,相关的软件为Hisat226!,HPGAligner”】,STAR:28,TopHat229和MapSplice刈oI.Medina等利用多套测序数据分别对这几款软件从单端、双端、读段长度、分析数据量、灵敏度等方面进行了综合评估,研究发现在读段长度较短时(测试读段为100bp)Hisat2的定位速度和准确度最优,当读段为长片段时(测试读段为100bp)HPGAligner表现最优。第二类软件不考虑可变剪接的情况,这类软件直接把读段定位到参
17、考基因组上,不对读段进行分割,此类方法的优势是速度快。当参考基因组的注释信息比较完整时,还可以直接提取感兴趣的完整转录组序列作为参考序列,使用此类软件进行读段定位,可以节省分析成本。常用的软件有bowtie2m、BWA、"、NovoAlign33Smalt'34】和Stampy"。SubaziniThankaswamy-Kosalai等顷】采用五种不同物种,在不同读段长度和数据量的测序数据对这五款软件从定位敏感度、定位速度、串联重复对准确定位的影响等方面进行了综合评估,结果显示在运算速度上最快的是BWA,其次是bowtie2和Smalt,在定位敏感度上,五款软件对于
18、长读段(>lOObp)都表现良好,NovoAlign则无论读段长短都有较优的表现。在RNA-Seq的实际应用中最常用的是bowtie2,因其对插入、缺失和错误碱基的容错率较好】,上述第一类软件中的Hisat2和TopHat2也是基于bowtie开发的。读段定位后产生的文件为文本形式的SAM文件或者其二进制形式的BAM文件°对读段定位效果的质控能够发现测序过程、样本提取过程和建库过程的错误,而这类错误只能在读段定位后才能被发现。读段定位效果的重要质控指标是定位率,在转录组测序中一般预期70%的读段能够定位到基因组上,对于包含大量质粒表达的转录组分析,30%以上定位率也在可接受范围
19、之内如果单个读段被定位到多个位置上(multimappingreads),则提示重复序列和同源基因的存在,在后续的分析过程中这类序列往往会被丢弃,避免其对定量分析产生干扰。另一个重要的质控指标是定位的均一度,如果读段在内含子区或者基因间区有过多异常分布情况那么很有可能建库过程存在问题或者样本受到污染瑚。常用的质控软件包括Picard.RSeQC、Qualimap:40】、FastQC4,、SAMStatt42、RNA-SeqQC(431和QuaCRS;44)o各种质控软件都各有所长,例如SAMStat能对读段定位情况做更深入分析,区分未定位、较差定位和精确定位读段;RSeQC能对已知、半已知、
20、新发现的剪接情况进行统计分析;Qualimap的图形化展示效果最直观等,因此综合使用这些软件能够实现更全面的质控。基于这一理念,QuaCR对三款质控软件RNA-SeQC,RSeQC和FastQC进行了整合,使读段定位后的质控更加全面和易于操作。4转录本识别与定量读段定位到基因组后,根据读段在转录本上的分布情况对基因表达丰度进行定量。转录本分布信息可从基因组的注释文件中获取,或者根据读段定位情况识别新的转录本。注释完整的基因组(如人、老鼠和斑马鱼)往往不需要进行新转录本识别,可直接进行基因定量分析皿】。但对于注释信息并不完整的基因组则需要进行新转录本的预测。在RNA-Seq分析中,根据短读段识别
21、新转录本是最具挑战性的分析之一。,因为短读段很少能够跨越多个剪接位点,而且不同转录本间存在各种外显子共享情况,外显子中也存在共享序列的情况,同时现阶段去除核糖体RNA的方法存在偏好性,导致读段分布不均一心】,给读段定位造成很大干扰。为了应对这些挑战,研究人员开发了大量的转录本识别软件:Stringtie.cufflinks48,CIDANEf49j、GRIT俱、TransComb""、iReckon"2】、SLIDE'")'Montebello'54】、Augustus、IsoLasso56】、§0向也此、Traph弱、
22、MITIE、CLASS和FlipFlop等。目前使用最为广泛的是cufflinks,但KatharinaE.Hayer等在综合分析了上述软件中的几款后,认为StringTie识别转录本的准确性高最高,其次是Cufflinks,然而研究结果提示所有的转录本识别方法都并不精确。最近StefanCanzar等发表了新的转录本识别方法CIDANE,其转录本识别能力优于StringTie.Cufflinks.GRIT.MITIE和iReckon等常用软件。目前新转录本的预测仍然是一项难题,各种预测软件间也存在显著的不一致性,而提高读段、读长是解决这一难点的突破口0转录本定量包括对基因的表达量定量和对转录
23、本表达量的定量,这是RNA-Seq实验的最基本的目的。考虑到基因大小、样本测序深度和批次效应等因素对读段量的影响,在定量时应使用标准化的方法来消除差异,最常用的样本内标准化方法包括RPKM(readsperkilobaseofexonmodelpermillionreads)八、FPKM(fragmentsperkilobaseofexonmodelpermillionmappedreads)、TPM(transcriptspermillion)和KPKM(K-mersPerKilobaseperMillionmappedk-mers),这些标准化方法消除了基因、转录本长度差异和测序库大小的差
24、异,其中FPKM的值可以通过一个简单的公式直接转化成TPM(59JO需要注意的是无论是RPKM、FPKM还是TPM,当比较不同样本间基因的表达量时,如果这两个样本存在显著差异表达的基因那么会影响整体的表达量评估【如。这点导致使用RPKM、FPKM或TPM做样本间相同基因差异表达分析变得不够准确,但在对不同基因进行表达最比较时,RPKM、FPKM或TPM仍然是目前较好的标准化方法。转录本定量的常用软件有HTSeq611featureCounts621、StringTie、Cufflinks、RSEMf63、Sailfish泌、kallistof63J、IsoLasso和NURD:66。其中HTS
25、eq和featureCounts根据定位到基因组后的文件和基因组注释信息在基因水平直接计算未标准化的读段数,StringTie和Cufflinks使用最大期望法,根据基因组定位数据,同时考虑读段分布偏好性、双端信息和注释信息得出经过样品内标准化的转录本水平定量值,NURD能够高效的对单端读段进行低内存和低计算量的转录本水平定量,Sailfish则无需定位直接根据读段k-mer值进行定量戚娅】04.1差异基因表达分析现有的差异基因表达分析软件可以分为两大类,第一类是以读段计数矩阵为起始文件,先进行标准化处理,再通过统计学方法计算表达差异,使用的标准化方法包括:TMM69、DESeq"&
26、#176;'PoissonSeq71或UpperQuartile72等。这类软件能有效地避免样本间显著差异表达的基因对整体表达量计算的影响。表1列举了这类软件的相关信息。VedbarS.Khadka等使用测序质控数据集SEQC74:对12款最常用的的这类软件进行了假阳性分析,结果显示DESeq2,edgeR和limma-voom表现最好。第二类软件直接以FPKM、RPKM或TPM标准化后的数据进行表达差异的比较,代表软件为cufflinks和ballgown0这类软件由于标准化方法本身存在的缺陷(前文已述),其结果可信度较差。Fatemeh、Seyednasrollah等,XiaoWa
27、ng等湎对这2类软件分别进行比较分析后进一步验证了第二类软件在差异基因表达分析能力上较第一类差。表1基因读段计数的基因表达差异分析软件Tab.1Softwarefbrdifferentialexpressedgenesanalysisbasedonreadcounts软件分布模型标准化方法统计模型参考文献DESeq2(v1.14.1)负二项分布Median-of-ratios沃特检验;似然比检验77】edgeR(v3.16.5)负二项分布TMM费舍尔精确检验;广义线性模型(7Slimma-voom(v3.30.13)广义线性模型TMMt检验;F检验-mbaySeq(v2.8.0)负二项分布Up
28、perQuartile经验贝叶斯方法1»0:EBScq(v1.14.0)泊松线性回归模型mediannormalization最大期望算法1SAMseq(v2.11)非参数模型PoissonSampling威尔科克森符号秩检验g针对基因差异表达的分析软件如今层出不穷,经证实采用不同的软件和方法分析得到的结果都会不同,甚至相同的软件不同的版本分析的结果也会存在差异E】。因此在实际应用时,在每一次分析时都应详细记录所用的软件和版本号,对于关键性的实验可以综合分析多种方法的结果厂4.2差异基因功能富集分析对差异基因进行功能富集分析是转录组测序技术的主要目的,相关工具众多,根据不同的富集分析
29、方法可以分为四大类:(1)过表达分析(over.representationanalysis,ORA),常用工具有DAVID,GOstat,GenMAPP等。ORA方法理论完备,结果稳健、可靠,但忽视了基因表达水平、基因间相互调控和低显著性基因的信息;(2)功能集打分(functionalclassscoring,FCS),常用工具有GSEA、GSA、PADOG等。FCS方法较ORA方法在理论上有所突破,考虑了基因表达水平的影响,检测灵敏度更强,但仍然忽略了基因间的相互调控;(3)基于通路拓扑结构,常用工具有MetaGorePathway-Express.SPIA等。该方法对注释完善的通路分析
30、结果较好,但对于CP注释不完整的通路稳健性较差;(4)基于网络拓扑结构,常用工具有NEA.EnrichNet、GANPA等,考虑了基因间的相互作用网络,在系统层面进行基因功能富集分析,结果相比传统分析更为可靠,但由于考虑信息过多导致计算速度较慢。王潇等我对这四大类方法涉及到的原理和软件的优缺点进行了较为详尽的介绍,研究者需要在理解这些方法的基础上,根据实验目的合理进行选择。除了标准差异表达分析外,RNA.Seq技术还可用于分析融合基因、smallRNAs(18-34核昔酸长度的RNA,包括miRNA.siRNA.piRNA)、可变剪接等,也经常与其他技术相结合,例如DNA测序、DNA甲基化、C
31、hIP.seq、蛋白质组学和代谢组学等。MiriamF等如通过RNA-Seq与DNA测序相结合的方法验证了0RMD13相关基因突变有导致儿童哮喘的风险。JungHKim等通过RNA-Seq与DNA甲基化相结合的方法揭示了前列腺癌DNA甲基化的不同模式。AnshulKundaje等版通过ChlP-seq和RNA-Seq相结合的方法分析了111种人类细胞和组织的表观基因组。5挑战与展望目前转录组测序技术面临的挑战主要来自三个方面:(1)准确的转录本识别。基于短读长的转录组测序很难对转录本进行准确识别,解决这一技术难点除了进一步改善识别算法外关键还在于增加读长。但现今基于长读长的三代测序技术如Pac
32、Bio(Pacific-Biosciences)SMRTXOxfordNanopore和Moleculo虽然发展迅速,可测序错误率仍然偏高。目前比较好的做法是通过三代测序和二代测序相结合的方式来提高RNA-Seq的准确性;(2)小样本量的转录组测序。常规的转录组测序技术需要大量的细胞作为起始样本,对起始量极少的样本难以进行测序分析。目前单细胞RNA-Seq(single-cellRNA-Seq)技术为小样本量的转录组分析提供了有效的分析手段。特别是对于异质性较强的组织样本,需要在单细胞水平进行转录组分析,单细胞RNA-Seq更显示了其独特的优势;(3)测序费用。伴随高通量测序技术的快速发展,测
33、序费用也在急剧下降。据美国国家人类基因组研究所(NHGRI)统计2001年个人基因组测序成本为9500万美元,2011年已快速下降至2万美元o到2014年IlluminaHiSeqX10测序平台的出现更是将个人全基因组测序价格降到1000美元,标志着千元基因组时代的开始。2017年Illumina测序平台NovaSeq的推出,则意味着个人基因组测序的费用有望降到100美元。近年来,伴随着后基因组时代的高速发展,转录组测序技术以其高效、准确的技术优势,已被广泛的运用于医学、农学、生物学等各个研究领域,并带来了革命性的变革。生物体的基因调控是多水平、多层次的复杂网络系统,转录组测序技术为研究该复杂
34、的调控网络提供了有效的研究手段,相信在不久的将来,随着三代测序技术的逐渐成熟、单细胞测序技术的快速发展和测序价格的不断降低,转录组测序在各研究领域的应用会越来越普遍,为人类探究各种生命现象的本质带来极大的帮助。参考文献祁云霞,刘永斌,荣威恒.转录组研究新技术:RNA-Seq及其应用J.遗传,2011,33(11):1191-202.1 GOODWINS,MCPHERSONJD,MCCOMBIEWR.Comingofage:tenyearsofnext-generationsequencingtechnologiesJ.NatRevGenet,2016,17(6):333-351.2 R1EBE
35、RN,ZAPATKAM,LASITSCHKAB,elatCoveragebiasandsensitivityofvariantcallingforfourwhole-genomesequencingtechnologiesJJ.PloSone,2013,8(6):e66621.3 WILLIAMSAG,THOMASS,WYMANSK,etal.RNA-seqData:ChallengesinandRecommendationsforExperimentalDesignandAnalysisJ.CurrentProtocolsinHumanGenetics,2014,83:IL13.1-20.4
36、 ZHAOW,HEX,HOADLEYKA,etal.ComparisonofRNA-Seqbypoly(A)capture,ribosomalRNAdepletion,andDNAmicroarrayforexpressionprofilingJ.BMCgenomics,2014,15(1):419.5 TARAZONAS,GARCA-ALCALDEF,DOPAZOJ,etal.DifferentialexpressioninRNA-seq:amatterofdepthJ.Genomeresearch,2011,21(12):2213-2223.6 MORTAZAVIA,WILLIAMSBA,
37、MCCUEK,etal.MappingandquantifyingmammaliantranscriptomesbyRNA-Seq:J.Naturemethods,2008,5(7):621-628.7 LABAJPP,LEPARCGG,UNGGIBE,etal.CharacterizationandimprovementofRNA-SeqprecisioninquantitativetranscriptexpressionprofilingJ.Bioinformatics,2011,27(13):i383-i39i.8 LIUY,ZHOUJ,WHITEKP.RNA-seqdifferenti
38、alexpressionstudies:moresequenceormorereplication?JBioinformatics,2014,30(3) :301-304.9 LEEKJT,SCHARPFRB,BRAVOHC,etal.Tacklingthewidespreadandcriticalimpactofbatcheffectsinhigh-throughputdata:J;.NatRevGenet,2010,11(10):733-739.10 JOHNSONWE,LIC,RABINOVICA.Adjustingbatcheffectsinmicroarrayexpressionda
39、tausingempiricalBayesmethodsJ.Biostatistics,2007,8(1):118-127.:12FERRERA,CONESAA.ARSyN:amethodfortheidentificationandremovalofsystematicnoiseinmultifactorialtimecoursemicroarrayexperimentsJ.Biostatistics,2011,kxiO42.13 PATELRK,JAINM.NGSQCToolkit:atoolkitforqualitycontrolofnextgenerationsequencingdat
40、aJ.PloSone,2012,7(2):e30619.14 OKONECHNIKOVK,CONESAA,GARCA-ALCALDEF.Qualimap2:advancedmulti-samplequalitycontrolforhigh-throughputsequencingdataJj.Bioinformatics,2016,32(2):292-294.j15YANGX,LIUD,LIUF,etal.HTQC:afastqualitycontroltoolkitforIlluminasequencingdataJ.BMCbioinformatics,2013,14(1):33.16ZHO
41、UQ,SUX,WANGA,etal.QC-Chain;fastandholisticqualitycontrolmethodfornext*generationsequencingdataJ1PloSone,2013,8(4):e60234.17WARDJ,COLEC,FEBREKM,etaLAlmostSignificant:simplifyingqualitycontrolofhigh-throughputsequencingdataJ.Bioinformatics,2016,32(24):3850-3851.18ZHANGM,SUNH,FEIZ,etal.Fastq_cle&n:
42、AnoptimizedpipelinetocleantheIlluminasequencingdatawithqualitycontrol;proceedingsoftheBioinformaticsandBiomedicine(BIBM),2014IEEEInternationalConferenceon,F,2014:C.IEEE.19jLOC-C,CHAINPS.RapidevaluationandqualitycontrolofnextgenerationsequencingdatawithFaQCsJ:BMCbioinformatics,2014,15(1):366.20 GORDO
43、NA,HANNONG.Fastx-toolkitJ.FASTQ/Ashort-readspreprocessingtook(unpublished)http:/hannonlabcshledu/fastx_toolkit,2010.21 BOLGERAM,LOHSEM,USADELB.Trimmomatic:aflexibletrimmerforIlluminasequencedatafJ.Bioinformatics,2014,30(15):2114-2120.22DOHMJC,LOTTAZC,BORODINAT,etal.Substantialbiasesinultra-shortread
44、datasetsfromhighthroughputDNAsequencingJ.Nucleicacidsresearch,2008,36(16):el05.23 KUNINV,ENGELBREKTSONA,OCHMANH,etal.Wrinklesintherarebiosphere:pyrosequencingerrorscanleadtoartificialinflationofdiversityestimatesJ,Environmentalmicrobiology,2010,12(1):118-123.24 GRABHERRMG,HAASBJ,YASSOURM,etal.Trinit
45、y:reconstructingafull-lengthtranscriptomewithoutagenomefromRNA-SeqdataJ.Naturebiotechnology,2011,29(7):644.25 王曦,汪小我,王立坤,等.新一代高通量RNA测序数据的处理与分析口.生物化学与生物物理进展,2010,37(8):834-846.26 KIMD,LANGMEADB,SALZBERGSLHISAT:afastsplicedalignerwithlowmemoryrequirementsJ.Naturemethods,2015,12(4) :357-360.27 MEDINAI,
46、TRRAGAJ,MARTNEZH,etal.HighlysensitiveandultrafastreadmappingforRNA-seqanalysisJ.DNAResearch,2016,23(2):93400.28 DOBINA,DAVISCA,SCHLESINGERF,etal.STAR:ultrafasluniversalRNA-seqalignerJjBioinformatics,2013,29(1):15-21.29 TRAPNEIXC,PACHTERL,SALZBERGSLTopHat:discoveringsplicejunctionswithRNA-SeqJ.Bioinf
47、ormatics,2009,25(9):1105-1111.30 WANGK,SINGHD,ZENGZ,etal.MapSplice:accuratemappingofRNA-seqreadsforsplicejunctiondiscoveryJ.Nucleicacidsresearch,2010,gkq622.31LANGMEADB,TRAPNELLC,POPM,etal.UltrafastandmemoryefficientalignmentofshortDNAsequencestothehumangenomeJ.Genomebiology,2009,10(3):R25.32 LIH,DU
48、RBINR.FastandaccurateshortreadalignmentwithBurrows-WheelertransformJ.Bioinformatics,2009,25(14):1754-1760.33 HERCUSC.NovoalignJ.Selangor:NovocraftTechnologies,2012.34 PONSTINGLH.SMALTefficientlyalignsDNAsequencingreadswithareferencegenome.WellcomeTrustSangerInstitute,Hinxton,UnitedKingdom.Currentver
49、sion-SMALTvO.7.5.Released16thJuly2013M,2013.35 LUNTERG,GOODSONM.Stampy:astatisticalalgorithmforsensitiveandfastmappingofIlluminasequencereadsJ.Genomeresearch,2011,21(6):936-969.36 THANKASWAMY-KOSALAIS,SENP,NOOKAEWI.Evaluationandassessmentofread-mappingbymultiplenext-generationsequencingalignersbased
50、ongenome-widecharacteristicsJ.Genomics,2017,pii:80888-7543(17)30020-300204.37jLINDNERR,FRJEDEI,CC.AcomprehensiveevaluationofalignmentalgorithmsinthecontextofRNA-seqJ.PLoSOne,2012,7(12) :e52403.38MAZZONIG,KADARMIDEENHN.ComputationalMethodsforQualityCheck,PreprocessingandNormalizationofRNA-SeqDataforS
51、ystemsBiologyandAnalysisM.SystemsBiologyinAnimalProductionandHealth,Vol2.Springer.2016:61-77.39 WANGL,WANGS,LIWRSeQC:qualitycontrolofRNA-seqexperimentsJ.Bioinformatics,2012,28(16):2184-2185.40 GARCAALCALDEF,OKONECHN1KOVK,CARBONELLJ,etal.Qualimap:evaluatingnextgenerationsequencingalignmentdataJ.Bioin
52、formatics,2012,28(20):2678-2679.41ANDREWSS,FASTQ.Aqualitycontroltoolforhighthroughputsequencedata.2010J.GoogleScholar,2015.42 LASSMANNT,HAYASHIZAKIY,DAUBCO.SAMStat:monitoringbiasesinnextgenerationsequencingdataJ.Bioinformatics,2011,27(1) :130-131.43 DELUCADS,LEVINJZ,SIVACHENKOA,etal.RNA-SeQC:RNA-seq
53、metricsforqualitycontrolandprocessoptimizationJ.Bioinformatics,2012,28(11):1530-1532.44 KROLLKW,MOKARAMNE,PELLETIERAR,etal,QualitycontrolforRNA-seq(QuaCRS):AnintegratedqualitycontrolpipelineJ.Cancerinformatics,2014,13(Suppl3):7.45 HARROWJ,FRANKISHA,GONZALEZJM,etal.GENCODE:thereferencehumangenomeanno
54、tationforTheENCODEProjectJ.Genomeresearch,2012,22(9):1760-1774.46 HAYERKE,PIZARROA,LAHENSNF,etal.Benchmarkanalysisofalgorithmsfordeterminingandquantifyingfull-lengthmRNAspliceformsfromRNA-seqdatafJ.Bioinformatics,2015,btv488.47 PERTEAM,PERTEAGM,ANTONESCUCM,etal.StringTieenablesimprovedreconstruction
55、ofaIranscriptomefromRNA-seqreadsJNaturebiotechnology,2015,33(3):290-295.48 ROBERTSA,PIMENTELH,TRAPNELLC,etal.IdentificationofnoveltranscriptsinannotatedgenomesusingRNASeqJBioinformatics,2011,27(17):2325-2329.49 CANZARS,ANDREOTTIS,WEESED,etal.CIDANE:comprehensiveisoformdiscoveryandabundanceestimation
56、J.Genomebiology,2016,17(1):16.50 BOLEYN,STOIBERMH,BOOTHBW,etal.Genome-guidedtranscriptassemblybyintegrativeanalysisofRNAsequencedataJ.Naturebiotechnology,2014,32(4):341-346.51LIUJ,YUT,JIANGT,elal.TransComb:genome-guidedtranscriptomeassemblyviacombingjunctionsinsplicinggraphsJj.Genomebiology,2016,17(
57、1):213.52 MEZLINIAM,SMITHEJ,FIUMEM,etal.iReckon;SimultaneousisoformdiscoveryandabundanceestimationfromRNA-seqdataJ.Genomeresearch,2013,23(3):519-529.53 LIJJ,JIANGCR,BROWNJB,etal.SparselinearmodelingofnextgenerationmRNAsequencing(RNA-Seq)dataforisofomidiscoveryandabundanceestimationJ;Proceedingsofthe
58、NationalAcademyofSciences,2011,108(50):19867-19872.54 HILLERD,WONGWH.SimultaneousisoformdiscoveryandquantiGcationfromRNA-seqJ.Statisticsinbiosciences,2013,5(1):100-118.55 STANKEM,KELLERO,GUNDUZI,etal.AUGUSTUS:abinitiopredictionofalternativetranscriptsJ.Nucleicacidsresearch,2006,34(suppl2):W435-W439.56 LIW,FENGJ,JIANGT.IsoLasso:aLASSOregressionapproachtoRNA-Seqbasedtranscr
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国开电大专科《建筑力学》在线形考(形成性作业1至4)试题及答案
- 广西贺州市本年度(2025)小学一年级数学统编版专题练习(上学期)试卷及答案
- 2025-2030年中国数据采集盘点机行业发展战略规划及投资潜力研究报告
- 江西省萍乡市重点中学2025届高三下学期第六次检测英语试卷含解析
- 电气类专业学业水平考试题及答案
- 职业技术学院2024级建筑工程技术专业人才培养方案
- 航标器材智能制造考核试卷
- 毛织品行业市场多元化战略调整优化调整考核试卷
- 石灰在复合材料中的应用考核试卷
- 服务机器人行业人机交互体验设计考核试卷
- 企业用电安全教育培训
- 档案工作安全系列文件解读
- 搅拌站工作简历模板
- 工程建设招标投标合同(资格预审邀请书)
- 幼儿园户外材料投放培训
- GB/T 45015-2024钛石膏综合利用技术规范
- UL3030标准中文版-2018无人机系统UL中文版标准
- 2023-2024学年北京市海淀区高二(上)期末语文试卷
- 《真希望你也喜欢自己》房琪-读书分享
- 低空经济在环境保护领域的应用分析
- 三年级下第五单元课件
评论
0/150
提交评论