




已阅读5页,还剩181页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基因转录组的测定及分析 胡松年husn 中国科学院北京基因研究所 大规模表达序列标签 EST 测定及分析 1 什么是EST 2 EST的应用3 EST序列测定及分析过程 什么是ESTs ESTs ExpressedSequencetags 是从已建好的cDNA库中随机取出一个克隆 从5 末端或3 末端对插入的cDNA片段进行一轮单向自动测序 所获得的约60 500bp的一段cDNA序列 大规模EST序列测定的开始 1983年 Costanzo等提出EST概念的雏形1991年 Adams测定了三种人脑组织共609条EST 宣布了cDNA大规模测序的时代的开始代1991年 Okubo等提出大规模cDNA测序的研究战略1993年 Venter等创立现在的EST技术1993年 Boguski Schuler提出以EST为界标的人类基因组转录图谱计划 93年前ESTs数据收录于GenBank EBI和DDBJ 1993年NCBI NationalCenterofBiotechnologyInformation 建立了一个专门的EST数据库dbEST来保存和收集所有的EST数据 95年中期GenBank中EST的数目超过了非EST的数目 现在GenBank中EST的数目已经超过了三千五百万 约占GenBank中序列数的60 EST数量排名前10的物种 OrganismESTsHomosapiens human 8 301 471Musmusculus domesticus mouse 4 852 146Zeamays maize 2 018 798Bostaurus cattle 1 620 962Arabidopsisthaliana thalecress 1 559 485Daniorerio zebrafish 1 527 299Glycinemax soybean 1 481 930Xenopustropicalis westernclawedfrog 1 422 983Oryzasativa rice 1 271 375Cionaintestinalis1 249 110 截止到2010年3月19日 EST相关数据库 储存EST原始数据的一级数据库 EMBL GenBank dbEST DDBJ UniGene http www ncbi nlm nih gov UniGene TIGRGeneIndices http www tigr org tdb tgi STACK http www sanbi ac za Dbases html 对EST进行聚类拼接的二级数据库 EST的应用1 ESTs与基因识别ESTs已经被广泛的应用于基因识别 因为ESTs的数目比GenBank中其它的核苷酸序列多 研究人员更容易在EST库中搜寻到新的基因 Boguskietal 1994 在同一物种中搜寻基因家族的新成员 paralogs 在不同物种间搜寻功能相同的基因 orthologs 已知基因的不同剪切模式的搜寻 注 不过很难确定一个新的序列是由于交替剪切产生的或是由于cDNA文库中污染了基因组DNA序列 Wolfsbergetal 1997 EST的应用2 ESTs与基因图谱的绘制EST可以借助于序列标签位点 sequence taggedsites 用于基因图谱的构建 STS本身是从人类基因组中随机选择出来的长度在200 300bp左右的经PCR检测的基因组中唯一的一段序列 来自mRNA的3 非翻译区的ESTs更适合做为STSs 用于基因图谱的绘制 其优点主要包括 由于没有内含子的存在 因此在cDNA及基因组模板中其PCR产物的大小相同 与编码区具有很强的保守性不同 3 UTRs序列的保守性较差 因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开 JamesSikela等 1991年 EST的应用3 ESTs与基因预测由于EST来源于cDNA 因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列 使用合适的比对参数 大于90 的已经注释的基因都能在EST库中检测到 Baileyetal 1998 ESTs可以做为其它基因预测算法的补充 因为它们对预测基因的交替剪切和3 非翻译区很有效 ESTs与SNPs来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs 最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs Buetowetal 1999 Gargetal 1999 Marthetal 1999 Picoult Newbergetal 1999 应注意区别真正的SNPs和由于测序错误 ESTs为单向测序得来 错误率可达2 而引起的本身不存在的SNPs 解决这一问题可以通过 提高ESTs分析的准确性 对所发现的SNPs进行实验验证 EST的应用4 EST的应用5 利用ESTs大规模分析基因表达水平因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到 所以可以用利用未经标准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱 标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平 CGAP为研究癌症的分子机理 美国国家癌症研究所NCI的癌症基因组解析计划 CancerGenomeAnatomyProject CGAP 构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库 并进行了大规模的EST测序 其中大部分的文库未经标准化或差减杂交处理 CGAP网站提供了多种工具用以分析不同文库间基因表达的差异 如 DigitalGeneExpressionDisplayer DGED cDNAxProfiler 基因表达系列分析 SerialAnalysisofGeneExpression SAGE 基因表达系列分析是一种用于定量 高通量基因表达分析的实验方法 Velculescuetal 1995 SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签 约9 21个碱基对 这些短的序列被连接 克隆和测序 特定的序列标签的出现次数就反应了对应的基因的表达丰度 DNA微阵列或基因芯片的研究高密度寡核苷酸cDNA芯片或cDNA微阵列是一种新的大规模检测基因表达的技术 具有高通量分析的优点 在许多情况下 cDNA芯片的探针来源于3 EST Dugganetal 1999 所以EST序列的分析有助于芯片探针的设计 EST技术流程 Serialanalysisofgeneexpression SAGE 技术流程 Serialanalysisofgeneexpression SAGE 技术流程 SAGE文库的构建 NlaIII 锚定酶 酶切 该酶能够识别CATG位点并在其3 端进行酶切 链霉素包被的磁珠进行亲和纯化 将cDNA分为A和B两部分 分别连接接头A或接头B 每一种接头都含有CATG四碱基突出端 限制性内切酶BsmFI的识别序列和一个PCR引物序列 引物A或B 用标签酶BsmFI酶切 该酶在其识别位点3 端下游的14 17bp处进行酶切 产生连有接头的短cDNA片段 混合并连接两个短cDNA片段 构成双标签 ditag 后 用引物A和B进行PCR扩增 锚定酶NlaIII切割扩增产物 抽提SAGE双标签片段 并用T4DNA连接酶连接成多聚体 concaterner 选择合适的片断长度 克隆进载体 得到的克隆插入序列由一系列的20 22bp长的SAGE双标签组成 每两个双标签中间由4bp的NlaIII酶切位点分隔开 SAGE文库的测序 单向测序 Serialanalysisofgeneexpression SAGE 分析流程 在双标签多聚体序列中定位NlaIII酶切位点 即CATG 提取CATG位点之间的20 22bp长的双标签序列 去除重复出现的双标签序列 包括反向互补方向上重复的双标签序列 截取每个双标签序列最靠近两头末端的10个碱基 即为标签序列 去除与接头序列相对应的标签 即TCCCCGTACA和TCCCTATTAA 同时去除含有不确定碱基 即除A C T G四种碱基以外的碱基 的标签 计算每个标签的出重复次数 以列表的形式给出一个包含每个标签及其表达丰度的报告 基因芯片或微阵列技术流程 几种大规模分析基因表达水平的方法的比较 ESTs很短 没有给出完整的表达序列 低丰度表达基因不易获得 由于只是一轮测序结果 出错率达2 5 有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染 有时出现镶嵌克隆 序列的冗余 导致所需要处理的数据量很大 ESTs数据的不足 技术路线 EST软件平台 EST序列 库 序列的质量检查 测序量监控 聚类和拼接检查 借助于基因组信息 cDNA文库构建 非标准化的cDNA文库的构建 可用于基因表达量的分析 经标准化或扣除杂交处理的cDNA文库 富集表达丰度较低的基因 Oligod T cDNA文库 非翻译区由于不含有编码序列 与编码区保守序列相比所受到的选择压力比较小 因而其多态性程度比较高 便于多态性位点的选择以用于遗传图谱的构建 随机引物cDNA文库 所获得的EST在基因功能的鉴定时具有更多的信息含量 并且在构建EST数据库时更有优势 同时有利于利用EST数据库聚类完整的基因和阅读框的寻找 便于利用更敏感的蛋白质比较来寻找同源基因 cDNA文库构建常见问题 RNA得率低mRNA分离效率低cDNA产物少原因 多糖 多酚 内源性核酸蛋白酶 miRNA等 原因 多糖 糖蛋白 核酸蛋白酶 植物血凝素等 多酚类等次生代谢产物在RNA分离时 经常与RNA共沉降 导致RNA丢失 或导致分离后的RNA严重不纯 影响mRNA分离的得率 内源性核酸酶存在较多的情况下 可降解双链DNA RNA或者DNA RNA杂合体 致使RNA易降解 转录后的DNA接头无法连接 是cDNA得率低的原因之一 miRNA的存在导致mRNA的降解 测序方向的选择 根据不同的实验目的选择不同的测序方向 5 端5 上游非翻译区较短且含有较多的调控信息 一般在寻找新基因或研究基因差异表达时用5 端EST较好 大部分EST计划都是选用5 端进行测序的 而且从5 端测序有利于将EST拼接成较长的基因序列 3 端3 端mRNA有一20 200bp的plyA结构 同时靠近plyA又有特异性的非编码区 所以从3 端测得EST含有编码的信息较少 但研究也表明 10 的mRNA3 端有重复序列 这可以作为SSR标记 非编码区有品种的特异性 可以作为STS标记 两端测序获得更全面的信息 1 去除低质量的序列 Phred 2 应用BLAST RepeatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列 artifactualsequences 载体序列 ftp ncbi nlm nih gov repository vector 重复序列 RepBase http www girinst org 污染序列 如核糖体RNA 细菌或其它物种的基因组DNA等 3 去除其中的镶嵌克隆 4 最后去除长度小于100bp的序列 序列前处理 pre processing 家猪脂肪的EST数据分析结果 文库质量检验 Contaminationandhouse keepinggeneexpressionlevel 文库质量检验 Cloneduplicationanalysis Controlsarenon normalizedhumanESTlibrariesconstructedbydifferentprotocols Krizmanprotocol1 Lib281 Krizmanprotocol2 Lib675andLib774 LTInon normalized Lib6346 Soaresnon normalized Lib185 序列质量检验 Lengthandqualitydistribution Qualitycheckprocess Headandtailtrim Phred0 05 Vectormasking repeatmasking contaminationmasking CrossMatch Droppedsequenceshortthan100bpsaftertrimandmasking86 136sequencespassedoursequencequalitycheck41 076ESTshavemorethan80 overallidentitytopublicricesequences BLASTN E value1E 15 andthusabout45 000ESTsmaybeconsiderednovelMostsequencesareof600bpsandwithqualityscore40 errorrate0 0001 ThestandardSangervarianttoassessreliabilityofabasecall otherwiseknownasPhredqualityscore TheSolexapipeline i e thesoftwaredeliveredwiththeIlluminaGenomeAnalyzer earlierusedadifferentmapping encodingtheoddsratiop 1 p insteadoftheprobabilityp ASCIIcharacter c eedeeeeefffcddddaYccYc33 64 QualityScore Advantage savespace 镶嵌克隆的识别 Back to backpoly A tails Linker to linkerinmiddleofthesequence Blastn Blastxsearch Alignedthecontigconsensitoriceindica9311genome Aforcedjointwasmadeiftwocontigshaveoverlapregiononthegenome validatedby1045ricecDNAs Atotalof3 926contigsweremergedresultedinreductionofourcontignumbersfrom32 489to30 222 拼接质量检验 Mergencecheck ESTs的聚类和拼接聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分 over lapping 的ESTs整合至单一的簇 cluster 中 聚类作用 产生较长的一致性序列 consensussequence 用于注释 降低数据的冗余 纠正错误数据 可以用于检测选择性剪切 基因表达谱分析ESTs聚类的数据库主要有三个 UniGene http www ncbi nlm nih gov UniGene TIGRGeneIndices http www tigr org tdb tgi STACK http www sanbi ac za Dbases html ESTclusteringtutorial httP www sanbi ac za 不严格的和严格的聚类 looseandstringentclustering looseclustering 产生的一致性序列比较长 表达基因ESTs数据的覆盖率高 含有同一基因不同的转录形式 如各种选择性剪接体 每一类中可能包含旁系同源基因 paralogousexpressedgene 的转录本 序列的保真度低 stringentclustering 产生的一致性序列比较短 表达基因ESTs数据的覆盖率低 因此所含有的同一基因的不同转录形式少 序列保真度高 ESTclusteringtutorial httP www sanbi ac za 有参照的和无参照的聚类 Supervisedandunsupervisedclustering Supervisedclustering根据已知的参考序列 如全长mRNA 已拼接好的一致性序列 聚类 Unsupervisedclustering没有根据参考序列进行分类 常用的拼接软件 Phrap http www genome washington edu UWGC analysistools Phrap cfm CAP3 XiaoqiuHuang huang mtu edu TIGR Assember http www tigr org software assembler Cluster的连接 利用cDNA克隆的信息和5 3 端Reads的信息 不同的Cluster可以连接在一起 UniGene Unigene结合有指导的和无指导的方法 而且在聚类过程中使用了不同水平的严格度 聚类的算法为megablast 数据库不产生一致性序列 TIGRGeneIndex TIGRGeneIndex用的是有严格的和有指导的聚类方法 聚类的算法为类似于BLAST和FASTA的FLAST 该法得到的一致性序列较短 交替剪切得到的不同的基因属于不同的索引 STACK STACK用不严格的和无指导的聚类方法 聚类的算法为d2 cluster 产生较长的一致性序列 同一索引中含有不同的剪切方法得到的基因 CleanShortandTight TIGR THC UniGene STACK LongandLoose 聚类问题 错拼poly A Linker to linker GeneFamilies repeat漏拼Lowquality Linker to linker repeat选择性剪切 测序饱和度的分析 基因在不同文库中表达丰度的比较 所有表达基因在不同文库间的分布 基因注释及功能分类 注释 序列联配Blastn Blastx 蛋白质功能域搜索 二结构比对 PfamInterproscan 较好匹配 InterproScan NtBlastn ESTsequences NrBlastx 完成注释 无理想匹配 较好匹配 完成注释 无理想匹配 较好匹配 无理想匹配 Newsequences 域的注释 后续分析 常用的基因注释流程 基因注释 基因功能分类 手工分类大部分以Adams95年的文章中的采用分类体系为标准 Adams MD etal Initialassessmentofhumangenediversityandexpressionpatternsbasedupon83millionnucleotidesofcDNAsequence Nature 1995377 6547Suppl 3 174 计算机批量处理利用标准基因词汇体系GeneOntology 进行近似的分类 分子功能 生物学过程 分子组分 http www geneontology org 基因产物直系同源簇的分析 COG http www ncbi nlm nih gov COG GO的组织结构 定向无环图 directedacyclicgraphs DAGs 各大数据库中基因或基因产物与GO术语的对照 其它分类系统与GO的对照表 表1 家猪脂肪组织的已知基因功能分类 表2 猪脂肪组织与猪胚胎胸腺组织和猪甲状腺组织表达谱的比较 参考文献 1 猪脂肪组织表达序列标签 ESTs 大规模测序及分析邓亚军等 遗传学报 Vol 31 NO 11 20042 两种家猪心脏组织基因表达谱的分析曾燕舞等 遗传学报 Vol 31 No 6 2004 EST的代谢途径分析 KEGG http www genome ad jp kegg 后续分析 比较基因组学分析 基因表达谱分析 新基因研究 基因可变剪切分析 实验验证 MicroArray GeneChip RT PCR Northernblotting 利用新一代测序仪进行转录组学的研究 RNAseqisapowerfultooltodetcetthewholetransciptomeincellandtissue PreviousRNAseqresearchfocusonmRNA butrecentstudiesprovethatpartoffunctionalnoncodingtransctiptandprotein codingRNAsarelackofpolyA Contentoftranscriptome Genes expression alterantesplicesNoncodingRNA snoRNA mRNA likencRNA snRNA someantisensetranscripts pesudogenes retrotransposon andothersfunctionalRNAs3 Somerepeatelements RNA seq的生物学重复和标准 至少有两个生物学重复 除非 短时间梯度取样 overlappingtimepointswithhightemporalresolution 不需要技术重复对基因注释较好的物种 只定量比较研究 可用reads大于20M 用于注释基因组的转录组 大于 100M最好有浓度不同长度不同的绝对定量control Spike in 以评估mapping质量 测序均匀性和RNA seq定量效果 3端 5端比值 是衡量RNA完整性的关键指标 理想值是1 也要进行计算评估样品处理流程 文库构建流程 测序机器 测序类型 分析软件 样品评估关键指标 rpkm值关键结果完备 Background mRNA seq Background SAGE HashimotoS i etal 2009 PLoSONE TotalRNA RibosomalRNADepletion 18SRNA 28SRNA rRNA depletedRNA FragmentationofRNA LigationtoAdaptor cDNA RTandRNaseHDigestion P2Primer P1Primer cDNAAmplification ExcisecDNA 140 200bp toRNA 50 110nt SizeSelectionbyPAGE SOLiDemulsionPCR SOLiDSequencing rRNAdepletion TranscriptomeTechnology Q1 Whichspeciesdoyouwanttostudy Isithavefinishedgenomesequencesandbettergeneannotation Fragment Mapping orMatePair Assembly SOLiDorSolexaor454Q2 what sthemajorquestiondoyouinterested mRNAorwholeRNApopulation includingmRNA non codingRNAandsoon Poly AmethodorrRNA minusmethodsQ3 Ifyouinterestedinanti sensetranscript SOLiDorSolexaQ4 Ifyouconcernaboutgenestructurevariation Mate PairorFragment Human SOLiD FragmentandPoly Amethodssequencing Result Result Mappingstrategy Junctiondatabaseconstruction MappingandAssemblytoolsBWA BWAisafastlight weightedtoolthatalignsrelativelyshortsequences queries toasequencedatabase targe suchasthehumanreferencegenomeSeqMap AToolForMappingMillionsOfShortSequencesToTheGenome MAQ standsforMappingandAssemblywithQualityItbuildsassemblybymappingshortreadstoreferencesequences ERANGE MappingandQuantifyingMammalianTranscriptomesbyRNA SeqCufflinks assemblestranscripts estimatestheirabundances andtestsfordifferentialexpressionandregulationinRNA Seqsamples iAssembler astandalonepackagetoassembleESTsgeneratedusingSangerand orRoche 454pyrosequencingtechnologiesintocontigs MapPER anRNA seqpaired endread PER protocol SupportsplicemappingandquantifyTopHat isafastsplicejunctionmapperforRNA Seqreads SpliceMap SpliceMapisadenovosplicejunctiondiscoverytool ItoffershighsensitivityandsupportforarbitrarilylongRNA seqreadlengths MapSplice SpliceJunctionMappingTool TrinityRNA SeqAssembly softwaresolutionstargetedtothereconstructionoffull lengthtranscriptsandalternativelysplicedisoformsfromIlluminaRNA SeqdataPALMapper acombinationofthesplicedalignmentmethodQPALMAwiththeshortreadalignmenttoolGenomeMapper RNA SeqDataAnalysisTools Web basedtoolsrQuant web isawebservicetoprovideconvenientaccesstotoolsforthequantitativeanalysisofRNA Seqdata Galaxy MappingpipelineforIllumina 454 andSOLiDsequencingdata UCSCGenomeBrowser Thissitecontainsthereferencesequenceandworkingdraftassembliesforalargecollectionofgenomes ItalsoprovidesportalstotheENCODEandNeandertalprojects Bioconductor Bioconductorisanopensourceandopendevelopmentsoftwareprojectfortheanalysisandcomprehensionofgenomicdata ExpEdit isawebapplicationforassessingRNAeditinginhumanatknownoruserspecifiedsitessupportedbytranscriptdataobtainedbyRNA Seqexperiments Myrna acloudcomputingtoolforRNAsequence GenePattern isapowerfulgenomicanalysisplatformthatprovidesaccesstomorethan100toolsforgeneexpressionanalysis proteomics SNPanalysisandcommondataprocessingtasks OthersScripture isamethodfortranscriptomereconstructionthatreliessolelyonRNA Seqreadsandanassembledgenometobuildatranscriptomeabinitio CisGenome Anintegratedtoolfortilingarray ChIP seq genomeandcis regulatoryelementanalysis ArrayExpressHTS isanRbasedpipelineforpre processing expressionestimationanddataqualityassessmentofhighthroughputsequencingtranscriptionalprofiling RNA seq datasets RSEQtools amodularframeworktoanalyzeRNA Seqdatausingcompact anonymizeddatasummaries RNA MATE Arecursivemappingstrategyforhigh throughputRNA sequencingdata SAMMate anRNA seqanalysispipeline allowsprocessingofSAM BAMfilesandiscompatiblewithbothsingle endandpaired endsequencingtechnologies Oqtans OnlineQuantitativeTranscriptomeAnalysis DESeq Digitalgeneexpresionanalysisbasedonthenegativebinomialdistribution EdgeR Detectedgenesbytwomethods Anotherdistribution RibominusRNAseqprovidesmoreevencoveragealongthegenebody Genescorrelation Geneexpressionnormalization FragmentReads RPKM quantifiedtranscriptlevelsinreadsperkilobaseofexonmodelpermillionmappedreadsRPKM统计的是每个基因中的read个数Pair endReads FPKM quantifiedtranscriptlevelsinfragmentreadsperkilobaseofexonmodelpermillionmappedreads fragmentisapairofreadsforpairedenddata FPKM统计的是每个转录本isoform中的fragment个数 Primaryanalysis distributereads DistributionofrandommappingreadsaccordingtoprimaryRPKMre calculatetheRPKM geneexpressionvalueDifferentialexpression IDEG6Pathwayanalysis GenMappMappingbrowser UCSCGenomebrowserFunctionanalysis GO KEGG 基因表达谱的分析 专一比对到外显子的序列数 109外显子长度 专一比对的所有序列数 基因表达丰度 RPKM 84 三个时期表达基因的聚类分析 基因表达谱的分析 85 AnnotationfornoncodingRNA 1 Collectionannotationdata NoncodingRNAdatabaseRNAdbfRNAdbNONCODEFANTOM3RefseqEnsembl AnnotationfornoncodingRNA 2 Integratealltheknowntranscriptionregionsandnameregionsaccordingtodatabaserank 3 Mappingreadstoabove mentioneddata4 Clustertheremainreads Non codingidentification Brain Non codingidentification Hela NoncodingRNAdistributionintheannotationdatabase Noncodingregions plots Distributionofnon codingregion Brain Distributionofnon codingregion Hela Powerfuldetectionforsometransctipts Powerfuldetectionforsometransctipts Powerfuldetectionforsometransctipts Repeatregionexpression Intronexpression Junctionexpression Exonskipismoreprevalence Antisensetranscripts Brain Antisensetranscripts Hela Antisensetranscripts Brain Hela Antisensetranscripts Conclusion rmRNA seqidentifiedmorenoveltranscriptsfromtheintergenic intronicandrepeatsequencesregions asthecandidatepolyA transcriptsthereadsfromrmRNA seqshowamoreuniformdistributionacrossgenescomparedtothosefrommRNA seq whichimprovesthesensitivityofdetection accuracyofquantificationandcompletenessofspliceandexonmaps Exonexpression RNA seq技术与芯片技术的比较 方法表达芯片Tilling芯片RNA seq与基因组大小相关分辨率N A 人 小鼠 35bp 1bp成本低低 高 与芯片密度相关高检测范围 4个数量级 2数量级与测序量及实际表达量相关灵敏度中低高新转录本不可以有限可以可变剪接不可以有限可以可变调控区不可以可以可以反义转录本N AN A可以SNPs 突变有限有限可以等位表达差异有限有限可以数据量0 01 0 05Gb0 1 1Gb1 15Tb生物信息分析低高极高 引自Wilhelm B 等 2009 基因功能分类 手工分类大部分以Adams95年的文章中的采用分类体系为标准 Adams MD etal Initialassessmentofhumangenediversityandexpressionpatternsbasedupon83millionnucleotidesofcDNAsequence Nature 1995377 6547Suppl 3 174 计算机批量处理利用标准基因词汇体系GeneOntology 进行近似的分类 分子功能 生物学过程 分子组分 http www geneontology org 基因产物直系同源簇的分析 COG http www ncbi nlm nih gov COG Hela GO KEGG GOfunctionalclassification DataAnalysisResultforfragmentdata EST的代谢途径分析 KEGG http www genome ad jp kegg SignificantDifferentialexpressedgenes DEGseqRNAsequencingcouldbemodeledasarandomsamplingprocess inwhicheachreadissampledindependentlyanduniformlyfromeverypossiblenucleotidesinthesample Jiangetal 2009 Underthisassumptionthenumberofreadscomingfromagene ortranscriptisoform followsabinomialdistribution andcouldbeapproximatedbyaPoissondistribution Basedonthisstatisticalmodel Fisher sexacttestandlikelihoodratiotestwereproposedtoidentifydifferentiallyexpressedgenes Marionietal 2008 Bloometal 2009 ThetwomethodshavebeenintegratedintoDEGseq edgeRAnoverdispersedPoissonmodelisusedtoaccountforbothbiologicalandtechnicalvariability EmpiricalBayesmethodsareusedtomoderatethedegreeofoverdispersionacrosstranscripts improvingthereliabilityofinference ManyoftheearlyRNA seqdatasetsinvolvesequencereadsfromtechnicalreplicates e g samesourceofRNA asopposedtobiologicalreplicates e g RNAfromdifferentindividuals DataAnalysisResultforfragmentdata logratioversusabundance Thesmearofpointsontheleftsidesignifiesthatgeneswereobservedinonlyonegroupofreplicatesamplesandthepointsmarked denotethetop500differentiallyexpressedgenes MA plot basedmethodwithRandomSamplingmode Fisher sExactTest DataAnalysisResultforfragmentdata 116 差异表达基因的功能富集 DAVID http david abcc ncifcrf gov 调控网络的构建 IPA 细胞分化过程相关基因调控网络 B 44 Qualitydistributionresult Mappingresult RNAAnalysisResults miRNAAnalysisResults RNA seq的优势 不局限于已知的基因组序列信息 适用于未知基因组序列的物种的高通量转录组研究相对于芯片技术 背景信号值低 没有检测上限 对于基因表达谱有非常宽的检测范围 在有内参的情况下 在定量方面显示出了较高的准确度和可重复性 不需要克隆的步骤 操作简单 需要的样本量少 可以在单细胞的水平上进行表达谱分析通量高 成本比Tillingarray或者大规模的EST测序要低 RNA seq的挑战 文库构建过程中大片段的RNA必须经过片段化处理 会引入一定的偏倚 PCR会造成表达量的变化 海量短序列数据的比对或拼接情况复杂 对重复序列和多匹配序列的精确定位存在明显问题 高等真核生物可变剪接和反式剪接的鉴定仍有相当的误差 测序深度的确定因物种 器官 组织 时期而变 很难有统一公式直接计算 StudyofthefunctionofRAD9inmouseEScellsbyusingSOLiDtranscriptomeprofiling 中科院北京基因组研究所 129 rad9基因的功能 TSS pA rad9 6 45kb 19qA 19qB 19qC1 19qC2 19qC3 19qD1 19qD2 19qD3 chr19 PCNAdomain RAD9 389aa 中科院北京基因组研究所 130 Functionalofrad9 rad9基因功能 DNA损伤修复 细胞周期调控 细胞周期检验点 细胞凋亡 基因表达调控 中科院北京基因组研究所 131 HU HU MEScell rad9 MEScell rad9 MEScell rad9 HU MEScell rad9 HU 中科院北京基因组研究所 132 一 RNA seq数据的注释 RNA seq的数据注释结果 中科院北京基因组研究所 133 RNA seq数据的注释 续 专一比对到基因组的序列在基因区和基因间区的分布 rad9 rad9 rad9 HU rad9 HU 中科院北京基因组研究所 134 二 基因表达谱的分析 表达基因的种类 中科院北京基因组研究所 135 基因表达谱的分析 续 RNA seq与DNA chip对基因检测能力分析 rad9 rad9 HU rad9 rad9 HU 中科院北京基因组研究所 136 基因表达谱的分析 续 RNA seq与DNA chip对检测到的基因表达量的分布 rad9 rad9 HU rad9 rad9 HU 中科院北京基因组研究所 137 基因表达谱的分析 续 RNA seq与DNA chip对基因表达谱检测的相关性分析 中科院北京基因组研究所 138 基因表达谱的分析 续 RNA seq与DNA chip对差异基因检测的相关性分析 rad9 vsrad9 HU 中科院北京基因组研究所 139 三 内含子区域表达的分析 基因的外显子和内含子表达丰度的相关性分析 中科院北京基因组研究所 140 内含子区域表达的分析 续 基因内含子区域有明显表达举例 中科院北京基因组研究所 141 四 基因间区域表达的分析 基因间表达区域的鉴定 rad9 rad9 HU rad9 rad9 HU 中科院北京基因组研究所 142 基因间区域表达的分析 续 基因5 UTR和3 UTR延伸区域的表达 中科院北京基因组研究所 143 基因间区域表达的分析 续 基因间表达区域的鉴定 rad9 rad9 HU rad9 rad9 HU 中科院北京基因组研究所 144 基因间区域表达的分析 续 Non codingRNA的表达 中科院北京基因组研究所 145 基因间区域表达的分析 续 基因间表达区域的鉴定 rad
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新中美协议书
- 查看手机协议书
- 供标石协议书
- 2025年心胸外科术后疼痛管理评估模拟测试卷答案及解析
- 2025年口腔颌面外科临床技能考核答案及解析
- 实训安全考试题库及答案解析
- 2025年病理学病理切片鉴别诊断模拟试题答案及解析
- 2025年麻醉学麻醉药物应用考试答案及解析
- 坚果调味料创新创业项目商业计划书
- 油菜籽油能量棒创新创业项目商业计划书
- 2《归园田居》任务式公开课一等奖创新教案(表格式)统编版高中语文必修上册
- 银行文明礼仪课件
- 虚拟电厂运行关键课件
- 敏捷企业组织结构与设计的案例研究
- 光伏储能技术介绍
- 项目合同交付管理办法
- 国企贸易业务管理办法
- 3done入门基础知识课件
- 职业健康卫生培训课件
- 2025年广西专业技术人员继续教育公需科目(三)答案
- 麻醉科设备管理制度
评论
0/150
提交评论