




已阅读5页,还剩191页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三讲转录组学 主要内容 RNA的种类和作用RNA研究方法高通量技术研究转录组学的策略转录组学研究进展microRNA研究 RNA是解读基因组的关键 RNA Protein Phenotype Genotype DNA 转录 transcription 生物体以DNA为模板合成RNA的过程 转录 DNA 转录 Transcription 遗传信息由DNA转换到RNA的过程 作为蛋白质生物合成的第一步 转录是mRNA以及非编码RNA tRNA rRNA等 的合成步骤 以特定的DNA片段作为模板 以DNA依赖的核糖核酸聚合酶 RNA聚合酶或RNA合成酶 作为催化剂而合成前mRNA的过程 mRNA转录时 DNA分子双链打开 在RNA聚合酶的作用下 游离的4种核糖核苷酸按照碱基互补配对原则结合到DNA单链上 并在RNA聚合酶的作用下形成单链mRNA分子 转录本 transcript 也称为剪切体 一条基因通过不同剪接可构成不同的转录本 参与转录的物质 原料 NTP ATP UTP GTP CTP 模板 DNA酶 RNA聚合酶 RNApolymerase RNA pol 其他蛋白质因子 一 RNA的种类和作用 1 RNA的种类2 各类RNA的作用 RNA的常见种类 1 核糖体RNA rRNA 2 转运RNA tRNA 3 信使RNA mRNA RNA的其他种类 1 不均一核RNA hnRNA 2 小核RNA snRNA 3 核仁小RNA snoRNA 4 小胞质RNA scRNA 7s RNA 5 microRNA6 转移 信使RNA tmRNA 7 端粒酶RNA8 反义RNA 核糖体RNA rRNA 1 rRNA是核糖体的组成成分rRNA一般与核糖体蛋白质结合在一起 形成核糖体 ribosome 如果把rRNA从核糖体上除掉 核糖体的结构就会发生塌陷 2 定位 起始翻译 16S的rRNA3 端有一段核苷酸序列与mRNA的前导序列是互补的 这有助于mRNA与核糖体的结合 进而起始翻译 核糖体RNA 原核生物包括5s 16s 23s 真核生物包括5s 5 8s 18s和28s 而每种rRNA各自有各自的功能 转运RNA tRNA 在蛋白质合成中作为氨基酸的载体合成i蛋白质的原材料 20种氨基酸与mRNA的碱基之间缺乏特殊的亲和力 因此 必须用一种特殊的RNA 转运RNA tRNA 把氨基酸搬运到核糖体上 tRNA能根据mRNA的遗传密码依次准确地把它携带的氨基酸连结起来形成多肽链 信使RNA mRNA 作为蛋白质合成时的模板mRNA是以DNA的一条链为模板 以碱基互补配对原则 转录而形成的一条单链 其功能就是把DNA上的遗传信息精确无误地转录下来 然后再由mRNA的碱基顺序决定蛋白质的氨基酸顺序 完成翻译 合成蛋白质 不均一核RNA hnRNA 概念 在真核生物中 转录形成的前体RNA中含有大量非编码序列 大约只有25 序列经加工成为mRNA 最后翻译为蛋白质 而因为未经加工的前体mRNA pre mRNA 在分子大小上差别很大 所以通常称为不均一核RNA hn RNA在受到加工之后 移至细胞质 作为mRNA而发挥其功能 而大部分的hnRNA在核内与各种特异的蛋白质形成复合体而存在着 小核RNA snRNA 概念 小核RNA 也见译为核内小RNA 是含有100到300碱基的RNA 它是真核生物转录后加工过程中RNA剪接体的主要成分 功能 它参与真核生物细胞核中RNA的加工 snRNA和许多蛋白质结合在一起成为小核核糖核蛋白 参与信使RNA前体 也就是hnRNA 的剪接 使后者成为成熟mRNA 核仁小RNA snoRNA 概念 核仁小分子RNA是一大类RNA分子 其大小一般在几十到几百个核苷酸 它们能与特定的蛋白质 如自身免疫抗原等 相结合生成snoRNP 在细胞中稳定存在 并且富集于核仁区 所以被称为核仁小分子RNA 功能 负责rRNA的加工 切割和修饰 参与核糖体的生物合成 小胞质RNA scRNA 7s RNA 存在于细胞质中的小RNA分子 如信号识别颗粒组分中含有的7sRNA 是蛋白质内质网定位合成的信号识别体的组成 小RNA分子 有些小RNA分子能直接调控某些基因的开关从而控制细胞的生长发育并决定细胞分化的组织类型小RNA分子本身又包含了若干类RNA 根据小RNA的生成 结构和功能大约可分为以下三类 miRNA microRNA siRNA smallinterferingRNA 其他小RNA microRNA 概念 MicroRNAs miRNAs 是一种大小约21 23个碱基的单链小分子RNA 是由具有发夹结构的约70 90个碱基大小的单链RNA前体经过Dicer酶加工后生成 不同于siRNA 但是和siRNA密切相关 功能 microRNA通过与相应的蛋白结合 形成一个 RNA诱导的转录沉默复合体 该复合体主要有4个作用 1 降解靶mRNA 2 抑制mRNA的翻译 3 在细胞核内募集组蛋白脱乙酰化酶等因子 沉默DNA的表达 4 扩增相应的microRNA 对一部分miRNAs的研究分析提示 miRNAs参与生命过程中一系列的重要进程 包括早期发育 细胞增殖 细胞凋亡 细胞死亡 脂肪代谢和细胞分化 第一个被确认的miRNA 在线虫中首次发现的lin 4和let 7 可以通过部分互补结合到目的mRNA靶的3 非编码区 3 UTRs 以一种未知方式诱发蛋白质翻译抑制 进而抑制蛋白质合成 通过调控一组关键mRNAs的翻译从而调控线虫发育进程 继线虫之后 随后多个研究小组在包括人类 果蝇 植物等多种生物物种中鉴别出数百个miRNAs 转移 信使RNA tmRNA tmRNA是一类具有类似tRNA分子和mRNA分子双重功能的小分子RNA 它在一种特殊的翻译模式 反式翻译模式过程中发挥重要作用 最近又发现它与基因的表达调控及细胞周期的调控等生命过程密切相关 反式翻译是细菌体内一种修复翻译水平上受阻的遗传信息表达过程的机制 端粒酶RNA 端粒酶是一种逆转录酶 是染色体端粒的RNA序列 功能 端粒酶是真核生物端粒复制的模板 它可以使用其部分RNA作为模板来合成端粒重复单元 在大多数真核生物中 染色体末端DNA的逐步丢失会被端粒酶所抑制 在具有端粒酶活性的细胞内 它的任务是作为反转录的模板然后加在端粒的末端以解决染色体因复制而变短的问题 这种酶在大多数细胞里是没有活性的 但在某些肿瘤细胞 转化细胞 干细胞以及生殖细胞里活性较高 反义RNA antisenseRNA 反义RNA antisenseRNA 可通过与靶位序列互补而与之结合的RNA 或直接阻止靶序列功能 或改变靶部位构象而影响其功能 RNA分析方法 mRNA检测技术核酸杂交技术原位杂交逆转录PCR ReversetranscriptionPCR RT PCR RACE northernblot 放射性同位素标记物 32P dCTP灵敏度达0 01pg非放射性标记物地高辛灵敏度达0 1pgDIG dUTP 通过酶促反应掺入到DNA RNA中去制成探针 杂交 加抗地高辛 酶的复合物 加底物 显色 探针制备 探测不同条件下的基因表达变化 B WITEK ZAWADA 2003 28SrRNA 18SrRNA FISH FluorescenceInSituHybridization 原位杂交 原位杂交 MorozLL 2006 RT PCR是将RNA的反转录 RT 和cDNA的聚合酶链式扩增 PCR 相结合的技术 首先经反转录酶的作用从RNA合成cDNA 再以cDNA为模板 扩增合成目的片段 RT PCR 转录本 Alltranscripts AllmRNAs 基因组学 RNA组学 蛋白质组学 转录组 转录组概念由Velculescu等在1995年首次提出 转录组 广义上指一个细胞内基因组DNA转录得到的所有转录产物以及转录物在细胞特定发育时期或特定生理条件下的表达水平 包括编码RNA mRNA 和非编码RNA 如tRNA rRNA snRNA miRNA等 狭义上指所有mRNA的集合 转录组研究是基因功能及结构研究的基础和出发点 是解读基因组功能原件和揭示细胞及组织分子组成所必需的 转录组的特点 受到内外多种因素的调节 因而是动态可变的 能够揭示不同物种 不同个体 不同细胞 不同发育阶段及不同生理病理状态下的基因差异表达信息 转录组学 Transcriptomics 研究细胞在某一功能状态下所含mRNA的类型与拷贝数 比较不同功能状态下mRNA表达的变化 搜寻与功能状态变化紧密相关的重要基因群 转录组研究的主要目的 发现所有转录本种类确定基因结构确定基因表达发现差异表达基因 转录组测序技术主要包括 表达序列标签 EST 表达系列分析 SAGE 基因芯片 Chip 高通量测序技术 NGS 转录组测序 RNA Seq的重要分支RNA Seq是指针对转录产物RNA的测序技术 主要有以下分支 转录组分析表达谱分析小RNA分析降解组测序针对mRNA的测序转录组测序是针对特定样品特定时期的转录mRNA的测序技术 重点在对翻译蛋白的mRNA的测序研究 转录组测序的特点 应用对象灵活广泛针对不同物种 不同个体 不同时期 都可以在mRNA水平准确的分析性状或功能差异 结构变异等信息 研究范围多样化从未知基因组物种 到研究成熟的人体病变组织 小鼠组织等特异组织 均可通过转录组分析进行研究 研究深度多样化从大规模功能转录本发掘到特定基因的可变剪接的不同功能分析 都可以定位研究 表达序列标签 EST 测定及分析 1 什么是EST 2 EST的应用3 EST序列测定及分析过程 2 什么是表达序列标签 expressedsequencetag EST 从已建好的cDNA库中随机取出一个克隆 从5 末端或3 末端进行一轮单向自动测序 所获得的约60 500bp的一段cDNA序列 基因组表达为RNA的序列 mRNA和功能RNA 1 表达序列与表达序列标签概念 1 什么是表达序列 EST的获得途径 cDNA文库构建 非标准化的cDNA文库的构建 可用于基因表达量的分析 经标准化或扣除杂交处理的cDNA文库 富集表达丰度较低的基因 Oligod T cDNA文库 非翻译区由于不含有编码序列 与编码区保守序列相比所受到的选择压力比较小 因而其多态性程度比较高 便于多态性位点的选择以用于遗传图谱的构建 随机引物cDNA文库 所获得的EST在基因功能的鉴定时具有更多的信息含量 并且在构建EST数据库时更有优势 同时有利于利用EST数据库聚类完整的基因和阅读框的寻找 便于利用更敏感的蛋白质比较来寻找同源基因 cDNA文库构建常见问题 RNA得率低mRNA分离效率低cDNA产物少原因 多糖 多酚 内源性核酸蛋白酶 miRNA等 原因 多糖 糖蛋白 核酸蛋白酶 植物血凝素等 多酚类等次生代谢产物在RNA分离时 经常与RNA共沉降 导致RNA丢失 或导致分离后的RNA严重不纯 影响mRNA分离的得率 内源性核酸酶存在较多的情况下 可降解双链DNA RNA或者DNA RNA杂合体 致使RNA易降解 转录后的DNA接头无法连接 是cDNA得率低的原因之一 miRNA的存在导致mRNA的降解 大规模EST序列测定的开始 1983年 Costanzo等提出EST概念的雏形1991年 Adams测定了三种人脑组织共609条EST 宣布了cDNA大规模测序的时代的开始代1991年 Okubo等提出大规模cDNA测序的研究战略1993年 Venter等创立现在的EST技术1993年 Boguski Schuler提出以EST为界标的人类基因组转录图谱计划 93年前ESTs数据收录于GenBank EBI和DDBJ 1993年NCBI NationalCenterofBiotechnologyInformation 建立了一个专门的EST数据库dbEST来保存和收集所有的EST数据 95年中期GenBank中EST的数目超过了非EST的数目 现在GenBank中EST的数目已经超过了三千五百万 约占GenBank中序列数的60 EST数量排名前10的物种 OrganismESTsHomosapiens human 8 301 471Musmusculus domesticus mouse 4 852 146Zeamays maize 2 018 798Bostaurus cattle 1 620 962Arabidopsisthaliana thalecress 1 559 485Daniorerio zebrafish 1 527 299Glycinemax soybean 1 481 930Xenopustropicalis westernclawedfrog 1 422 983Oryzasativa rice 1 271 375Cionaintestinalis 玻璃海鞘 1 249 110 EST技术流程 ESTs的应用 ESTs与基因识别ESTs已经被广泛的应用于基因识别 因为ESTs的数目比GenBank中其它的核苷酸序列多 研究人员更容易在EST库中搜寻到新的基因 Boguskietal 1994 在同一物种中搜寻基因家族的新成员 paralogs 在不同物种间搜寻功能相同的基因 orthologs 已知基因的不同剪切模式的搜寻 注 不过很难确定一个新的序列是由于交替剪切产生的或是由于cDNA文库中污染了基因组DNA序列 Wolfsbergetal 1997 ESTs与基因图谱的绘制EST可以借助于序列标签位点 sequence taggedsites 用于基因图谱的构建 STS本身是从人类基因组中随机选择出来的长度在200 300bp左右的经PCR检测的基因组中唯一的一段序列 来自mRNA的3 非翻译区的ESTs更适合做为STSs 用于基因图谱的绘制 其优点主要包括 由于没有内含子的存在 因此在cDNA及基因组模板中其PCR产物的大小相同 与编码区具有很强的保守性不同 3 UTRs序列的保守性较差 因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开 JamesSikela等 1991年 ESTs与基因预测由于EST来源于cDNA 因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列 使用合适的比对参数 大于90 的已经注释的基因都能在EST库中检测到 Baileyetal 1998 ESTs可以做为其它基因预测算法的补充 因为它们对预测基因的交替剪切和3 非翻译区很有效 ESTs与SNPs来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs 最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs Buetowetal 1999 Gargetal 1999 Marthetal 1999 Picoult Newbergetal 1999 应注意区别真正的SNPs和由于测序错误 ESTs为单向测序得来 错误率可达2 而引起的本身不存在的SNPs 解决这一问题可以通过 提高ESTs分析的准确性 对所发现的SNPs进行实验验证 利用ESTs大规模分析基因表达水平因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到 所以可以用利用未经标准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱 标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平 CGAP为研究癌症的分子机理 美国国家癌症研究所NCI的癌症基因组解析计划 CancerGenomeAnatomyProject CGAP 构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库 并进行了大规模的EST测序 其中大部分的文库未经标准化或差减杂交处理 基因表达系列分析 SerialAnalysisofGeneExpression SAGE 基因表达系列分析是一种用于定量 高通量基因表达分析的实验方法 Velculescuetal 1995 SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签 约9 21个碱基对 这些短的序列被连接 克隆和测序 特定的序列标签的出现次数就反应了对应的基因的表达丰度 DNA微阵列或基因芯片的研究高密度寡核苷酸cDNA芯片或cDNA微阵列是一种新的大规模检测基因表达的技术 具有高通量分析的优点 在许多情况下 cDNA芯片的探针来源于3 EST Dugganetal 1999 所以EST序列的分析有助于芯片探针的设计 ESTs数据的不足 ESTs很短 没有给出完整的表达序列 低丰度表达基因不易获得 由于只是一轮测序结果 出错率达2 5 有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染 有时出现镶嵌克隆 序列的冗余 导致所需要处理的数据量很大 EST数据库 1993年前 EST收录于GenBank EBI和DDBJ1993年NCBI建立dbEST 常用的EST数据库 1 dbEST databaseofEST Genbank数据库的一部分 描述 Publication文件 文献文件 文献发表信息Library文件 文库文件 实验信息Contact文件 联系人文件 联系信息EST文件 EST数据文件 核心数据 2 UniGene数据库 Genbank数据库的一部分一条纪录为一个genecluster 简介 查询UniGene 通过NCBIFtp下载 ftp ftp ncbi nih gov repository UniGene 使用dbEST数据库检索 3 GeneIndices数据库 TheInstituteofGenomicResearchDatabase TIGR 中的一个子库http compbio dfci harvard edu tgi 简介 数据构成 42类动物47类植物15类原生生物10类真菌 EST数据分析方法 随机挑取克隆进行5 或3 端测序 序列前处理 聚类和拼接 基因注释及功能分类 去除低质量的序列 如使用Phred 应用BLAST RepeatMasker或Crossmatch屏蔽数据组中不属于表达基因的赝象序列 artifactualsequences 载体序列 ftp ncbi nlm nih gov repository vector 重复序列 RepBase http www girinst org 污染序列 如核糖体RNA 细菌或其他物种的基因组DNA等 去除其中的嵌合克隆最后去除长度小于100bp的序列 1 序列前处理 聚类目的 将来自同一个基因或同一个转录本的具有重叠部分 over lapping 的ESTs整合至单一的簇 cluster 中聚类作用 产生较长的一致性序列 contigs 用于注释 降低数据的冗余 纠正错误数据 可以用于检测选择性剪切 ESTs聚类的数据库主要有三个 UniGene http www ncbi nlm nih gov UniGene TIGRGeneIndices http www tigr org tdb tgi STACK http www sanbi ac za Dbases html 2 ESTs的聚类 ESTs的聚类和拼接聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分 over lapping 的ESTs整合至单一的簇 cluster 中 聚类作用 产生较长的一致性序列 consensussequence 用于注释 降低数据的冗余 纠正错误数据 可以用于检测选择性剪切 基因表达谱分析ESTs聚类的数据库主要有三个 UniGene http www ncbi nlm nih gov UniGene TIGRGeneIndices http www tigr org tdb tgi STACK http www sanbi ac za Dbases html 不严格的和严格的聚类 looseandstringentclustering looseclustering 产生的一致性序列比较长 表达基因ESTs数据的覆盖率高 含有同一基因不同的转录形式 如各种选择性剪接体 每一类中可能包含旁系同源基因 paralogousexpressedgene 的转录本 序列的保真度低 stringentclustering 产生的一致性序列比较短 表达基因ESTs数据的覆盖率低 因此所含有的同一基因的不同转录形式少 序列保真度高 ESTclusteringtutorial httP www sanbi ac za 有参照的和无参照的聚类 Supervisedandunsupervisedclustering Supervisedclustering根据已知的参考序列 如全长mRNA 已拼接好的一致性序列 聚类 Unsupervisedclustering没有根据参考序列进行分类 Cluster的连接 利用cDNA克隆的信息和5 3 端Reads的信息 不同的Cluster可以连接在一起 聚类问题 错拼poly A Linker to linker GeneFamilies repeat漏拼Lowquality Linker to linker repeat选择性剪切 3 序列注释和分析 一级序列同源性比对 使用BLAST等工具蛋白质结构域和功能位点搜索基因功能分类 GeneOntology表达量比较分析 不同组织或发育阶段基因表达量比较通路分析可变剪切分析 较好匹配 InterproScan NtBlastn ESTsequences NrBlastx 完成注释 无理想匹配 较好匹配 完成注释 无理想匹配 较好匹配 无理想匹配 Newsequences 域的注释 后续分析 常用的基因注释流程 BLAST BasicLocalAlignmentSearchTool BLAST 结合了动态规划算法和间接的启发式算法的优点 同时把数据库检索建立在严格的统计学基础之上 是目前最常用的同源检索工具 局部比对软件比对比较精确细致用来做同源序列比对 进行基因功能注释耗时较长 BLAST简介 命令及参数简介比对类型 5种不同的比对程序在线比对和本地比对 BLAST结果简介 BLAST比对结果详解 74 nr nt nr Non redundantproteinsequences 包含GenBank所有编码序列 以及PDB swissprot PIR PRF数据库的所有编码序列的一个非冗余数据库 数据库完整度高 氨基酸序列数据库 nt Nucleotidecollection 包含GenBank和PDB中 不包含EST STS GSS 的所有核苷酸序列信息 存在冗余的数据库 数据库完整度高 Uniprot Uniprot UniversalProteinResource UniProt是一个集中收录蛋白质资源并能与其它资源相互联系的数据库 也是目前为止收录蛋白质序列目录最广泛 功能注释最全面的一个数据库 整合三大数据库 Swissprot TrEMBL PIR ProteinInformationResource 数据库组成 UniprotKB 知识库 Uniprotarc 归档 Uniref 参考资料库 Uniprot简介 Uniprot数据库的最重要组成部分UniprotKB Uniprotknowledgebase UniProtKB Swiss Prot UniProtKB Swiss Prot主要收录人工注释的序列及其相关文献信息和经过计算机辅助分析的序列 这些注释都是由专业的生物学家给出的 准确性无需置疑 注释结果全面翔实 注释包括对蛋白质功能 酶学特性 剪接异构体 相关疾病信息的注释等等 注释结果无冗余 http web expasy org docs relnotes relstat html UniprotKB TrEMBL UniprotKB TrEMBL主要收录的则是高质量的经计算机分析后进行自动注释和分类的序列 由于大规模测序产生的海量数据无法通过Swissprot的严谨注释思路来进行注释 TrEMBL存储了比较全面完整的物种编码序列信息 存在冗余 http www ebi ac uk uniprot TrEMBLstats Uniprot注释途径 网页提交序列本地BLASThttp www uniprot org COG KEGG注释途径 网络提交任务blasthttp www genome jp tools blast KEGG注释结果 BLAST比对结果根据比对结果提取代谢通路图根据基因对应的KO号可以从KEGG官网得到对应的PATHWAY图片 KEGG注释结果 Interproscan InterproscanInterPro是一个关于蛋白家族 proteinfamilies 功能保守区域 domains 和功能位点 funtionalsites 的数据库 该数据库包括了PROSITE PRINTS Pfam ProDom等知名蛋白结构和功能位点及保守域的数据库 Interproscan http www ebi ac uk Tools pfa iprscan 基因注释 技术路线 EST软件平台 EST序列 库 序列的质量检查 测序量监控 聚类和拼接检查 借助于基因组信息 表达量分析 Microarray和GeneChip 大规模表达谱或全景式表达谱 globalexpressionprofile 是生物体 组织 细胞 在某一状态下基因表达的整体状况 微阵列或基因芯片 DNAchip 利用光导化学合成 照相平板印刷以及固相表面化学合成等技术 在固相表面合成成千上万个寡核苷酸探针 并与放射性同位素或荧光物标记的来自不同细胞 组织或整个器官的DNA或mRNA反转录生成的第一链cDNA进行杂交 然后用特殊的检测系统对每个杂交点进行定量分析 SpottedMicroarrayscDNAArraysOligoArrays InSituOligoSynthesisPhotosynthesisPlanersurfaceMicrofluidicschipE fieldsynthesis IntegratedChipsIntegrateduF microarrayanddetectionchipswithPCR fluorescenceore detection MicrofluidicsPlasticsCeramicsSiliconOthermaterials 不同的生物芯片技术平台 点样芯片 原位合成芯片 微流体芯片 整合型芯片 基因芯片的探针 TaggedRNAfragmentsflushedoverarray 基因芯片的杂交实验 Experimentaloverview 图像扫描 Cy5 Cy3 LimitofDetection 1in30 000transcripts 20transcripts cell Red increaseofCy5sampletranscriptsGreen increaseofCy3sampletranscriptsYellow equalabundance 差异表达基因筛选 原理 采用cy3 cy5的ratio值对差异基因进行判断 或采用统计方法对差异基因进行统计推断 方法 倍数法 cy3 cy5比值大于2或者小于0 5 基因芯片或微阵列技术流程 高通量测序转录组研究策略 高通量测序中重要名词解释 1 测序深度 测序得到的总碱基数与待测基因组大小的比值 假设一个基因组大小为7M 测序总碱基数为70M 则测序深度为10 2 覆盖度 测序获得的序列占整个基因组的比例 由于基因组中高GC含量 重复序列等复杂结构的存在 测序最终拼接组装的序列往往无法覆盖所有的区域 这些区域就叫做Gap 二者的关系 测序深度与基因组覆盖度之间是一个正相关的关系 测序带来的错误率或假阳性结果会随着测序深度的提升而下降 当测序深度在10 15X以上时 基因组覆盖度和测序错误率控制均得以保证 RNA seq技术路线 文库制备 测序 短序列定位 计数 WorkflowofRNA Seq 样品检测文库制备ClusterStationIlluminaSequencing生物信息分析 TotalRNA样品检测 Agilent2200检测OD260 280 1 8 2 2RNA28S 18S 1 0 RIN 7 新型安捷伦2200TapeStation系统是新一代测序 NGS 生物微阵列芯片分析和qPCR工流程以及蛋白质纯化和抗体生产过程中对生物样品进行质量控制 QC 的理想解决方案 可扩展的通量 16联或96孔微量滴定板 快速得到结果 平均每个样品只需一分钟便可获得结果 使用简单 可直接使用的ScreenTape预制胶条简化了工作流程 样品用量少 每次运行仅需要不到2ul样品 真核mRNA的纯化 mRNA的纯化主要通过的磁珠与生物素吸附原理从而分离纯化Oligo dT 25磁珠纯化原理主要是mRNA的3 的polyA与磁珠在bindingbuffer的作用下相结合 磁珠通过MPC 磁分离器 从溶液中分离出来 mRNA与磁珠结合后 再用Tris HCL在加热条件下解离洗脱到溶液中 链霉亲合素包被磁珠 生物素标记Oligo dT 25 poly A 原核mRNA的纯化 AmbionMICROExpressKit LNA扣锁型探针 mRNA反转录 fragment RT 纯化过的mRNA样品加入1 l的fragmentbuffer70 作用1 5min 加入1 l的stopbuffer终止反应 加入沉淀剂 NaAc糖原无水乙醇 沉淀产物 RTdscDNA 末端修复 防止自连 cDNA3 末端加AAdapter连接 第一天 消化DNA mRNA的分离 mRNA的打断 cDNA的合成 第二天 末端修复 加接头 胶回收 3 端加A 第三天 PCR PCR胶回收 文库制备 文库质量检测 Aligent2100 片段大小 纯度 浓度qPCR 片段大小 浓度手工检测 跑胶验证 HiSeq2500 ApplicationsofRNA Seq 110 转录组分析的两种策略 左边是先比对 再通过表达量和junction信息得到转录本 这种方法能够检测到低表达量的转录本 右边是对mRNA seq的reads直接进行denovo组装 得到转录本 但对于低表达量的转录本不易发现 转录组分析的两种策略 有Reference的转录组分析以比对为基础 分析有基因组的样品的可变剪接信息 以及预测可变剪接带来的功能差异 同时定量不同样品的mRNA表达丰度进行差异基因的相关分析 无Reference的转录组分析通过测序数据组装大规模发掘对应物种的转录本信息 对组装得到转录本做功能注释分析 同时定量转录本的不同丰度进行差异分析 两种分析思路 原始数据 Reference基因组Gff基因结构注释 差异基因分析及功能注释分析 有参考基因组 无参考基因组 聚类得到Unigene Unigene的差异表达及功能注释分析 可变剪接结果 可变剪接作图 TopHat Cufflinks的可变剪接分析 测序数据组装 差异基因聚类分析 差异基因功能注释 结构预测分析 差异基因聚类分析 差异基因功能注释 有参考基因组分析 可变剪接根据软件对基因可变剪接结果做预测结合相关基因的功能进行深入的研究 性状相关 原始数据 Reference基因组Gff基因结构注释 TopHat Cufflinks的可变剪接分析 可变剪接简介 一个基因在转录过程中经过不同的剪接处理得到不同的mRNA从而产生不同的蛋白 是生物性状多样化的重要原因 可变剪接类型 外显子跳过 内含子滞留 互斥外显子 可变5 剪接 可变3 剪接 保守剪接类型 可变剪接分析软件 TopHat针对高通量RNA Seq的序列剪接检测软件 采用短序列比对软件Bowtie进行序列比对和剪接检测 Cufflinks利用Tophat的检测结果和测序Reads的比对情况组装构建转录本并进行表达丰度分析的软件 新基因的发现 新的编码区域的定位通过比对结果发现原本无基因注释的区域出现了编码mRNA的序列新基因的功能注释分析对新基因的序列做功能注释 无参考基因组分析 数据的组装Orf预测SSR分析通过BLAST做基因功能注释分析 原始数据 聚类得到Unigene 测序数据组装 结构预测分析 SSR Orf及编码序列 测序数据组装 组装基本原理基于测序reads之间的overlap进行的序列组装组装软件简介TrinityTransabyssSOAP Trans Trinity简介 TrinityTrinity是一个组装构建无Reference全长转录本的组装软件 专门针对高通量RNA测序设计的 组装效果较好 基因表达聚类分析 转录组学方法的应用导致基因表达数据爆炸性增长 如何对这些数据进行分析 从中提取有意义的生物学信息 已成为转录组学的研究热点和技术瓶颈 聚类分析技术能将待处理的对象分配到相应的聚类中 使得同一聚类中的对象差别较小 不同聚类之间的对象差别较大 聚类分析技术在转录组学研究中 非常适合大批量分析基因群的功能 有参考基因组序列信息分析流程 Reads在基因组上的分布 基因结构优化 通过转录组测序鉴定出酵母3 和5 UTR区域 鉴定基因可变剪接 exon1 exon2 exon3 exon1 exon2 exon3 exon1 exon3 commonreads junctionreads mRNA 鉴定融合基因 新转录本预测 SNP分析 DeepRNAsequencingatsinglebase pairresolutionrevealshighcomplexityofthericetranscriptome RiceTranscriptome Materialcallusrootatseedlingstage 14d shootatseedlingstage 14d flagleaves 2stages panicle 3stages MethodsRNASeq paired end singleend DGEsmallRNA 18 30nt 基因功能注释基因结构分析鉴定出大量新转录本可变剪接鉴定基因融合鉴定 无参考基因组生物信息分析 Unigene功能注释Unigene的GO分类Unigene代谢通路分析预测编码蛋白框 CDS Unigene表达差异分析Unigene在样品间的差异GO分类和Pathway富集性分析 Denovoreads组装流程 UnigeneGO分类 UnigeneCOG功能分类 基因表达差异分析 N1 totaltagNumberinsampleAN2 totaltagNumberinsampleBX GeneexpressionlevelinsampleAy GeneexpressionlevelinsampleBReference AudicS etal Thesignificanceofdigitalgeneexpressionprofiles GenomeRes 19977 10 986 995 Unigenepathway富集性分析 Pathway富集性分析列表 GenomeRes2010 Case 实验材料收集 叶片 花序 果实 根时间点 0 4 8 12 16 20和24h将每个时间点采集的样品均匀混合测序策略 Illumina测序 1Gdata 1 Highlight2 Heat3 Cold4 Salt5 Drought 抗逆相关可变剪接 外包膜蛋白16 AT2G28900 Intron retention Control LowTemperatureResistance 低温胁迫相关的AS 低温胁迫下这个内含子和对照相比被保留了下来 揭示了可变剪接有重要功能 AS调节机制 CCA1 生物钟相关基因 例如调节气孔的开关等 RNA Seq单端测序 Quantification 生物信息分析内容 测序数据评估筛选差异表达基因表达模式聚类分析GO功能富集分析Pathway富集分析蛋白互作网络分析 RNA Seq单端测序 Quantification 信息分析流程 RNA Seq与基因芯片优缺点比较 case PlantPhysiology2010 取样 选取在成熟季节开花后5 10 和15个星期葡萄分别代表葡萄果实成熟中的三个时期 postsetting ve raison和ripening 数据量 超过59Mreads数据 长度在36 44bp之间 运用RNA Seq技术对葡萄果实发育过程中复杂转录特征的研究 表二reads在基因组上的分布情况 表一测序数据 葡萄RNA Seq单端测序 浆果发育三个阶段共有 特有基因表达分布图 基因表达量分布 表达簇的分类分布情况 差异表达的基因GO功能注释 分成了19个功能类群 按照基因在三个不同时期的表达趋势进行分类 分成8个cluster 将基因的表达和它调控的一个生理功能联系在了一起 RNA Seq对浆果标记基因的验证 用RNA Seq的数据去验证已报到的十个浆果成熟期的mark基因 事实上从其它方法得到的数据去验证了RNA Seq数据的准确性 RNA Seq结果与RT PCR具有高度一致性 RT PCR验证结果 152 转录组研究技术横向比较 RNA seq的生物学重复和标准 至少有两个生物学重复 除非 短时间梯度取样 overlappingtimepointswithhightemporalresolution 不需要技术重复对基因注释较好的物种 只定量比较研究 可用reads大于20M 用于注释基因组的转录组 大于 100M最好有浓度不同长度不同的绝对定量control Spike in 以评估mapping质量 测序均匀性和RNA seq定量效果 3端 5端比值 是衡量RNA完整性的关键指标 理想值是1 也要进行计算评估样品处理流程 文库构建流程 测序机器 测序类型 分析软件 样品评估关键指标 rpkm值关键结果完备 RNA seq的优势 不局限于已知的基因组序列信息 适用于未知基因组序列的物种的高通量转录组研究相对于芯片技术 背景信号值低 没有检测上限 对于基因表达谱有非常宽的检测范围 在有内参的情况下 在定量方面显示出了较高的准确度和可重复性 不需要克隆的步骤 操作简单 需要的样本量少 可以在单细胞的水平上进行表达谱分析通量高 成本比Tillingarray或者大规模的EST测序要低 RNA seq的挑战 文库构建过程中大片段的RNA必须经过片段化处理 会引入一定的偏倚 PCR会造成表达量的变化 海量短序列数据的比对或拼接情况复杂 对重复序列和多匹配序列的精确定位存在明显问题 高等真核生物可变剪接和反式剪接的鉴定仍有相当的误差 测序深度的确定因物种 器官 组织 时期而变 很难有统一公式直接计算 转录组学的未来发展趋势 全长转录组 三代测序仪 单细胞转录组 singlecelltranscriptome 表观转录组 Epitranscriptome 全转录组的RNA编辑 MicroRNA研究 MicroRNA简介 1 长度为21nt左右核苷酸的内源性单链小分子RNA 2 存在65nt左右的发夹结构前体 3 基因座位于蛋白质基因间隔区 4 其DNA序列在近源物种间高度保守 miRNA具有十分重要的调控功能 它们主要参与基因转录后水平的调控 通过与靶mRNA特异性的碱基配对引起靶mRNA的降解 植物中较为常见 或者抑制其翻译 动物中较为常见 从而影响了靶mRNA的表达 目前发现miRNA是一个庞大的小分子调控RNA家族 广泛存在于各种动植物中 参与细胞增殖和分化 细胞凋亡 胚胎发育 形态建成以及疾病发生等一系列重要的生命过程 最近发现一系列与肿瘤发生相关的和人类病毒编码的miRNA 揭示miRNA在哺乳动物基因表达调控中具有重要作用 1 由长的内源性转录本 pri miRNA 经Drosha酶作用生成70nt左右的miRNA前体 pre miRNA 该过程发生在细胞核 2 将pre miRNA经Dicer酶作用加工为成熟miRNA 该过程发生在细胞质中 microRNA的加工成熟 首先由基因组转录形成长链RNA分子 pri miRNA 约60 的microRNA为独立转录表达 约15 miRNA为成簇存在而共同转录 其余还有约25 的miRNA定位于功能基因内含子 随基因转录表达 Pri miRNA经双链RNA核酸酶Drosha酶作用 加工形成70 100nt长度的pre miRNA Pre miRNA在Exportin5介导作用下转运出胞核至胞质中进行下一步加工 Pre miRNA在胞质中经双链RNA核酸酶Dicer酶作用加工形成单链成熟miRNA分子 miRNA发挥作用过程 19 23nt的成熟miRNA形成后与其他蛋白共同组成RNA介导的沉默复合体 RISC 参与RNA干扰途径 miRNA形成RISC复合体后可与特定的靶mRNA结合 这种结合不要求严格的互补配对 结合后导致靶mRNA翻译的抑制 翻译抑制 5 endofthesmallRNA 2 8 knownasthe seedregion donothaveacomplexsecondarystructureandarelocatedinaccessibleregionsoftheRNA microRNA识别靶位点 microRNA作用机制 miRNAandCancer MiRNA控制植物性状 miRNA与siRNA的联系 均为Dicer的产物长度均为22nt左右 5 端是磷酸基 3 端是羟基均需Argonaute家族蛋白的存在同为RISC的组分二者进化关系上可能的两种推论 siRNA是miRNA的补充miRNA在进化过程中替代了siRNA 沉默机制有重叠 miRNA的加工成熟过程与RNAi技术中常用的siRNA有许多相似之处 均经过Dicer酶对双链RNA的识别加工而形成单链RNA分子 miRNA与siRNA的区别 microRNA研究的兴起与发展 miRNA发展中遇到的问题 在各种生物中寻找miRNA发现miRNA的靶基因揭示miRNA的功能miRNA 目前靶基因检测工作成为miRNA功能研究的瓶颈 miRNA的获取 miRNA分子的序列短小1 在基因组中存在较多的互补序列2 在不同生物体内与靶基因结合的方式也不尽相同3 通常与多种蛋白相互作用这使得建立一个有效而且普遍适用的研究方法异常困难 到目前为止 miRBase上公布的miRNA总数将近3000种 现在已知靶基因的miRNA多是通过基因克隆和生物信息学筛选的方法发现的 miRNA的获取 系统生物学筛选 随着生物全基因组测序的完成 利用计算机对基因组序列进行搜索可以大大提高miRNA的鉴定效率 所以 人们根据目前已知的miRNA基因序列总结它们的特征和规律 编写了一些计算机程序 通过对生物基因组数据库进行搜索 可以找到那些可能为miRNA的基因序列 然后通过Northernblotting来筛选真正的miRNA基因 生物信息学方法是依据在不同的物种中 其成熟的miRNA具有较大的序列同源性以及前体的茎环结构具有相当大的保守性这一特征在基因组数据库中搜索新的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 郑州电焊实操考试题目及答案
- 污水管道抢修施工方案
- 教育培训机构教师劳动合同及教学质量保证协议
- 石嘴山政府公开信息跨部门协同处理与协调合同
- 猪场土地承包及养殖废弃物处理设施建设合同
- 物业租赁合同附物业管理担保及服务协议
- 物业项目经理聘用合同范本(含风险控制与应对)
- 二手房交易补充协议签订流程及注意事项详解
- 精装公寓租赁合同及室内清洁保养服务协议
- 离异双方共同财产分割及子女监护权调整合同
- 乡村振兴战略实施与美丽乡村建设课件
- 中频电疗法理疗(共60张PPT)精选
- 医学信息检索与利用智慧树知到答案章节测试2023年杭州医学院
- 黑底搭配大气企业宣传商业计划书商务通用PPT模板
- GB/T 17608-2006煤炭产品品种和等级划分
- 沪教五年级数学上册第一单元测试卷
- 地下停车库设计统一规定
- 综合实践课《绳结》教学设计
- 建筑装饰设计收费管理规定
- 电子课件-《市场营销》-A45-2298完整版教学课件全书电子讲义(最新)
- (整理)ASME-B161.34规定的标准磅级阀门(常用材料)额定工作压力和试验压力
评论
0/150
提交评论