




已阅读5页,还剩66页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
问题出发 正常样本与异常样本 如肿瘤等 药物处理前后样本状态变化 如尼古丁刺激前后 发育不同阶段的样本改变 1 第二代测序数据分析原理 徐汪节 2 三代DNA测序技术之比较 第一代测序技术 Sanger测序法第二代测序技术 454测序 第三代测序技术 直接测序法 3 第一代测序技术 Sanger测序法 简便 快速 4 逐渐被遗忘的测序技术 Maxam Gilbert的DNA化学降解法 5 Sanger测序的局限 通过几十年的改进 第1代测序仪的读长可以超过1000bp 原始数据的准确率可以高达99 999 测定每千碱基序列的成本是0 5美元 每天的数据通量可以达到60万碱基 但是 不管怎么改进 第1代测序技术在速度和成本方面都已达到了极限 因为对电泳分离技术的依赖 使其难以进一步提升分析的速度和提高并行化程度 并且难以通过微型化降低测序成本 在此种情况下 第二代测序技术 Next generationsequencing 应运而生 6 概要 主要的测序平台基因组分析原理转录组分析原理分析策略的选择 7 第二代测序技术 454测序IlluminaSOLIDPolonatorCompleteGenomics 8 454 9 SOLID 10 Illumina 11 其他 PolonatorCompleteGenomics 12 13 第二代测序技术的共同点 1将目标DNA剪切为小片段2单个小片段DNA分子结合到固相表面3单分子独立扩增4每次只复制一个碱基 A C T G 并检测信号5高分辨率的成像系统 14 第二代测序技术的局限 与第一代测序仪相比 以合成测序为基础的下一代测序平台速度显著提高 成本明显降低 每台设备每天产出千兆碱基的序列不足为奇 但是 除了罗氏的454平台之外 读长短成了下一代测序平台的致命伤 这主要是由于DNA簇中存在的光学信号移相造成的 而应运而生的单分子测序技术是解决这一问题的一种方法 15 第三代测序技术 单分子测序 HelicosBiosciencesVisiGenPacificBiosciencesMobiousNexusI 16 17 直接测序法 在所有上述三代测序技术中 序列都是在荧光或者化学发光物质的协助下 通过读取DNA聚合酶或DNA连接酶将碱基连接到DNA链上过程中释放出的光学信号而间接确定的 除了需要昂贵的光学监测系统 还要记录 存储并分析大量的光学图像 这都使仪器的复杂性和成本增加 依赖生物化学反应读取碱基序列更增加了试剂 耗材的使用 在目前测序成本中比例相当大 直接读取序列信息 不使用化学试剂 对于进一步降低测序成本是非常可取的 为了实现这样的目标 目前就有很多人在研究纳米物理技术 在全球 许多公司和组织 如Agilent DNAElectronics IBM NabSys OxfordNanoporeTechnologies Sequenom等都在进行纳米孔测序的开发 不同的只是采用的方法或策略 18 19 20 Secondgenerationsequence Roche454MetagenomicsDenovosequencingRNA seqillumiaSolexaDenovosequencingRe sequencingRNA seq ChromatinImmunoprecipitation ChIP Meth seqABISOLiDRe sequencingChIP seqRNA seq 21 Experiments DNA seq denovo resequencingRNA seq mRNA ncRNA smRNA ChIP seq ChromatinImmunoPrecipitationMethyl seq methylatedDNA epigenome 22 主要的测序平台基因组分析原理转录组分析原理分析策略的选择 23 SequencingGlossary Reads Acollectionofclonesthatover samplethetargetgenome Pair endreads Sequencereadsderivedfrombothendsofasequencing libraryclone Mate pairreads Sequencereadsderivedfrombothendsofamate pairlibraryclonewhichinsertsizeisusually 1kb Insertsize Thesizeoftheclone insertfromwhichaclone endpairistaken Contig Theresultofjoininganoverlappingcollectionofsequencereads Scaffold Theresultofconnectiingnon overlappingcontigesbyusingpir endreads N50size Asappliedtocontigsorscaffolds thatsizeabovewhich50 odtheassembled 24 25 26 27 全基因组denove分析工具 28 分析所需工具 Bowtiesoftware SAMtools TopHatsoftare Cufflinkssoftware CummeRbundsoftware 29 外显子组分析工具 30 主要的测序平台基因组分析原理转录组分析原理分析策略的选择 31 常规分析 TranscriptsquantificationSplicingsitesdiscoveryandquantificationGenediscoverySNP INDELdetectionAllelespecificexpression 32 33 34 35 UniGene拼接 目的 将预处理后reads进行拼接 得到拼接结果 原理 应用deBruijngraphpath算法对reads进行denovo拼接 对上一步的拼接结果 再用HamiltonPath算法拼接 结果 UniGene序列 UniGene统计信息 序列长度分布图 36 37 3 数据库注释 目的 对拼接得到的UniGene进行功能注释原理 通过blast 算法将拼接得到的UniGene序列与数据库进行比对结果 比对结果表格 物种分布统计和Evalue分布统计 38 39 UniGene表达分析 目的 UniGene定量分析 原理 以UniGene为reference 分别将每个样本的reads进行referencemapping 从而得到每个样本在每个UniGenes中的一个reads覆盖度 然后应用RPKM FPKM标准化公式对富集片段的数量进行归一化 RPKM ReadsPerKilobaseofexonmodelperMillionmappedreads 公式下 40 UniGene表达分布图 1X 5X分别为FPKM 1 FPKM 5分界点 可以大体观察到低表达 中表达以及高表达的比例关系 41 UniGene样本间表达相关性散点图 42 样本间表达差异程度的MA图 可以体现差异表达总体偏差 43 UniGene表达差异分析 目的 对定量结果进行统计检验分析 找出差异表达UniGene原理 双层过滤筛选差异基因FC值筛选 采用Fold change FC 表达差异倍数进行第一层此的差异基因筛选FDR检验 一般采用卡方检验中的fisher精确检验进行p值检验 采用BenjaminiFDR Falsediscoveryratio 校验方法对p值进行假阳性检验 即 通过FDR显著性参数进行第二层次的差异基因筛选 44 组间差异基因上调与下调个数统计 可以通过此图观察上调与下调的一个总体趋势 45 差异基因火山图 可以观察到差异基因总体分布 46 GO功能分类 目的 利用数据库注释信息将UniGene进行GO功能分类 原理 利用数据库的注释结果 应用blast2GO算法进行GO功能分类 得到所有序列在GeneOntology的三大类 molecularfunction cellularcomponent biologicalprocess的各个层次所占数目 一般取到14层 结果 MF BP CC三大分类结果文件以及UniGene2GO关系列表 三大类别中第二层次上的柱状分布图和饼图 GO功能的层次分布图 47 48 49 50 51 KEGG代谢通路分析 目的 对拼接得到UniGene进行KEGGpathway映射 原理 应用KEGGKAAS在线pathway比对分析工具对拼接得到的UniGene进行KEGG映射分析 结果 标记的Pathway通路图 52 53 IPApathwayanalysis 54 COG注释 目的 对拼接得到UniGene进行COG功能分类 原理 利用blast 算法将拼接得到的UniGene与CDD库中的COG KOG库进行比对 进行COG功能分类预测 将其映射到COG分类中 结果 COG分类分布情况图 55 56 SSR重复序列注释 目的 对拼接得到UniGene进行SSR简单重复序列的查找 原理 筛选标准 单核苷酸重复的次数在10次或10次以上 二核苷酸重复的次数在6次或6次以上 三至六核苷酸重复的次数在5次或5次以上 同时 也筛选中间被少数碱基 间隔小于100或等于100 打断的不完全重复的SSR 结果 重复序列的信息文件以及统计文件 57 LncRNA预测 目的 对拼接得到的UniGene进行LncRNA LongnoncodingRNA 预测 原理 通过以下过程对UniGene进行过滤 最终得到候选LncRNA序列 1 Unigenelength 200bp 2 UnigeneORF OpenReadingFrame length 300 3 将满足长度条件的UniGene与多个近源物种进行进化分析 得到序列的保守性和进化特性 4 根据上述的特性和已知数据库中coding noncoding区域的特性建立编码筛选模型 5 将符合noncoding模型的UniGene与Pfam等蛋白域数据库进行同源性比对 进一步去除可能的编码特性 最终得出LncRNA预测结果 58 59 RSAM 01 模式动植物基因组数据和注释信息整合 60 61 RSAM 07 可变剪接分析 可变剪接体与Exonskippingjunction的识别 62 RSAM 08 转录起始位点 TSS 分析 TSS类和转录起始位点模式的识别 1 通过tag聚类方法将5 端read进行聚类 识别出不同模式的TSS 例如下图所示 确定cluster的边界 黄色区域 2 每个cluster至少包含100reads 并统计这些cluster的定位和分布数量 3 统计不同TSScluster大小宽度分布 以及转录起始模式的识别 63 64 RSAM 09 融合基因的发现 FusiongeneDiscovery 65 66 RSAM 10 非长编码RNA与多外显子反义转录本的识别 图例蛋白质编码效能分析 a b 进化保守性水平 c 与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 城市轨道交通站点周边土地利用与城市可持续发展报告
- 地产建筑行业建筑设计规划
- 学员协议书样例
- 结婚典礼祝福致辞范本
- 医疗器械数字化数字化转型研究
- 跑步机行业工艺流程优化策略
- 安全教育培训职能课件
- 2025年氢能重卡在矿山运输中的应用前景及挑战报告
- 辽宁省名校联盟2025-2026学年高二上学期9月联考英语试题(含答案无听力原文及音频)
- 2025年教育大数据在教育行业投资决策中的应用与挑战
- 2017-2018学年新人教B版高中数学必修1全册教案
- 新媒体营销与运营完整全套教学课件
- “三通一平”工程施工标准合同
- 玉米联合收获机械
- 新行政诉讼法
- 2023年安徽国贸集团控股有限公司招聘笔试模拟试题及答案解析
- 医学人文与叙事课件
- 三年级美术上册《魔幻颜色》课件
- 部编版一年级上册语文全册优秀课件
- 《横》书法教学课件
- 工程项目进度管理-课件
评论
0/150
提交评论