全基因组重测序数据分析_第1页
全基因组重测序数据分析_第2页
全基因组重测序数据分析_第3页
全基因组重测序数据分析_第4页
全基因组重测序数据分析_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

全基因组重测序数据分析1.介绍(Introduction)通过高通量测序识别发现denovo的somatic和germline突变,构造变异-SNV,涉及重排突变(deletioin,duplication以及copynumbervariation)以及SNP的座位;针对重排突变和SNP的功效性进行综合分析;我们将分析基因功效(涉及miRNA),重组率(Recombination)状况,杂合性缺失(LOH)以及进化选择与mutation之间的关系;以及这些关系将如何使得在disease(cancer)genome中的mutation产生对应的易感机制和功效。我们将在基因组学以及比较基因组学,群体遗传学综合层面上进一步探索疾病基因组和癌症基因组。实验设计与样本(1)Case-Control对照组设计;(2)家庭组员组设计:父母-儿女组(4人、3人组或多人);初级数据分析1.数据量产出:总碱基数量、TotalMappingReads、UniquelyMappingReads统计,测序深度分析。2.一致性序列组装:与参考基因组序列(Referencegenomesequence)的比对分析,运用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。3.SNP检测及在基因组中的分布:提取全基因组中全部多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最后得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。4.InDel检测及在基因组的分布:在进行mapping的过程中,进行容gap的比对并检测可信的shortInDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,最少需要3个Paired-End序列的支持。5.StructureVariation检测及在基因组中的分布:能够检测到的构造变异类型重要有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析成果,检测全基因组水平的构造变异并对检测到的变异进行注释。高级数据分析1.测序短序列匹配(ReadMapping)(1)屏蔽掉Y染色体上假体染色体区域(pseudo-autosomalregion),将Read与参考序列NCBI36进行匹配(涉及全部染色体,未定位的contig,以及线粒体序列mtDNA(将用校正的剑桥参考序列做替代))。采用原则序列匹配解决对原始序列文献进行基因组匹配,将Read与参考基因组进行初始匹配;给出匹配的平均质量得分分布;(2)碱基质量得分的校准。我们采用碱基质量校准算法对每个Read中每个碱基的质量进行评分,并校准某些明显性误差,涉及来自测序循环和双核苷酸构造造成的误差。(3)测序误差率预计。pseudoautosomalcontigs,shortrepeatregions(涉及segmentalduplication,simplerepeatsequence-通过tandemrepeat识别算法识别)将被过滤;2.SNPCalling计算(SNPCalling)我们能够采用整合多个SNP探测算法的成果,综合地,更精确地识别出SNP。通过对多个算法各自识别的SNP进行一致性分析,保存含有高度一致性的SNP作为最后SNP成果。这些含有高度一致性的SNP同时含有非常高的可信度。在分析中使用到的SNP识别算法涉及基于贝叶斯和基因型似然值计算的办法,以及使用连锁不平衡LD或推断技术用于优化SNP识别检出的精确性。统计SNV的等位基因频率在全基因组上的分布稀有等位基因数目在不同类别的SNV中的比率分布(a);SNV的类别重要考虑:(1)无义(nonsense),(2)化学构造中非同义,(3)全部非同义,(4)保守的非同义,(5)非编码,(6)同义,等类型SNV;另外,针对保守性的讨论,我们将分析非编码区域SNV的保守型状况及其分布(图a,b)3.短插入/缺失探测(ShortInsertion/Deletion(Indel)Call)(1).计算全基因组的indel变异和基因型检出值的过程计算过程重要包含3步:(1)潜在的indel的探测;(2)通过局部重匹配计算基因型的似然值;(3)基于LD连锁不平衡的基因型推断和检出识别。Indel在X,Y染色体上没有检出值得出。(2).Indel过滤解决4.融合基因的发现(FusiongeneDiscovery)选择注释的基因信息来自于现在最新版本的EnsembleGene数据库,RefSeq数据库和VegaGene数据库。下面图例给出的是融合基因的形成,即来自不同染色体的各自外显子通过重组形成融合基因的模式图。5.

构造变异(StructureVariation)构造变异(StructureVariation-SV)是基因组变异的一类重要来源,重要由大片段序列(普通>1kb)的拷贝数变异(copynumbervariation,CNV)以及非平衡倒位(unbalanceinversion)事件构成。现在重要某些基因组研究探测识别的SV大概有20,000个(DGV数据库)。在某些区域上,甚至SV形成的速率要不不大于SNP的速率,并与疾病临床表型含有很大关联。我们不仅能够通过测序方式识别公共的SV,也能够识别全新的SV。全新的SV的生成普通在germline和突变机制方面都含有所报道。然而,现在对SV的精确解析需要更加好的算法实现。同时,我们也需要对SV的形成机制要有更重要的认知,特别是SV否起始于祖先基因组座位的插入或缺失,而不简朴的根据等位基因频率或则与参考基因组序列比对判断。SV的功效性也结合群体遗传学和进化生物学结合起来,我们综合的考察SV的形成机制类别。SV形成机制分析,涉及下列几个可能存在的重要机制的识别发现:(A)同源性介导的直系同源序列区段重组(NAHR);(B)与DNA双链断裂修复或复制叉停止修复有关的非同源重组(NHR);(C)通过扩展和压缩机制形成可变数量的串联重复序列(VNTR);(D)转座元件插入(普通重要是长/短间隔序列元件LINE/SINE或者随着TEI有关事件的两者的组合)。构造变异探测和扩增子(Amplicon)的探测与识别分析:以下图所示6.测序深度分析测序深度分析就是指根据基因组框内覆盖度深度与盼望覆盖度深度进行关联,并识别出SV。我们也将采用不同算法识别原始测序数据中的缺失片段(deletion)和重复片段(duplication)。7.SV探测识别成果的整合与FDR推断(可选环节)(1).PCR或者芯片方式验证SV(2).计算FDR-错误发现率(配合验证明验由客户指定)(3)

筛选SV检出成果用于SV的合并和后续分析:我们通过不同方式探测识别SV的目的极大程度的检出SV,并且减少其FDR(<=10%)。通过下属筛选办法决定后续分析所使用到的SV集合。每种SV探测识别算法得到的SV的FDR规定不大于10%,并将各自符合条件的SV合并;对于FDR不不大于10%的算法计算识别的SV成果,如果有PCR和芯片平台验证数据,同样能够纳入后续SV分析中。最后,针对不同算法得到的SV,整合解决根据breakpoint断点左右重叠覆盖度的置信区间来评定;8.变异属性分析(1)neutralcoalescent分析测序数据能够探测到低频率的变异体(MAF<=5%)。根据来自群体遗传学理论(neutralcoalescent理论)的盼望值能够计算低频度变异的分布。我们用不同等位基因频率下每Mb变异数目与neutralcoalescent选择下的盼望值比值,即每Mb基因组windows内的theta观察值,来刻画和反映自然纯化选择与种群(cancercell-line能够特定的认为是能够分辨的种群)增加速率。该分布分别考察SNP(蓝色线),Indel(红色线),含有基因型的大片段缺失(黑色线),以及外显子区域上的SNP(绿色线)在不同等位基因频率区间上的theta状况(参见下图)。

(2).全新变异体(novelvariant)的等位基因频率和数量分布分析对象涉及全新预测的SNP,indel,largedeletion,以及外显子SNP在每个等位基因频率类别下的数目比率(fraction)(参见下图);全新预测是指预测分析成果与dbSNP(现在版本129)以及deletion数据库dbVar(6月份版本)和已经发表的有关indels研究的基因组数据通过比较后识别拟定的全新的SNP,indel以及deletion。dbSNP包含SNP和indels;dbVAR包含有deletion,duplication,以及mobileelementinsertion。dbRIP以及其它基因组学研究(JCVentrer以及Watson基因组,炎黄计划亚洲人基因组)成果提供的shortindels和largedeletion。

(3).变异体的大小分布以及新颖性分布计算SNP,Deletion,以及Insertion大小分布;计算SNP,Deletion,以及Insertion中属于全新预测成果的数目占已有各自参考数据库数目的比例(相对于dbSNP数据库;dbSNP包含SNP和indels;dbVAR包含有deletion,duplication,以及mobileelementinsertion。dbRIP以及其它基因组学研究(JCVentrer以及Watson基因组,炎黄计划亚洲人基因组)成果提供的shortindels和largedeletion)其中,能够给出LINE,Alu的特性位置。(4).构造变异SV的断点联结点(BreakPointJunction)分析根据SV不同检出成果通过某些列筛选环节构建全部构造变异SV的断点联结点数据库,保存长度不不大于等于50bp的SV;分析断点联结点处含有homology或者microhomology的SV;并将同一染色体,起始和终止位置坐标下的不同SV进行去冗余解决。分析识别SV的断点联结点(Breakpoint):将Breakpoint按照可能形成的方式能够分类为下列几类:(a)非等位基因同源重组型(non-allelichomologousrecombination-NAHR);(b)非同源重组(nonhomologousrecombination-NHR),涉及nonhomologousend-joining(NHEJ)和forkstalling/templateswitching(FoSTeS/MMBIR);(c)可变串联重复(VNTR)(d)转座插入元件(TEI)。

图CSV形成偏好性分析分析SV形成机制与断裂点临近区域序列的关系,涉及染色质界标(端粒,中心粒),重组高发热点区域,重复序列以及GC含量,短DNAmotif和微同源区域(microhomologyregion)。9.突变率预计针对以家庭组员为单位的测序方案,我们重要探测denovo的突变(DNM);通过采用不同的办法/算法,我们给出每个家庭一份推断的DNM报表;(1)根据基因型推断成果,分别对每人每碱基位置上的denovo突变进行综合度量;(2)采用贝叶斯办法计算家庭组设计中DNM的后验概率10.SNP,SNV功效分析与注释(1).祖先等位基因的注释通过将人类(NCBI36),黑猩猩(chimpanzee2.1),猩猩(PPYG2)以及恒河猴(MMUL1)4种基因组进行基因组比对,发现保守的序列区域,计算祖先等位基因;以及duplication/deletion事件的进化分析。(2).分析基因构造序列上不同区域的多样性(Diversity)与分歧进化(divergence)根据基因型分析成果计算基因构造序列上的多样性程度,即杂合度(heterozygosity);杂合度指标能够阐明选择效应的存在以及局部变异的构造分布特性模式。我们将考虑基因5’UTR上游200bp,5’UTR,第一种外显子,第一种内含子,中间外显子,中间内含子,最末外显子和内含子,以及3’UTR及其下游200bp区域左右考察的范畴(参见下图a)。

分析编码转录本的起始/终止位置临近区域的多样性和进化分歧度(参见下图b)。(3).疾病变异体探测将样本测序中分析得到SV与HGMD疾病变异体数据进行比对,得到交叉统计的错义和无义的SNP;通过将HGMD疾病关联突变与CUI(疾病概念分类标记数据库)比对获得HGMD中全部SV的疾病表型,并获得HGMD与测序数据分析得到的SV的疾病表型;并通过Fisher检查和Bonferroni多重假设检查校正计算样本SV所富集的疾病表型。(4).拷贝数变异CNV所含基因的功效注释将CNV与否覆盖区段重复SD区域分类为2大类,每类CNV的所含基因的功效富集状况计算,明显性在横轴表达;多个明显性功效在纵轴表达。

(5).变异的功效性分析与注释(a).SNP,Indels以及大的构造变异SV的功效注释;(b).对包含翻译起始注释信息的转录本编码区上的SNP分类为:同义SNP,非同义SNP和无义SNP(引入终止子),干扰终止子的SNP,以及干扰剪接位点的SNP;为了减少假阳性,我们采用严格的筛选方式过滤来自indels的错误;(c).对错义编码区突变的功效性分析:通过信息学分析算法评定相对于生殖系变异的体细胞突变对蛋白质的构造和功效的影响效应。(6).SNV,SNP与miRNA研究之间的关联分析miRNA是起重要的调控作用的小分子,我们将对miRNA的pri-mRNA,pre-miRNA以及miRNA靶基因序列进行分析,识别潜在的SNP功效位点。据文献研究提供证据表明Humanpre-miRNA的二级构造中存在不同位置上的SNP,我们将通过热力学稳定性分析办法评定SNP对pre-miRNA构造的影响;另外,我们也将对miRNA-Target靶基因互相作用位点做分析,评定对SNP对靶基因靶向性的影响。(7).SNV,SNP与GWAS研究之间的关联分析分析GWAS研究中得到的易感基因在基因组上不同坐标上的OR值分布状况;将现在已知的GWAS研究成果与SNP进行比较;根据LD连锁不平衡将SNP与易感基因的关系进行进一步讨论;直接与间接关联办法能够分别识别与表型有关的SNP,对于不易获得(missing)和定位的SNP,通过LD连锁不平衡推断疾病易感基因突变座位。

(8)生物学通路(代谢通路,信号通路)分析生物学通路(Biologicalpathway),涉及代谢通路和信号转导通路是生物功效的重要构成部分,我们将多个形式的突变、变异,涉及SNV和SNP,的对应基因放到生物学通路中进行综合分析,考察功效性突变对pathway的影响程度和影响的规律。通过GSEA(配合芯片体现谱数据),KS检查,超几何分布检查等办法对变异基因在某些pathway的富集程度进行排序,识别发生功效变化的潜在通路。(9).蛋白质-蛋白质互相作用(PPI)网络分析蛋白质互相作用也是生物分子功效增益和缺失的重要途径,因此我们针对蛋白质互相作用网络中的突变的蛋白及其收到影响的网络节点蛋白进行系统分析,并对收到影响的网络子构造进行功效注释分析和聚类富分析。我们采用网络分析算法对由于多个突变所受到影响的子网络(subnetwork)进行功效富集度的分析;(10).顺式基因调控网络模块(CRM)分析(a)启动子序列分析涉及动子区域上的Motif预测,并与已知转录因子数据库TRANSFAC和JASPAR中的TFBS结合位点进行比对;启动子区域上保守性分析,分析突变位置和保守性区域的关联;(b)计算全基因组保守性。拟定TFBS的保守性以及mutation位置的保守性;(11)重排(arrangements)与突变(mutation)的全基因组统计(a).体细胞(somatic)和生殖系(germline)重排(arrangements)体细胞突变是相对于germline突变的一类需要重要分析的内容,我们针对Case-control设计的测序方案能够分别分析突变的状况,涉及SNV,indel,以及CNV;如果仅在tumor/disease(Case组)出现而不在normal(对照组)出现的突变我们能够认为是somatic体细胞突变。将somaticmutation与dbSNP数据库比对能够发现潜在的全新的突变和有统计的突变位置。然后,将突变分别比对到基因区域和非基因区域。基因区域具体涉及:内含子区,UTR,剪接位点区和外显子区。其中外显子分辨别统计:同义(synonymous),缺失(deletion),阅读框移位(frameshift),插入(insertion),错义(missense),无义(nonsense)以及非编码蛋白外显子(non-proteincodingexon)等不同类型。综合不同方面分析的成果,并按照突变分类给出各重排(arrangements)类型:SNV,CNV的数目统计数据表(参见下图)。对每

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论