版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、国际千人基因组计划国际千人基因组计划1000 genomes project-a deep catalog of human genetic variation生信生信1101邓煜邓煜Page 2目录目录背景介绍背景介绍先导项目内容先导项目内容人种差异的分析人种差异的分析1000基因组与医学遗传疾病基因组与医学遗传疾病Discuss1期数据的收集,处理,分析期数据的收集,处理,分析Page 31000 human genomesn 背景介绍:背景介绍: “国际千人基因组计划国际千人基因组计划”自自2008年年1月月22日启动,测序的总任务为日启动,测序的总任务为1200个人(故称为千人基因组计
2、划),旨在绘制迄今为止最详尽、个人(故称为千人基因组计划),旨在绘制迄今为止最详尽、最有医学应用价值的最有医学应用价值的人类基因组遗传多态性图谱。人类基因组遗传多态性图谱。 Page 4back groundn 国际人类基因组计划极大地推动了基因组学领域中技术与研究国际人类基因组计划极大地推动了基因组学领域中技术与研究 的发的发展。之后的国际人类基因组单体型图计划(展。之后的国际人类基因组单体型图计划(HapMap)产生了普通单)产生了普通单核苷酸多态性变异的全基因组目录,彻底改变了人类基因研究,并且核苷酸多态性变异的全基因组目录,彻底改变了人类基因研究,并且有可能在最近几年有可能在最近几年
3、发现超过发现超过200个有助于研究复杂疾病的新基因,如个有助于研究复杂疾病的新基因,如糖尿病,心脏病等。在此资源上所取得的巨大研究成就向科学界证明,糖尿病,心脏病等。在此资源上所取得的巨大研究成就向科学界证明,研究出一种集合了低于研究出一种集合了低于5%的变化频率和的变化频率和 包括插入、缺失、拷贝数变包括插入、缺失、拷贝数变异、结构变化等其他形式的人类遗传变异的更高清晰度遗传图谱是很异、结构变化等其他形式的人类遗传变异的更高清晰度遗传图谱是很有必要的有必要的。n 启动于启动于2008年年1月的千人基因组计划由一个国际研究协会发起,旨在月的千人基因组计划由一个国际研究协会发起,旨在提供最详尽的
4、人类遗传变异图谱,以提供最详尽的人类遗传变异图谱,以 支持疾病的研究。作为此国际支持疾病的研究。作为此国际项目的主要支持者和共同发起人,深圳华大基因研究院、英国项目的主要支持者和共同发起人,深圳华大基因研究院、英国Sanger研究所和美国国立人类基因组研究所将负责完成全球至少研究所和美国国立人类基因组研究所将负责完成全球至少 1000人的基因测序。深圳华大基因正在进行人的基因测序。深圳华大基因正在进行3Tb的亚洲人基因测序以的亚洲人基因测序以及相应的生物信息分析。及相应的生物信息分析。Page 5goaln 任何两个人在基因水平上任何两个人在基因水平上99%是一样的,小部分的基因组序列因人而是
5、一样的,小部分的基因组序列因人而异。了解这些差异是非常重要的,它能帮助了解人与人之间对疾病的异。了解这些差异是非常重要的,它能帮助了解人与人之间对疾病的易感性、对药物和环境因素的反应性的不同。然而,现有的图谱还不易感性、对药物和环境因素的反应性的不同。然而,现有的图谱还不够详细。新图谱能让研究者更快地锁定够详细。新图谱能让研究者更快地锁定与疾病相关的基因变异点与疾病相关的基因变异点,从,从而能够使用遗传信息更快地开发常见疾病的诊断、治疗和预防的新策而能够使用遗传信息更快地开发常见疾病的诊断、治疗和预防的新策略略Page 6Sample lists and sequencing progress
6、 n “千人基因组计划千人基因组计划”将测序的人群包括:尼日利亚伊巴丹区域的约鲁巴将测序的人群包括:尼日利亚伊巴丹区域的约鲁巴人;居住于东京的日本人;居住于北京的中国人;美国犹他州的北欧人;居住于东京的日本人;居住于北京的中国人;美国犹他州的北欧和西欧人后裔;肯尼亚和西欧人后裔;肯尼亚Webuye的的Luhya人和人和Kinyawa的的Maasai人;人;意大利的意大利的Toscani居民;居住于休斯顿的居民;居住于休斯顿的Gujarati印第安人;居住于印第安人;居住于丹佛的中国人;居住于洛杉矶的墨西哥人后裔;居住于美国西南部的丹佛的中国人;居住于洛杉矶的墨西哥人后裔;居住于美国西南部的非洲
7、人后裔。非洲人后裔。Page 7Page 8第一阶段:第一阶段:Pilot Projectn 1.第一个先导项目:运用多种下一代高通量测序技术平台,完成了两第一个先导项目:运用多种下一代高通量测序技术平台,完成了两个核心家庭共个核心家庭共6人的人的高覆盖度高覆盖度全基因组测序,每个基因组的测序深度全基因组测序,每个基因组的测序深度在在2060倍。通过此项目,可以评价多种主要测序方法的优缺点,倍。通过此项目,可以评价多种主要测序方法的优缺点,为为“国际千人基因组计划国际千人基因组计划”的后续项目扫清技术障碍。的后续项目扫清技术障碍。n 2.第二个先导项目:完成了第二个先导项目:完成了179人的人
8、的全基因组测序,平均测全基因组测序,平均测序深度在序深度在3倍。数据表明,大样本低覆盖度测序在降低成本的同时,倍。数据表明,大样本低覆盖度测序在降低成本的同时,仍然能有效识别人群中的基因多样性。仍然能有效识别人群中的基因多样性。n 3.第三个先导项目:通过对第三个先导项目:通过对700人的人的1000个个基因外显子基因外显子的测序,获得的测序,获得了占人类基因组全部序列了占人类基因组全部序列2%的蛋白质编码基因名录。前所未有的大的蛋白质编码基因名录。前所未有的大样本量有助于研究人群罕见变异的表达图谱。样本量有助于研究人群罕见变异的表达图谱。Page 9三种测序技术的优缺点三种测序技术的优缺点n
9、 1.外显子组测序技术外显子组测序技术 n 发现外显子区的绝大部分的疾病相关变异发现外显子区的绝大部分的疾病相关变异n 可发现常见变异和频率可发现常见变异和频率50bp)的插入或缺失,形同)的插入或缺失,形同SNP。n 3.SV:structure variation(基因组结构变异)染色体结构变异是指(基因组结构变异)染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失,染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组失,染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组(inter-chr
10、omosome trans-location)等。)等。Page 19Variant calling n 1.short variant callingBAM是一是一种文件格种文件格式式Page 20Variant callingn 2.Structural variation:n Site selection of these structural variants was done in three steps:n 1) 5种算法选择候选位点种算法选择候选位点(BreakDancer,CNYnator,Delly,Genomes STRIP,and Pindel)n 2)估算假阳性率估算假
11、阳性率FDRn 3)基因分型基因分型 based on:n a:有足够的数据可以利用有足够的数据可以利用n b:移除冗余移除冗余n c:错误位点的移除错误位点的移除Page 21Variant callingto gain high-quaility known variants考虑:考虑: Mapping quality scores(比对的质量分数越高说明该比对的质量分数越高说明该read比对到参比对到参考基因组上的位置越唯一考基因组上的位置越唯一) base quality(如果一个如果一个base的出错概率很低,那么质量就高,用于的出错概率很低,那么质量就高,用于评价突变体的质量评价突
12、变体的质量) read position(read比对到参考序列的第一个碱基位置比对到参考序列的第一个碱基位置)ensure low FDRPage 22Variant calling-statistical filteringn 突变体的突变体的3个个copies: Page 23intergratedn 单倍型:通俗的说法就是若干个决定同一性状的紧密连锁的基因构成的基因型单倍型:通俗的说法就是若干个决定同一性状的紧密连锁的基因构成的基因型n 把把SNP,indels,SVs,整合到一个单一的单倍型集合里整合到一个单一的单倍型集合里n SNP 位点并不是独立遗传的,而是在染色体上倾向于以一个
13、整体遗传给后代。位点并不是独立遗传的,而是在染色体上倾向于以一个整体遗传给后代。成组遗传的成组遗传的SNP位点在一代又一代的遗传中绝少发生重组。于是,这样的一组位点在一代又一代的遗传中绝少发生重组。于是,这样的一组SNPs位点类型也就是单体型。由于单体型包含着多个位点类型也就是单体型。由于单体型包含着多个SNP的遗传信息,许多的遗传信息,许多研究表明,在与复杂性状的相关分析中,采用研究表明,在与复杂性状的相关分析中,采用单体型单体型比单个比单个SNP具有具有更好地统更好地统计分析效果计分析效果Page 24intergratedn Probabilistic haplotype estimat
14、ion单倍型单倍型Page 25variant calling-other worksn variant calling for mtDNAn variant annotationn validation ExperimentPage 26Analysisn 1.量化量化phase 1的数据集的数据集n 2.突变体能量和基因型精确度的评估突变体能量和基因型精确度的评估:n a.SNP被检测到的能量作为总的等位基因频率的一个函数被检测到的能量作为总的等位基因频率的一个函数在等位基因较少的情况下,在等位基因较少的情况下,外显子组测序所得的外显子组测序所得的SNP明显多于全基因组测序明显多于全基因组
15、测序Page 27Analysisn b.估计估计genotype的精确度,定义一个的精确度,定义一个 =the squared Pearsons correlation coefficient(皮尔逊积矩相关系数的平方)(皮尔逊积矩相关系数的平方)n 在统计学中,皮尔逊积矩相关系数,用于度量两个变量在统计学中,皮尔逊积矩相关系数,用于度量两个变量X和和Y之间的之间的相关(线性相关),其值介于相关(线性相关),其值介于-1与与1之间。之间。n 定义的定义的 用于度量用于度量真实的真实的和和推断的推断的基因型之间的相关性,来估计基因型之间的相关性,来估计genotype的精确度的精确度,值约大推
16、断的基因型与真实基因型的相关性越高,值约大推断的基因型与真实基因型的相关性越高,那么那么Genotype的精确度就越大的精确度就越大2r2rPage 28Analysiswith LD:经过了单倍型整合的全基经过了单倍型整合的全基因组因组no LD:没经过单倍型整合的没经过单倍型整合的全基因组全基因组在不相关等位基因较少在不相关等位基因较少的情况下,外显子组测的情况下,外显子组测序的基因型精确度明显序的基因型精确度明显高于全基因组测序高于全基因组测序而且没有经过单倍型整而且没有经过单倍型整合的全基因组测序所得合的全基因组测序所得得基因型精确度明显低得基因型精确度明显低于经过了单倍型整合的于经过
17、了单倍型整合的全基因组测序和外显子全基因组测序和外显子测序测序Page 29 人种差异的分析人种差异的分析 Page 30人种中的基因突变人种中的基因突变n 1.integrated data set在实验前已知:在实验前已知:94% common variant(突变频率突变频率5%)62% 的的variant(突变频率在(突变频率在0.5%-5%)13%的的variant(突变频率突变频率0.5%)完善!完善!Page 31人种中的基因突变人种中的基因突变figure:淡蓝色淡蓝色=background粉红色粉红色(通过高密度通过高密度snp探针探针);白色;白色(实验前已知实验前已知),
18、深蓝色深蓝色(先前不先前不知知)=Variant above 0.5%绿色的三角形绿色的三角形=Indels下面的波纹下面的波纹=新变种新变种黑线黑线=大片段低频缺失大片段低频缺失Page 32人种中的基因突变人种中的基因突变n 2.突变的局限性和共享性分析突变的局限性和共享性分析这些位点和片段对于人种和群来说这些位点和片段对于人种和群来说既有局限性又有共享性。随着参与既有局限性又有共享性。随着参与样本数越多,仅存在于某个种族样本数越多,仅存在于某个种族(白线)的基因比例越来越少;存(白线)的基因比例越来越少;存在于所有大洲的基因比例和存在于在于所有大洲的基因比例和存在于所有人种的基因比例越来
19、越多所有人种的基因比例越来越多有颜色的区域:突变片段局限于某有颜色的区域:突变片段局限于某一个单一的祖先群体一个单一的祖先群体白线:突变片段只出现在某一个人白线:突变片段只出现在某一个人种里种里黑色实线:突变片段在所有的大洲黑色实线:突变片段在所有的大洲中都出现了中都出现了黑色虚线:突变片段在所有的人种黑色虚线:突变片段在所有的人种中都出现了中都出现了Page 33人种中的基因突变人种中的基因突变rare allele4.人种中人种中rare allele的共享的共享2f在整个样本中突变体出现了在整个样本中突变体出现了两次成为两次成为 变异变异作用:估计在人种中作用:估计在人种中 rare a
20、llele shareing的相关比例猜测某个人种的相关比例猜测某个人种的起源地的起源地稀有突变体非常具有代表性,它们共享的稀有突变体非常具有代表性,它们共享的模式能够揭示人种进化史的一些方面模式能够揭示人种进化史的一些方面2fPage 34人种中的基因突变人种中的基因突变n 3.Density of variants as a function of derived allele frequencyn 每个人种的一个基因组所携带的预期突变体数的密度作为新生型等位每个人种的一个基因组所携带的预期突变体数的密度作为新生型等位基因频率的函数:基因频率的函数:SNP 位点划分为祖先型等位基因位点划分
21、为祖先型等位基因 (ancestral allele)和新生型等位基因和新生型等位基因(derived allele)由图我们发现的一些结论:由图我们发现的一些结论:1.在突变频率低于在突变频率低于40%时,人种间的时,人种间的进化有本质上的分歧(新生型等位基进化有本质上的分歧(新生型等位基因频率)因频率)2.非洲携带非洲携带3倍的低频变异(倍的低频变异(0.5-5%),反映了非非洲人祖先在进化上),反映了非非洲人祖先在进化上的阻碍的阻碍3.有些人种的稀有变异(有些人种的稀有变异(80%)大量)大量过剩过剩Page 35人种中的基因突变人种中的基因突变n 5.Shared haplotype
22、length 分析分析突变频率与单倍型共享的长度呈负突变频率与单倍型共享的长度呈负相关关系相关关系由由shared haplotype length可可以作为分析以作为分析variant age 的一种的一种参考参考Page 36人种中的基因突变人种中的基因突变n 6.局部血统匹配局部血统匹配n we obtained:n 1)新的新的snp的比例的比例n 2)杂合位点的比例杂合位点的比例n 3)不相关的位点中不相关的位点中同义与非同义突变的比例同义与非同义突变的比例n as a function of the doploid ancestry可以推断可以推断ASW,PUR,CLM 和和 MX
23、L有不有不一样的血统一样的血统Native American 祖先的变祖先的变异较少(异较少(3.0%),但是仍然),但是仍然比比European祖先(祖先(2.6%)多;多;African变异最多变异最多Page 37进化选择进化选择n 有功能影响的稀有突变体的比例分析有功能影响的稀有突变体的比例分析n GERP :Genomic Evolutionary Rate Profiling(基因组进化速率评测基因组进化速率评测)n GERP score反映进化的保守性,越高,表示保守性越大反映进化的保守性,越高,表示保守性越大n DAF:derived allele frequencyENHCR
24、, enhancer; lincRNA, large intergenic non-coding RNA; non-syn, non-synonymous; PSEUG, pseudogene; syn, synonymous; TF,transcription factor;Page 38进化选择进化选择 GERP score and genetic diversityn 进化的保守性和基因的多样性进化的保守性和基因的多样性(ENCODE CTCF-binding mofit)n 结构域分为两类:交互在结构域分为两类:交互在ENCODE CTCF-binding 注释的峰内和峰注释的峰内和峰
25、外外,in peak and out peak。对。对in peak 结构域的结构域的GERP的分析,反映的分析,反映了进化的保守性了进化的保守性In peak 结构域的多样性小于结构域的多样性小于out peak 结构域的多样性,这应该与结构域的多样性,这应该与受到的进化选择相关受到的进化选择相关Logo 反映了反映了in peak结构结构域碱基的保守性和多样性。域碱基的保守性和多样性。碱基比例越大,保守性越碱基比例越大,保守性越大;碱基种类越多,多样大;碱基种类越多,多样性越大。性越大。Page 391000 基因组数据在医学遗传学上的用途基因组数据在医学遗传学上的用途n 1000基因组数
26、据能广泛应用于对有家族遗传性疾病和癌症的个体外基因组数据能广泛应用于对有家族遗传性疾病和癌症的个体外显子组中的突变体的查明显子组中的突变体的查明n 这是科学界首次实现千人规模以上的基因组对比分析,这一规模可以这是科学界首次实现千人规模以上的基因组对比分析,这一规模可以帮助发现一些罕见的基因变异,比如携带者占总人口比例不到的帮助发现一些罕见的基因变异,比如携带者占总人口比例不到的基因变异。这些罕见基因变异或许与疾病有关,例如可能增加心脏病基因变异。这些罕见基因变异或许与疾病有关,例如可能增加心脏病或癌症的患病风险,对基因变异进行研究有助于开发预防、治疗相关或癌症的患病风险,对基因变异进行研究有助
27、于开发预防、治疗相关疾病的方法疾病的方法 Page 401000 基因组数据在医学遗传学上的用途基因组数据在医学遗传学上的用途计算每种不同潜在功能的突变位点的平均数量计算每种不同潜在功能的突变位点的平均数量数据分为三个部分:数据分为三个部分:5% 因为许多导致变异的疾病处于低频突变段,所以建议不同的频率分开因为许多导致变异的疾病处于低频突变段,所以建议不同的频率分开考虑考虑根据潜在功能分类:根据潜在功能分类:*代表有功能代表有功能*Coding variant classes(stop-loss;nonsynonymous;synonymous)loss of function(stop-ga
28、ined;splice_site;frameshift_indel)*HGMD-DM and COSMIC SNPs*non-coding variant classes(non-coding RNAs;Motif gain and loss)*Other conserved variantsAll sites with GERP score2 were considered as Total conserved sites marked*Page 41Page 42data for GWASn GWAS:Genome Wide Association Studies(全基因组关联分析全基因组
29、关联分析)是是一种检测特定物种中不同个体间的全部或大部分基因,从而了解不同一种检测特定物种中不同个体间的全部或大部分基因,从而了解不同个体间的基因变化有多大的一种方法。不同的变化带来不同的性状,个体间的基因变化有多大的一种方法。不同的变化带来不同的性状,如各种疾病的不同。如各种疾病的不同。n 1000 基因组的数据可以基因组的数据可以 用于用于GWAS中的全基因组扫描中的全基因组扫描Page 432R:皮尔逊积矩相关系数的平方皮尔逊积矩相关系数的平方用于度量在某个频率范围内的真实用于度量在某个频率范围内的真实的和估算的位点个数的相关性(精的和估算的位点个数的相关性(精确性)确性)样本:样本:10个非洲血统的人个非洲血统的人Page 44在在GWAS中被识别的中被识别的 0.5的的snp平均数量作为该平均数量作为该snp到到index snp最小距离的函数最小距离的函数2rPhase 1得到的得到的 0.5的的 variant多于试验阶段和多于试验阶段和HapMap。2rPage 45Discussionn 1.对孟德尔遗传疾病的成功测序以及对一些与低频突变疾病相关的复对孟德尔遗传疾病的成功测序以及对一些与低频突变疾病相关的复杂疾病的发现强烈支持这一假说:除了上位性基因与环境的相互作用杂疾病的发现强烈支持这一假说:除了上位性基因与环境的相互作用的因素,其他遗传危险因素仍然需要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 编创说课稿2025学年初中音乐人教版七年级下册-人教版
- 26年骨扫描疗效评估应用指引
- 上海工程技术大学《安全原理与安全管理学》2025-2026学年第一学期期末试卷(A卷)
- 上海工程技术大学《Access 数据库》2025-2026学年第一学期期末试卷(A卷)
- 老年患者急救护理与处理
- 上海工商职业技术学院《Android 高级应用开发》2025-2026学年第一学期期末试卷(B卷)
- 初中民俗故事说课稿
- 缺氧护理中的护理安全与风险管理
- 上饶卫生健康职业学院《安全原理与安全管理学》2025-2026学年第一学期期末试卷(A卷)
- 蘑菇中毒的腹泻护理与止泻药物使用
- 贵州非税管理办法
- 乌鲁木齐低空经济发展现状
- 政治理论应知应会知识测试题库(附含答案)
- T-FJAS 016-2025 城市河湖内源磷污染治理锁磷剂应用技术规范
- 2024武汉商学院辅导员招聘笔试真题
- 药品门店访问管理制度
- 驻非洲员工管理制度
- T/CGCC 23-2018奢侈品鉴定技术规范
- 昌平卫校笔试题目及答案
- 围挡采购合同协议
- 2025届高考数学复习解答题:三角函数与解三角形
评论
0/150
提交评论