全基因组关联分析PPT课件.ppt_第1页
全基因组关联分析PPT课件.ppt_第2页
全基因组关联分析PPT课件.ppt_第3页
全基因组关联分析PPT课件.ppt_第4页
全基因组关联分析PPT课件.ppt_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

全基因组关联分析,2,概念,引言,全基因组关联分析英文名字叫Genome-wideassociationstudy简称GWAS,全基因组关联分析是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与疾病/性状相关的SNPs。,3,概念,引言,全基因组范围内的SNP,4,概念,引言,全基因组范围内的SNP对某一复杂疾病/性状的影响关联,身高间的差异,5,单基因遗传,背景,利用家系连锁分析的定位克隆方法,发现了大量单基因疾病,如囊性纤维化病、亨廷顿病性痴呆,亨廷顿病性痴呆,囊性纤维化病,6,单基因遗传性状,背景,7,单基因遗传性状,背景,8,家系连锁分析的定位克隆,背景,单基因家系连锁分析,9,背景,但对于复杂疾病,连锁分析的作用非常有限。,10,研究基础,进行GWAS时,选择的表型定义要准确和精确应尽可能选择那些可定量反映疾病危险程度的指标、可用于分析疾病临床亚型的特征,或可用于诊断和鉴别诊断疾病的表型特征。,缺血性脑卒中可能涉及血栓脱落或者脑动脉粥样硬化等不同的发病机制,但在人群中却常常同时出现而难以区分,11,研究基础,单核苷酸多态性(SNP)和拷贝数变异(CNV)GWAS的主要对象随着人类基因组单体型计划的完成,收录了成千上百万的SNP,SNP是人类基因组中最常见的遗传变异,现已被用作第三代遗传标识。CNV是指与参考序列相比,基因组中1kb的DNA片段插入、缺失和/或扩增,及其互相组合衍生的复杂染色体结构变异。发现了成千上万的基因组拷贝数变异(copynumbervariations,CNV),它们能显著影响基因的表达。,12,研究基础,基因组单倍体图谱计划(InternationalHumanHapMapProject)的实施和基因连锁不平衡,13,遗传标记的选择,SNP基于单倍型图谱(HapMap)可以选择五十万到一百万个覆盖全基因组的SNP用于GWAS。CNV基因组拷贝数变异(copynumbervariations,CNV)是指与参考序列相比,基因组中1kb的DNA片段插入、缺失和/或扩增,及其互相组合衍生的复杂染色体结构变异,14,SNP,单倍型,是单倍体基因型的简称,在遗传学上是指在同一染色体上进行共同遗传的多个基因座上等位基因的组合,15,CNV,2004年,Iafrate等和Sebat等首次描述了人类基因组CNV,2006年Redon等确定了覆盖12%(300Mb)人类基因组的1447个CNV区域(CNVregion,CNVR),CNV可能通过数量作用和质量作用两种机制引起的基因剂量改变导致表型改变,所以CNV全基因组关联分析(CNVassociationanalysis)可能更容易检测到致病遗传变异,16,CNV,2006年11月23日,一个国际研究小组在Nature(2006,444:444)上发表研究报告称,通过分析270名亚洲、非洲和欧洲健康者的DNA样本,发现了约2900个基因(至少占人类基因总数的10%)含有特异DNA片段拷贝数变异(CNV)。研究者认为,这些变异会影响基因活性,造成疾病易感性的个体差异。此前学术界认为人类个体间基因组序列一致性达99.9%,该研究结果对此提出了置疑。另外,随着第一代人类基因组拷贝数变异图谱的完成,人们审视疾病与基因的关系又多了一种视角,除了检测单核苷酸多态性(SNP),或者显微镜检染色体异常外,还可对中间长度(数百万核苷酸)的DNA片段变异进行评价。,17,CNV,染色体左侧的线条表示DNA丢失的范围;右侧的线条表示DNA增加的范围,粗线条表示扩增.,CGH检测31例肝癌DNA变异频率结果图.,18,研究基础,基因分型技术和遗传信息学的发展,近年来,基因分型技术不断进步,分型成本显著降低,以基因芯片技术为代表的超高通量分型技术更是得到了飞速的发展,全基因组测序商业化和公司之间的竞争使得基因组测序成本越来越低,19,截止到2010年12月,已经陆续报导和公布了关于人类身高、体重、血压等主要形状,以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种疾病GWAS的结果。累计发表了近万篇论文(9900篇)。确定了一系列疾病发病的致病基因、相关基因、易感区域和单核苷酸多态性(SNP)的变异,取得了很大成绩。,“GWAS第一次高潮”,成果,20,成果,截止到2010年12月GWAS发现的与人类性状或复杂疾病关联SNP位点(p510-8)不同颜色圆点代表不同性状或疾病,21,“GWAS第一次高潮”,成果,GWAS方法学(如研究设计、统计分析、结果的解释)也取得了极大的进步,22,进行GWAS时需满足,病例必须携带导致疾病的遗传因素选择覆盖全基因组的SNP或CNV研究样本量达到足够的检验效能采用高效可靠的数据分析方法以及进行重复验证检验等条件,23,研究方式,24,研究方式,25,研究方式,GWAS目前分为单阶段研究和多阶段研究,单阶段研究即选择足够的样本,一次性在所有研究对象中对选中的SNP进行基因分型,然后分析每个SNP与疾病的关联,在早期GWAS多使用,GWAS目前分为单阶段研究和多阶段研究,单阶段研究即选择足够的样本,一次性在所有研究对象中对选中的SNP进行基因分型,然后分析每个SNP与疾病的关联,在早期GWAS多使用,GWAS目前分为单阶段研究和多阶段研究,单阶段研究即选择足够的样本,一次性在所有研究对象中对选中的SNP进行基因分型,然后分析每个SNP与疾病的关联,在早期GWAS多使用,26,研究方式,多阶段研究多为两阶段研究,694个体,923个体,27,两阶段研究,第一阶段的分析可以是以个体为单位,也可以采用DNApooling的方法,筛选出较少量的阳性SNP注意:要保证SNP的敏感性和特异性,后者简单,但误差大,其估计的等位基因的频率标准差在1%4%之间,对检验效能有重要影响,第一阶段的分析可以是以个体为单位,也可以采用DNApooling的方法,筛选出较少量的阳性SNP注意:要保证SNP的敏感性和特异性,后者简单,但误差大,其估计的等位基因的频率标准差在1%4%之间,对检验效能有重要影响,28,两阶段研究,第二阶段采用更大的样本对第一阶段筛选出的阳性SNP进行分析注:应用大样本人群甚至在多种人群中进行基因分型验证,29,遗传统计分析,GWAS比较每个SNP等位基因频率差别多采用4格表的卡方检验,同时需对如年龄、性别等主要混杂因素采用Logistic回归分析。,在GWAS中,人群分层(populationstratification)和多重假设检验调整(multipletestingadjusting)是引起研结果分析误差的最主要原因,30,人群分层,人群分层是导致许多大样本研究出现假阳性或假阴性结果的一个主要原因如Campbell等(2005)采用欧裔美国人研究与身高表型乳糖酶基因型的关联,其结果在其他人群难以重复的原因即是受研究对象在不同地域存在极大差异引起的人群分层影响人群分层产生的问题即使在研究对象是同一种族人群时也仍然存在,而且现有的研究方法尚未能有效地解决此类问题,一种可能的策略是采用基于家系的关联研究,该方法可以避免人群分层对关联分析结果的影响,31,群体分层,32,如果采用较为宽松的多重假设检验方法就可能导致I类错误,出现大量的假阳性关联;但是如果采用最为严格Bonferroni校正,则又可能导致过度校正,结果使假阴性概率增加,而与疾病真正关联的SNP难以发现。,二、多重假设检验,结论:GWAS不能仅凭P值判断某个SNP是否与疾病真正关联,多种族、多群体、大样本的重复验证研究(replication)才是提高检验效能、确保发现真正疾病关联SNP的关键。,33,局限性,通过统计分析遗传因素和性状/复杂疾病关联确定与特定性状/复杂性疾病关联的功能性位点存在一定难度同义突变、不在ORF等。,例如:胰岛素基因启动子中的遗传变异增加型糖尿病风险,SNP在RNA的转录或翻译效率上发挥作用,可能在基因表达上产生短暂的或依赖时空的多种影响,刺激调节基因的转录表达或影响其RNA剪接方式。因此,研究者在找寻疾病相关变异时,应同时注意到编码区和调控区位点变异的重要性。,34,局限性,大部分常见遗传变异可能通过单独或联合作用轻度增加疾病发生风险,而这些变异仅可解释部分人群中因遗传引起的表型变异。,35,局限性,最后,GWAS是一种发现符合常见疾病-常见变异假说(commondiseasecommonvarianthypothesis)相关位点的方法,其可以确定相关位点但不能直接确定基因本身,且在任何特定人群中GWAS都不能方便地识别罕见的风险等位基因位点(下图),36,局限性,37,反思,“所有的改变,即使是最令人期待的,也有令人惆怅的一面,我们抛在脑后的一切仍如影随形”阿纳托尔法朗士(AnatoleFrance,18441924)现在发现这种全基因组分析是高出低收:昂贵的全基因组关联研究(每人份的花费预计高达数百万美元)所得的结果庞杂无序,大多数的基因变异与疾病并不关联。在已实施的100余项GWAS和几千例患者样本的分析结果发现,许多基因变异都是罕见的基因变异而不是关键基因,有一些变异仅仅与疾病危险因子、诱发因子、影响因子有关,而不是疾病直接相关联的基因,38,反思,在疾病/性状的发生过程中,基因是重要的,但不是唯一的,除了基因以外,还有RNA、蛋白质等;除了基因变异以外,还有转录、翻译、表观(epigenetics)、构象、调节和功能的变化等。最近国际基因组研究团队在冷泉港开会,研究、调整、部署下一阶段基因组计划。提出应以“外显子”为全基因组分析的中心。因为已发现多数与疾病相关联的基因变异都发生在外显子,而且外显子数量少,功能明确,分析相对容易、经济。,39,反思,所得的结果庞杂无序,大多数的基因变异与疾病并不关联。在已实施的100余项GWAS和几千例患者样本的分析结果发现,许多基因变异都是罕见的基因变异而不是关键基因,有一些变异仅仅与疾病危险因子、诱发因子、影响因子有关,而不是疾病直接相关联的基因,流行病学家JohnIoannidis说:“大多数已发表的研究都是错误的。”他认为,太多的科学家们急功近利地寻找种种基因变异与某一疾病发生风险之间的关系,而杂志社又急于发表描述这类关系的研究论文。,40,美国加州一个与硅芯片相关的潜力大产业正在这里兴起,那就是基因组测序技术产业。一家名为“整合基因”(CompleteGenomics,CG)的公司专为科学家提供外包的测序服务,更绝的是,在这家公司里做测序的,并不是研究人员,而是一排排的机器人目前CG公司只针对研究者和制药公司开放,个人还没法购买他们的服务。在这里,每对基因组测序要价9500美元,如果购买1000对以上,则每对价格降为5000美元。这个价格是随着基因组测序技术突飞猛进而急剧下降的,要知道,十年前,第一对人类基因组序列完成时,其价格是以十几亿美元计量的。,资料扩展,41,资料扩展,工作人员正在蓝色幽暗的“车间”内操作检测设备。,CG公司的基因组测序工作完全由机器人完成。,42,资料扩展,5月19-21日,由国际知名的自然出版集团(NaturePublishingGroup)与安徽医科大学共同主办的2011年度全基因组关联分析研究国际论坛(2011GenomeWideAssociationStud

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论