课件:第十一章复杂疾病的分子特征与计算分析.ppt_第1页
课件:第十一章复杂疾病的分子特征与计算分析.ppt_第2页
课件:第十一章复杂疾病的分子特征与计算分析.ppt_第3页
课件:第十一章复杂疾病的分子特征与计算分析.ppt_第4页
课件:第十一章复杂疾病的分子特征与计算分析.ppt_第5页
已阅读5页,还剩97页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学,第十一章 复杂疾病的分子 特征与计算分析,中南大学 陈小平、李曦 哈尔滨医科大学 徐良德,生物信息学,学习提纲,重点,复杂疾病的分子特征 复杂疾病遗传学研究策略 复杂疾病遗传学研究相关统计分析方法 常用遗传学统计分析集成软件的使用,难点,复杂疾病遗传学研究中计算分析的算法选择及分析要点,复杂疾病相关数据库 基因分型的方法,熟悉,第一节 引言 (Introduction),人类常见病,包括恶性肿瘤、心脑血管病、代谢系统疾病、神经系统疾病、精神和行为异常等绝大多数都是复杂性疾病。复杂疾病不符合孟德尔定律,疾病的发生发展涉及复杂的生物学过程,是21世纪生物医学重大的挑战之一。,第二节 复杂疾病的分子特征与数据资源,(Molecular Characters and Data of Complex Disease),一、复杂疾病的分子特征,(一)复杂疾病的定义,复杂疾病(complex disease),又称多基因病(ploygenic disorder),是指由多种遗传和环境因素共同决定的一类疾病。与单基因病相比,复杂疾病具有遗传异质性、基因微效性、表型复杂性、种族差异性以及环境相关性等特点。,复杂疾病涉及多种基因和蛋白:众多基因通过蛋白质复合物,调控网络以及互作通路来控制的。 复杂疾病受环境因素影响。同一个体在不同条件下对环境的响应不同。基因组的个体差异使不同人对环境的响应也不同。,(二)遗传变异是复杂疾病的决定因素,遗传因素在大多数复杂疾病中起决定作用; 人群中任意两个不相关个体DNA序列99.8%一致,0.2%存在差异; 基因组的不同导致生理表型、罹患疾病的风险及药物反应表型的差异,在人类多样性形成中具有重要意义。,单核苷酸多态:人类染色体上的单个核苷酸的差异,是人类基因组变异的主要类型。,单核苷酸多态(single nucleotide polymorphism, SNP),SNP相关的基本概念,等位(allele): SNP是一种双等位多态(即SNP的二态性) 基因型(genotype): 同源染色体上一对SNP等位的组合 单体型(haplotype): 特定染色体区域相邻近的SNP的组合,SNP等位、基因型、单倍型与TagSNP,最小等位频率(minor allele frequency, MAF): 群体中,一对SNP等位中出现较少的等位基因的频率。常见SNP的MAF应5%,而罕见SNP的MAF 1%。 非同义SNP(non-synonymous SNP):能够改变基因产物结构或影响基因表达量的SNP。 连锁块(linkage block):指位于染色体上某一区域的一组相互关联的SNP。,人类基因组中的其他变异,插入/删除多态(in/del),微卫星(microsatellite, MS),拷贝数变异(copy number variants, CNV),二、人类孟德尔遗传疾病数据库(OMIM),MIM (Mendelian Inheritance in Man)与OMIM OMIM由由美国国立卫生研究院(National Institutes of Health,NIH)、约翰霍普金斯大学( Johns Hopkins University )共同开发和维护 OMIM 数据库网址: /omim/,OMIM 主页(/omim),OMIM编号代表的遗传方式,“*”:代表已知致病基因的序列信息,没有加“*”表示其遗传模式虽然已有推测,但没有被证实或该基因与其他记录所包含的基因位点的分离情况尚不清楚; “#”:表示这种表型可以由两个或者多个基因中的一个发生突变而引起;,OMIM号前特殊符号的含义,“+”:表示这个记录包含基因的序列信息和表型; “%”:表示记录中描述了一个已知的孟德尔表型,但对其潜在的分子机制尚不清楚; “”:表示该记录已不存在或已被其他记录所代替。,OMIM数据的下载,OMIM数据可在/downloads页面注册下载,可下载的文件包含全部的OMIM文件(omim.txt.Z),OMIM中的基因文件(genemap)及其解释文件(genemap.key),以及疾病信息(morbidmap) OMIM还提供genemap和morbidmap的网络查询形式,在主页点击Getting start可进入查询选择页面,OMIM查询选择页面,genemap查询页面,Clinical Synopsis查询页面,OMIM数据库的使用(以Alzheimers Disease为例),三、基因型和表型数据库(dbGAP),基因型和表型数据库(genotype and phenotype database, dbGAP) NIH开发和维护 包含大量高通量复杂疾病遗传学研究的基因型和表型数据 访问网址:/gap,数据根据开放程度分为公开数据(public data)和控制访问数据(controlled access data)。 公开数据可以在dbGAP的服务器中免费下载,控制访问数据的获取和使用则有一系列的限制。首先,要获取这类数据须向dbGAP管理机构提交申请,获批后才能获得下载所申请数据的权限。其次,必须严格遵循数据使用规定。dbGAP中所有的数据均有一个禁止日期(embargo day)。,dbGAP数据类型,OMIM 主页(/omim),申请访问控制数据,数据下载(/dbgap),关联结果浏览器,关联结果浏览器可查询某基因与哪些表型性状相关。这里以LRP5为例,经搜索发现LRP5中的4个SNP在GWAS研究中分别与骨密度和心肌梗死显著相关。,关联结果浏览器,表型-基因型整合器,表型-基因型整合器可查询某表型性状相关的基因。这里以骨密度(bone density)为例,经搜索发现在GWAS研究有32个SNP位点与骨密度显著相关。,表型-基因型整合器,四、人类疾病相关多态数据资源,癌症基因数据库(cancer genome anatomy project, CGAP) 人类基因突变数据库(human gene mutation database, HGMD) 基因卡片数据库(gene cards),CGAP 主页(/cgap.html),下载页面图所示,其中包含了人和小鼠两个物种的基因注释、基因表达及相关的文库中的数据。,HGMD 主页(http:/www.hgmd.cf.ac.uk/ac/index.php),查询前需先注册、登陆。注册需采用学术邮箱(含.edu的邮箱),注册后登陆密码将在24小时内发送至注册邮箱。,GeneCards 主页(/),查询结果页面,以CYP2C9为例,其他常用复杂疾病相关数据库,肿瘤基因数据库(the tumor gene database, TGDB) 网址:/TGDB/tgdb.html 人类基因组流行病学导航(The Human Genome Epidemiology Navigator, HuGE Navigator)网址:/HuGENavigator/home.do 肿瘤及血液病相关的遗传学和细胞遗传学数据库(ATLAS of genetics and cytogenetics in oncology and haematology)网址:/,第三节 复杂疾病的遗传易感与遗传定位分析,(Genetic Susceptibility and Gene Mapping of Complex Disease),一、遗传标志物的筛选识别技术,SNP分型(genotyping):对SNP基因型的检测过程。 SNP分型包括两方面内容:对未知SNP的进行分析和对已知SNP进行分析。 SNP分型方法包括等位基因特异性和等位基因非特异性两类。,2019/8/23,51,可编辑,(一)限制性片段长度多态性 (restriction fragment length polymorphism,RFLP),(二)TaqMan探针法,(三)高分辨率熔解曲线 (high-resolution melting curve analysis, HRM),(四)基因芯片方法,(五)基质辅助激光解吸电离飞行时间质谱 (matrix assisted laser desorption/ionization time of flight mass spectrometry, MALDI-TOF-MS),dAMP = 313.2 Da dCMP = 289.2 Da dGMP = 329.2 Da dTMP = 304.2 Da,DNA consists of a four-letter alphabet: A, G, C, T. Each letter (and building block within a DNA strand) has defined molecular mass:,(六)Sanger测序法,(七)焦磷酸测序法(pyrosequencing),(八)下一代测序 (the next-generation sequencing,NGS),目前常用的NGS技术包括454、Solexa和SOLID等,它们均利用当前的智能化技术对基因组进行测序。 NGS适合用于全基因组测序、全外显子测序或对某一段区域进行靶向测序(targeted sequencing)。,二、遗传定位研究中的实验设计与统计分析方法,(一)遗传定位研究的分子基础,连锁不平衡(linkage disequilibrium,LD):指相邻基因座上等位基因的非随机相关 。 导致连锁不平衡的主要因素:遗传漂变、人口增长与群体结构改变、重组率变化、突变率变化、基因转换。,连锁不平衡的量度,常用连锁不平衡量度方法:D、r2和LOD值,r2值:代表两位点在统计学上的关系,其表达式为:,r2的数值表示一个位点可反映另一位点信息量的程度, r2 =1称为完全连锁不平衡,这时两位点等位基因频率相同,只观察一个标记即可提供另一个标记的全部信息。,b,D值:又称连锁不平衡系数,其表达式为 :,当D=1时,说明两个位点间没有发生重组,与r2相比较,当D等于1时两位点等位基因频率并不需要相同,它只是反映最近一次突变发生后突变位点与临近多态性位点的关系。,(二)遗传定位研究中的样本选取,1.临床表型 选取具有典型临床特征和明确诊断依据的个体作为疾病研究对象。 2.发病年龄 具有早发特征的患病个体更倾向于有较明显的遗传特点。 3.家族史 有家族史的个体能够较为准确的诊断疾病种类。,4.严重程度 较为严重的患病个体,具有较明显的遗传特点。 5.群体分层 选取的研究群体应具有同质性。,(三)连锁分析及其统计分析方法,连锁分析(linkage analysis):根据家系中遗传标记重组率计算两等位之间距离的方法。 连锁分析主要通过分析已知的性状或疾病表型与基因型在家系中遗传模式,以定位新的易感位点和易感区域。 是用于研究家系中标记传递的一种分析策略,根据连锁分析过程中是否依赖于假设模型,连锁分析方法分为两类:参数连锁分析和非参数连锁分析。,参数连锁分析所依据的家系遗传模型: 典型常染色体隐性模型示意,参数连锁分析方法,对于孟德尔遗传病,易于比较清楚的知道该疾病的遗传方式、外显率、基因频率等指标,从而确定一个准确的遗传模型进行连锁分析。 某些遗传模型并不清楚的疾病也通过改变策略而适用于连锁分析,但相对准确的模型建立是参数连锁分析成功的基本条件。 最常用的参数连锁定位方法:直接计分法和LOD值法。,1. LOD值法 首先针对某一疾病收集一定数量的家系资料,进行分离分析,确定遗传模型。 2. 通过文献检索了解其可能的决定性状的染色体区域,并对该区域的SNP进行查询和筛选,基于选定的SNP,对该家系成员进行SNP分型。,以LOD值法为例介绍参数连锁分析方法,3. 通过连锁分析估计疾病与SNP在子代中重组的发生率,计算LOD值,确定重组分数及相应的遗传距离,并进行假设检验,判断易感基因是否与遗传标记连锁。 LOD值是指在一定重组率条件下,两个位点相连锁的似然性和不连锁的似然性比值的对数值,即,在进行连锁分析时,要计算0(不重组)到0.5(随机分配)的一系列LOD得分。 当LOD3时,肯定连锁;当LOD-2时,可排除连锁。 常用基于LOD的连锁分析工具:LIPED 、LINKAGE 、S.A.G.E. 等自由软件包。 早期的连锁分析方法对模型的依赖性较强,计算速度慢, “混合模型”方法、多位点连锁分析方法、吉布斯取样及蒙特卡罗方法等已逐步发展起来。,1. 参数连锁分析家系选择过程中需要考虑到五项基本要求做出合理的家系筛选。 2. 对于某些外显率并不明确的疾病,还需要对外显率进行估计,而采用疾病个体特异的分析策略。 3. 家系中某些个体的疾病表型并不典型,难以确定是否受累,如某些精神疾病,需要进行人为的判断或重新划分。,参数连锁分析过程中的注意事项,非参数连锁分析方法,一种在分析前不需确定疾病遗传模式(如基因型频率、外显率等)或半依赖模型的分析方法。 最常用的是等位共享方法,不依赖于遗传模型的构建,是一个排除模型的过程。 通过显示受累亲属间高于随机情况的共享遗传相同的染色体区域(或位点)概率证实染色体区域的遗传模式与孟德尔遗传之间的差别。,(四)关联分析及其统计分析方法,关联分析(association analysis):不依赖于家系信息的一种遗传定位分析方法,是目前遗传定位研究中最常用的分析方法。 分类:质量性状关联分析、数量性状关联分析,前者在复杂疾病遗传定位研究中最常用。 应用关联分析方法进行易感位点定位的研究称为关联研究(association study)。,质量性状关联分析,质量性状(discrete characters):指能观察而不能测量的属性性状,在同一种性状的不同表型间不存在连续性的数量变化,而呈现质的中断性变化,如疾病的有无、分类等。 最常用的研究设计:病例-对照(case-control)研究。 常用的统计方法:2检验、Fisher精确检验、逻辑回归分析等。,例11-1 某医院对200名高血压病人和200名对照个体进行检测,通过限制性内切酶方法对采自这些个体的外周血淋巴细胞进行分析,获得了SNP rs39461的基因型(见下表),假定此次研究不存在采样上的缺陷,问这个SNP是否与高血压的发生相关?,数量性状关联分析,数量性状(quantitative trait):指一个群体内各个个体间表现的连续性的数量变化,如身高、体重、血压等等。 数量性状位点(quantitative trait loci, QTL): 与某些数量性状形成相关的DNA区域。 常用的统计方法:方差分析、 t检验、线性回归分析等。,例11-2 某医院对30名高血压病人采用氢氯噻嗪进行降压治疗,获取了这些病人的基因组DNA和6周后血压降低情况的随访记录,通过基因分型获得了SNP rs4961的基因型,初步分析发现GG携带者有19人,他们的平均收缩压下降值为8.3 mmHg,标准差为2.3 mmHg,GT+TT携带者有11人,他们的平均收缩压下降值为7.1 mmHg,标准差为1.8 mmHg,假定此次研究血压下降值符合正态分布,两样本方差无显著差异,问这个SNP与氢氯噻嗪降低收缩压的疗效是否相关?,关联研究中发现SNP与疾病发生之间的显著相关性可能存在三个原因: (1)SNP本身就是一个致病的SNP。 (2)SNP本身不能导致疾病,但与导致疾病的遗传变异呈连锁不平衡。 (3)研究群体选择失误造成的统计显著性。,显著关联潜在的生物学机理,(1)样本选取要严格限制在同质性群体中; (2)对照组选取应当谨慎,必要时选择未受累亲属作为内对照。 (3)对阳性关联位点进行传递不平衡检验(transmission disequilibrium test, TDT),以确认发现的致病等位在家庭遗传中倾向于向患病子代遗传。,第三种情况(统计学假关联)需避免,避免措施,(五)遗传分析中的统计显著性,遗传分析方法笼统的分为两类,但相应的研究方法众多。 两类方法面临的共同问题:统计结果的取舍,即如何进行统计显著性的阈值设定。遗传分析中分子标记的增多或检验模型的增加而增加复杂性。 多重检验:采用多次随机进行SNP与疾病相关性检验进行显著性水平选取,可回避多重检验校正。也可对待检的SNP进行LD修正、采用FDR方法进行修正。,三、全基因组关联研究,全基因组关联研究(genome-wide association study, GWAS):同时选取基因组中上百万个SNP进行研究,是HGP计划、HapMap计划、商业分型芯片发展共同的结果,是目前流行的复杂疾病的遗传学研究方法 。,GWAS的基因分型:基于全基因组芯片,一种基于寡核苷酸杂交的微阵列芯片。 GWAS芯片:Human610-Quad Beadchip和Genome-Wide SNP 6.0,前者可同时检测4个样品的230万个SNP位点,后者可同时检测90万个SNP位点和90万个CNV位点。 人群特异性芯片:基于中国人群基因组的GWAS芯片和全外显子芯片。,GWAS芯片种类与基因分型原理,候选区域精细定位策略进行GWAS,四、罕见变异位点的分析方法,人类基因组的变异根据MAF划分: 常见变异(co

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论