单核苷酸多态与人类疾病_第1页
单核苷酸多态与人类疾病_第2页
单核苷酸多态与人类疾病_第3页
单核苷酸多态与人类疾病_第4页
单核苷酸多态与人类疾病_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、单核苷酸多态单核苷酸多态(Single Nucleotide Polymorphisms, SNPs)是人类染色体上)是人类染色体上的单个核苷酸的差异。的单个核苷酸的差异。一、什么是单核苷酸多态一、什么是单核苷酸多态二、二、SNP相关的基本概念相关的基本概念 1. 等位等位(allele)SNP是一种双等位多是一种双等位多态(即态(即SNP的二态性)的二态性)2. 基因型基因型(genotype)同源染色体上)同源染色体上一对一对SNP等位的组合等位的组合3. 单体型单体型(haplotype)特定染色体区)特定染色体区域相邻近的域相邻近的SNP的组合的组合SNP等位、基因型、单体型与等位、基

2、因型、单体型与TagSNP4. 最小等位频率最小等位频率(minor Allele Frequency, MAF)群体中,一对)群体中,一对SNP等位等位中出现较少的等位的频率,以中出现较少的等位的频率,以5%(1%)为界为界将将SNP分为常见分为常见SNP和罕见和罕见SNP5. 非同义非同义SNP(non-synonymous SNP) 能够改变基因产物结构或影响基因能够改变基因产物结构或影响基因表达量的表达量的SNP 一、一、SNPSNP检测和分型技术检测和分型技术 SNP分型分型(genotyping)是对)是对SNP基因基因型的检测过程型的检测过程SNP分型包括两方面内容:对未知分型包

3、括两方面内容:对未知SNP的进行分析和对已知的进行分析和对已知SNP进行分析进行分析直接测序技术获得的直接测序技术获得的SNP分型数据分型数据二、连锁不平衡、单体型与二、连锁不平衡、单体型与Tag SNP Tag SNP (一一)连锁不平衡连锁不平衡连锁不平衡连锁不平衡(linkage disequilibrium,LD)是指相邻基因座上等位基因的非随机相)是指相邻基因座上等位基因的非随机相关关 。导致连锁不平衡的主要因素有遗传漂变、导致连锁不平衡的主要因素有遗传漂变、人口增长与群体结构改变、重组率变化、突变人口增长与群体结构改变、重组率变化、突变率变化和基因转换。率变化和基因转换。 (二二)

4、连锁不平衡的量度连锁不平衡的量度常用的连锁不平衡量度方法主要有常用的连锁不平衡量度方法主要有D、r2和和LOD值值1r2值量度值量度LD r2代表两位点在统计学代表两位点在统计学上的关系,其表达式为:上的关系,其表达式为:PPPPPPPrBaABAAB/22r2的数值表示一个位点可反映另一位点信的数值表示一个位点可反映另一位点信息量的程度,息量的程度, r2 =1称为完全连锁不平衡,这称为完全连锁不平衡,这时两位点等位基因频率相同,只观察一个标时两位点等位基因频率相同,只观察一个标记即可提供另一个标记的全部信息。记即可提供另一个标记的全部信息。 2D值量度值量度LD D值又称为连锁不平衡值又称

5、为连锁不平衡系数,其表达式为系数,其表达式为 :max/DDD BAABPPPD当当D=1时,说明两个位点间没有发生重组,时,说明两个位点间没有发生重组,与与r2相比较,当相比较,当D于于1时两位点等位基因频率时两位点等位基因频率并不需要相同,它只是反映最近一次突变发生并不需要相同,它只是反映最近一次突变发生后突变位点与临近多态性位点的关系。后突变位点与临近多态性位点的关系。 三、国际人类单体型图计划及其应用三、国际人类单体型图计划及其应用 (一一)国际人类单体型图计划概况国际人类单体型图计划概况 国际人类基因组单体型图计划(The International HapMap Project,H

6、apMap)是继国际人类基因组计划之后,人类基因组研究领域的又一个重大国际合作项目。 1. 1. HapMapHapMap计划起始于计划起始于20022002年,由美、加、中、年,由美、加、中、日、英、尼日利亚等国研究机构发起、参与及完成,日、英、尼日利亚等国研究机构发起、参与及完成,中国科学家承担总计划的中国科学家承担总计划的1010。2. 2. 项目共取样项目共取样270270个正常个体个正常个体:欧裔美国人和尼:欧裔美国人和尼日利亚雅鲁巴人日利亚雅鲁巴人( (非洲非洲) )各各3030个核心家系,中国北京汉个核心家系,中国北京汉族人及日本东京人各族人及日本东京人各4545个个体。个个体。

7、3. 3. 一期已于一期已于20052005年完成,成功分型年完成,成功分型100100多万个常多万个常见见SNPSNP位点的识别,达到平均位点的识别,达到平均每每3kb3kb一个一个SNPSNP的测定。的测定。4. 4. 二期计划在一期基础上完成二期计划在一期基础上完成300300多万个多万个SNPSNP位位点的分型,构建起一张精度更高、信息更完整的多点的分型,构建起一张精度更高、信息更完整的多人种遗传多态图谱。人种遗传多态图谱。5. 5. 三期计划已经开展,在进一步测定原有群体三期计划已经开展,在进一步测定原有群体基因型基础上,加入另外基因型基础上,加入另外7 7个不同历史遗传背景的人个不

8、同历史遗传背景的人群群,部分分型数据已经发布。,部分分型数据已经发布。6. 6. HapMapHapMap计划期望在全部完成时能够提供一个计划期望在全部完成时能够提供一个包括全部人类遗传差异的多态组图谱包括全部人类遗传差异的多态组图谱,同时带动其,同时带动其他人类遗传变异的发现和研究。他人类遗传变异的发现和研究。HapMap中中SNP的分布密度(截至的分布密度(截至2005年年10月)月)(二二) HapMap数据特点数据特点1. 1. 在多个个体的在多个个体的DNADNA样品中鉴定单核苷酸多态样品中鉴定单核苷酸多态(SNPSNP)。)。2. 2. 将群体中频率大于将群体中频率大于1%1%的那

9、些共同遗传的相邻的那些共同遗传的相邻SNPSNP组合成单体型。组合成单体型。3. 3. 在单体型中找出用于识别这些单体型的标签在单体型中找出用于识别这些单体型的标签SNPSNP。这样,。这样,HapMapHapMap提供的每个研究个体的数据包提供的每个研究个体的数据包括括SNPSNP等位、基因型、基因型频率、等位、基因型、基因型频率、200kb200kb范围内范围内SNPSNP之间的之间的LDLD量度。量度。 (二二) HapMap数据的拓展应用数据的拓展应用1. 1. 基于大群体、多种群的人类单核苷酸多态数基于大群体、多种群的人类单核苷酸多态数据的重组率推算提供了我们一张基因组进化痕迹图。据

10、的重组率推算提供了我们一张基因组进化痕迹图。2. 2. 连锁不平衡的计算给了我们一张基因组块状连锁不平衡的计算给了我们一张基因组块状连锁结构图。连锁结构图。3. 3. 种群差异研究让我们看到一张种群间基因组种群差异研究让我们看到一张种群间基因组结构差异图。结构差异图。4. SNP4. SNP的杂合情况告诉我们人类基因组上受到选的杂合情况告诉我们人类基因组上受到选择的区域或区域内的基因。择的区域或区域内的基因。5. 5. 利用利用SNPSNP位点向两边延伸的长度差异情况,我位点向两边延伸的长度差异情况,我们可以观察到一些基因组上近期正在进行的选择事们可以观察到一些基因组上近期正在进行的选择事件。

11、件。6. 6. 高密度的高密度的SNPSNP位点,为进一步加强和完善基因位点,为进一步加强和完善基因组范围的表型和遗传相关性分析(关联研究或数量组范围的表型和遗传相关性分析(关联研究或数量性状定位)提供了可能性状定位)提供了可能 。(四四)利用利用HapMart进行科学研究进行科学研究 为了便于科研工作者快速提取感兴趣的为了便于科研工作者快速提取感兴趣的SNP数据,数据,BioMart开发了方便、友好的开发了方便、友好的SNP获取网络获取网络平台平台HapMart。HapMart建立在建立在HapMap数据基础上。数据基础上。支持研究者支持研究者输入输入SNP、基因、染色体区段、基因、染色体区

12、段等等信息进行限定条件下的信息进行限定条件下的SNP查询及相关信息输出。查询及相关信息输出。以以IL10为例介绍基于基因的为例介绍基于基因的SNP查询过程:查询过程: 1. 输入设置输入设置 选择中国群体,并在选择中国群体,并在GENE FILTERS框中输入感兴趣的基因名框中输入感兴趣的基因名IL102. 输出设置输出设置 选择感兴趣的输出信息选择感兴趣的输出信息3. 结果导出结果导出 以界面和文件形式输出限定条件以界面和文件形式输出限定条件下下IL10上的上的SNP位置、基因型、群体频率等信息位置、基因型、群体频率等信息四、重要的四、重要的SNPSNP数据库数据库 (一一) SNP存储与维

13、护数据库存储与维护数据库dbSNP为了满足对基因组范围总体变异的需求,解为了满足对基因组范围总体变异的需求,解决在决在关联研究、基因定位、功能和药理遗传学、关联研究、基因定位、功能和药理遗传学、群体遗传学、进化生物学以及定位克隆、物理作群体遗传学、进化生物学以及定位克隆、物理作图等图等领域中大规模抽样设计的需求,领域中大规模抽样设计的需求,NCBI与与NHGRI协作创建了协作创建了dbSNP。 dbSNP中中SNP数据的增长速度数据的增长速度1dbSNP的主要功能的主要功能(1)遗传变异序列环境分析)遗传变异序列环境分析 :对变异本身:对变异本身进行基于周围序列环境的功能分析进行基于周围序列环

14、境的功能分析(2)基于)基于NCBI的遗传变异交叉注释的遗传变异交叉注释 :辅助:辅助进行染色体功能元件的功能发现和识别进行染色体功能元件的功能发现和识别(3)外部资源整合)外部资源整合 :跨平台的交叉引用:跨平台的交叉引用(4)遗传变异的功能分析)遗传变异的功能分析 :连系多种数据:连系多种数据平台进行变异功能发现平台进行变异功能发现2dbSNP数据特征数据特征 (1)收录人类已知的所有)收录人类已知的所有SNP数据,及已知数据,及已知的跨物种的的跨物种的SNP、插入、插入/缺失、拷贝数和微卫星多态。缺失、拷贝数和微卫星多态。(2)部分)部分SNP包含频率和基因型数据、实验包含频率和基因型数

15、据、实验条件、分子背景,以及功能特性和临床变异的定位条件、分子背景,以及功能特性和临床变异的定位信息。信息。(3)到)到2009年年10月,月,dbSNP涉及到涉及到55个物种个物种的的1.5亿个亿个SNP,编码区编码区SNP超过超过2千万千万,具有频率,具有频率信息的信息的SNP超过超过300万个。万个。 3dbSNP的检索界面的检索界面4dbSNP与与Entrez Gene的交叉引用的交叉引用(二)关联研究基因型数据的存储与整理(二)关联研究基因型数据的存储与整理dbGap 1. dbGap的主要功能的主要功能(1)dbGaP的开发是为了的开发是为了存储和发布基因型存储和发布基因型和表型相

16、关的研究数据和表型相关的研究数据及研究结果。及研究结果。(2)包括全基因组关联研究、医疗测序、分)包括全基因组关联研究、医疗测序、分子诊断化验,以及基因型与非临床性状(数量性状)子诊断化验,以及基因型与非临床性状(数量性状)之间的关联性。之间的关联性。(3)用于高通量、低成本、高效率的分析方用于高通量、低成本、高效率的分析方法研究,发现海量基因型和表型数据相关性法研究,发现海量基因型和表型数据相关性。2. dbGap中的数据类型中的数据类型(1)研究文件)研究文件 包括研究项目的说明,协议文包括研究项目的说明,协议文件和数据收集文书。件和数据收集文书。(2)表型数据)表型数据 包括在个体水平上

17、的和以摘要包括在个体水平上的和以摘要形式进行个体的表型信息介绍。形式进行个体的表型信息介绍。(3)遗传数据)遗传数据 包括研究对象的个体基因型、包括研究对象的个体基因型、谱系信息、精细定位结果和重新测序的描述。谱系信息、精细定位结果和重新测序的描述。(4)统计结果)统计结果 包括原始的关联或连锁分析获包括原始的关联或连锁分析获得的结果。得的结果。 基于群体分子标记频率的统计分析方法进行遗基于群体分子标记频率的统计分析方法进行遗传特性与疾病发生之间的相关性研究,实现疾病基传特性与疾病发生之间的相关性研究,实现疾病基因的染色体定位,不需要先验的生物学知识,是一因的染色体定位,不需要先验的生物学知识

18、,是一种强大的疾病基因识别手段。种强大的疾病基因识别手段。 随着随着SNP分型技术的发展,分型技术的发展,SNP作为一种最重作为一种最重要的分子标记,能够应用于孟德尔遗传病的研究,要的分子标记,能够应用于孟德尔遗传病的研究,同时被广泛的用来进行复杂疾病的染色体定位。同时被广泛的用来进行复杂疾病的染色体定位。 一、疾病定义与样本选取偏好一、疾病定义与样本选取偏好 1. 临床表型临床表型 选取具有典型临床特征和明确诊选取具有典型临床特征和明确诊断依据的个体作为疾病研究对象。断依据的个体作为疾病研究对象。2. 发病年龄发病年龄 具有早发特征的患病个体更倾向具有早发特征的患病个体更倾向于有较明显的遗传

19、特点。于有较明显的遗传特点。3. 家族史家族史 有家族史的个体能够较为准确的诊有家族史的个体能够较为准确的诊断疾病种类。断疾病种类。4. 严重程度严重程度 较为严重的患病个体,具有较明较为严重的患病个体,具有较明显的遗传特点。显的遗传特点。5. 群体分层群体分层 选取的研究群体应具有同质性。选取的研究群体应具有同质性。二、连锁分析进行风险二、连锁分析进行风险SNPSNP定位原理定位原理 连锁分析连锁分析(linkage analysis)是根据家系中遗)是根据家系中遗传标记重组率来计算两等位之间距离的方法。传标记重组率来计算两等位之间距离的方法。连锁分析主要是通过分析已知的性状或疾病表连锁分析

20、主要是通过分析已知的性状或疾病表型与基因型在家系中遗传模式,来定位新的易感位型与基因型在家系中遗传模式,来定位新的易感位点和易感区域。点和易感区域。连锁分析是用于研究家系中标记传递的一种分连锁分析是用于研究家系中标记传递的一种分析策略,根据连锁分析过程中是否依赖于假设模型,析策略,根据连锁分析过程中是否依赖于假设模型,我们将连锁分析方法分为两类:参数连锁分析和非我们将连锁分析方法分为两类:参数连锁分析和非参数连锁分析。参数连锁分析。 (一)参数连锁分析方法(一)参数连锁分析方法 对于孟德尔遗传病,易于比较清楚的知道该疾对于孟德尔遗传病,易于比较清楚的知道该疾病的遗传方式、外显率、基因频率等指标

21、,从而确病的遗传方式、外显率、基因频率等指标,从而确定一个准确的遗传模型进行连锁分析。定一个准确的遗传模型进行连锁分析。统计方法的发展,某些遗传模型并不清楚的疾统计方法的发展,某些遗传模型并不清楚的疾病也通过改变策略而适用于连锁分析,但相对准确病也通过改变策略而适用于连锁分析,但相对准确的模型建立是参数连锁分析成功的基本条件。的模型建立是参数连锁分析成功的基本条件。直接计分法和直接计分法和LOD值法是最常用的参数连锁定值法是最常用的参数连锁定位方法。位方法。 这里我们以这里我们以LOD值法为例对参数连锁分析方法值法为例对参数连锁分析方法进行简要的介绍:进行简要的介绍:1. LOD值法进行连锁分

22、析首先针对某一疾病收值法进行连锁分析首先针对某一疾病收集一定数量的家系资料进行分离分析,确定遗传模集一定数量的家系资料进行分离分析,确定遗传模型。型。2. 通过文献检索了解其可能的决定性状的染色通过文献检索了解其可能的决定性状的染色体区域,并对该区域的体区域,并对该区域的SNP进行查询和筛选,基于进行查询和筛选,基于选定的选定的SNP,对该家系成员进行,对该家系成员进行SNP分型。分型。3. 通过连锁分析估计疾病与通过连锁分析估计疾病与SNP在子代中重组在子代中重组的发生率,计算的发生率,计算LOD值,确定重组分数及相应的遗值,确定重组分数及相应的遗传距离,并进行假设检验,判断易感基因是否与遗

23、传距离,并进行假设检验,判断易感基因是否与遗传标记连锁。传标记连锁。 LOD值是指在一定重组率条件下,两个位点相值是指在一定重组率条件下,两个位点相连锁的似然性和不连锁的似然性比值的对数值,即连锁的似然性和不连锁的似然性比值的对数值,即 两位点不连锁的似然性两位点连锁的似然性10logLOD在进行连锁分析时,要计算在进行连锁分析时,要计算0(不重组)到(不重组)到0.5(随机分配)的一系列(随机分配)的一系列LOD得分。得分。当当LOD得分为得分为+3或更大时,肯定连锁;当或更大时,肯定连锁;当LOD得分小于或等于得分小于或等于-2时,排除连锁。时,排除连锁。常用的基于常用的基于LOD的连锁分

24、析工具有的连锁分析工具有LIPED 、LINKAGE 、S.A.G.E. 等自由软件包等自由软件包早期的连锁分析方法对模型的依赖性较强,计早期的连锁分析方法对模型的依赖性较强,计算速度慢等原因,算速度慢等原因, “混合模型混合模型”方法、多位点连锁方法、多位点连锁分析方法、吉布斯取样及蒙特卡罗方法等逐步发展。分析方法、吉布斯取样及蒙特卡罗方法等逐步发展。 参数连锁分析过程中的注意事项:参数连锁分析过程中的注意事项:1. 参数连锁分析家系选择过程中需要考虑到基参数连锁分析家系选择过程中需要考虑到基本要求做出合理的家系筛选。本要求做出合理的家系筛选。2. 对于某些外显率并不明确的疾病,还需要对对于

25、某些外显率并不明确的疾病,还需要对外显率进行估计,而采用疾病个体特异的分析策略。外显率进行估计,而采用疾病个体特异的分析策略。3. 家系中某些个体的疾病表型并不典型,难以家系中某些个体的疾病表型并不典型,难以确定是否受累,如某些精神疾病,需要进行人为的确定是否受累,如某些精神疾病,需要进行人为的判断或重新划分。判断或重新划分。 (二)非参数连锁分析方法(二)非参数连锁分析方法 非参数连锁分析是一种在分析前不需要确定疾非参数连锁分析是一种在分析前不需要确定疾病遗传模式(如基因型频率、外显率等)或半依赖病遗传模式(如基因型频率、外显率等)或半依赖模型的分析方法。模型的分析方法。最常用的是等位共享方

26、法,不依赖于遗传模型最常用的是等位共享方法,不依赖于遗传模型的构建,而是一个排除模型的过程。的构建,而是一个排除模型的过程。通过显示受累亲属间高于随机情况的共享遗传通过显示受累亲属间高于随机情况的共享遗传相同的染色体区域(或位点)概率来证实染色体区相同的染色体区域(或位点)概率来证实染色体区域的遗传模式与孟德尔遗传之间的差别。域的遗传模式与孟德尔遗传之间的差别。等位共享方法研究家系中亲属共享来源于同一等位共享方法研究家系中亲属共享来源于同一祖先的特定染色体区域或位点的频率,也叫做祖先的特定染色体区域或位点的频率,也叫做血源血源一致性一致性(identical-by-descent, IBD),

27、然后将某),然后将某个位点共享个位点共享IBD的情况与随机进行比较。的情况与随机进行比较。还有一个与之相似的概念还有一个与之相似的概念状态一致性状态一致性(identical-By-State, IBS),用来描述亲属对之),用来描述亲属对之间共享同一等位的频率。间共享同一等位的频率。随着遗传标记分型技术,特别是随着遗传标记分型技术,特别是SNP分型技术分型技术的进步,的进步,IBD和和IBS方法也逐渐应用于基因组范围关方法也逐渐应用于基因组范围关联研究中。联研究中。IBD和和IBS示意示意等位共享的方法是一种非参数方法,比参数连等位共享的方法是一种非参数方法,比参数连锁分析方法有更宽泛的应用

28、范围,而且即使在受累锁分析方法有更宽泛的应用范围,而且即使在受累亲属中不完全显性、表型复制、遗传异质性和高频亲属中不完全显性、表型复制、遗传异质性和高频等位等影响因素存在时,也有较好的表现。等位等影响因素存在时,也有较好的表现。唯一的缺陷是等位共享方法提供的结果一般说唯一的缺陷是等位共享方法提供的结果一般说来没有参数连锁分析方法显著。来没有参数连锁分析方法显著。 三、关联研究发现疾病风险三、关联研究发现疾病风险SNP SNP 关联研究关联研究(association study)是(一般情况)是(一般情况下)不依赖于家系信息的一种遗传定位策略,由于下)不依赖于家系信息的一种遗传定位策略,由于资

29、源丰富,分析方法简便,是目前遗传定位研究中资源丰富,分析方法简便,是目前遗传定位研究中最常用的分析方法。最常用的分析方法。关联研究通过检验某个特定的等位在疾病组和关联研究通过检验某个特定的等位在疾病组和对照组中出现的频率差异来判断此等位是否是疾病对照组中出现的频率差异来判断此等位是否是疾病易感等位。以易感等位。以SNP而言,发现风险而言,发现风险SNP的过程可以的过程可以采用四格表采用四格表2检验进行等位频率分析,也可以采用检验进行等位频率分析,也可以采用2*32检验进行基因型分析。检验进行基因型分析。SNP与疾病关联性进行分析,方法上的简捷性与疾病关联性进行分析,方法上的简捷性显而易见,但关

30、联研究也有比较明显的缺点:显而易见,但关联研究也有比较明显的缺点:1. 对照组样本选取具有严格的限制对照组样本选取具有严格的限制2. 由于关联研究可能针对任何一个分子标记进由于关联研究可能针对任何一个分子标记进行,而不存在先验的假设,对关联研究发现的风险行,而不存在先验的假设,对关联研究发现的风险SNP尚需要进行可靠的功能验证。尚需要进行可靠的功能验证。研究中对标记信息的分析比研究方法本身更重研究中对标记信息的分析比研究方法本身更重要,下面我们将从关联研究机理上来探讨风险要,下面我们将从关联研究机理上来探讨风险SNP发现应注意的问题。发现应注意的问题。 关联研究中发现关联研究中发现SNP与疾病

31、发生之间的显著相与疾病发生之间的显著相关性可能存在三个原因:关性可能存在三个原因:(1)SNP本身就是一个致病的本身就是一个致病的SNP。(2)SNP本身不能导致疾病,但与导致疾病的本身不能导致疾病,但与导致疾病的基因处于连锁不平衡状态。基因处于连锁不平衡状态。(3)研究群体选择失误造成的统计显著性。)研究群体选择失误造成的统计显著性。其中第三种情况是关联研究过程中需要避免的,其中第三种情况是关联研究过程中需要避免的,所以关联研究过程中还应注意三点:所以关联研究过程中还应注意三点:(1)关联分析的样本选取要严格限制在同质性)关联分析的样本选取要严格限制在同质性群体中。群体中。(2)关联研究对照

32、组选取应当谨慎,必要时选)关联研究对照组选取应当谨慎,必要时选择未受累亲属作为内对照。择未受累亲属作为内对照。(3)如条件允许,对于获得的阳性位点可进行)如条件允许,对于获得的阳性位点可进行传递不平衡检验(传递不平衡检验(transmission disequilibrium test, TDT)来确认发现的致病等位在家庭遗传中倾)来确认发现的致病等位在家庭遗传中倾向于向患病子代遗传。向于向患病子代遗传。 由于复杂疾病发生过程中,存在遗传位点间的由于复杂疾病发生过程中,存在遗传位点间的相互作用,单个位点的关联分析方法有时不能获得相互作用,单个位点的关联分析方法有时不能获得足够的信息来发现某些区

33、域与疾病之间的关联性。足够的信息来发现某些区域与疾病之间的关联性。基于单体型、罗杰斯特回归、主成分分析、随基于单体型、罗杰斯特回归、主成分分析、随机森林等统计学和机器学习方法的遗传定位方法成机森林等统计学和机器学习方法的遗传定位方法成为有用的研究手段,得到了比较广泛的应用。为有用的研究手段,得到了比较广泛的应用。 关联研究和连锁分析有很多重要的区别:关联研究和连锁分析有很多重要的区别:1. 关联研究检验疾病与等位频率在群体中是否关联研究检验疾病与等位频率在群体中是否存在相关性,连锁分析检验疾病与位点是否在家系存在相关性,连锁分析检验疾病与位点是否在家系中共同传递。中共同传递。2. 当群体中致病

34、因素是多样的,而且致病位点当群体中致病因素是多样的,而且致病位点相互独立,散在存在的时候,每个位点与疾病关联相互独立,散在存在的时候,每个位点与疾病关联都将很弱,遗传定位中往往只能检测到连锁而难以都将很弱,遗传定位中往往只能检测到连锁而难以发现关联。发现关联。3. 当致病位点等位效应较弱,对疾病贡献较小当致病位点等位效应较弱,对疾病贡献较小时,但在疾病个体中有较高的等位频率时,基于家时,但在疾病个体中有较高的等位频率时,基于家系的连锁分析难以发现潜在的传递模式,而关联研系的连锁分析难以发现潜在的传递模式,而关联研究却能识别出这种致病位点。究却能识别出这种致病位点。4. 关联研究和连锁研究本身并

35、不存在孰强孰弱,关联研究和连锁研究本身并不存在孰强孰弱,而需要考虑实际解决的问题进行选择。而需要考虑实际解决的问题进行选择。四、遗传分析中的统计显著性四、遗传分析中的统计显著性 遗传分析方法虽然笼统的分为两类,但相应的遗传分析方法虽然笼统的分为两类,但相应的研究方法众多,既有传统的统计分析方法,也有衍研究方法众多,既有传统的统计分析方法,也有衍生而来的机器学习方法。生而来的机器学习方法。但无论采用何种方法进行复杂疾病的遗传分析,但无论采用何种方法进行复杂疾病的遗传分析,最终都将面对统计结果的取舍问题,即如何进行统最终都将面对统计结果的取舍问题,即如何进行统计显著性的阈值设定。计显著性的阈值设定

36、。这个问题,还将因为遗传分析中分子标记的增这个问题,还将因为遗传分析中分子标记的增多或检验模型的增加而变得更为严峻。多或检验模型的增加而变得更为严峻。 对于遗传定位的结果取舍,特别是多重检验问对于遗传定位的结果取舍,特别是多重检验问题一向都是人们关注的重点,采用多次随机进行题一向都是人们关注的重点,采用多次随机进行SNP与疾病相关性检验进行显著性水平选取是目前与疾病相关性检验进行显著性水平选取是目前为回避多重检验校正而广泛采用的一种方法。为回避多重检验校正而广泛采用的一种方法。另外,考虑到基因组中广泛存在的连锁不平衡另外,考虑到基因组中广泛存在的连锁不平衡问题,对待检的问题,对待检的SNP进行进行LD修正是降低多重检验校修正是降低多重检验校正影响的一种有效方法。正影响的一种有效方法。此外,在芯片分析中采用的此外,在芯片分析中采用的FDR方法也经常用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论