




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 人类群体遗传学基本原理和分析方法 中科院 马普学会计算生物学伙伴研究所 中国科学院上海生命科学研究院研究生课程人类群体遗传学 徐书华金力 2 2007 2008学年第二学期 人类群体遗传学分析方法 课程表上课时间 每周四上午10 00 11 50上课地点 中科大厦4楼403室第7教室 3 第五讲 单倍型估计及连锁不平衡分析 4 第五讲 基本概念连锁不平衡原理及其统计量影响连锁不平衡的因素连锁不平衡在基因定位研究中的应用 5 基本概念 遗传多态性 Geneticpolymorphism 指在一个群体中 同时存在的两种或两种以上的变异类型 每种类型的频率比较高 一般认为每种变异型超过1 即可定为多态现象 不足1 的称为罕见变异型 或者称为突变 mutation 人类存在多种遗传多态现象 多态性 主要有染色体多态性 酶和蛋白质多态性 抗原多态性的DNA多态性五类 6 单核苷酸多态性 单核苷酸多态性 singlenucleotidepolymorphism SNP 读作 snip 主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性 它是人类可遗传的变异中最常见的一种 占所有已知多态性的90 以上 SNP在人类基因组中广泛存在 平均每300 600个碱基对中就有1个 估计其总数可达1000万个甚至更多 SNP所表现的多态性只涉及到单个碱基的变异 这种变异可由单个碱基的转换 transition 或颠换 transversion 所引起 也可由碱基的插入或缺失所致 但通常所说的SNP并不包括后两种情况 理论上讲 SNP既可能是二等位多态性 也可能是3个或4个等位多态性 但实际上 后两者非常少见 几乎可以忽略 因此 通常所说的SNP都是二等位多态性的 biallelic 7 genotype 相邻位点的等位基因在同一条染色体上的排列方式 8 Fromgenotypetohaplotype genotype haplotype phaseddata unphaseddata 9 Reconstructhaplotypefromgenotype CLARK SalgorithmParsimony basedmethodE MalgorithmLikelihood basedmethodPHASEalgorithmBayesianmethod 10 Reconstructhaplotypeatindividuallevel 00100111010101000001111101011011111111110100100001010101110110000111011000001101110011111000010001011111110101111101000101001000000001000011000001101000111001100000000111111001100010001000000010111101010100000111110101101011111111010100100100000000010100000000000000110011000100010000011010111010101000001111101011010111111110100111100011111110101000001100011111100110001000100000001001110101010000011111010110111111111101001000010101011101100001110100000010000011000100110111101001101010100000111110101101111111111010000001100000000000001000000010000010011000100010000000101111010101000001111101011010111111110100101001000000000101000000000000001000001100010011011110100000000000000000000000000000000000010000000110000000000000100000001000001001100010001000000000000000000000000000000000000000000000101000001100000000000001000000010000010011000100010000011010111010101000001111101011010111111110100101001000000000101000000000000001000001100010011011000000000000000000000000000000000000000010001000001101000111001010000000000010000011000100110110010111111101011111010001010010000000010000110000011010001110011000000000000010011000100010000000000000000000000000000000000000000000001010000011000000000000010000001100000100110001000100000110101000000000000000000000000000000000010000000110000000000000100000001000001011100111110000100000000000000000000000000000000000000000101011110001111111010101000000010000010011000100010000000000000000000000000000000000000000000001010000011000000000000010000000100000100110001000100000001011111110101111101000101001000000001000011000001101000111001100000001000001001100010001000001101011111101011111010001010010000000010000110100100000000010000000110000000011001001101000011000000000000000000000000000000000000000001010111100011111110101000011100000001101110011111000010001011111110101111101000101001000000001000010000110000000000000100000001000001011100111110000100010111111101011111010001010010000000010000110000011010001110010100000000000100000110001001101111010111111010111110100010100100000000100001100000110100011100101000000000001000001100010011011000000000000000000000000000000000000000010000000110000000000000100000001000001001100010001000001101011111101011111010001010010000000010000110000011010001110010100000000000100000110001001101100000000000000000000000000000000000000001010111100011111110101010000000100000100110001000100000000000000000000000000000000000000000000010101000001101000111001010000000000010000011000100110110010111111101011111010001010010000000010000111000001111111010100000000001111111001001101000101011010111010101000001111101011010111111110100101001000000000101000000000000001000001100010011011 11 软件演示 PHASE fastPHASE 12 PHASEinputfileformat 13 PositionandLocustype 14 Genotypecoding 15 Exampleofinputfileformat 16 PHASEinputfileformat 407P13549576136216761370615613708283139582901422420414312716SSSSSSSYRI 1TGTTCTTCCCCCCCYRI 2TCCCCTTTCCCCTTYRI 3TGCTCTTCCCTCCTYRI 4TGTCCTTCCCCCCTYRI 5TGCTCTTCCCCCCCYRI 6TCTCCTTTCCCCCT 17 Alterativeformat foption noption 18 Optionsaffectingruntimesandaccuracy Xoption 19 RunningPHASEmultipletimes xoption 20 Runningseveraldatasetsfromthesameinputfile Doption 21 LinkageDisequilibrium LD LDisthenon randomassociationofallelesatadjacentloci Whenaparticularalleleatonelocusisfoundtogetheronthesamechromosomewithaspecificalleleatasecondlocus moreoftenthanexpectedifthelociweresegregatingindependentlyinapopulation thelociareindisequilibrium 22 连锁不平衡 LinkageDisequilibrium LD 是相邻位点之间的非随机关联 当一个位点上的某一等位基因与另一位点上的等位基因共同出现的概率大于随机组合的假设 则这两个位点之间存在连锁不平衡 23 24 CommonlyusedLDmeasurements Lewontin 1964 Hill Weir 1994 25 Independencetest p value 2x2tabletest Fisherexacttest 26 Populationrecombinationrate 4Ner 4Ner populationrecombinationparameter Alternativelydenotedby 4NecorCrorcistherecombinationrateacrosstheregionofinterest Neistheeffectivepopulationsize 27 Humanrecombinationrate 4Ner 4x10000 x1cM Mb 4x10000 x0 01M 1000000bp 0 0004 bp 0 4 kb 28 4NerandLD 4NerasanapproachforquantifyingLD ThisapproachavoidsrelianceonpairwisemeasuresofLD whichdifferfrommarkertomarker andfacilitatescomparisonsbetweenregions 29 LD统计量的性质 D D 具有很好的性质 当且仅当两个SNP位点没有被重组打断 或者没有因为回复突变 基因转换等因素影响的情况下 D 1 在这种情况下 对于两个位点来说 从样本中最多能观察到三种单倍型 D 1被认为是完全的连锁不平衡 completeLD D 1则暗示先前完全的连锁不平衡已经被打乱了 然而 小于1的 D 往往没有很清楚的解释 而且 D 在样本量小的情况下波动很大 尤其是对于低频位点来说 即使在高频SNP位点中也是这样 因而即使在位点实际处于连锁平衡状态 linkageequilibrium 的情况下 也可以获得很高的 D 值 正因为样本量的大小严重影响 D 的估计 而样本之间往往又是不可比的 所以统计上显著地接近于1的 D 值 提示历史上发生过重组的可能性很小 这是非常有用的 但中间值却不应该用来衡量连锁不平衡的强度以及在不同的研究中进行比较 30 LD统计量的性质 r2 r2在某种程度上是与 D 相互补充的一个连锁不平衡测度 有些地方也表示成 2 近些年来的基因定位研究一般将其作为首选 以用来衡量连锁不平衡的强度和在不同研究中进行比较 r2 1只有在一种非常严格的情况下成立 即两个位点上等位基因在染色体上的排列没有被重组打乱 而且等位基因具有完全相同的频率 此时的连锁不平衡是真正 完美的 连锁不平衡 perfectLD 在这种情况下 样本中实际上只有两种单倍型 一个位点的信息完全可以替代另外一个位点 检测两个位点的基因型是多余的 31 r2的中间值比较容易解释 可以考虑两个位点 一个是与疾病关联的功能位点 另外一个是其附近的遗传标记位点 如果通过标记位点来检测与疾病之间的关联 想要达到与检测功能位点本身同样的功效的话 样本量需要增加大约1 r2倍 简单地讲 r2的值与另外一个位点提供的信息含量是直接相关的 值得注意的是 这个性质已经很好地考虑了两个位点之间等位基因频率的差异 然而 这也同样意味着两个紧密连锁 互相贴近的位点与第三个位点的连锁不平衡可能表现出完全不同的r2值 所以小的r2值并不意味着位点之间一定有高的重组率 另外一点 r2受样本量大小的影响比D 小得多 32 UsefulLD 从关联分析的功效角度对r2的解释 产生了 实用连锁不平衡 usefulLD 的概念 在关联分析当中 由于病人样本 表型数据收集的困难以及基因分型的成本 样本量往往受到限制 况且花费很大的力气扩大样本量而使得标记与疾病易感位点之间的连锁不平衡微弱增加 实在是不可取 r2 1 3的连锁不平衡水平 使得样本量的增加不超过3倍 可以作为 实用连锁不平衡 的底线 33 LD统计量的性质 p value 因为p值严重依赖于样本量的大小 所以不能用来比较使用了不同样本量的研究结果 另外 只要样本量足够大 很容易获得统计上显著的p值 比如r2 0 01的连锁不平衡在1 000条染色体的样本可以是统计上极其显著的 再者 尽管实际的连锁不平衡远远低于可用于基因定位中有用的水平 p值却往往让人误以为连锁不平衡延伸了很远 因为连锁平衡的微弱偏离可以在相当长的距离上观察到 34 总的说来 对于两两位点之间连锁不平衡的度量方式 r2是一个比较好的统计量 尤其是在关联分析的框架下来考虑的话 r2可以直接与功效联系起来 35 影响连锁不平衡的因素 分子水平重组率的不均匀分布突变率的不均匀分布基因转换群体水平遗传漂变群体扩张人群混合和人群迁移群体结构自然选择 36 重组率的不均匀分布 已知重组率在整个基因组中的变化超过一个数量级 因为连锁不平衡的衰减主要就是重组驱动的 所以连锁不平衡将以相反的比例随着重组率的波动而波动 甚至有人认为重组有可能绝大多数集中在基因组中一些局部的 重组热点 hotspot 从而其他地方重组很少发生 按照这个观点 连锁不平衡将在非重组区表现得很强 而在 重组热点 表现得很弱 尽管已经有实验研究提示这种情况确实在基因组的某些区域发生 但是 重组热点 的一般性 热点 区域以内和以外的重组频率差异程度以及这些区域的长度分布都有待于进一步的研究和确认 37 突变率的不均匀分布 基因组中的某些区域比如在CpG二核苷酸位置附近 单核苷酸多态位点可能具有较高的突变率 从而与附近的位点表现出很弱的连锁不平衡甚至没有连锁不平衡 尽管实际上没有重组发生 38 基因转换 在减数分裂期间 如果发生基因转换事件 一般是一条染色体的一个短片段转移到另外一条染色体上 这个效应等价于近距离发生了两次重组事件 于是连锁不平衡被打断 如同重组和回复突变产生的效果 已经有一些研究表明 人类基因组中基因转换的发生非常频繁 对紧密连锁位点之间的连锁不平衡产生重要影响 39 遗传漂变 遗传漂变描述的是在有限群体大小的群体中 由于每一代的随机取样造成的基因频率和单倍型频率的改变的现象 这是群体遗传学中见到的最普遍的现象 等位基因频率的变化在小群体中尤其迅速 一般来说 在一个稳定的 而不是增长的 小群体中 随着单倍型的不断丢失 遗传漂变会使连锁不平衡不断增强 40 群体扩张 群体的快速增长或群体扩张因为削弱了遗传漂变的影响 从而导致连锁不平衡的增强 41 人群混合和人群迁移 人群之间的混合或者迁移可以产生新的连锁不平衡 在人群混合之初 连锁不平衡的强度与混合人群之间等位基因频率的差异相关或成比例 而与位点之间的物理距离无关 在随后的世代中 相互不连锁的位点之间的 伪 连锁不平衡很快消失 而那些连锁的相邻位点之间的连锁不平衡因为重组会逐渐衰减 但是相对要缓慢得多 理论上来讲 在混合人群中进行基因定位可以使标记的需要量大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年工业互联网平台同态加密技术在工业物联网设备安全中的应用案例报告
- 2025年在线教育市场报告:K2教育发展趋势及策略分析
- 设备维护计划考试题
- 各科的考试题目及答案
- 夜间施工安全培训记录课件
- 平板课件投屏到电视上
- 地质勘探员招聘考试地质基础知识考试题
- 年面点师证面食制作监考试题
- 新能源汽车智能化安全防护技术2025年技术创新应用场景研究报告
- 核科学基础试题及答案
- 灌溉水量平衡分析报告
- 高标准基本农田建设项目初步验收报告
- (2025版)国内旅游“一日游”合同(示范文本)
- 连云港市辅警考试题库2025
- 2025年中国铁塔校园招聘笔试备考题库(带答案详解)
- 《生存与修炼》熊厚音讲《道德经》教学文案
- 淘宝新店运营计划书文献
- 产教融合校企合作[可修改版ppt]课件
- ICH Q6B 生物技术产品和生物制品的检验方法和可接受标准
- 12贮水花盆案例总结-2015天津中心修改43
- (精心整理)六方最密堆积空间利用率和密度的计算
评论
0/150
提交评论