群体遗传学-单核苷酸多态及等位频率_第1页
群体遗传学-单核苷酸多态及等位频率_第2页
群体遗传学-单核苷酸多态及等位频率_第3页
群体遗传学-单核苷酸多态及等位频率_第4页
群体遗传学-单核苷酸多态及等位频率_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、群体遗传学的基本概念与原理 单核苷酸多态与等位频率基本内容基因频率与基因型频率 12345遗传物质染色体的基本概况单核苷酸多态单核苷酸多态的测定及数据格式全基因组范围内分析SNP应注意的问题人类基因组的构成人类基因组包含23对染色体,其中22对常染色体(按照染色体长短编码1-22),一对性染色体(男性为X+Y;女性为X+X)。同源染色体的一条来自于父亲,另一条来自于母亲。一、染色体的基本概况一、染色体的基本概况一、染色体的基本概况一、染色体的基本概况一、染色体的基本概况一、染色体的基本概况一、染色体的基本概况同源染色体与DNA双链同源染色体(homologous chromosomes):是指

2、在二倍体生物细胞中,形态、结构基本相同的染色体,并在减数第一次分裂的四分体时期中彼此联会,最后分开到不同的生殖细胞(即精子、卵细胞)的一对染色体,在这一对染色体中一个来自母方,另一个来自父方。DNA双链:一对同源染色体共包含两条染色体,每一条都是由两条链构成的,每一条链都是由四种碱基排列而成,两条链之间碱基互补配对。这四种碱基为:腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)。其中配对规则是A与T配对、G与C配对,也称之为碱基对(base pair)。一、染色体的基本概况一、染色体的基本概况同源染色体数据的抽象表述我们通常用A、G、C、T的组合来抽象的表述染色体的碱基排列。由于DNA

3、是双螺旋结构,因此一对同源染色体共包含四条链,即两对互补配对的DNA链。对于其中的一对互补链,只要我们知道一条链的序列碱基排列,就可以依据互补原则确定另一条链的碱基排列。因此对于一对互补链来说,我们只要检测一条链的序列信息即可。这样,一对同源染色体(原本四条序列)就可以用两条序列来表述。以后,我们将用两条由A、G、C、T组合而成的序列代表一对同源染色体。一、染色体的基本概况染色体物理位置与人类碱基对的数目 物理位置:是将染色体短臂端在上,长臂端在下放置,至上而下计算碱基对的个数,第一个碱基对处为1bp,第二个碱基处为2bp,依次类推。(注:此时假定一对同源染色体等长)。每个位置也成为一个位点。

4、单位换算:1kb=1000bp;1mb=1000kb。一、染色体的基本概况表1.1 人类染色体上碱基对的数目染色体序号碱基对数目染色体序号碱基对数目1247,249,71913114,142,9802242,951,14914106,368,5853199,501,82715100,338,9154191,273,0631688,827,2545180,857,8661778,774,7426170,899,9921876,117,1537158,821,4241963,811,6518146,274,8262062,435,9649140,273,2522146,944,32310135,3

5、74,7372249,691,43211134,452,384X154,913,75412132,349,534Y57,772,954合计:3,080,419,480从上表中,我们大致可以看出,人类基因组中约30亿个碱基。AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT1chr6个体序列AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT2chr6AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT

6、AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT3chr6AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT4chr6无变异+祖先AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT1chr6个体序列AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT2chr6AGATACGGCTAAACTTGGGGGTTTT

7、TAAGCCCCTTAGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT3chr6AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT4chr6二、单核苷酸多态(多为2态SNP)突变率低,一次突变,自然选择使得等位扩增单核苷酸多态性(single nucleotide polymorphism,SNP) 主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。二、单核苷酸多态(多为2态SNP)单核苷酸多态的统计学描述 为了加深理解,可以理解为:

8、突变是一次性历史事件,自然选择使得突变碱基在群体扩张。另外,为了描述方便,我们通过一个示例来进行阐述。 例:假定某个人群中有N个个体、某位点原有的碱基为G,则初始状态中任何个体在该位点处均为纯合子G/G,如果该位点发生了一次突变(假设核辐射引起),使得部分个体的G突变为A,则突变个体具有的基因型状态为G/A或者A/A,如果A能够使得个体更适应外部环境(也就是说含有A的个体更容易生存),则A将会在群体中扩张,含有A的个体所占的比例会越来越多。二、单核苷酸多态(多为2态SNP)SNP等位(Allele)从上例中,我们可以看出包含该位点的染色单体共2N条(因为同源染色体,所以乘以2),这2N个染色单

9、体一共有两种碱基类型G和A,每个碱基类型成为一个等位(Allele)。野生型:上例中,G为群体初始状态具有的等位,称为野生型。突变型:上例中,A为突变后新产生的等位,称为突变型。二、单核苷酸多态(多为2态SNP)SNP基因型(genotype)对于群体中的每个个体,一对同源染色体中的每条在该位点处的取值为G或A。因此,每个个体的同源染色体在该位点处的相型为G/G(野生型纯合)或G/A(杂合)或A/A(突变型纯合)。SNP基因型:同源染色体在同一位点的两个等位组成的相型。二、单核苷酸多态(多为2态SNP)大多数的单核苷酸多态都是二态的 从表1.1中,我们可以看出,人类大约有30亿个碱基,如果突变

10、的发生是随机的,则某个位点处突变一次的可能性为1/30亿。在该位点再突变一次的概率为(1/30亿)*(1/30亿)=1/900亿。而到目前为止只有约1%的位点发生一次突变,还未有足够的时间发生第二次突变,因此绝大部分的单碱基突变为二态。因此,我们可以二态的SNP进行数学抽象。二、单核苷酸多态(多为2态SNP)SNP等位的数学抽象:通常用A、a或1、2表示两个等位。SNP基因型的数学抽象:通常用AA,Aa,aa,或0,1,2来表示三个基因型。SNP的数学编码在后面的分析中会经常用到。二、单核苷酸多态(多为2态SNP)注:理论上讲,SNP既可能是二等位多态性,也可能是3个或4个等位多态性,但实际上

11、,后两者非常少见,几乎可以忽略。占所有已知多态性的90%以上。SNP数目:人类基因组中SNP的数目还是个未知数,据估计人类所有群体中存在大约3000 万个SNP 位点(平均约每300 600 bp ) 存在一个碱基突变。 SNP以其分布广、易于分型、检查速度快和频率易于估计的特性,作为第三代遗传标记已被广泛的应用。二、单核苷酸多态(多为2态SNP)非同义SNP与同义SNP从对生物的遗传性状的影响上来看,SNP又可分为2种:同义SNP(synonymous SNP):即SNP所致的编码序列的改变并不影响其所翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同。非同义SNP(non-synon

12、ymous SNP):指碱基序列的改变可使以其为蓝本翻译的蛋白质序列发生改变,从而影响了蛋白质的功能。二、单核苷酸多态(多为2态SNP)非多态SNP(Nonpolymorphic SNP) 在理解SNP的概念需要注意的一个问题是,SNP是一个群体上的定义。对于多个群体而言,同一个SNP位点在所有的个体中存在两种等位,但在单独的某一个群体中只存在一个等位,此时我们称这个SNP为这个群体中的非多态SNP。例如(找个实例进行补充),某个SNP位点在全世界范围内有两个等位A、T,而 在亚洲人群中却只有1一个等位A,也就是说所有的亚洲个体都是纯和子AA,这时,我们我们称这个SNP是亚洲群体中的非多态SN

13、P。二、单核苷酸多态(多为2态SNP)dbSNP中SNP数据的格式:二、单核苷酸多态(多为2态SNP)三、单核苷酸多态的测定及数据格式(1)传统检测方法(2)SNP芯片(3)新一代测序技术三、单核苷酸多态的测定及数据格式假定,某个SNP两个等位为T和A,PCR产物大小是:427bp,Kpnl限制性内切酶识别T并将序列切断,对于含有A的序列不切断,经过酶切后的产物是246bp+171bp两个片段。然后片段通过琼脂糖凝胶就会产生一些条带信息,条带信息分为3类:1个条带、2个条带和3个条带。具体表示的分型信息如下(见下图):三、单核苷酸多态的测定及数据格式(1)如果个体是T/T纯合子,同源染色体PC

14、R产物相同,都含有T,都被酶切断,共形成246bp长度和171bp长度的段,经过扩增后开始电泳,由于长度不同、质量不同导致运动速度不同(短的速度快,长度速度慢),经过一段时间后会形成两个条带。三、单核苷酸多态的测定及数据格式(2)如果个体是T/A杂合子,同源染色体PCR产物为不同的两个,其中含有T的被酶切断,形成246bp长度和171bp长度的段,而含有A的则没有被酶切,长度仍然是427bp,最后的片段共三个长度:246bp、171bp和427bp。经过扩增后开始电泳,经过一段时间后会形成三个条带。三、单核苷酸多态的测定及数据格式(3)如果个体是A/A杂合子,同源染色体PCR产物相同,都含有A

15、,而含有A的没有被酶切断,长度仍然是427bp,最后的片段共一个,长度:427bp。经过扩增后开始电泳,经过一段时间后会形成一个条带。三、单核苷酸多态的测定及数据格式SNP芯片这样可以在芯片上打上30万500万个探针,一次性的检测出一个个体的几十万的SNP,为全基因组范围内变异的扫描带来方便。三、单核苷酸多态的测定及数据格式3.新一代测序技术新一代测序技术指的是高通量测序技术(High-throughput sequencing)又称“下一代”测序技术(Next-generation sequencing technology),以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较

16、短等为标志。对无参考序列的物种,进行重头测序(de novo sequencing),获得该物种的参考序列,为后续研究奠定基础;对有参考序列的物种,进行全基因组重测序(resequencing),在全基因组水平上扫描并检测突变位点,发现个体差异的分子基础。三、单核苷酸多态的测定及数据格式refTGACAATGGCTCCCGTCCGGGAGGGGAGGGTGGGGGGGTCGTGTCCCCGCCGGACAATGGCTCCCGTCCGGGAGGGGAGTCCGGGAGGGGAGGGTGGGGGGGTCGAATGGCTCCCGTCCGGGAGGGGAGGGCGGGAGGGGAGGGTGGGGGGGT

17、CGTGGGGAGGGGAGGGTGGGGGGGTCGTGTGGAGGGTGGGGGGGTCGTGTCCCCGCGAGGGTGGGGGGGTCGTGTCCCCGCCA/A三、单核苷酸多态的测定及数据格式refTGACAATGGCTCCCGTCCGGGAGGGGAGGGTGGGGGGGTCGTGTCCCCGCCGGACAATGGCTCCCGTCCGGGAGGGGGGTCCGGGAGGGGAGGGTGGGGGGGTCGAATGGCTCCCGTCCGGGAGGGGAGGGCGGGAGGGGGGGGTGGGGGGGTCGTGGGGAGGGGAGGGTGGGGGGGTCGTGTGGGGGGTGGGGGG

18、GTCGTGTCCCCGCGAGGGTGGGGGGGTCGTGTCCCCGCCA/G三、单核苷酸多态的测定及数据格式refTGACAATGGCTCCCGTCCGGGAGGGGAGGGTGGGGGGGTCGTGTCCCCGCCGGACAATGGCTCCCGTCCGGGAGGGGGGTCCGGGAGGGGGGGGTGGGGGGGTCGAATGGCTCCCGTCCGGGAGGGGGGGGCGGGAGGGGGGGGTGGGGGGGTCGTGGGGAGGGGGGGGTGGGGGGGTCGTGTGGGGGGTGGGGGGGTCGTGTCCCCGCGGGGGTGGGGGGGTCGTGTCCCCGCCG/G三

19、、单核苷酸多态的测定及数据格式新一代测序的一个优点是不用事先已知一些SNP,可以通过多个个体的序列比对从而发现新的SNP位点。三、单核苷酸多态的测定及数据格式三种SNP检测方法共同的缺点 三种SNP检测方法有个共同的缺点,就是均无法对同源染色体中的每条的相形进行准确的估计 三、单核苷酸多态的测定及数据格式AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT1chr6AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT2c

20、hr6AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT3chr6AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT4chr6SNP1AGATAA/CGGCTAAACdbSNP&array:A/CdataPCRorGTTTTTAAA/GCCCCTTSNP2A/GPCRorPCR和芯芯片技术AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGC

21、CCCTT1chr21AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT2chr21AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT3chr21AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT4chr211234C/AA/AC/CA/AG/GA/AA/GA/G等位1:A2:C1:A2:G野生型和突变型PCR和芯片技术,将染色

22、体割裂,导致恢复原来真实相形困难SNP数据的存储格式1、家系数据2、群体数据三、单核苷酸多态的测定及数据格式家系数据 家系图 (pedigree)表明亲缘与婚姻关系的图。 三、单核苷酸多态的测定及数据格式一般男用表示,女用表示;、以横线连结的称为婚姻线,表示为夫妇;从婚姻线的近中点向下作垂线,下端连上子女记号,子女如在二人以上,可按出生顺序从左向右排列,世代数在图左端以罗马数字标出先证者,附以箭头或手指图等记号。完全的家系图应一个不漏地包括死亡者、流产者和性别不明者。具有特别性状的人以表示,或加斜线、纵线等以示区别; 三、单核苷酸多态的测定及数据格式家系图数据存储格式 在实际数据分析中,常常以

23、表格的形式对家系图进行存储,具体转换成表格后每列的含义如下:第一列:家庭ID;第二列:个体ID;第三列:父亲ID,没有用0表示;第四列:母亲ID,没有用0表示;第五列:性别,1代表男性,2代表女性;第六列:受累状态:1代表未受累,2代表受累 三、单核苷酸多态的测定及数据格式将下图所示家系转化为六列进行数据存储三、单核苷酸多态的测定及数据格式家庭ID个体ID父亲ID母亲ID性别受累状态1100211200121300211421111521211600121743211843121965221106511三、单核苷酸多态的测定及数据格式如何从家系数据中制作群体数据可以在家系数据中将父母为0的个体抽取出来作为无关个体进行群体分析。三、单核苷酸多态的测定及数据格式SNP数据说明:三、单核苷酸多态的测定及数据格式四、基因频率与基因型频率1、群体的遗传结构 孟德尔群体(Mendelian population): 一个孟德尔群体,是一群能够相互繁殖的个体,它们享有一个共同的基因库。在有性繁殖的生物中,一个物种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论