课件:动物遗传标记及其数据处理.ppt_第1页
课件:动物遗传标记及其数据处理.ppt_第2页
课件:动物遗传标记及其数据处理.ppt_第3页
课件:动物遗传标记及其数据处理.ppt_第4页
课件:动物遗传标记及其数据处理.ppt_第5页
已阅读5页,还剩192页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

动物遗传标记及其数据处理,遗传标记是指可以明确反映遗传多态性 的生物特征 在经典遗传学中,遗传多态性是指等位基因的变异. 在现代遗传学中,遗传多态性是指基因组中任何座位上的相对差异.,一.遗传标记的种类,(一) 形态学标记 形态标记是遗传标记的一种,指肉眼可见的或仪器测量动物的外部特征(如毛色、体型、外形、皮肤结构等),以这种形态性状、生理性状及生态地理分布等待征为遗传标记,研究物种间的关系、分类和鉴定。形态学标记研究物种是基于个体性状描述,得到的结论往往不够完善,且数量性状很难剔除环境的影响,需生物统计学知识进行严密的分析。但是用直观的标记研究质量性状的遗传显得更简单、更方便。目前此法仍是一种有效手段并发挥着重要作用。典型有形态标记用肉眼即可识别和观察到.动物的形态标记可以作为畜禽群体起源及品种特征标志.,(二)细胞学标记,细胞学标记是指能够明确显示遗传多态性的细胞学特征.染色体的结构特征和数量特征是常见的细胞学标记. 染色体的结构特征包括染色体的核型和带型.核型特征是指染色体的长度,着丝粒位置和随体有无等.由此可以反映染色体的缺失,重复,倒位和易位等遗传变异;带型特征是指染色体经特殊染色显带后,带的颜色深浅,宽窄和位置顺序等,由此可以反映染色体上常染色质和异染色质的分布差异. 染色体的数量特征是指细胞中染色体的数目的多少,染色体数量上的遗传多态性包括整倍体和非整倍体的变异,前者如多倍体,后者如缺体,单体,三体和端着丝点染色体等非整倍体.,1、普通核型研究,分析染色体数目和形态 1964年,Levan提出染色体划分标准,按绵羊染色体长度依次划分为:1-3号为大的中部或亚中部着丝粒染色体:4一26号为端部着丝粒染色体:X染色体为最端部着丝粒染色体,Y染色体为最小的中着丝粒染色体。,2、分带研究,染色体分带是二十世纪六十年代末发明的一种细胞学新技术,染色体分带技术是经物理、化学等因素处理后,再对染色体进行染色,使其呈现特定的深浅小同带纹的方法。用普通细胞学染色方法,染色体着色是均匀的,但经分带处理后,染色体在纵向结构上显现一定的带纹,这种带纹有可能在小同物种、品种、小同个体或同一个体的小同对染色体上是小同的,而且带纹相对比较稳定。因此,染色体带纹的特征可作为一种遗传标记,用以有效识别染色体,确定染色体组型,从而更深入地研究染色体的结构和功能,,Q-分带,Q-分带是最早使用的分带方法,是山卡斯拍森(Casporsson)等首次提出的。Q一分带的特点是用特殊的荧光染料,对中期染色体进行分染,借助于荧光显微镜方可观察到染色体臂上明暗相间的带纹,现用的荧光染料包括芥子喹丫因(QM),但山于此法对设各条件要求高,制片又不能长期保存且其带纹与G一带基木一致,但却不及G带丰富,且分辨率较低,故在家畜分带研究中应用并不广泛。,G-带和R-带,G带,也叫 Giemsa带,R带是Q一带和G-带的反带,1995年,Lannuzzi等证明G-带的阳性带与R-带的阴性带间具有一高度的一致性。1976年在英国Reading召开的第一届国际家畜染色体显带核型标准化会议上,确立的G-带核型成为现代研究家畜染色体畸变和变异的主要依据。,C-带,C-带是在研究RNA / DNA原位杂交时发现的。它是结构异染色质的简称,是证实染色体异染色质分布区域的技术。品种间的多态性(包括性染色体)。 与其它带型相比,C-带的保守性最差,变异性最大,有着广泛的多态现象。在家猪上,C一带的多态性按典型的孟德尔方式遗传。因此可以利用C-带在品种、群体和个体间广泛存在的多态性作为遗传标记来进行品种考察及个体识别,作为选种的标记之一。,Ag-NORs研究,Ag-NORs法主要用来研究核仁组织区(NORs)中18s+28s rRNA基因的功能与转录活性,银染是对Ag-NORs的特异性染色,实际所染物质是靠近NORs的酸性蛋白。一般认为,NORs的大小与rDNA量的多少直接相关,次缢痕大的染色体不仅银染颗粒数目多于次缢痕小的染色体,且次缢痕的大小平行于已所携带的基因拷贝数量。Ag-NORs强度主要反映了rRNA基因的转录速度。Ag-NORs的多态性实际上反映了DNA基因转录活性的多态性和染色体进化速率。通过银染和姬姆萨的连续染色,可进行NORs定位,通常每一个体Ag-NORs的数目是固定的,就是来自同一个体的不同细胞也是如此,NORs在某一特定染色体上的着色程度是其本身固有一的一种特性,而且是可遗传的。 Ag-NORs多态性表现为Ag-NORs的均数和众数的不同。,染色体高分辨显带,这一方法始于Yunis 氨甲喋吟使细胞同步化获得具有更多更细带纹的有丝分裂早期染色体,用于识别每一条染色体和深入研究染色体的细微结构和异常。1985年,Reading会议展示的绵羊高分辨模式图有-270条带。1989年国际染色体标准化会议公布的绵羊G-带模式图达450条带。,染色体核型的量化处理,将染色体核型所测量的各个性状,按照一定的数学方法或统计学方法进行量化,从而可进行同源染色体的配对、染色体分组、区分各种带型,甚至用于物种间核型的比较而加以分类。,核型似近系数的分类,似近系数(resemblance-near coefficient)是山谭远德(1991) 提出的一种新的统计参数,用来刻划两类事物或集合的形似体距近的关系,即形态结构的等同性。 似近系数的计算似近系数用表示,公式为 =r 其中, 为接近(距近)系数(near coefficient); r为相关系数(relation coefficient)或相似系数(resemblance coefficient),(三)免疫学标记,免疫学标记是指以动物的免疫学特征为基础的标记,主要包括:红细胞抗原,白细胞抗原和淋巴细胞抗原等. 红细胞抗原 即狭义的血型(blood group),动物的红细胞抗原型可以采用凝结反应和溶血反应等血清学反应来进行鉴定. 白细胞抗原 又称主要组织相溶性复合体(major histocompatability complex, MHC)现以发现MHC有,三类重要的基因座位, 类抗原能引起免疫反应,造成移植排斥; 类抗原具有调节免疫反应的功能; 类基因座位编码补体成分C1,C2和C3以及淋巴细胞上的C3受体.白细胞抗原可以采用血清学方法,细胞学方法,生物化学方法和DNA多态性方法来进行检测.,(四)生化遗传标记蛋白质(酶)多态性,蛋白质多态(protein polymorphism)是指同一物种个体组织中,具有相同功能有蛋白质或酶存在着两种以上的变异体的现象.其中酶蛋白的多态型又称为同功酶(isozyme),同功酶是指具有相同催化功能而结构及理化性质又不同的一类酶,其结构差异来源于基因类型的差异,因此并不一定是同一基因的产物.每一个酶的不同电泳酶谱表现型可能是由于不同的基因座引起的.也可能是同一基因座上的不同等位基因引起的.为了易于区别,又将由同一基因座位的不同等位基因所编码的同一种酶称为等位基因酶(allozyme),简称等位酶,它们多数受控于共显性常染色体上的复等位基因. 蛋白质多态性产生的遗传基础: (1)由一个座位上的等位基因或复等位基因形成的多态. (2)由多基因座位产生的多态.这类蛋白质或酶由两个以上的基因决定的几条多肽链组成,只有较少的蛋白质或酶(如血红蛋白和乳酸脱氢酶)属此类. (3) 蛋白质结构在较录后经二次修饰而形成多态.即在蛋白质多肽链形成以后,再发生结构上的改变而形成的多态现象,但一般认为这种情况不属于多态性,而将其特称为多样性(multiplicity).,(五)DNA标记,DNA分子标记是DNA水平上遗传多态性的直接反映.DNA水平的遗传多态性表现为核苷酸序列的任何差异,哪怕是单个核苷酸的变异.因此,DNA标记在数量上几乎是无限的.与往的遗传标记相比还有许多特殊优点,如无表型效应,不受环境限制和影响等.目前, DNA标记已广泛地应用于种质资源研究,遗传图构建,目的基因定位和分子标记辅助选择等各个方面.理想的DNA标记应具备以下特点: (1)遗传多态性高; (2)共显性遗传; (3)在基因组中大量存在且分布均匀; (4)选择中性; (5)稳定性好,重现性好; (6)信息量大,分析效率高; (7)检测手段简单快捷,易于实现自动化; (8)开发成本和使用成本低.,DNA标记的分类,依据多态性的检测手段,DNA标记可分为四大类: (1)基于DNA-DNA杂交的DNA标记.该标记技术是利用限制性内切酶及凝胶电泳分离不同生物体的DNA分子,然后用经标记的DNA探针,通过放射自显影或非同位素显色技术来揭示DNA的多态性.其中最具代表性的是发现最早和应用广泛的RFLP标记. (2)基于PCR的DNA标记.根据PCR所用的引物特点,这类DNA标记可分为随机引物PCR标记和特异引物PCR标记.随机引物PCR标记包括RAPD标记和ISSR等,随机引物PCR所扩增的DNA区段事先未知,具有随意性和任意性,因此随机引物PCR标记技术可用于对任何未知基因组的研究.特异引物PCR标记包括SSR标记和STS标记等,特异引物PCR所扩增的DNA区段事先是已知的明确的,具有特异性.因此特异引物PCR标记技术依赖于对各个物种基因组信息的了解. (3)基于PCR和限制性酶切技术结合的DNA标记.这类DNA标记可分为二种类型,一种是通过对限制性酶切片段的选择性扩增来显示限制性片段长度的多态性,如AFLP标记.另一种是通过对PCR扩增的片段的限制性酶 切来揭示被扩增的区段的多态性,如CASP标记. (4)基于单核苷酸多态性的DNA标记,如SNP标记.,二.DNA标记技术,(一)RAPD( random amplified polymorphic DNA) 定义: 是指随机扩增的多态性DNA,它利用一系列(通常为数百个)不同的随机排列碱基顺序的寡核苷酸单链(一般为10个碱基)为引物,对所研究的基因组DNA序列进行PCR扩增,扩增产物再进行电泳分离以检测其多态性. 原理: RAPD所用的一系列引物DNA序列各不相同,但对于任一特定的引物,它同基因组DNA序列有其特定的结合位点,这些特定的结合位点在基因组某些区域内的分布如果符合PCR扩增反应的条件,就可扩增出DNA片段.因此,如果基因在这些区域发生DNA片段的插入,缺失或碱基突变就可能导致这些特定位点分布发生分子量的变化,而使PCR产物增加或减少.通过对PCR产物的电泳检测即可检测出基因组在这些区域的多态性.同时,由于进行RAPD分析时可用的引物数量很大,对每一个引物而言其检测基因组DNA多态性的区域有限,但是利用一系列引物则可区域几乎覆盖整个基因组.因此,RAPD可以对整个基因组DNA进行多态性分析. 以下几种也属随机引物的PCR标记: DAF标记是用58个碱基的寡核苷酸片段为单引物扩增DNA指纹. ISSR标记( inter simple sequence repeat)设计出各种能与SSR序列结合的PCR引物如(AC)n,(AG)n,(CT)n等长度20bp左右,对两个相距较近,方向相反的SSR序列之间的DNA区段进行扩增. AP-PCR标记(arbitrary primer)所用引物长度较长,通常为1824个碱基.,RAPD-PCR的优缺点,1.信息量几乎是无限的. 2.快速,高效,全部自动化. 3.RAPD标记是显性遗传,不能鉴定杂合子. 4.RAPD的重复性.RAPD引物是10个碱基的寡核苷酸片段,在退火温度下与模板的互补结合不很稳定,这种随机扩增易受诸多因素影响:模板浓度与纯度,引物与dNTP用量,缓冲系统的种类与pH,MgCl2的浓度,聚合酶的种类与用量,扩增程序与循环周期以及PCR仪的型号等都会影响扩增式样,因此,稳定性受人怀疑,各个实验室的结果交流困难.,(二) RFLP( restriction fragment length polymorphism) 标记技术,RFLP即限制性片段长度多态性.这种多态性是由于限制性内切酶酶切位点或位点间DN区段发生突变引起的. 限制性内切酶是一种能识别DNA上特定碱基组成的序列,并在这些序列位点上切断DNA分子的酶. 通常DNA上存在大量的限制性内切酶酶切位点.因此,限制性内切酶能将很长的DNA分子酶解成许多长短不一的小片段,片段的数目和长度反映了DNA分子上限制性内切酶位点的分布.特定的DNA/限制性内切酶组合所产生的片段是特异的.这些片段经电泳分离,然后与同位素或非同素标记的探针杂交,从而显示与探针含同源顺序的酶切片段在长度上和差异. PCR-RFLP是对PCR扩增的DNA片段进行限制性酶切位点分析.相对于在杂交基础上的RFLP而言简便而高效,只需纳克水平的DNA作为扩增模板.酶切后的片段在琼脂糖电泳分离,用溴化乙锭就可染色鉴定.,(三).微卫星标记技术,1.概述 真核生物基因组中广泛存在着串联重复序列。根据重复单位大小的不同,将重复序列分为三 类:卫星序列、小卫星序列和微卫星序列。 卫星DNA: 序列重复单位的长度最常见的是100300bp,有时可达几千bp,这些基元的拷贝数是1000100000,形成很长的成串的重复结构.通常存在于异染色质,主要分布在着丝粒区域。 小卫星DNA:是一些重复单位在1060bp,总长度由几百到几千个bp串联重复序列,它主要存在于近端粒处,在不同的个体间存在着串联数目的差异,表现出高度的个体特异性,且以孟德尔方式稳定地遗传和分离,通常又被称为DNA指纹.该类可通过RFLP的方法加以鉴别. 微卫星DNA:是指一类由几个核苷酸(一般不超过6个)为重复单位组成的长达几十至几百个核苷酸的串联重复序列.它与小卫星DNA不同的是其核心序列更短,且在基因组中呈均匀分布,呈共显性的孟德尔式遗传.,2.微卫星DNA多态形成的机制,微卫星位点由其核心序列(core sequence)和两侧的侧翼序列(flanking sequence)共同构成,侧翼序列具有位点特异性,而微卫星本身的重复数变异则提供了微卫星位点产生多态性的基础.重复数越大,其变异性也越大,等位基因数也越多. 引起微卫星位点发生突变的原因主要为“滑链错配”(slipped-strand mispairing)。在DNA 复制合成的过程中,新生链和模板链之间在微卫星重复区域可能发生错配,使得一个或者几个重复单位形成环状,未能参与配对。如果未配对的重复单位位于新生链,则最终得到的新生链未配对重复单位数目比模板链多。反之,如果未配对的重复单位位于模板链,则最终得到的新生链未配对重复单位数目比模板链少. 微卫星标记的获得主要是需要有两侧翼区引物,引物来源有3三个途径: (1)从数据库或有关文献查询. (2)使用近缘种的引物. (3)构建一个所研究类群的基因组文库,筛选出一整套SSR位点,然后根据SSR位点两侧的序列来设计引物.具体步骤如下: a.提取所要研究物种的基因组DNA. b.使用限制性内切酶,将基因组DNA切割成均匀的小片段; c.凝胶电泳,回收大小约300500 的片段; d.将回收片段克隆放大,使用标记探针进行杂交; e.筛选出含有重复序列的克隆; f.测序证实重复序列片段的存在; g.在重复序列片段两端区域设计引物对,进行PCR 扩增,检验引物的有效性; h.对小量样本进行预试验,挑选出重复性好,具多态性的微卫星位点。,3.微卫星的检测,微卫星位点的多态性表现在两方面:核苷酸重复单位数目的多态性和重复序列中核苷酸的替换多态性。由于核苷酸的替换多态性研究涉及到测序是费时费力的工作,因此通常所说的微卫星数据分析仅是指对核苷酸重复单位数目差异的研究。 经过PCR 扩增之后,可以产生不同重复单位数目的等位基因。由于它们之间的片段长度存在差异,经电泳后这些不同的等位基因之间可以发生分离,这就是微卫星研究的基础。通过PCR 扩增微卫星位点,具有样品用量小,反应速度快,结果可重复等优点。而电泳分离后的不同等位基因可用各种方法检测,如使用EB 染色、放射性元素标记、荧光标记等。其中荧光标记具有无污染、使用方便、技术成熟等优点,因而得到广泛应用。 通过荧光标记检测微卫星位点有两种方法:1)荧光标记引物。将荧光化学物质连接到每对PCR引物中的一条上,PCR 扩增后产物可直接与Loading Buffer 混合后点样检测。其缺点是每对引物都需要标记。2)荧光标记dNTP。反应混合液中加入已经荧光化学物质标记的dNTP,在PCR 过程中荧光标记的dNTP不断整合到PCR 产物中,经纯化后与Loading Buffer 混合点样检测。相对于荧光标记引物,荧光标记dNTP 更为灵活,其缺点在于PCR反应后产物经常需要纯化。,(四)单核苷酸多态性(SNP),1.SNP概述 SNP是指基因组中单个核苷酸变异(即单个碱基的点突变)引起的DNA序列多态性,包括碱基的转换,颠换,插入及缺失等形式. SNP的特性: 1.高密度 SNP在基因组中的密度比微卫星还高.据估计,在人类基因组中大约每3001000bp就有一个SNP位点,整个基因组中高达3x10*6个,平均遗传距离为23cM. 2.高遗传稳定性 3.代表性 某些位于基因表达序列内的SNP有可能直接影响蛋白质结构或表达水平. 4.易于实现自动化分析 由于SNP只有两个等位基因(即双等位基因标记),因而十分容易实现自动化分析.,2.SNP的检测方法及原理,(1)直接测序. (2)以构象为基础的方法 由于SNP会引起DNA构像的变化,因此可通过检测DNA构像变化的方法来检测SNP的存在与否. A.单链构像多态性single strand conformation polymorphism,SSCP).大致过程是:对DNA片段进行PCR扩增-进行变性聚丙烯酰胺凝胶电泳-同位素或银染-结果分析. B.异源双链分析(heteroduplex analysis,HA) C.变性梯度凝胶电泳(denaturing gradient gel electrophoresis,DGGE) (3)变性高压液相色谱法(denaturing high pressure liquid chromatography,DHPLC) (4)错配的化学切割(chemical cleavage of mismatch,CCM) (5)酶学方法 (6)从现有的DNA序列数据库中筛选.,三.遗传标记的数据处理,(一)群体内的基因多样性: 1.多态杂合度 多态杂合度(heterozygosity,h),这里,杂合度并不是群体中观察到的杂合子频率,而是用在Hardy-Weinberg平衡假设下杂合性的期望值.用期望值而不用观察值的理由是因为它只取决于等位基因频率而忽略群体的交配模式,因交配模式有季节或年代变化或物种特异性. 其中 为某座位第i等位基因的频率. 平均等位基因多态性 是所有被检测的座位的基因多样性的平均值.,2.多态信息含量,多态信息含量(polymorphic information content, PIC):指在给定一个后代基因型时,能够判断一个亲本将其哪一个等位基因传递给该后代的概率. PIC公式的前部分相当于杂合度,因此PIC值总小于相应的杂合度.其中,pi,pj分别为第i和第j的基因频率,n为等位基因数.,(二)群体(居群) 遗传结构度量,1.近交系数(内繁育系数inbreeding coefficient,F):是一个个体在某个基因位点上从上代得到两个等同的等位基因(或其两个等位基因来自一个亲本的同一个等位基因的两份完全相同的拷贝的)机率. F=1-H/2pq 这里的pq即按哈迪-温伯格平衡预期的杂合体比率,H指的是观察到的实际杂合子的比率. 当F=0时,即等于哈迪-温伯格平衡的频率,如果F=1,说明全部个体都是纯合的. 如果有2个以上等位基因,有多个位点,内繁育系数F的计算公式如下: F=1-Ho/He 式中Ho为实际的杂合体比率,He为预期的杂合体比率.,2.固定指数,表示随机取自每个亚居群两个配子间的关系,它用来测量亚居群间的遗传分化程度.当 =0表示感谢亚居群间没有分化,而当 =1时,说明亚居群间的等位基因完全不同.,(三)群体间遗传关系度量,1.标准遗传距离,(四)RFLP数据处理,DNA的两序列间共有DNA片段的期望比例(F): 其中 Nx 和 Ny 分别是序列X和Y水解后产生的限制片段的数目,而又 Nxy 则是两序列共有的片段数.r限制酶的识别数. 在t时间内某一限制位点保持不变的概率(G): 两序列间每位点的替换数(K): 例如:对某序列中用了10种识别六碱基的限制性内切酶,并得到Nx=40.Ny=36,Nxy=20.有F=0.5263和G=F*1/4=0.8517.把这些值代入公式,就有G=0.8882.重复循环几次,得到G=0.8938为最终估计值.获得K=0.037.,分子系统发育分析,分子系统发育是用分子生物学技术对生物间的进化关系进行的研究,系统发育树,地球上的一切生命形式,不管是现存的还是已经灭绝了的,都有一个共同的起源,它们的祖先可以追溯到大约在40亿年以前生存的一种或几种生物.因此,所有动物,植物,微生物通过祖藉而相互关联.亲缘关系近的生物是由一个较近的共同祖先传下来,亲缘关系远的生物是由一个较远古的共同祖先传下来.系统发育研究的目的是(1)建立各生物间正确的系谱学联系,(2)估计各生物自它们从最后一个共同祖先那里分岐以来的分岐时间. 在系统发育研究中,一组生物类群间的进化关系常用系统树(phylogenetic tree)来图示说明.系统树是一种由节点和分枝组成的图形,其中任何两个邻近的节点都只由一个分枝来联结.节点(node)代表分类学单位,在系统树中有外节点和内节点之分,外节点指研究中的分类单位,内节点则代表祖先单位.而分枝(branch)则用祖藉和祖先来定义这些单位间的关系.一个树的分枝模式称之为拓扑图(topology).枝长(branch length)通常代表在该分枝中曾发生过的变化数.由节点表示的分类学单位(operational taxonomic units,OTU)可以是物种,群体,个体或基因.,在处理一个系统树的关系图时,其分枝可以是无尺度的(unscaled)和有尺度的(scaled).如分枝是无尺度的,它们的长度与已注明在分枝上的变化数不成比例.这种表示法使我们能够将现存的OTU排成一条直线.分枝是有尺度的,其长度正比于变化数. 如果任何两个OTU间的距离等于将它们 联起来的分枝的长度之和,则这样的树被称之为加性树(additive tree). 若一个节点只有两个直接的后代谱系,则它是两分叉的(bifurcating),若它有两个以上的直接后代谱系则是多分叉的(multifurcating).理论上,一个DNA序列在物种形成或基因复制时分裂成两个子序列,因此,系统发育树一般是二歧的.但是,当考虑一个相对短的序列时,有些内部分歧上没有出现核苷酸替代.从而有可能出现一个多歧节点,形成多歧树.,有根树和无根树,系统树可以是有根的(),也可以是无根的.在有根树中,存在一个被称之为根(指有被研究的分类单位的共同祖先)的特殊节点,由此导向任何别的节点都只有唯一途径.每一途径中的方向与进化时间相对应,而根则是所有正被研究的OUT的共同祖先.无根树是一种只将各OUT间的关系具体化而未定义途径的树. 对3个物种来说,存在着3种可能的有根树,但只有一种无根树.如果类群数(m=4)为4,就有15种可能的有根树拓扑结构和3种无根树拓扑结构.可能的拓扑结构数随m的增加而迅速增加.,一个类群数为m的有根二歧树,其可能的拓扑结构数为: 一个分类群数目为m的无根树可能的拓扑结构数的计算是用m-1代替上式中的m.这些拓扑结构中,只有一种是正确的树(真树).然而,当m很大时,要找出真树的拓扑结构是一项非常困难的任务. 一个类群数为m的无根二歧树有2m-3个分支.有m个外部分枝连接到m个现存的类群,那么内部分枝数为m-3,内部节点数为m-2. 一个有根树,其内部分枝数为m-2,内部节点数为m-1,总的分枝数为2m-2. 为了构建一个有根树,我们常设立一个外类群(outgroup)作为OTU的根.外群指在一群OTU中,与所有OTU亲缘关系较远的一个分类单位.,物种树和基因树,表示一群物种的进化途径的系统树称为物种树().物种树中,两个物种的分歧的时间就是两个物种发生生殖隔离的时间. 若系统树是根据来自各物种的一个基因构成的,则该推测树即为基因树. 基因树可能不同于物种树:第一,从两不同物种取样的两基因的分岐可能在时间上早于两物种的分岐.第二,基因树和物种树的分岐式样(拓扑结构)可能不同.为了避免得到这种错误类型,在构建系统树时就必须用许多基因.为了避免随机误差也需要大量数据.,构树方法,已有很多统计学方法可以用于分析分子数据来重建系统发育树。通常使用的方法被分为三大类: (1)距离法,在距离法或距离矩阵法中,首先获得所有分类群间的进化距离。系统发育树的构建则基于这些距离值之间的关系。 (2)简约法,用这种方法预测进化树,将获得序列中观察变异所需的最少步骤. (3)似然法,在此法中,以一个特定的替代模型分析既定的一组序列数据, 使所获得的每一个拓扑结构的似然率均为最大,挑出其最大似然率最大的拓扑结构选为最终树。所考虑的参数不是拓扑结构而是每个拓扑结构的枝长,并对似然率求最大值来估计枝长。,UPGMA (unweighted pair group method with arithmetic mean) 不加权算术平均组对法,用这一方法构建的树有时被称为表征图(phenogram),因为它最初在数值分类学中用于反映类群的表征相似程度。然而,当基因替代速率恆定时,UPGMA法也可用于构建分子系统树。尤其用基因频率数据来重建系统发育时,它比其它距离法能构建出更好的树(Nei 等1983;Takezaki和Nei 1996)。在这种情况下,一个具有较小变异系数的距离测度似乎比其它距离测度能构建较好的树. 算法 进化距离测度矩阵的获得:通过对所有的物种对或序列对计算获得。 分类群 1 2 3 4 2 d12 3 d13 d23 4 d14 d24 d34 5 d15 d25 d35 d45 这里,dij表示第i个和第j个种间的距离。种的聚合从一对距离最小的种开始。在上述矩阵中假设d12为所有距离值中的最小值。种1和种2的聚合起始于距离b=d12/2的一个分支点。这里,假定从这个分支点到种1与种2的距离相同,种1和种2聚结合成为一个复合种或称集合u = (1 2),而u和另一种k(k=/1,2)间的距离计为duk(d1kd2k)/2。由此,得到如下新矩阵。 分类群 u = (1-2) 3 4 3 du3 4 du4 d34 5 du5 d35 d45 假定距离du3为最小。这样,复合种群u和种3合并为一新的复合种或集合v = (1 2 3),其分支点b = du3/2 = (d13 + d23)/(22)。新建的v与其余各种(皆记为k)的距离计为dkv = (dk1 + dk2 + dk3)/3。可得 分类群 v = (1 2 3 ) 4 4 dv4 5 dv5 d45 假设dv4为上一距离矩阵中的最小值。则将v = (1 2 3)和种4合并为一分支点b = dv4/2 = (d14 + d24+d34)/(32)。显然,最后一个并入树中的是种5,其分支点为b = (d15 + d25 + d35 + d45)/(42)。 当然,有可能在第二个矩阵中最小距离是d45或别的,而非du3。在这种情况下,种4与种5合并,其分支点为b = d45/2,从而建立了一个新的复合种v = (4 5)。v和其他种(3和u)为d3v = (d34 + d35)/2,duv = (d14 + d15 + d24 + d25)/4。现假设duv为最小值。因此u与v合并,而3是最后并入的。,最小二乘(LS)法,如果进化谱系间的核苷酸替代速率不同,UPGMA法常常会给出错误的拓扑结构。在这种情况下,应使用一些能容许各个分支核苷酸替代速率有所不同的方法。其中之便是最小二乘(LS)法。LS法有若干种, 最常用的是一般LS法和加权LS法。 拓扑结构的构建 用于系统发育推断(Cavalli Sforza和Edwards 1967)的一般LS法中,要考虑下式所示的残差平方和。 (6.2) 这里,dij和eij分别为种i和j的观察距离和先祖距离(patristic distance)。i和j之间的先祖距离为在树中连接i,j种的所有分支的长度估计值之和。在标准LS法中,所有可能的拓扑结构的RS相比后,RS最小的拓扑结构即为最终的树。 Fitch和Margoliash(1967)使用下式计算RS值以挑选最终的拓扑结构 (6.3) 这一过程被称为加权LS法。在实践中,根据由公式6.2及6.3计算出来的RS值所选得的拓扑结构都相同或极为接近。 理论上,一种更好的途径应该是使用广义LS法来计算RS值,其中兼顾了dij的方差和协方差(Cavalli Sforza和Edwards 1967; Bulmer 1991)。然而,这种方法极为耗时。而且,当dij值接近0时,方差-协方差矩阵其实是同一个(Rzhetsky和Nei 1992b)。因而,这种方法获得的系统发育树看来并不可靠。,最小进化(ME)法,在本方法中,所有分支长度估计的和为: (6.13) 所有可能的拓扑结构都要计算出S值,具有最小S值的拓扑结构被挑选作为最优树。这里,bi表示对第i支长度的估计,T是分支的总数,即2m 3。在图4树A例中,S由b1 + b2 + b7给出,这里bi表示对bI的估计。最小进化法的想法最早由Edwards和Cavalli-Sforza (1963)提出,当时未给出任何验证或公式。后来,Kidds和Sgaramella-Zonta (1971)建议分支总长度L(S)可由所有分支长度估计的绝对值(| bi|)求和得到,而无需任何理论确证。在Kidd和SgaramellaZonta的等位基因频率数据的例子中,b的LS估计值通常是负值。遗憾的是,L(S)并没有很好的统计学性质以允许快速计算S值。由Rzhetsky和Nei (1992a, 1993)发展的统计检验亦不适用于L(S)。注意,如果存在统计误差的话,即使具有正确的拓扑结构,短分支长度也常会偶然地被估计为负值(Sitnikova等 1995)。,邻接(NJ)法,尽管ME法有较好的统计学特性,但物种数目较大时,需要相当長的计算时间。Saitou和Nei (1987) 基于最小进化原理,提出了一种有效的构树方法。这种方法并不检验所有可能的拓扑结构,但在每一阶段诸物种聚合时,都要应用最小进化原理。该方法称为邻接法,并被认为是ME的简化方法。当物种数为4到5个时,NJ法和ME得到的结果是相同的(Saitou和Nei 1987)。NJ法和Sattath和Tversky (1977) 的附加树方法(也可参阅Fitch 1981)有某些相似之处,但前者同时给出了拓扑结构和分支长度。,最大简约法(maximum parimony或译为最节省法),最节省的原则是:找出一个要求最小进化变化数的树,以解释被研究OUT间观察到的差异,这样一种树称为最节省树. 信息位点:当一个位点上至少有两种不类型的核苷酸,每种类型至少在两个被研究序列中出现.,用Mega构建系统树,线粒体综述幻灯片,1 前 言 2 动物mtDNA的基本特征 3 动物mtDNA RFLP多样性研究进展 4 线粒体DNA在家畜遗传育种中的应用,1. 前 言,线粒体(mitochondria)是真核细胞中进行生物能量代谢的重要细胞器,一直是生物化学及相关领域最吸引人的研究对象之一。自从60年代(Nass等,1962)发现线粒体含有DNA以来,线粒体这个令人注目和迷人的特征就一直引起分子生物学家、遗传和育种学家的极大兴趣。,限制性内切酶的发现和DNA测序技术的出现,大大促进了各种生物线粒体DNA (mtDNA)多样性的研究。 由于mtDNA相对简单的分离技术、较小的基因组织、真核生物中普遍而丰富存在以及单性遗传模型,使得mtDNA在分子进化、群体及分子遗传研究中已成为一个倍受重视的研究对象。,家畜mtDNA的形状和大小,形状:为一个共价闭合的环形双链DNA分子。 大小:16.016.5 kb之间 确定mtDNA大小的3种方法 电子显微镜法 限制性内切酶片段分析法 核苷酸序列分析法 特点:与植物和低等生物相比,哺乳动物的mtDNA大小较为恒定,不同家畜物种间mtDNA大小差异很小。,失败的序列,动物mtDNA的基因构成与特点, 编码区:编码37个基因 13个蛋白质基因:细胞色素b基因(Cytb)、细胞色素C氧化酶三个亚基I、II、III(COI、COII和COIII),ATP合成酶亚基ATPase6和ATPase8,NADH脱氢酶七个亚基基因NDl,ND2,ND3,ND4,ND4L,ND5,ND6 2个rRNA基因 12S rRNA和16S rRNA基因 22个tRNA基因 TA、TR、TN、TD、TC、TQ、TE、TG、TH、TI、TL1、TL2、TK、TM、TF、TP、TS1、TS2、TT、TW、TY、TV。 非编码区(控制区):D-loop,图1 绵羊mtDNA基因图谱,动物mtDNA的密码特性,家畜mtDNA的同源性,各种家畜的mtDNA之间具有一定的同源性,因此,可利用已知的mtDNA基因与未知基因杂交进行基因定位。已用酵母mtDNA基因作探针,定位了多种家畜的基因,并对一些编码基因进行了同源性分析。人与牛的mtDNA蛋白基因序列有较高的同源性(为6379)。,mtDNA核苷酸的替代率,mtDNA的基因组织结构简单、稳定,在世代间没有基因重组。但一级结构的碱基替代率却比核基因高。Upholt研究了绵羊和山羊的mtDNA。他们估计了mtDNA核苷酸的替代率每年约为10-8,这个值比单拷贝的核DNA高510倍。Watanabe等人研究了猪的限制性片段图谱,从猪的mtDNA资料得出了相似的值。在他们的报道中,欧洲和亚洲猪典型的mtDNA之间核苷酸序列偏差为175。如果这2个系统猪群间以0.80.9106年作为分叉的时间,每年核苷酸替代率接近2l08。,mtDNA的遗传特征,非孟德尔遗传方式 在哺乳动物中,mtDNA的遗传过程严格遵守单性母性 遗传方式,即仅通过卵子的细胞质传到下一代。所以,一个母系祖先的后代具有相同的mtDNA类型。 Hutchison等(1974)以马驴相互杂交分析了mtDNA从亲代向子代的传递过程。由限制性内切酶Hae III所产生的mtDNA限制性图谱在这2个物种中是不同的。通过对马、驴及其相互杂交后代限制性图谱的分析表明,公驴与母马产生的后代一骡子,显示了马的mtDNA图谱,而公马与母驴生的后代駃騠则显示驴的mtDNA限制性图谱。这个结果与mtDNA母性遗传的假说完全一致。,无组织特异性 为多拷贝基因组,但其含量仅占细胞总DNA的0.5%左右 遗传上具有半自主性 进化速率不同,D-loop为高变区 基因转移,3.动物mtDNA RFLP多样性研究进展,(1)畜禽mtDNA RFLP 多样性 (2)野生动物mtDNA RFLP多态性 (3)鱼类mtDNA RFLP多态性 (4)鸟类mtDNA RFLP多态性,畜禽物种间mtDNA RFLP的多样性,mtDNA RFLP图谱具有种族特征,不同物种的mtDNA限制性图谱不同。如牛、山羊和绵羊都属于洞角科,但用5种限制酶的比较研究表明,它们之间几乎没有相同的限制性图谱。普通牛的mtDNA表现为限制性A型,瘤牛则为B型。水牛在13种酶的mtDNA限制性图谱中,几乎没有一种与瘤牛和普通牛的类同。一些家畜mtDNA限制性酶切割位点数列于表3和表4。从表3和4可以看出,即使在切割位点数相同的情况下,各片段的大小也往往不同。,黄牛mtDNA RFLP多态性,Watanabe用15种酶研究9头菲律宾本地黄牛的mtDNA多态性,发现菲律宾黄牛中有两种类型的mtDNA分子,其中5头黄牛的酶切类型全为A型,被命名为菲律宾I型,另外4头黄牛的限制性切割类型为B型,被命名为II型,没有发现中间类型或重组类型。菲律宾牛的mtDNA I型起源于欧洲普通牛的mtDNA类型,菲律宾II型起源于瘤牛的mtDNA类型。在世界上首次证明菲律宾本地黄牛群体是普通牛和瘤牛的混合起源。,Yu用10种限制性酶对中国12个南方牛品种(德宏牛,德宏瘤牛,迪庆牛,关岭牛,贵州牛,海南牛,黎平牛,思南牛,威岭牛,文山牛,徐闻牛和昭通牛)154头个体进行mtDNA RFLP分析,探测到23个限制性多态型,分成5个单倍型。单倍型I和II分别与普通牛和瘤牛完全一致,单倍型III与牦牛的单倍型I完全一致,这只在迪庆牛中发现,认为从牦牛到迪庆牛中存在基因渐渗现象。单倍型IV是一种新的单倍型,只在德宏牛中出现。这种新单倍型可能表示出一种独立的驯化事件,可能来源于另一个瘤牛群体。单倍型V和单倍型II相似,只在海南牛中发现。,Amano研究了73头沼泽水牛和3头江河水牛的mtDNA RFLP多态性,发现沼泽水牛mtDNA单倍型(、)和江河水牛单倍型,其中沼泽水牛mtDNA单倍型占优势(91%)。Tanaka用15种限制性酶对10头沼泽水牛和13头江河水牛的mtDNA RFLP 多态性,共发现5种单倍型,其中沼泽水牛有3种单倍型,江河水牛有2种单倍型,说明这两种水牛的差异处于亚种水平上。,Hu用18种限制性酶对中国云南3个地方水牛12个个体(德宏水牛、盐津水牛及滇东南水牛)进行了mtDNA RFLP分析,结果发现中国云南水牛具有很低的mtDNA变异。,涂正超用20种限制性酶分析了我国5个牦牛群体90个个体的mtDNA RFLP,共检出56个酶切位点,认为中国牦牛共有5种单倍型,我国牦牛群体mtDNA多样度为0.1065,群体内的平均一致性概率为0.8966,表明我国牦牛群体mtDNA多态性较贫乏,群体间的分化程度较低。,猪的mtDNA RFLP多态性研究,在猪上发现主要两种mtDNA分子类型,亚洲野猪和家猪基本上都属于A型,欧洲野猪和欧洲家猪基本上都属于B型。如长白、杜洛克和Pitman Moore猪归为欧洲型,而把日本野猪、台湾土种猪、Ohmini和Gottinger微型猪归为亚洲型。同时,发现大白猪、汉普夏存在2种类型的mtDNA分子,说明它源于欧洲、亚洲两种母系来源。,Lan等用20种限制性内切酶对中国西南地区的12个地方猪品种和野生血缘种进行了mtDNA酶切分析,发现AvaI、BglII、EcoRI、EcoRV、XbaI等5种酶的态型具有多态性。归纳出6种不同的限制性类型。认为中国西南地区猪mtDNA的基本限制类型为其中的I型,其它几种限制类型均是从I型经少数几个位点的突变而产生。,黄勇富等用24种限制性酶分析了我国21个具有代表性的地方猪种和2个来自中国和越南的野生近缘种mtDNA的RFLP。结果表明:在74个个体中检出的32种限制性态型可归结为7种单倍型,其间的差异主要来源于少数几个限制性位点的点突变;地方猪种4种单倍型间的平均遗传距离为0.413,遗传多态程度(值)仅为0.007,说明遗传多样性非常贫乏,提示中国地方猪种可能起源于一个野猪亚种亚洲野猪。,马属动物mtDNA多态性研究,在马属动物上,mtDNA表现了高度的遗传多样性。Wang等用16种限制性酶分析了云南某15km2区域内的6个家马品种的mtDNA,所有6个家马品种各具有1个特殊的mtDNA基因型。 陈宏等在德国骑乘马中,发现有两种mtDNA分子类型,并在EcoRI 切割图谱上不同于蒙古野马、阿拉伯马、秘鲁马(Poruvian paso)、Quarter马和摩根马。在Bgl II和EcoR I切割位点上不同于中国马。,山羊mtDNA RFLP多态性研究,李祥龙等对山羊mtDNA 用18种限制性内切酶,分析了来自欧洲、非洲及中国的5个山羊品种共计33个个体的mtDNA,结果检测出27种限制性态型,可归结为8种单倍型,分属两种不同的母系来源。他们据此认为受试山羊品种可能有两种不同的野生祖先。,李祥龙用14种限制性酶研究了来自我国12个省、区共计18个地方山羊品种218个个体mtDNA的RFLP,结果表明,共检测到18种限制性态型,可归结为6种基因单倍型,单倍型和单倍型为两种基本单倍型,提示我国地方山羊品种起源于两种不同的母系祖先。各限制性类型间的遗传距离为0.00436,整个群体的平均遗传多态度值为0.0487%,表明我国地方山羊品种mtDNA遗传多样性比较贫乏,分化程度较低。,绵羊mtDNA RFLP多态性研究,Hiendleder从欧洲不同的绵羊品种共计81个个体中,检测出15种不同的mtDNA限制性类型。Hiendleder又用14种限制性内切酶对来自于欧洲(5个品种)、非洲(1个品种)、亚洲(4个品种)的家绵羊和摩佛伦羊(O.musimon)、赤羊(0vignei)、盘羊(O.ammon)等野羊共计254个个体的mtDNA进行了分析,共检出20种单倍型,分属于3个系统发育集团(赤羊盘羊、摩佛伦家绵羊、家绵羊),而对摩佛伦羊和家绵羊的进一步分析表明,可把其划分为2个明确的支系:欧洲(B型)系和亚洲系(A型)。,涂正超等用14种限制性酶对12只藏绵羊的mtDNA进行了分析,发现3种单倍型。 贾永红等采用15种限制性酶对10只贵州绵羊的mtDNA进行了分析,发现3种单倍型。 兰蓉等用12种限制性内切酶对来自云南省3个地方绵羊类群的11个个体的mtDNA的分析,其结果mtDNA可归为3种单倍型。据此认为中国绵羊的mtDNA RFLP的多态性较贫乏。,家禽的mtDNA RFLP多态性研究,胡文平、王文用11种限制性酶分析云南4个家鸡品种和红色原鸡mtDNA RFLP多态性。所检测的所有个体(66只)均呈现相同的限制性类型,表明云南地方鸡种母系起源单一,提示红色原鸡可能为家鸡的祖先。云南可能是中国家鸡的起源中心之一。 Wakana发现菲律宾的红色原鸡与15种家鸡品种均有相同的mtDNA RFLP限制性类型。,史宪伟对四川白鹅和朗德鹅及其杂交后代进行了线粒体DNA RFLP多态分析。在所使

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论