LECTURE种下数据分析方法_第1页
LECTURE种下数据分析方法_第2页
LECTURE种下数据分析方法_第3页
LECTURE种下数据分析方法_第4页
LECTURE种下数据分析方法_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

LECTURE种下数据分析方法第1页/共75页主要内容1.大进化与小进化的联系与区别2.用于种下研究的分子标记和数据类型3.种下遗传多样性和分化参数及应用4.种下系统发育分析及应用5.种界确定第2页/共75页1.大进化与小进化的联系与区别第3页/共75页进化模式不同大进化=种上分类单元进化:树状分歧进化为主。种间由于生殖隔离和突变以及分歧导致有完全不同的基因型的固定,从而形成非重叠的基因库(non-overlappinggenepools)和相互的单系性(reciprocallymonophyleticlineages)。小进化=种下进化:网状形式的进化种内群体内/间的个体因随机交配有发生重组的机会,从而使个体的基因谱系呈现网状关系(reticulatingrelationships=tokogeny)。第4页/共75页种间树状进化遗传分歧种内网状进化遗传多态性第5页/共75页研究内容的区别种下研究

(1)群体遗传结构(populationgeneticstructure)(2)群体分化(populationsubdivision)(3)谱系生物地理学(phylogeography)

(4)分子进化动力(theforcesofmolecularevolution)(5)个体/群体/亚种系统发育关系(individuals/populations/subspeciesphylogeneticanalysis)种上研究

(1)种界确定(speciesboundarydelimitation)

(2)分类单元单系性检验(testingtaxamonophyly)

(3)系统发育关系重建(phylogeneticrelationshipamongtaxa)

(4)性状进化(characterevolution)第6页/共75页研究方法的区别采用分子标记不同抽样策略不同(Samplingstrategy)数据分析方法不同第7页/共75页Moleculesandtheirusefulrangesinphylogeneticrelationships

SpeciesGeneraFamily Order Class Divisions Spacers[its]mtDNANurDNATaylor,etal.,1991;moresufficientstatisticallysignificantresults;

sufficientstatisticallysignificantresults第8页/共75页2.用于种下研究的分子标记和数据类型第9页/共75页分子标记SNPSSRRAPDAFLP第10页/共75页单核苷酸多态性SNP:singlenucleotidepolymorphisms

SNP是指由于单个核苷酸的变异所引起的DNA序列多态性。Asinglebasechange,occurringinapopulationatafrequencyof>1%istermedasinglenucleotidepolymorphism(SNP).Whenasinglebasechangeoccursat<1%itisconsideredtobeamutation.第11页/共75页微卫星MicrosatellitesDesignprimersto“flankingregions”第12页/共75页微卫星基因分型原理Li(1998).

第13页/共75页随机扩增多态性DNA

RAPD:randomlyamplifiedpolymorphicDNA第14页/共75页RAPDprofileofDNAfrom23samples

第15页/共75页AFLP:amplifiedfragmentlengthpolymorphismDigestionofDNAwithtwoenzymesLigationofadaptersPrimerscomplementarytoadaptersandto3’regionofsomeofthefragments第16页/共75页AFLPGel第17页/共75页分子标记的性质显示方式:共显性(codominant)标记可以识别所有的等位基因,包括杂合子和隐性等位基因。显性(dominant)标记只能识别显性等位基因,无法区分杂合子和隐性等位基因的纯合子

。座位数目:单座位(singlelocus)标记可以识别等位基因。多座位(multipleloci)标记一般无法识别等位基因。第18页/共75页遗传方式父系遗传标记YChromosomeHaploid,noneorlittlerecombination1.9×10-9~5.4×10-9persiteperyear

母系遗传标记MitochondrialDNAHaploid,noneorlittlerecombination3.5×10-8persiteperyear

双亲遗传标记nDNADiploid,undergoesrecombination第19页/共75页基因型与基因分型

(genotypeandgenotyping)一个个体在某一座位上所拥有的一对等位基因类型被称作基因型(genotype)。检定个体在特定座位上的基因型的方法被称作基因分型(genotyping)。第20页/共75页单倍型与单倍型分型

haplotypeandhaplotyping单倍型是指在一条DNA上多态性的分子标记的不同等位基因之间的组合。单倍型分型:第21页/共75页第22页/共75页单倍型分型方法对于位于Y染色体或mtDNA以及男性X染色体上的任何标记,每种基因型均为单倍型。对于位于常染色体及女性X染色体上的标记,如果研究的座位为纯合子,则可以直接得到单倍型;如果研究的座位为杂合子,则得到2个联合的单倍型。可以通过3种方法获得单倍型。第23页/共75页二倍体标记的单倍型分型方法从二倍体的基因型推导单倍型的方法:等位基因分离法:等位基因特异性PCR;克隆法;体细胞杂交法。统计推论法:

Clarck算法;最大似然法;贝叶斯法。家系分析法:第24页/共75页单倍型块HaplotypeBlocks染色体在一代代的传递中同源片段发生重组,多代之后祖先染色体片段的原有排布已被打乱。那些没有被重组打破的区域相互间被重组区域隔开,这些区域就是单倍型块。单倍型块的长度一般为3~92kb。人类基因组的65%-85%是以单倍型块方式组织起来的.第25页/共75页识别单倍型的意义构建基因树的基础识别致病基因理解重组和LD模式第26页/共75页单倍型的起源与进化位于Y染色体和mtDNA上的单倍体分子标记无重组,因而单倍型多样性仅仅是由于突变产生。二倍体分子标记的单倍型的起源有突变和重组二种原因。如果重组是随机发生的,则n个等位基因可以有2n种单倍型。任何2个标记之间发生重组的可能性取决于它们的相互距离和位置。不同座位的等位基因之间由于重组降低而导致的association称为连锁不平衡(linkagedisequilibrium,LD)。第27页/共75页3.种下遗传多样性和分化参数及应用第28页/共75页物种遗传变异程度的度量

测量遗传变异参数的方法随所研究标记的类型和遗传方式而异。一般地,物种的遗传变异可以从三个方面来描述:遗传多样性:遗传变异的量遗传分化:遗传变异在群体之间的分布遗传距离:遗传变异在成对群体之间的数量。第29页/共75页遗传多样性

遗传多样性通常用于描述生物学实体(个体,群体和物种)内存在的遗传变异。杂合度和多态性水平是2个在个体、群体和物种3个水平上定量描述多样性的参数。广义的多样性包括2个组分:丰富度(richness)和均匀度(evenness)。前者测量变异的数量,后者指示变异的分布。第30页/共75页等位基因丰富度的测量1等位基因多样性(allelicdiversity)或丰富度(allelicrichness):每个座位上出现的等位基因数量的平均值。计算时也包括单态座位。可以以群体或物种为单位计算。2多态座位百分数:当一个座位上最常见的等位基因的频率〈0.95时该座位称多态座位。多态座位的定义是人为的,在当代文献中,只要表现出任何水平的变异就认为是多态座位,而并不特别强调0.95或0.99的标准。3多态座位的平均等位基因数(meannumberofallelesperpolymorphiclocus):计算方法同上但不包括单态座位。4平均观测杂合度(meanobservedheterozygosity,Ho):在所观测的座位上杂合子的数量占所有检测座位的比例。该参数广泛用于二倍体生物的共显性标记中,显然,单倍体生物是无杂合性可言的。当用于多倍体生物时对数据的解释须十分谨慎。该参数对显性标记不适合,因为无法识别出杂合性的个体。5平均期望杂合度(ExpectedheterozygosityHe),是根据哈温定律所估算的期望值:He=1/mΣΣPij(1-Pij)M:基因座总数N:各基因位上的等位基因数Pij:第i个基因座的第j个等位基因的频率。

第31页/共75页Nei’s基因多样性参数(genediversitystatistics)基因多样性首先由Nei(1973)提出,通常被看作是期望杂合度(expectedheterozygosity)。Nei(1973)提出的基因多样性的计算:HT为总的期望杂合度,¯p为k个等位基因中的第i个在所有群体中的平均频率。基因多样性被广泛使用,但该参数也存在缺陷。如其值在0-1之间变化,随着一个座位上的等位基因频率接近相等时,它变得不灵敏,此外,该参数严重依赖于2个最常见等位基因的频率。

第32页/共75页单倍体基因组的考虑

单倍体基因组的标记在计算基因多样性参数时也用同样的方法,如计数单倍型的数目。对于单倍体标记独特的参数是计算单倍型多样性(haplotypediversity)。第33页/共75页群体遗传分化的度量1Nei’sGST

2Wright’sF-statistics第34页/共75页Nei’sGST总遗传多样性(HT)是以期望的总杂合度来度量的。HT可以分解成存在于群体内部的基因多样性部分HS和存在于群体间的基因多样性的部分DST(Nei,1973)。即

HT=HS+DST

HS为每一群体内的期望杂合度的平均值,即

其中p为每个群体中第k个座位上的第i个等位基因的平均频率(在所有群体中的均值)。多样性指数HT、HS、DST可以用于计算遗传分化参数GST,GST定义为群体之间相对于群体混合后(即总群体)的基因多样性,Nei(1973)称为基因分化系数(coefficientofgenedifferentiation):

GST=DST/HTGST值在0~1之间变化,当HT=HS时

GST=0,表示等位基因频率在所有群体中相同,群体之间没有遗传分化;当HS=0时

GST=1,亦即群体内部无变异,而每个群体都固定了不同的等位基因,因而群体达到了最大的分化,所有检测的变异都分布在不同的群体中。在动物中,活动哪里强的鸟类的GST值是脊椎动物中最低的;同样能够飞行的昆虫是无脊椎动物中最低的。第35页/共75页Wright’sF-statistics多样性指数HT、HS也可以用于计算每个个体的平均观测杂合度HI,也可以用于F-统计值来分析群体的遗传结构。Wright描述的HT和HS分别是在假定处于哈代-温伯格平衡时的全部群体的总的期望杂合度和群体内的平均期望杂合度,因而Wright和Nei对HT和HS的定义是不同的,尽管他们二人所使用的符号和计算公式相同。Wright基于在个体、群体和总群体(totalpopulation)3个水平上的变异情况提出3种分析方法。第36页/共75页Wright’sF-statistics第37页/共75页Wright’sF-statistics第38页/共75页Wright’sF-statistics第39页/共75页Wright’sF-statistics第40页/共75页遗传距离的计算Nei’s遗传距离ChorddistanceJaccard相似系数核苷酸多样度第41页/共75页1.Averagenumberofpairwisenucleotidedifferencesbetweenseqs.2.Normalizetothelengthofthesequences(L)核苷酸多样度πnucleotidediversity1.ACAGCATTAGCA2.ATAGCAATAGCT3.ATAGCAATACCT(1/3)*(3+1+4)=8/3(8/3)/12=0.222Apairofsequencesareonaverage22.2%differentExample:#ofpairs#ofdifferencesbetweensequences第42页/共75页遗传数据的分析方法多元分析方法

MultidimensionalScaling,MSPrincipalComponentsAnalysis,PCA谱系生物地理学(phylogeography)分析

GeneticboundaryanalysisSpatialautocorrelationNestedcladisticanalysis系统发育分析方法第43页/共75页遗传多样性的应用遗传变异参数可以应用于估计基因流、遗传结构、分类学、识别遗传瓶颈、群体演化历史、群体大小历史过程及保育生物学等方面。哈迪-温伯格平衡是遗传变异应用的基础,已经发展了多种成熟的方法了分析偏离哈代-温伯格平衡的因素。溯祖理论(coalescenttheory)是遗传变异应用的基础。第44页/共75页一个典型的群体基因型数据的分析内容

1.多态性、遗传多样性和杂合度水平分析(Levelsofpolymorphism,geneticdiversityandheterozygosity)2.观测基因型与哈迪-温伯格平衡的符合及数据同质性(ConformitytoHardy-Weinbergequilibriumandhomogeneityofdata)3.使用F-统计值进行的群体遗传结构分析(HierarchicalanalysisofgeneticstructurewithF-statistics,includinglevelofsignificance)4.使用遗传距离分析群体遗传结构和群体之间关系(Analysisofgeneticstructurewithpairwisegeneticdistance,phenogram)5.多变量因子分析Multivariateanalysis(PrincipleComponentAnalysisorFactoranalysis).6.连锁分析(Linkageanalysis)第45页/共75页4.种下系统发育分析及应用第46页/共75页基因谱系GeneGenealogy来自同一个物种内由微进化(microevolutionary)过程产生的不同等位基因拷贝序列构建的树状图称为基因谱系(genegenealogy),以区别于来自不同物种序列、反映大进化(macroevolutionary)过程的系统树。基因谱系上的基因序列代表了群体中存在的不同等位基因/单倍型,它们可以存在于不同个体、也可以是同一个体。第47页/共75页基因谱系构建构建基因谱系的方法与构建普通的系统树完全一样,所不同的只是对等位基因序列的确定。从等位基因序列构建树状图的最大障碍是重组问题,因为重组事件将2个不同的等位基因的部分混合成一个新等位基因,从而使等位基因之间的关系表现为网络关系,而不是树状分支关系。这种关系违反了系统发育分析的基本假设。如果重组频率不太高的话,可以识别出从来没有发生过重组的局部的单倍型模块(haplotypeblocks)。

第48页/共75页基因谱系与系统树

二种水平的系统发育分析的区别:1)

抽样的一个现存群体可以是某些群体的祖先,而在物种以上的比较中祖先一般是不存在的。2)

祖先群体与后代群体一样可以产生新的突变。3)

由于重组形成等位基因或单倍型之间的网状关系(tokogeny)而非二分歧树。4)

群体水平上序列的分歧程度较低,传统的系统发育分析方法在应用这样的数据建立的系统发育树的准确性较低。

第49页/共75页基因谱系在分析群体数据时,我们需要一种新的能够考虑群体数据特征的系统发育分析方法。传统的二分歧树模型不能用于基因谱系的建立,网络方法更符合群体水平的谱系关系。目前已经提出了多种网络系统发育分析方法,Posada和Crandall(2001)对这些方法进行了总结。这些方法中以基于算法的方法占大多数,基于优化标准的方法较少。第50页/共75页基因谱系单倍型的进化历史有树状和网络状二种,从来没有发生过重组的DNA片段与种间分歧的序列一样为树状,而大多数单倍型之间有网状的进化关系或多歧分枝(同时形成的单倍型)。因而单倍型之间的谱系关系可以用多种不同的图示表示,如cladogram,phylogram或haplotypictree。当有重组和基因水平转移是树状图不能很好地表达他们之间的关系,这种情况下用网络更好。第51页/共75页最小生成网络法最小生成网络法(minimum-spanningnetwork,MSN),软件包ARLEQUINV2.0中有此算法(Schneider等,2000)。这是一种从成对单倍型之间的距离矩阵中构建最小生成树(minimum-spanningtree,MST)的算法(Rohlf,1973)经过改进以在一个图上包含所有可能的MST的方法(ExcoffierandSmouse,1994)。多个最小生成树只在取样的单倍型之间才有连接,没有推论未取样单倍型的能力。第52页/共75页统计简约法TCS统计简约法(statisticalparsimony),Templeton等,1992。软件包TCSV1.13(Clement等,2000)中有此算法。该法首先寻找未校正的距离中不低于5%的概率(称为简约上限,parsimonylimit)违反简约性原则的距离,接着从具有最小距离的单倍型开始迭代地建立各单倍型之间地连接,直到所有的单倍型都连上,或者对应于简约上限距离的单倍型连通上为止。尽管应用TCS可以推论遗失的单倍型节点,但在文献中还没有正式的描述推论的算法。第53页/共75页中值连接法中值连接法(median-joiningnetwork,MJN),软件包NETWORKSV2.0(Bandelt等,1999)中有此算法。该法首先将所有的MSTs根据类似于ExcoffierandSmouse(1994)提出的算法联合在单一网络上(MSN),接着应用简约性标准推论出MSN上遗失的单倍型节点并将其添加到MSN上,以使MSN的总树长最小。第54页/共75页最简约树联合法最简约树联合法(unionofmostparsimonioustrees,UMP),由Cassens等(2005)提出。该法需要二个连续的步骤,首先,采用MP法分析数据并保存MPT及其分支长度信息;接着使用下述算法将所有保存的MPTs联合在一个图上。算法是:①将所有MPTs连通到单一网络上;②将不同MPTs上具有相同的分枝、单倍型或分枝单倍型(无论是取样的单倍型还是推论的单倍型)合并,在这个过程中,从一棵或多棵MPTs上获得的独特的谱系路径的环(cycles)仍然维持不变。第55页/共75页基因谱系的应用

(1)基因谱系可以用于检验自然选择作用(2)中性理论的检验(3)基因流估计(4)从基因谱系推论群体进化(5)从基因谱系推论群体参数第56页/共75页基因谱系应用的理论基础哈迪-温伯格(Hardy-Wenbergequilibrium)中性理论(neutraltheory)溯祖理论(coalescenttheory)第57页/共75页判断群体分化PonsandPetit(1996)提出了利用DNA序列数据判断群体分化的方法:从DNA序列中计算出Gst和Nst二个参数,Gst仅考虑单倍型频率,而Nst考虑单倍型之间的相似性,数据集中有显著遗传分化发生可以通过比较Nst接近于0来检验,而Gst和Nst差异的统计学显著性提供了单倍型的系统发育及其地理分布信息,即当Nst>>Gst时,有着密切相关的单倍型多在同一群体而不是不同群体中存在。第58页/共75页单倍型谱系与地理分布的关系单倍型谱系树:根据单倍型的序列信息建立的基因树。单倍型的地理分布:识别出的单倍型在地理空间的分布式样。如果单倍型树与地理分布一致,则Nst>>Gst。如果单倍型之间没有特定的关系,则Nst=Gst。如果关系密切的单倍型之间不在相同分布区域的群体中出现,则Nst<<Gst。第59页/共75页基因流估计传统方法是应用等位酶、SSR等无序分子标记,在中性模型下(假定群体处于基因流和漂变作用的平衡状态)计算群体遗传结构相关参数进行间接估计。群体等位基因的地理变异被用于计算联合参数Nm(作为群体之间每世代迁移个体的平均数)。Nm大于1表示基因流的效应大于漂变的效应,Nm小于1说明基因流受到限制,或无基因流。

第60页/共75页基因流估计Templeton法常称为嵌套进化枝分析(nestedcladeanalysis),该法将地理分布信息叠加到基因谱系上,采用严密的统计学方法来检验地理分布与基因谱系的关联强度,并由此来解释造成这种原因的进化过程。具体做法是:首先,采用统计简约法建立无根支序图(cladogram),从这个基因树上可以形成一系列的嵌套的进化枝。然后,将地理信息叠加到支序图上,计算出进化枝距离(cladedistance,Dc)和嵌套进化枝距离(nestedcladedistance,Dn)。进化枝距离Dc是从进化枝地理中心到各进化枝成员的平均空间距离(km),而嵌套进化枝距离是嵌套进化枝地理中心到嵌套进化枝各成员之间的平均空间距离。最后,采用排列检验(permutationtest)确定对这种模式的支持度。第61页/共75页从基因谱系估计群口历史GrantandBowen(1998)通过比较mtDNA单倍型和核苷酸多态性(nucleotidediversity)作为估算群口历史(demographic)的方法

第62页/共75页5.种界确定第63页/共75页种界确定问题系统生物学的两大主要任务就是为物种定界和重建它们的系统发育关系。超越主观判断,发展种界确定的客观操作方法一直都是一个挑战。传统分类学家用宏观的形态学数据来为物种定界;之后随着分子生物学技术的发展,分子数据也逐步应用到种界确定上来,最近,很多研究提出了用DNA序列数据来检验传统的、形态学上的分类,尤其是线粒体DNA(mtDNA)的分析。第64页/共75页种界确定的分子方法分类不依赖于系统树的方法:(1)杂交带屏障法(2)遗传距离与地理距离关联法(3)绝对遗传距离法(4)重组域法(5)群体聚集分析依赖于系统树的方法:(6)分支单倍型聚集法(7)谱系排它性标准(8)内聚性检验法第65页/共75页遗传距离与地理距离关联法Good与Wake所提出的方法是直接根据“遗传距离-地理距离图”来检测物种界限。这里的遗传距离根据异型酶座位来计算。在该方法中需要对取样样本进行两两比较,在“遗传距离-地理距离直角坐标系”上标出每对比较的结果,然后对所得到的结果做拟合趋势线。若拟合趋势线过坐标原点,则表明基因交流的程度和地理距离相关,取样样本可被认为是同一物种;相反,若拟合趋势线严重偏离坐标原点,则表明样本相互之间基因交流程度与地理距离之间的分歧度不同,取样样本可能包含了多个物种。在用这种方法时可以事先在总样本内定义几个子集,这样在总样本包含多个物种时同时可以检测出哪些样本属于同一物种。第66页/共75页Good&Wake的遗传距离法。(a)表示取样样本之间两两比较的遗传距离-地理距离散点图;(b)表示事先定义的两个子集A、B内部的拟合趋势线;(c)表示所有样本整体散点图的拟合趋势线。根据Good&Wake的观点,子集A、B分别为独立的物种,整体取样包含多个物种。第67页/共75页绝对遗传距离法Highton于1990年提出了另一个根据遗传距离来为物种定界的方法。该方法不考虑地理距离,而是从样本之间的遗传距离的分布频率来为物种定界。Highton认为样本之间的遗传距离是由不同程度的生殖隔离所产生的,并指出NeiD<0.15时所比较的两个样本属于同一物种,而NeiD≥0.15时则认为该属于不同的物种。这个观点可以通过D距离的分布频率柱状图来进行直观判断。若取样样本D值频率分布只在NeiD<0.15有一个峰值,则可认为取样样本属于同一物种;相反,若D值频率分布在NeiD<0.15和NeiD≥0.15处分别有一个峰值,即分布图为双峰

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论