structure 2.3 - 中文

上传人：9*** IP属地：湖北上传时间：2021-12-17 格式：DOC 页数：45 大小：944.50KB 积分：30 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、Structure 2.3使用手册Jonathan K. PritchardaXiaoquan WenaDaniel Falushb 1 2 3a芝加哥大学人类遗传学系b牛津大学统计学系软件来自/structure.html 2010年2月2日1我们在Structure项目中的其他的同事有Peter Donnelly、Matthew Stephens和Melissa Hubisz。2开发这个程序的第一版时作者（JP、MS、PD）在牛津大学统计系。3关于Structure的讨论和问题请发给在线的论坛上：structure-software

2、。在邮递问题之前请查对这个文档并搜索以前的讨论。1 引言程序Structure使用由不连锁的标记组成的基因型数据实施基于模型的聚类方法来推断群体结构。这种方法由普里查德（Pritchard）、斯蒂芬斯（Stephens）和唐纳利（Donnelly）（2000a）在一篇文章中引入，由Falush、斯蒂芬斯（Stephens）和普里查德（Pritchard）（2003a，2007）在续篇中进行了扩展。我们的方法的应用包括证明群体结构的存在，鉴定不同的遗传群体，把个体归到群体，以及鉴定移居者和掺和的个体。简言之，我们假定有K个群体（这里K可能是未知的）的一个模型，每个群体在每个位点上由一组等位基因

3、频率来刻画。样本内的个体被（按照概率）分配到群体，或共同分配到两个或更多个群体，如果它们的基因型表明它们是混和的。假定在群体内，位点处于哈迪-温伯格平衡和连锁平衡。不精确地讲，个体被按达到这一点那样的方法指定到群体。我们的模型不假定一个特别的突变过程，并且它可以应用于大多数通常使用的遗传标记，包括微卫星（microsatellites）、SNP和RFLP。模型假定在亚群体内标记不处于连锁不平衡（LD），因此我们不能处理极其靠近的标记。从2.0版开始，我们现在能够处理弱连锁的标记。虽然这里实现的计算方法是相当强有力的，但是为了保证明智的答案，在运行程序的过程中还是需要谨慎。例如，不可能从理论上确

4、定合适的运行长度（时间），这需要用户自己做一些实验。这份资料描述软件的使用和解释，并补充发表的文章，这些文章提供了对方法的更正式的描述和评价。1.1 概述软件包Structure由几个部分组成。程序的计算部分用C语言编写。我们发布源码和用于各种平台（目前有苹果机，Windows，Linux，Sun）的可执行文件。C可执行文件读取用户提供的一个数据文件。还有一个Java前端为用户提供各种有帮助的工具，包括对输出的简单的处理。你也可以从命令行调用Structure而不是使用前端。这份资料包括关于怎样格式化数据文件、怎样选择合适的模型、以及怎样解释结果的信息。它也有关于使用两种界面（命令行和前端）的

5、细节以及各种用户定义的参数的汇总。1.2 在2.3版中有哪些更新？2.3版（2009年4月发布）引入了新的模型用于改进数据集结构的推论，其中（1）数据对于通常的结构模型来说信息不够，不足以提供准确的推论，但是（2）抽样的地点与群体归属关系（population membership）相关。在这种情形下，通过明确利用抽样地点信息，我们使结构得到改善，经常允许性能提高很多（Hubisz et al., 2009）。我们希望在下几个月释放更进一步的改进。表1：实例数据文件。这里MARKERNAMES = 1, LABEL = 1, POPDATA = 1, NUMINDS = 7, NUMLOCI

6、 = 5, MISSING = -9, POPFLAG = 0, LOCDATA = 0, PHENOTYPE = 0, EXTRACOLS = 0。第2列显示个体的地理取样位置。我们也可以把数据存储为每个个体一行（ONEROWPERIND = 1），在这种情况下第一行为“George 1 -9 -9 145 -9 66 64 0 0 92 94”。Loc_a Loc_b Loc_c Loc_d Loc_e 乔治1-9 14566092乔治1-9 -9 64094保拉110614268192保拉110614864094马修2110145-9 092马修2110148661-9 鲍勃210814

7、264194鲍勃2-9 142-9 094Anja 1112142-9 1-9 Anja 111414266194彼得1-9 145660-9 彼得1110145-9 1-9 卡斯坦2108145620-9 卡斯坦2110145641922 数据文件的格式基因型数据的格式显示在表2中（表1显示一个例子）。基本上，整个数据集被作为一个矩阵安排在单个文件里，其中个体的数据在行里，位点在列里。用户能对格式做出若干选择，大多数这些数据（除基因型外！）是可选择的。对于一个二倍体生物，每个个体的数据可以是作为连续的2行被储存，其中每个位点在一列，或者在一行中，其中每个位点在连续的两列。除非你打算使用连锁模

8、型（见下面），否则单个个体的等位基因的次序并不重要。预基因型（pre-genotype）数据列（见下面）对每个体记录两次。（更一般地，对于n倍体生物来说，每个个体的数据被储存在n个连续的行中，除非ONEROWPERIND选项被使用。） 2.1 数据文件的组成部分：输入文件的要素如下所列。如果给出，它们一定按以下顺序，然而大多数是可选的并且可以被完全删除。用户必须指明哪些数据被给出，或者在前端里（front end），或者（当从命令行运行Structure时）在一个单独的文件mainparams里。同时，用户也要指定个体和位点的数目。2.2 行1. 标记名称（可选择；字符串）文件的第一行可以包

9、含数据集里的每个标记的标识符的一个列表。这一行包含整数或字母的L个字符串，其中L是位点的数目。2. 隐性等位基因（仅用于有显性的标记数据；整数）SNP或者微卫星数据一般将不包括这一行。但是如果选项RECESSIVEALLELES被设置为1，则程序要求有这一行来表明每个标记上哪个等位基因（如果有的话）是隐性的。关于更多的信息请参阅第4.1节。该选项用于象AFLP那样的数据，以及用于多倍体的情形，其中基因型可能是含糊的。3. 标记之间的距离（可选择；实数）文件里的下一行是一个标记之间距离的集合，供有连锁的位点使用。这些应该是遗传距离（例如，厘摩），或者是这种距离的一些替代，基于（例如）物理距离。如

10、果标记距离（粗略地）与重组率成正比，则距离的实际单位不是那么重要。前端从数据估计一个合适的尺度，但是命令行版本的用户必须在文件extraparams里设置LOG10RMIN、LOG10RMAX和LOG10RSTART。标记必须按照连锁群中的图谱次序排列。当连续的标记来自不同的连锁群（例如，不同的染色体）时，这应该用数值-1注明。第一个标记也被赋值为-1。所有其他的距离都是非负的。这一行包含L个实数。4. 连锁相信息（可选择；仅用于二倍体数据；在范围0, 1内的实数）。这只供连锁模型使用。这是L个概率的一行，出现在每个个体的基因型数据之后。如果连锁相是完全知道的，或者没有连锁相信息可用，则这些

11、行是不必要的。当有来自家系数据的部分连锁相信息，或者当来自雄性的单倍体X染色体数据和二倍体常染色体数据被一起输入时，它们可能是有用的。对于连锁相信息有两种可选择的表示：（1）个体的两行数据被假设为分别与父本的和母本的相对应。连锁相行表明当前标记上的排序正确的概率（设置MARKOVPHASE = 0）；（2）连锁相行表明与以前的等位基因有关的一个等位基因的连锁相是正确的概率（设置MARKOVPHASE = 1）。第一项应该填入0.5，以便把这行填写到L项。例如下列数据输入表示来自一个男性的信息，有5个连锁相未知的常染色体微卫星位点，后面是3个X染色体位点，使用母本/父本相模型：102156165

12、101143105104101100148163101143 -9 -9 -90.5 0.5 0.5 0.5 0.5 1.0 1.0 1.0其中-9表示“缺失数据”，这里缺失是由第二X染色体缺乏造成的，0.5表明常染色体位点的连锁相是未知的，1.0表明X染色体位点由母本遗传的概率为1.0，因此其连锁相是已知的。相同的信息可以用markovphase模型来描述。这样的话输入文件将读为：102156165101143105104101 100148163101143-9-9-9 0.5 0.5 0.5 0.5 0.5 0.5 1.0 1.0这里，2 1.0 s 表明那个第1 和第2，其次和第3 个

13、X染色体位点彼此完全同相。注意站点以站点产量在这些2 模式下将不同。在第一例子中，Structure将输出母亲和父亲染色体的任务可能发生的事件。在第2 个情况下，它将输出在输入文件里列举的每等位基因的可能发生的事件。5. 个体/ 基因型数据（必需的）取样的每一个个体的数据象在下面描述的那样安排成一行或多行。2.3 个体/基因型数据个体数据的每一行包含下列要素。这些形成数据文件里的列。1. Label（标签）（可选择；字符串）一串整数或者字母，用来指明样本中的每个个体。2. PopData（可选择；整数）一个整数，指明一个用户定义的群体，从其中获得个体（例如这些整数可以指明个体取样的地理位置）

14、。在默认的模型中，这个信息不被聚类算法使用，但是能用来帮助组织输出（例如，将来自相同的预定义群体的个体彼此紧挨着绘图）。3. PopFlag（可选择；0或者1）一个布尔标签，表明使用学习样本时是否使用PopData（见USEPOPINFO，在下面）。（注：布尔（Boolean）变量（标签）是取值为TRUE或FALSE的变量，在这里分别用整数1（使用PopData）和0（不使用PopData）表示。） 4. LocData（可选择；整数）一个整数，为每个个体指明一个用户定义的取样地点（或者其他特性，例如一个分享的表现型）。当LOCPRIOR模型被打开时，这个信息用来帮助聚类。如果你仅仅希望使用L

15、OCPRIOR模型的PopData，那么你可以省略LocData列，并设置LOCISPOP = 1（这告诉程序使用PopData来设置地点）。5. Phenotype（可选择；整数）一个整数，为每个个体指明一个所关心的表现型的值（表中的f(i)）。（表现型信息实际上没有用于Structure。这里用来允许与关联作图程序STRAT有一个平滑的接口。） 6. Extra Columns（可选择；字符串）用户把被程序忽略的附加数据包括在输入文件里可能是方便的。这些数据就在这里输入，可以是由整数或字符组成的串。7. Genotype Data（必需的；整数）一个给定位点上的每个等位基因应该由一个

16、独特的整数来编码（例如微卫星重复得分）。2.4 缺失的基因型数据缺失数据应该用没在数据中的其他地方出现过的一个数字来标明（按照惯例经常使用-9）。这个数字也可以用于有单倍体和二倍体数据混合的地方（例如男性中的X和常染色体位点）。缺失数据值是与描述数据集特性的其它参数一起被设置的。2.5 格式化的错误。我们已经进行了相当仔细的错误检查，以保证数据集的格式正确，并且程序将试图提供一些关于存在的任何问题的性质的提示。前端要求在每行的结束回车，不允许在行内回车；Structure的命令行版本以与处理空格或制表符（Tab）同样的方式处理回车。可能出现的一个问题是，在将数据导入Structure之前用来组

17、装数据的编辑程序可能引入隐藏的格式化字符，经常在行的末尾，或者在文件的末尾。前端能自动除去大多数这些错误，但是当数据文件好像处于正确的格式时，这类问题可能对错误负责。如果你正在把数据导入到一个Unix系统，dos2unix功能可能对彻底清理这些错误有帮助。3 用户的建模决策3.1 祖先模型个体的祖先有4个主要模型：（1）非混合模型（个体离散地来自一个群体或者另一个群体）；（2）混合模型（每个个体从K个群体中的每一个抽取他/她的基因组的一部分）；（3）连锁模型（象混合模型一样，但是连锁的位点更可能来自相同的群体）；（4）有先验信息的模型（允许Structure使用关于取样地点的信息：或者帮助用

18、弱的数据进行的聚类，发现迁移者，或者预定义一些群体）。关于模型1、2 、4的详情见Pritchard等（2000a）和Hubisz 等（2009），关于模型3的详情见Falush等（2003a）。1. 非混合模型。每个体完全来自K个群体之一。输出报告个体i来自群体k的后验概率。每个群体的先验概率是1 / K。这个模型适合于研究完全离散的群体，并且经常比混合模型在检测微妙的结构方面更强有力。2. 混合模型。个体可能具有混合的祖先。这可以表述为个体i从群体k中的祖先那里继承了他的/她的基因组的一部分。输出记录这些比例的后验平均估计值。以祖先向量q(i)为条件，每个等位基因的起源是独立的。我们推荐这

19、个模型作为大多数分析的起始点。这是处理真实群体的大多数复杂性的一个相当灵活的模型。混合是真实数据的一个普通特征，如果你使用非混合模型，你或许不会发现它。混合模型也能以一种自然的方式处理混合的区域（hybrid zones）。表2：数据文件的格式，为两行的格式。大多数这些组成部分是可选的（欲了解详细信息，参见正文）。Ml是标记l的标识符。rl表明哪个等位基因，如果有的话，在每个标记上是隐性的（仅针对显性的基因型数据）。Di,i+1是标记i和i + 1之间的距离。ID(i)是个体i的标签，g(i)是个体i的一个预先定义的群体索引（PopData）；f(i)是一个被用来合并学习样品的标签（PopFl

20、ag）；l(i)是个体i的取样地点（LocData）；f(i)可以储存个体i的表现型；y1(i), ., yn(i)用于储存额外的数据（这些数据会被程序忽略）；(xli,1, xli,2)储存个体i在位点l上的基因型。pi(l)是个体i中的标记l的连锁相的信息。3. 连锁模型。这实质上是将混合模型推广，来处理“混合连锁不平衡”，即，在最近混和的群体中的连锁标记之间出现的相关性。Falush等（2003a）描述了该模型和更详细的计算。基本的模型是，过去的t个世代，有一次混合事件，将K个群体混合了。如果你考虑单个染色体，它由一系列“块（chunk）”组成，这些“块”是从混合时的祖先那里作为离散的单

21、位遗传来的。出现混合LD是因为连锁的等位基因经常在相同的块上，因此来自相同的祖先群体。块的大小被假设为独立的指数随机变量，具有平均长度1/t（以摩尔根为单位）。在实践中我们估计“重组率”r，所用的数据对应于从现在的块切换到新的块的比率。个体i里的每个块以概率qk(i)独立地来自群体k，其中qk(i)是那个个体的祖先来自群体k的比例。总起来，新模型保留了混合模型的主要要素，但是在单个块上的全部等位基因必须来自相同的群体。新的MCMC算法结合了可能的块大小和断点。它对于每个体报告总的祖先，考虑连锁，并且也能报告染色体的每一点儿的起源的可能性，如果用户想要的话。当使用连锁的位点来研究混合的群体时，这

22、个新模型表现得比原先的混合模型更好。它得到对祖先向量的更准确的估计，并且能从数据中抽出更多的信息。这对混合作图应该是有用的。该模型不是用于处理非常紧密连锁的标记之间的背景LD的。显然，这个模型是大多数混合群体的复杂现实的大大的简化。不过，混合的主要的效应是在连锁的标记之间建立长远的相关性，因此我们这里的目的是在一个相当简单的模型中将那个特征包括进来。计算比混合模型的要慢一点，特别对于大的K和不知道连锁相的数据。不过，它们对于数千个位点和个体以及多个群体来说还是切实可行的。如果有关于标记的相对位置的信息（通常是一张遗传图谱），则只能使用该模型。4. 使用先验的群体信息。Structure的默认模

23、式只使用遗传学的信息来了解群体结构。不过，经常有可以与聚类相关的附加信息（例如，取样的个体的物理特性或者取样的地理位置）。目前，Structure可以用3种方式使用这种信息： LOCPRIOR模型：利用取样位置作为先验信息来辅助聚类用于结构信号比较弱的数据集。有一些数据集，其中有真实的群体结构（例如，取样位置之间的显著的FST），但是信号太弱，标准的Structure模型不能发现。对于标记很少、个体很少或者非常弱的Structure，经常是这样的情况。在这种情形下，为了提高性能，Hubisz等（2009）发展了新模型，利用地点信息来辅助聚类。对于这样的数据集，其中结构的信号太弱以致使用标准的S

24、tructure模型不能被发现，新模型经常能提供群体结构和个体祖先的准确的推断。简言之，LOCPRIOR模型的基本原理如下。通常，Structure假定个体的所有部分都大约是先验等可能的。因为可能的部分的数目非常巨大，对于Structure来说，需要信息非常丰富的数据来断定个体的任何特定的部分被聚类到群具有强的统计支持。相反，LOCPRIOR模型认为实际上，来自相同的取样位置的个体经常来自相同的群体。因此，建立LOCPRIOR模型以期望取样的位置可能关于祖先是信息丰富的。如果数据表明位置是信息丰富的，那么LOCPRIOR模型允许Structure使用这种信息。Hubisz等（2009）发展了一

25、对LOCPRIOR模型：一种用于没有混合的情况，一种用于有混合的情况。在两种情况中，内在的模型（以及似然函数）与标准版本相同。关键的差别是允许structure使用地点信息来帮助聚类（即，通过修改先验信息来得到与位置有关的更偏爱的聚类解决方案）。LOCPRIOR模型具有合乎需要的特性：（i）当不存在结构时，它们不倾向于发现结构；（ii）当个体的祖先与取样位置不相关时，他们能够忽视取样的信息；（iii）当群体结构的信号非常强大时，旧模型和新模型基本上给出相同的答案。因此，我们建议在大多数数据数量非常有限的情形下使用新模型，特别是当标准的Structure模型不提供一个Structure的清晰信号

26、时。但是，因为现在已经积累了标准的Structure模型的很多经验，我们建议对于信息非常丰富的数据集将基本模型作为默认（Hubisz 等等，2009）。为了运行LOCPRIOR模型，用户必须首先为每个个体指定“取样地点”，作为一个整数编码。即，我们假定样品是在一组分离的位置收集的，并且我们不使用关于地点的任何空间信息。（我们认识到，在一些研究中，每个个体可能在一个不同的地点收集，因此将个体塞进一套更小的分离的地点可能不是对数据的理想的代表。） “地点”也可以代表一个表现型、生态型（ecotype）或者民族团体（ethnic group）。地点被键入到输入文件中，要么在PopData列（设置LO

27、CISPOP = 1）中，要么作为一个单独的LocData列（参阅第2.3节）。为了使用LOCPRIOR 模型，你必须首先指定或者用混合模型用非混合的模型。如果你使用的是图形用户界面版本，则勾选“use sampling locations as prio”（用取样位置作为先验信息）框。如果你使用的是命令行版本，则设置LOCPRIOR = 1。（注意，LOCPRIOR与连锁模型不兼容。）我们迄今的经验是当不存在结构时，LOCPRIOR模型不偏向于检测到假的结构。你可以把相同的诊断用于是否有真的结构，当你没使用LOCPRIOR时。另外查看r的值可能有帮助，它确定由位置携带的信息的数量。r的值接

28、近1，或者<1，表明位置是信息丰富的。r的更大的值表明或者没有群体结构，或者结构不依赖位置。USEPOPINFO模型：使用取样位置来对移居者或者杂交种进行检验供信息非常丰富的数据数据集使用。在一些数据集里，用户可能发现预确定的组（例如取样位置）几乎正好与结构聚类相对应，除了少数似乎被错误归类的个体以外。Pritchard等（2000a）提出了正式的Bayesian检验，用于评价是否在这个样品内的任何个体是他们认为的群体的移民，或者具有新近的移民祖先。注意这个模型假定被预先规定的群体通常是正确的。它采用十分强大的数据来克服先验的错误分类。在使用USEPOPINFO模型之前，你也应该在没有群

29、体信息的情况下运行程序，以保证预确定的群体与遗传学的信息粗略一致。为了使用这模型，把USEPOPINFO设置为1，并且选择MIGRPRIOR的一个值（在Pritchard等（2000a）中它是v）。你可以在0.001到0.1的范围内为v选择一个值。每个个体的预确定的群体被设置在输入数据文件中（见PopData）。用这种方式，在输入文件里被分配到群体k的个体在Structure算法中将被分配到群k。因此，被预先规定的群体应该是在1和MAXPOPS (K)之间的整数。如果任何个体的PopData超出这个范围，它们的q将按正常的方式被更新（即没有先验的群体信息，根据将被使用的模型，如果USEPOPI

30、NFO被关上的话。）USEPOPINFO模型：预先指定一些个体的起源的群体来帮助未知起源的个体的祖先估计。使用USEPOPINFO模型的第二个方法是定义“学习样本”（learning samples），它被预定义为来自特定的群。然后用Structure来聚类剩下的个体。注意：在前端里，这个选项使用“Update allele frequencies using only individuals with POPFLAG=1”选项被打开，位于“Advanced Tab”标签下。学习样品是利用数据文件里的PopFlag列实现的。预先规定的群体被用于那些个体，它们的PopFlag = 1（并且它们的

31、PopData在（1.K）中）。对于PopFlag = 0的个体，PopData值被忽略。如果数据文件里没有PopFlag列，那么当USEPOPINFO被开启时，PopFlag被为全部个体设置为1。具有PopFlag = 0的或者PopData不在(1.K)中的个体的祖先，根据混合或者没有混合的模型被更新，象由用户指定的那样。如上所述，如果有很少的个体没有预先规定的群体，将a设置成一个明智的值来可能是有帮助的。USEPOPINFO的应用可能在几个方面有帮助。例如，可能有一些个体的来源是已知的，我们的目标是对未知来源的另外的个体进行归类。例如，我们可能从一群已知品种（编号为1 . . .K）的狗

32、中收集数据，然后使用Structure为未知的（也许是杂交种）起源的另外的狗估计祖先。通过预先设置群体数目，我们可以保证Structure聚类对应于预先确定的品种，这使输出更可解释，并且能改进推论的准确性。（当然，如果两个预先确定的品种在遗传上是相同的，那么未知起源的狗可能被推断为具有混合的祖先。USEPOPINFO的另一种用途是用于这样一种情况：用户想要只使用个体的一个子集来更新等位基因频率。通常，Structure分析使用全部可得到的个体来更新等位基因频率估计值。但是有一些情况，在那里你可能想对于一些个体估计祖先，没有那些个体会影响等位基因频率的估计。例如你可以有学习样品的一个标准的收集，

33、然后周期性地你想要为新的一批基因型化的个体估计祖先。使用默认的选项，个体的祖先估计（稍微）取决于它们所在的批次。通过使用PFROMPOPFLAGONLY，你可以保证等位基因频率估计值只依赖于PopFlag = 1的那些样品。在不同的情况下，Murgia等（2006）想要确定一套无性系的狗瘤的起源。那些瘤如此紧密有关以至于使用的缺省设置时瘤形成它们自己的一类。通过使用PFROMPOPFLAGONLY，Murgia等迫使瘤与其他canid聚类分在一组。意见：我们建议首先运行Structure的基本的版本，以便证实被预先规定的标签确实的确符合实际的遗传学群体。其次，当使用学习样品时，通过设置比0大的

34、MIGRPRIOR来允许一些错误的分类可能是明智的。3.2 等位基因频率模型对于等位基因频率有两个基本的模型。一个模型假定每个群体内的等位基因频率是独立的，从一个分布中抽取，这个分布由参数l指定。那是用于Pritchard等（2000a）种的原先的模型。通常我们设置l = 1；这是缺省设置。Falush等（2003a）实施了一个模型，具有相关的等位基因频率。这个模型标明不同群体中的频率很可能是相似的（或许由于迁移或者由于共有的祖先）。更详细的资料如下。独立的模型对于很多数据集表现不错。粗略地说，这最先说我们期望在不同的群体中的等位基因频率彼此不同。相关的频率模型说它们实际上可能十分相似。对于亲

35、缘关系近的群体，这经常改进聚类，但是可能增加过高估计的K的危险（如下）。如果一个群体与其他群体分歧较大，则当那个群体被除去时，相关的模型有时可以取得更好的推论。估计l: 固定l = 1对于大多数数据是一个好主意，但是在一些情况下，例如SNP数据，其中大多数次要的等位基因是稀少的，这时候较小的数值可能工作得更好。对于这个原因，你可以让程序为你的数据估计l。你可能想要这样做一次，或许对于K = 1来说，然后将l固定在被估计的值上，因为在试图同时国际太多的假设参数(l, a, F)时对于非识别性（non-identifiability）好像有一些问题。相关的等位基因频率模型: 如同Falush等（2

36、003a）描述的那样，相关的频率模型使用一个（多维的）矢量，PA，它记录假设的“祖先”群体中的等位基因频率。假定在我们的样品中代表的K个群体每个都已经经历过与这些祖先频率的独立的漂移，速率分别用参数F1, F2, F3, ., FK表示。除归因于有点不同的模型的差别和估计的差别外，被估计的Fk值应该数量上类似于FST值。此外，对于具有许多混合的数据要准确地估计Fk很难。PA被假设为具有Dirichlet先验，具有与上面的群体频率使用的相同的形式：pAl· D(l1, l2, . . . , ), (1)对每个l独立。然后，群体k中的频率的先验为，（2）对每个k和l独立。在这个模型里

37、，F与遗传学距离FST有密切的关系。按照FST的标准的参数化方法，每个群体中的期望频率由总的平均频率给出，当等位基因的总频率为p时，跨越亚群体的频率的方差为p(1 p)FST。这里的模型几乎一样，除了我们对模型稍微做了推广以外，通过允许每个群体以一个不通的速率（Fk）漂离祖先群体，如同群体具有不同的大小时可能被期望的那样。我们也试图估计“祖先频率”，而不是使用平均的频率。我们将独立的先验（prior）放于Fk上，与平均数为0.01、标准差为0.05的分布成正比（但是有PrFk ³ 1 = 0）。先验分布的参数可以由用户修改。一些实验表明，0.01的先验平均值对应于非常低细分的水平，对

38、于独立频率模型的数据经常导致好的表现。在其他的问题中（其中群体之间的差别更加明显），好像数据通常压倒了这个Fk的先验。3.3 程序要运行多长时间？程序从一个随机的配置启动，从那里采取一系列步骤穿过参数空间，每个步骤（只）依赖于前一个步骤的参数值。这个程序在运行期间引起不同的点上的Markov链的状态之间的相关性。希望是通过运转模拟足够久，相关性将可以被忽视。有两个问题要担心：（1） burnin长度：在收集数据使启动配置的影响减到最小之前模拟要运行多久，（2）在burnin以得到准确的参数估计之后模拟要运行多久。要选择合适的burnin长度，看看由这个程序打印的归纳统计量的值是真的有帮助的（

39、例如（a，F，在群体之间的分歧距离Di,j，以及似然），以便了解它们是否已经收敛。通常10000100000的burnin非常足够了。要选择适当的运行长度，你需要在每个K上做几次运行，也许长度不同，看看你是否得到一致的答案。通常，利用10000100000步运行你能得到参数（P和Q）的好的估计，但是Pr(X|K)的准确的估计可能需要更长时间的运行。实际上，你的运行时间的长度可能决定于你的计算机速度和耐心。如果你正处理极其大的数据集，并且被运行时间阻止，你可以试着修剪运行的长度和标记/个体的数量，至少为探索的分析。前端提供了几个主要参数的时间序列曲线。在burnin阶段结束之前你应该看看这些曲线

40、，以便了解这些曲线是否看起来达到了平衡。如果在burnin阶段结束时数值仍然在增加或者减少，你需要增加burnin长度。如果在整个运行期间（即，不只是在burnin期间）a的估计值变化非常大，你可以通过增大ALPHAPROPSD来得到对Pr(X|K)的更准确的估计，这改进了在那种形势下的混合。（见在第5节的一个有关的问题）。4 缺失数据，无效的等位基因和显性标记当不断改进Q和P时，程序忽略缺失的基因型数据。当在一个特别的位点有漏缺数据的可能性与个体在那里有什么等位基因无关时，这种方法是正确的。当具有漏缺数据的个体的Q的估计不那么准确时，没有特别的原因阻止这样的个体参加分析，除非他们根本几乎没有

41、数据。当数据以系统的方式遗漏时，出现一个严重的问题，如同用无效等位基因那样。这些不适合假设的模型，即使没有群体结构，也能够导致明显的违背哈迪-温伯格。人们不应该期望假设的模型对这类破坏是稳健的。但是如果无效的等位基因可能是一个重要的问题的话，则显性标记模型（下面）可以被使用。在样本中有多名家庭成员也会破坏模型假定。这有时会导致K的过高估计，特别对于相关的频率模型（Falush等，2003a），但是当K固定时，这对将个体分配给群体的影响很小。4.1 显性标记、无效等位基因和多倍体基因型对一些类型的遗传学标记（例如AFLP）来说，区分全部基因型是不可能的。其它类型的标记可能导致模棱两可的基因型，如

42、果由于附近序列的变化导致PCR产物不能扩增，一部分等位基因为“无效”。从2.2版开始，我们实现了一个模型，处理与显性标记相关的基因型的模糊性。总之，我们假定在任何特定的位点可能有对全部其他等位基因（例如A）为隐性的单个的等位基因，而全部其他的标记是共显性的。因此AB和BB将作为“表现型”B出现在未加工的基因型数据中，AC和CC将被记录为C，而BC将被记录为BC。当有模糊性时，模型在可能的基因型上求和。全部的细节在Falush等（2007）里给出。为了执行这些计算，必须告诉算法每个位点上的哪个等位基因（如果有的话）是隐性的。这通过设置RECESSIVEALLELES=1来进行，并且在输入文件顶

43、上包括一行单L整数，在标记名称和图谱距离的（可选的）行之间，表明在数据集里的L个位点的每个上面的隐性等位基因。如果一个给定的位点上的全部标记是共显性的，那么那个位点上的隐性值必须被调整成MISSING（缺失的）数据值。相反，如果隐性等位基因从未在纯合状态被观察到，但是你认为它可能存在（例如可能有无效的等位基因），那么就把隐性值设置成在那个位点没被观察到的等位基因（而不是MISSING！） . 编码基因型数据：如果表现型是不含糊的，那么它被在Structure输入文件里按照它本来的样子编码。如果它是含糊的，那么它被作为显性等位基因的纯合体编码。例如，表现型A 被编码为AA，B被编码为BB，BC被

44、编码为BC，等等。如果标记是其他方面为二倍体的一个个体中的单倍体（例如男性中的X染色体），那么第2个等位基因被象以前一样编码为MISSING（缺失）。当A是隐性的时，基因型AB、AC等等在输入文件里是不合法的。当RECESSIVEALLELES被用来处理无效的等位基因时，看起来是无效的纯合体（homozygote null）的基因型应该作为隐性等位基因的纯合体而不是作为缺失数据被输入。在实践中可能不确定是否一个失败的基因型真的归因于纯合的无效等位基因。Structure应该对这些编码为缺失的数据是稳健的，除非无效等位基因在一个位点上的频率很高。在多倍体（PLOIDY>2）中形势更复杂，因

45、为甚至对共显性标记都可能有基因型的含糊。在杂合体中准确地识别出基因型经常是困难的。例如在三倍体中，表现型AB可能是AAB或者ABB。如果Structure在RECESSIVEALLELES=0的条件下运行，那么就假定没有含糊。对于多倍体，当RECESSIVEALLELES=1时，Structure允许数据包含具有基因型模糊和不具有基因型模糊的位点。如果一些位点不含糊那么设置代码NOTAMBIGUOUS为一个整数，这个整数不与数据内的的任何等位基因相匹配，并且不等于MISSING（缺失）。然后在输入文件顶上的隐性等位基因的行里为不含糊的位点放置NOTAMBIGUOUS代码。如果不是那样，而是在一

46、个特定的位点上等位基因全部是共显性的，但是有关于每个的数目（例如为在四倍体里的微卫星）含糊，那么就把隐性等位基因代码设置为MISSING。最后，如果有隐性等位基因，并且还有关于每个等位基因的数目的含糊性，则设置隐性等位基因代码来表明哪个等位基因是隐性的。存在拷贝数含糊性的等位基因的编码与存在显性标记的那些相似。因此，举例来说，在四倍体中，观察到3个共显性位点B、C和D，这应该被编码为B C D D或者等效地B B C D或者任何包括3个等位基因中的每一个的其他组合。它不应该被编码为B C D (MISSING)，因为这表明该特定的个体在所指的位点是三倍体。如果在这个位点上存在一个隐性等位基因A

47、，它也不能被编码为B C D A。Pr(K)的估计: 当RECESSIVEALLELES被用于二倍体时，Markov链的每个步骤上的似然值是通过在可能的基因型上求和来计算的。为了便于编码，当要么PLOIDY>2要么使用了连锁模型时，我们以当前推算的(imputed)基因型为条件。这减小似然值,并且好像大大地扩大似然值的方差。有限的经验表明在后一种情况下这导致对K的估计效果变差，你应该把K的这种估计看做是不可靠的。5 K（群体数目）的估计在描述这个程序的我们的文章里，我们指出这个问题应该被小心对待，由于两个原因：（1）要获得对Pr(X|K)的准确估计在计算上是困难的，我们的方法仅仅提供一个

48、专门的（ad hoc）近似；（2）K的生物学解释可能不是简单的。在我们的经验里我们发现真正的困难在于第2个问题。我们的用于估计K的程序一般在具有少量离散的群体的数据集中计算效果较好。不过，很多现实世界的数据集并不准确地符合Structure模型（例如，由于通过距离或者近交而产生的隔离）。在那些情况里对于什么是K的正确值可能没有一个自然的答案。或许由于这种原因，在真实的数据中我们的模型选择标准的值随着增加的K而继续增加是不稀有的。那么集中于捕获数据中的大多数结构的K的值通常是讲得通的，这在生物学上似乎是合理的。5.1估计K的步骤1. （命令行版本）在文件extraparams里把COMPUTEP

49、ROBS和INFERALPHA设置为1。（前端版本）确保a允许改变。2. 对不同的MAXPOPS (K)值运行MCMC方案。最后它将输出一行“Estimated Ln Prob of Data”。这是ln Pr(X|K)的估计。你应该对每个K独立地运行几次，以便证实不同运行得到的估计值是一致的。如果与不同的K获得的估计值的变异性相比，一个给定的K的不同运行的变异性是显著的，那么你可能需要使用更长的运行或者更长的burnin时期。如果lnPr(X|K)看起来是双峰的（bimodal）或者多峰的（multimodal），则MCMC方案可能找到不同的答案。你可以对此进行验证，通过比较在单个K上的不同

50、运行的Q。（参看Pritchard et al. (2000a)的数据集2A（Data Set 2A），也见下面有关多峰性（Multimodality）的部分，）。3. 计算K的后验概率。例如，对于论文中的数据集2A（这里K是2），我们得到K ln Pr(X|K)1 -43562 -39833 -39824 -39835 -4006我们一开始可以假定一个关于K = 1, ., 5的均匀先验分布。然后根据贝叶斯定理，Pr(K = 2)由下式给出：（3）如果我们将该式简化为下面的公式，计算就会更容易（4）5.2 轻微的违背模型可能导致过高估计K 当存在真正的群体结构时，这导致不连锁的位点之间的

51、LD，以及违背哈迪温伯格比例。粗略地说，这是被Structure算法使用的信号。但是模型的一些违背也能导致哈迪温伯格或连锁不平衡。这些包括近交和基因型鉴定错误（例如偶然的、未被发现的无效的等位基因）。即使在没有群体结构的情况下，对于K >1，这些类型的因素也可能导致弱的统计信号。从2版本开始，我们提出相关的等位基因频率模型（correlated allele frequency model）应该被用作默认，因为它在困难的问题上经常实现更好的执行，但是用户应该意识到，在这样的设置中可能更容易过高估计K，与独立的频率模型下相比（Falush et al. (2003a)）。下一节讨论怎样确

52、定推断的结构是否是真实的。5.3 关于选择K的非正式提示；结构是真实的吗？有两个非正式的提示，可能有助于选择K。第一个是，对于比合适的值（有效零）更小的K，Pr(K)常常是非常小的，对于更大的K，则有或多或少的高原，如同上面显示的数据集2A的例子中那样。在这种情形中（其中K的几个值给出log Pr(X|K)的相似的估计下），似乎这些估计中最小的常常是正确的。对于我们通过“或多或少的高原”所表示的东西，要提供一个坚固的规则有点难。对于小数据集来说，这可能意味着log Pr(X|K)的值在5-10的范围内，但是Daniel Falush写道“在非常大的数据集中，K = 3和K = 4之间的差别可能

53、是50，但是如果K = 3和K = 2之间的差别是5 000，那么我将肯定选择K = 3”。想要使用更正式的标准（这种标准将这一点纳入了考虑）的读者可能对Evanno等（2005）的方法感兴趣。我们认为考虑这一点的一种明智的方法是就模型选择而言。即，我们可能不总是能知道K的真值，但是我们应该致力于捕获数据里的主要结构的K的最小的值。第二提示是，如果真的有单独的群体，那个，通常有许多有关a的值的信息，一旦Markov 链收敛，a通常将相对恒定（范围经常为0.2或更少）。不过，如果没有任何真正的结构，在运行过程中a通常变化很大。这一点的一个必然的结果是当没有群体结构时，你将通常将看到分配给每个群体

54、的样本的比例是大致匀称的（每个群体中1/K），大多数个体将被公平地混和。如果一些个体被强烈地分配到一群体或者另一个，以及如果分配给每组的比例不对称，那么这是你有真正的群体结构的强的迹象。假定你有两个清楚的群体，但是你试图决定是否这些中之一是更进一步再分（例如，Pr(X|K = 3)的值类似于P(X|K = 2)，或者也许比P(X|K = 2)还大一点）。那么，你能尝试的一件事情是只使用你怀疑可能被再分的群体内的个体来运行Structure，看看是否有一个如上所述的强信号。总之，你应该对根据小的Pr(K)的差别推断的群体结构持怀疑态度，如果（1）对于分派没有清楚的生物学解释，（2）对全部群体的分

55、派大致匀称，没有个体被强烈地分配。5.4 通过距离数据的隔离通过距离的隔离指的是这样的想法：个体可能跨越一些地区呈空间分布，带有本地分散的。在这种形势下，等位基因频率跨越地区逐渐变化。基础的Structure模型对来自这种情况的数据不很适合。当这发生时，推断的K 的值，以及在每组中的相应的等位基因频率可能相当任意。取决于取样的计划，大多数个体可能在多个组中具有混合的成员身份。即，算法将尝试使用K的不同组分的加权平均数来对跨越地区的等位基因频率建模。在这样的形势下，结果的解释可能具有挑战性。6 背景LD和其他miscellania 6.1 序列数据，紧密连锁的SNP和单体型数据Structure

56、模型假定位点在群体内是独立的（即，在群体内不处于LD）。序列数据或者来自非重组区域的（比如Y染色体或者mtDNA）的数据很可能违反这个假定。如果你有序列数据或来自多个独立区域的密集的SNP数据，那么尽管数据不完全适合模型，Structure实际上可能表演得想当好。粗略地说，这将发生，倘若跨越不同的区域有足够的独立性，以至于区域内的LD不在数据中占优势。当有足够的独立区域时，区域内的依赖性（dependence）的主要代价将是Structure在特别的个体的分派中低估不确定性。例如，Falush等（2003b）把Structure用于来自H. pylori的MLST（多位点序列）数据，以了解H.

57、 pylori的群体结构和迁移历史。在那种情况下，在区域内有足够的重组以至于群体结构的信号超过了背景LD。（关于MLST数据的更多情况，也见第10节）。在人类的应用中，Conrad等（2006）发现来自36个连锁的区域的3000个SNP生产明智（但是嘈杂）的答案，在一个全世界的样本中，基本上与基于微卫星的以前的结果一致见他们的Supplementary Methods Figure SM2。然而，如果数据被一个或者少数非重组的或在低重组的区域主导，那么，Structure可能被严重地误导。例如，如果数据只由Y染色体数据组成，那么估计的结构大概将反映出关于Y染色体树的某些事情，而非群体结构本身。使用这样的数据的影响很可能是：（1）算法低估祖先估计中的不确定性的程度，在最坏的情况下，可能是有偏的或者不准确的；（2）K的估计不可能表演得好。如果你有Y或者mtDNA数据加上许多核标记，一个安全和有效的解决办法是重新编码来自每个连锁区域的单体型，以至于单体型被描述为一个具有n等位基因的单个位点。如果有许多单体型，则可以把相关的单体型归类到一起。注意连锁模型不一定比（非）混合模型对于处理这些问题更好。连锁模型不是设计来处理群体内的背景LD的，并且很可能被类似地干扰。6.2 多峰性Structure算法在参数空间中的一个随机的地方开始，

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

structure 2.3 - 中文

文档简介

温馨提示

最新文档

评论

structure 2.3 - 中文

文档简介

温馨提示

最新文档

评论

相关文档