版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Structure!o3中文使用手册
JonathanK.Pritchard3
XiaoquanWena
DanielFalushb123
,芝加哥大学人类遗传学系
b牛津大学记录学系
软件来自
http://pritchobsd.uchicagOoedu/structure.html
2月2日
।我们在Structure项目中的其他的同事有PeterDonnellyMatthewStephons和Melissa
Hubisz.
2开发这个程序的第一版时作者(JP、MS、PD)在牛津大学记录系.
3有关Strueture的讨论和问题请发给在线的论坛上:structure一.在邮递问题之前请查对
这个文档并搜索此前的讨论.
1引言
程序Structure使用由不连锁的标识构成的基因型数据实行基于模型的聚类措施来推断
群体构造。这种措施由普里查德(Pritchard)、斯蒂芬斯(Stephens)和唐纳利(Donnelly)(a)
在一篇文章中引入,由Falush、斯蒂芬斯(Stephens)和普里・杳德(Pritchard)(a,)在续篇
中进行了扩展。我们的措施的应用包括证明群体构造的存在,鉴定不一样的遗传群体,把个
体归到群体,以及鉴定移居者和掺和的个体.
简言之,我们假定有K个群体(这里K也许是未知的)的一种模型,每个群体在每个位
点上由一组等位基因频率来刻画。样本内的个体被(按照概率)分派到群体,或共同分派到
两个或更多种群体,假如它们的基因型表明它们是混和的.假定在群体内,位点处在哈迪一
温伯格平衡和连锁平衡.不精确地讲,个体被按到达这一点那样的措施指定到群体。
我们的模型不假定一种尤其的突变过程,并且它可以应用于大多数一般使用的遗传标
识,包括微卫星(microsatellites)SNP和RFLP。模型假定在亚群体内标识不处在连锁不
平衡(LD),因此我们不能处理极其靠近的标识.从2.0版开始,我们目前可以处理弱连锁的
标识.
虽然这里实现的计算措施是相称强有力的,不过为了保证明智的答案,在运行程序的过
程中还是需要谨慎.例如,不也许从埋论上确定合适的运行长度(时间),这需要顾客自己做某
些试验.这份资料描述软件的使用和解释,并补充刊登的文章,这些文章提供了对措施的改
正式的描述和评价。
1.1概述
软件包Structure由几种部分构成.程序的计算部分用C语言编写。我们公布源码和用于多
种平台(目前有苹果机,Windows,Linux,Sun)的可执行文献。C可执行文献读取顾客提供的
一种数据文献。尚有一利3va前端为顾客提供多种有协助的工具,包括对输出的简朴的处理。
你也可以从命令行调用Slruclure而不是使用前端.
这份资料包括有关怎样格式化数据文献、怎样选择合适的模型、以及怎样解释成果的信
息。它也有有关使用两种界面(命令行和前端)的细节以及多种顾客定义的参数的汇总。
1o2在2。3版中有哪些更新?
2。3版(4月公布)引入了新的模型用于改善数据集构造的推论,其中(I)数据对于一
般的构造模型来说信息不够,局限性以提供精确的推论,不过(2)抽样的地点与群体归属关
系(populationmembership)有关。在这种情形下,通过明确运用抽样地点信息,我们使构造
得到改善,常常容许性能更高诸多(Hubiszetal.,).我们但愿在下几种月释放更深入的改
善。
表1:实例数据文献。这里MARKERNAMES=I,LABEL=LPOPDATA=1,NUMINDS=7,
NUML0CI=5,MISSING=—9,POPFLAG=0,LOCDATA=0,PHENOTYPE=0,
EXTRACOLS=0。第2列显示个体的地理取样位置。我们也可以把数据存储为每个个体一行
(ONEROWPERIND=l),在这种状况下第一行为“George1-9—9145—96664009294”。
Loc_aLoc_bLoc_cLoc_dLoc_e
乔治1-914566092
乔治1—9—964094
保拉110614268192
保拉110614864094
马修2110145-9092
马修2110148661-9
鲍勃210814264194
鲍勃2-9142-9094
Anja1112142-91—9
Anja1)1414266194
彼得1—9145660-9
彼得1110145-91—9
卡斯坦2108145620-9
卡斯坦211014564I92
2数据文献的格式
基因型数据的格式显示在表2中(表1显示一种例子基本上,整个数据集被作为一种
矩阵安排在单个文献里,其中个体的数据在行里,位点在列里。顾客能对格式做出若干选择,
大多数这些数据(除基因型外!)是可选择的。
对于一种二倍体生物,每个个体的数据可以是作为持续的2行被储存,其中每个位点在
一列,或者在一行中,其中每个位点在持续的两列.除非你打算使用连锁模型(见下面),否
则单个个体的等位基因的次序并不重要.预基因型(pre-genotype)数据列(见下面)对每个
体记录两次。(更一般地,对于n倍体生物来说,每个个体的数据被储存在n个持续的行中,
除非ONEROWPER1ND选项被使用。)
2.1数据文献的构成部分:
输入文献的要素如下所列。假如给出,它们•定按如下次序,然而大多数是可选的并且
可以被完全删除。顾客必须指明哪些数据被给出,或者在前端里(fromend),或者(当从命
令行运行Slruclure时)在一种单独的文献mainparams里。同步,顾客也要指定个体和位点的
数目。
2.2行
I.标识名称(可选择;字符串)文献的第一行可以包括数据集里的每个标识的标识符
的一种列表.这一行包括整数或字母的L个字符串,其中心是位点的数目.
2.隐性等位基因(仅用于有显性的标识数据;整数;SNP或者微卫星数据一般将不包括
这一行.不过假如选项RECESSIVEALLELES被设置为I,则程序规定有这一行来表
明每个标识上哪个等位基因(假如有的话)是隐性的。有关更多的信息请参阅第4.1
节。该选项用于象AFLP那样的数据,以及用于多倍体的情形,其中基因型也许是
模糊的.
3.标识之间的距离(可选择;实数)文献里的下一行是一种标识之间距离的集合.供有
连锁的位点使用。这些应当是遗传距离(例如,厘摩),或者是这种距离的某些音
代,基于(例如)物理距离.假如标识距离(粗略地)与重组率成正比,则距离的实际
单位不是那么重要.前端从数据估计一种合适的尺度,不过命令行版本的顾客必须
在文献extraparams里设置LOGIORMIN、LOG10RMAX和LOG10RSTART。标识必
须按照连锁群中的图谱次序排列。当持续的标识来自不一样的连锁群(例如,不一
样的染色体)时,这应当用数值-1注明。笫一种标识也被赋值为-1.所有其他的距离
都是非负的.这一行包括L个实数。
4.连锁相信息(可选择;仅用于二倍体数据;在范围[0,门内的实数).这只供连锁
模型使用。这是,个概率的一行,出FI前每个个体的基因型数据之后。假如连锁相
是完全懂得的,或者没有连锁相信息可用,则这些行是不必要的。当有来自家系数
据的部分连锁相信息,或者当来自雄性的单倍体X染色体数据和二倍体常染色体数
据被一起输入时,它们也许是有用的。对于连锁相信息有两种可选择的表达:(1)
个体的两行数据被假设为分别与父本的和母本的相对应。连锁相行表明目前标识上
的排序对的的概率(设置MARKOVPHASE=0);(2)连锁相行表明与此前的等
位基因有关的一种等位基因的连锁相是对的的概率(设置MARKOVPHASE=1)。
第•项应当填入0。5,以便把这行填写到L项。例如下列数据输入表达来自•种男
性的信息,有5个连锁相未知的常染色体微卫星位点,背面是3个X染色体位点,使
用母本/父本相模型:
1
1003-9-9-9
0.5Oo50.50.5Oo5U01.()I。0
其中-9表达“缺失数据”,这里缺失是由第二X染色体缺乏导致的0.5表明常染色体
位点的连锁相是未知的,1.0表明X染色体位点由母本遗传的概率为100,因此其连锁
相是已知的.相似的信息可以用markovphase模型来描述.这样的话输入文献将读为:
102156165101143105104101
100148163101143—9-9-9
0o50.50.50.50o50.51.0L0
这里,21°0s表明那个第1和第2,另一方面和第3个X染色体位点彼此完全同相。
注意站点以站点产量在这些2模式下将不一样。在第一例子中,Structure将输出母
亲和父亲染色体的任务也许发生的事件。在第2个状况下,它将输出在输入文献里
列举的每等位基因的也许发生的事件.
5.个体/基因型数据(必需的)取样的每•种个体的数据象在下面描述的那样安排成•
行或多行。
2.3个体/基因型数据
个体数据的每一行包括下列要索这些形成数据文献里的列.
1.Label(标签)(可选择;字符串)一串整数或者字母,用来指明样本中的每个个
体。
2.PopData(可选择;整数)一种整数,指明一种顾客定义的群体,从其中获得个体
(例如这些整数可以指明个体取样的地理位置).在默认的模型中,这个信息不被聚
类算法使用,不过能用来协助组织输出(例如,未来自相似的预定义群体的个体彼
此紧挨着绘图).
3.PopFlag(可选择;0或者I)一种布尔标签,表明使用学习样本时与否使用PopDaia(见
USEPOPINFO,在下面)。(注:布尔(Boolean)变量(标签)是取值为TRUE或FALSE
的变量,在这里分别用整数1(使用PopData)和0(不使用PopDa⑶表达.)
4.LocData(可选择;整数)一种整数,为每个个体指明一种顾客定义的取样地点(或者
其他特性,例如一种分享的体现型)。当LOCPRIOR模型被打开时,这个信息用来
协,助聚类。假如你仅仅但愿使用LOCPRIOR模型的PopData,那么你可以省略LocData
歹|J,并设置LOCISPOP=I(这告诉程序使用PopData来设置地点)。
5.Phenotype(可选择;整数)一种整数,为每个个体指明一种所关怀的体现型的值
(表中的。卬)。(体现型信息实际上没有用于Structure。这里用来容许与关联作
图程序STRAT有一种平滑的接口。)
6.ExtraCo加mns(可选择;字符串)顾客把被程序忽视的附加数据包括在输入文献
里也许是以便的。这些数据就在这里输入,可以是由整数或字符构成的串。
7.GenotypeData(必需的;整数)一种给定位点上的每个等位基因应当由一种独特
的整数来编码(例如微卫星反复得分).
2.4缺失的基因型数据
缺失数据应当用没在数据中的其他地方出现过的一种数字来标明(按照通例常常使用
-9).这个数字也可以用于有单倍体和二倍体数据混合的地方(例如男性中的X和常染色体位
点).缺失数据值是与描述数据集特性的其他参数一起被设置的。
2.5格式化的错误.
我们已经进行了相称仔细的错误检查,以保证数据集的格式对的,并且程序将试图提供
某些有关存在的任何问题的性质的提醒.前端规定在每行的结束回车,不容许在行内回车;
Structure的命令行版本以与处理空格或制表符(Tab)同样的方式处理回车.
也许出现的一种问题是,在将数据导入Structure之前用来组装数据的编辑程序也许引入
隐藏的格式化字符,常常在行的末尾,或者在文献的末尾,前端能自动除去大多数这些错误,
不过当数据文献仿佛处在对的的格式时,此类问题也许对错误负责。假如你正在把数据导入
到一种Unix系统,dos2unix功能也许对彻底清理这些错误有协助,
3顾客的建模决策
3.1祖先模型
个体的祖先有4个重要模型:(I)非混合模型(个体离散地来自一种群体或者另一种群
体);(2)混合模型(每个个体从K个群体中的每一种抽取他/她的基因组的一部分);(3)
连锁模型(象混合模型同样,不过连锁的位点更也许来自相似的群体);(4)有先验信息的
模型(容许Struclure使用有关取样地点的信息:或者协助用弱的数据进行的聚类,发现迁移者,
或者预定义某些群体)。有关模型1、2、4的详情见Pritchard等(a)和Hubisz等(),有关
模型3的详情见Falush等(a)。
1.非混合模型。每个体完全来自K个群体之一.输巴汇报个体i来自群体左的后验概率。
每个群体的先验概率是1/K。这个模型适合于研究完全离散的群体,并且常常比混
合模型在检测微妙的构造方面更强有力。
2.混合模型。个体也许具有混合的祖先。这可以表述为个体i从群体A中的祖先那里继
承了他的/她的基因组的一部分。输出记录这些比例的后验平均估计值。以祖先向量
为条件,每个等位基因的来源是独M的。
我们推荐这个模型作为大多数分析的起始点.这是处理真实群体的大多数复杂性的一种
相称灵活的模型。混合是真实数据的•种•般特性,假如你使用非混合模型,你或许不会发
现它.混合模型也能以一种自然的方式处理混合的区域(hybridzones)。
表2:数据文献的格式,为两行的格式.大多数这些构成部分是可选的(欲理解详细信
息,参见正文)。防是标识/的标识符。力表明哪个等位基因,假如有的话,在每个
标识上是隐性的(仅针对显性的基因型数据)。&升|是标识,和i+1之间的距离"/>一
是个体,•的标签,月⑺是个体泊勺一种预先定义的群体索引(PopData);/"是一种被
用来合并学习样品的标签(PopFlag)是个体/•的取样地点(LocData):”可以储
存个体,•的体现型;yJT.。。,用于储存额外的数据(这些数据会被程序忽
视);(X/-1,Xi2)储存个体,•在位点/上的基因型。〃他是个体,•中的标识/的连锁相
的信息.
LabelPopFlagLocationPhenErtraColsLoe1Loc2Loc3....LoeL
z1\/1
/Dt!
\/g\
/D/11/1
X/gI
/2\
l0
x7
»2\
\fZJ0
y(»)刖…愁)Z严六」)必)
ID3/①2①3XL
兴)严,…,湍)上)Ji,2)铲)
ID①g⑴【⑴x2甲
(3)源)
P2
产)/(N)2)0(N)铲)铲)铲)守
IN)产/(N)2)0(N)—铲野或2)铲)・・••铲
*)
虻P6・・・・
3。连锁模型。这实质上是将混合模型推广,来处理“混合连锁不平衡”,即,在
近来混和的群体中的连锁标识之间出现的有关性。Falush等(a)描述了该模型和更详
细的计算.
基本的模型是,过去的r个世代,有一次混合事件,将K个群体混合了。假如你考虑单
个染色体,它由一系列“块(chunk)”构成,这些“块”是从混合时的祖先那里作
为离散的单位遗传来的。出现混合LD是由于连锁的等位基因常常在相似的块上,因
此来自相似的祖先群体。
块的大小被假设为独立的指数随机变量,具有平为长度1〃(以摩尔根为单位),在实
践中我们估计“重组率”〃所用的数据对应于从目前的块切换到新的块的比率。个
体i里的每个块以概率码①独立地来自群体上其中诙⑷是那个个体的祖先来自群体〃的
比例。
总起来,新模型保留了混合模型的重要要素,不过在单个块上的所有等位基因必须来
自相似的群体。新的MCMC算法结合了也许的块大小和断点.它对于每个体汇报总的
祖先,考虑连锁,并且也能汇报染色体的每一点人的来源的也许性,假如顾客想要的
话。
当使用连锁的位点来研究混合的群体时,这个新模型体现得比原先的混合模型更好.
它得到对祖先向量的更精确的估计,并且能从数据中抽出更多的信息。这对混合作
图应当是有用的.该模型不是用于处理非常紧密连锁的标识之间的背景LD的。
显然,这个模型是大多数混合群体的复杂现实的大大的简化。不过,混合的重要的效
应是在连锁的标识之间建立长远的有关性,因此我们这里的目的是在一种相称简朴
的模型中将那个特性包括进来.
计算比混合模型的要慢一点,尤其对于大的K和不懂得连锁相的数据。不过,它们
对于数千个位点和个体以及多种群体来说还是切实可行的。假如有有关标识的相对
位置的信息(一般是一张遗传图谱),则只能使用该模型.
4.使用先验的群体信息。Structure的默认模式只赞用遗传学的信息来理解群体构造。
不过,常常有可以与聚类有关的附加信息(例如,取样的个体的物理特性或者取样的
地理位置.).目前,Slruclure可以用3种方式使用这种信息:
・LOCPRIOR模型:运用取样位置作为先验信息来辅助聚类--用于构造信号比较弱
的数据集。有某些数据集,其中有真实的群体构造(例如,取样位置之间的明显的吊7),
不过信号太弱,原则的Structure模型不能发现.对于标识很少、个体很少或者#常弱
的Slructure,常常是这样的状况.
在这种情形下,为了提高性能,Hubisz等()发展了新模型,运用地点信息来辅助聚类。
乂寸于这样的数据集,其中构造的信号太弱以致使用原则的Structure模型不能被发现,
新模型常常能提供群体构造和个体祖先的精确的推断.
简言之,LOCPRIOR模型的基本原理如下.一般,Structure假定个体的所有部分都大概
是先验等也许的。由于也许的部分的数目非常巨大,对于Struclure来说,需要信息非
常丰富的数据来断定个体的任何特定的部分被聚类到群具有强的记录支持。相
反,LOCPRIOR模型认为实际匕来自相似的取样位置的个体常常来自相似的群体。
因此,建立LOCPRIOR模型以期望取样的位置也许有关祖先是信息丰富的.假如数
据表明位置是信息丰富的,那么LOCPRIOR模型容许Structure使用这种信息。
Hubisz等0发展了一对LOCPRIOR模型:一种用于没有混合的状况,一种用于有混合
的状况。在两种状况中,内在的模型(以及似然函数)与原则版本相似。关键的差异
是容许structure使用地点信息来协助聚类(即,通过修改先验信息来得到与位置有关
的更偏爱的聚类处理方案)。
LOCPRIOR模型具有合乎需要的特性:(i)当不存在构造时,它们不倾向于发现构造;
(ii)当个体的祖先与取样位置不有关时,他们可以忽视取样的信息;(iii)当群体
构造的信号非常强大时,旧模型和新模型基本上给出相似的答案。因此,我们提议在
大多数数据数量非常有限的情形下使用新模型,尤其是当原则的Structure模型不提
供一种Structure的清晰信号时。不过,由于目前已经积累了原则的Structure模型的诸
多经验,我们提议对于信息非常丰富的数据集将基本模型作为默认(Hubisz等等,).
为了运行LOCPRIOR模型,顾客必须首先为每个个体指定“取样地点”,作为-•种整
数编码。即,我们假定样品是在一组分离的位置搜集的,并且我们不使用有关地点的
仃何空间信息。(我们认识到,在某些研究中,每个个体也许在一种不一样的地点搜
集,因此将个体塞进一套更小的分离的地点也许不是对数据的理想的代表。)“地点”
也可以代表一种体现型、生态型(ecolype)或者民族团体(ethnicgroup)o
地点被键入到输入文献中,要么在PopData列(设置LOCISPOP=1)中,要么作
为一种单独的LocData列(参阅第23节)。为了使用LOCPRIOR模型,你必须首先
指定或者用混合模型用非混合的模型。假如你使用的是图形顾客界面版本,则勾选
“usesamplinglocationsasprio”(用取样位置作为先验信息)框。假如你使用的是命
令行版本,则设置LOCPRIOR=1.(注意,LOCPRIOR与连锁模型不兼容.)
我们迄今的经验是当不存在构造时,LOCPRIOR模型不偏向于检测到假的构造。
你可以把相似的诊断用于与否有真的构造,当你没使用LOCPRIOR时。此外查看,•的
值也许有协助,它确定由位置携带的信息的数量。「的值靠近1,或者(1,表明位置
是信息丰富的。「的更大的值表明或者没有群体构造,或者构造不依赖位置。
USEPOPINFO模型:使用取样位置来对移居者或者杂交种进行检杳--供信息非常
丰富的数据数据集使用。在某些数据集里,顾客也许发现预确定的组(例如取样位置)
几乎恰好与构造聚类相对应,除了少数似乎被错误归类的个体以外.Pritchard等(a)
提出了正式的Bayesian检查,用于评价与否在这个样品内的任何个体是他们认为的
群体的移民,或者具有新近的移民祖先.
注意这个模型假定被预先规定的群体•般是对的的。它采用十分强大的数据来
克服先验的错误分类。在使用USEPOPINFO模型之前,你也应当在没有群体信息的
状况下运行程序,以保证预确定的群体与遗传学的信息粗略一致。
为了使用这模型,把USEPOPINFO设置为1,并且选择MIGRPRIOR的一种值(在
Pritchard^(a)中它是立。你可以在0。001到0。1的范围内为v选择一种值。
每个个体的预确定的群体被设置在输入数据文献中(见PopData)。用这种方式,
在输入文献里被分派到群体人的个体在Structure算法中将被分派到群匕因此,被预先
规定的群体应当是在1和MAXPOPS(K)之间的整数.假如任何个体的PopDala超过这
个范围,它们的夕珞按正常的方式被更新(即没有先验的群体信息,根据将被使用的
模型,假如USEPOPINFO被关上的话。)
USEPOPINFO模型:预先指定某些个体的来源的群体来协助未知来源的个体的祖
先估计。使用USEPOPINFO模型的第二个措施是定义“学习样本"(learningsamples),
它被预定义为来自特定的群。然后用Structure来聚类剩余的个体。注意:在前端里,
这个选项使用“UpdateallelefrequenciesusingonlyindividualswithPOPFLAG=I"选
项被打开,位于“AdvancedTab”标签下。
学习样品是运用数据文献里的PopFlag列实现的。预先规定的群体被用于那些个
体,它们的PopFlag=1(并且它们的PopData在(1<K)中)。对于PopFlag=0的个
体,PopData值被忽视。假如数据文献里没有PopFlag列,那么当USEPOPINFO被启
动时,PopFlag被为所有个体设置为1。具有PopFlag=0的或者PopData不在(K.<»
K)中的个体的祖先,根据混合或者没有混合的模型被更新,象由顾客指定的那样。如上
所述,假如有很少的个体没有预先规定的群体,将a设置成一种明智的值来也许是有
协助的。
USEPOPINFO的应用也许在几种方面有协助。例如,也许有某些个体的来源是
己知的,我们的目的是对未知来源的此外的个体进行归类。例如I,我们也许从一群
已知品种(编号为1..。K)的狗中搜集数据;然后使用Structure为未知的(也许是杂
交种)来源的此外的狗估计祖先。通过预先设置群体数目,我们可以保证Structure聚类
对应于预先确定的品种,这使输出更可解释,并且能改善推论的精确性。(当然,
假如两个预先确定的品种在遗传上是相似的,那么未知来源的狗也许被推断为具有
混合的祖先。
USEPOPINFO的另一种用途是用于这样一种状况:顾客想要只使用个体的一种
子集来更新等位基因频率。一般,Stnicuire分析使用所有可得到的个体来更新等位
基因频率估计值。不过有某些状况,在那里你也许想对于某些个体估计祖先,没有
那些个体会影响等位基因频率的估计。例如你可以有学习样品的一种原则的搜集,
然后周期性地你想要为新的一批基因型化的个体估计祖先。使用默认的选项,个体
的祖先估计(稍微)取决于它们所在的批次。通过使用PFROMPOPFLAGONLY,你
可以保证等位基因频率估计值只依赖于PopFlag=1的那些样品。在不一样的状况下,
Murgia等()想要确定一套无性系的狗瘤的来源。那些瘤如此紧密有关以至于使用的
缺省设置时瘤形成它们自己的一类。通过使用PFROMPOPFLAGONLY,Murgia等
迫使瘤与其他canid聚类分在一组。
意见:我们提议首先运行Structure的基本的版本,以便证明被预先规定的标签确
实确实符合实际的遗传学群体。另一方面,当使用学习样品时,通过设置比0大的
MIGRPRIOR来容许某些错误的分类也许是明智的.
3.2等位基因频率模型
对于等位基因频率有两个基本的模型.一种模型假定每个群体内的等位基因频率是独立
的,从一种分布中抽取,这个分布由参数九指定.那是用于Pritchard等(a)种的原先的模型。
一般我们设置兀=1:这是缺省设置
Falush等(a)实行了一种模型,具有有关的等位基因频率.这个模型标明不一样群体中的
频率很也许是相似的(或许由于迁移或者由于共有的祖先)。更详细的资料如下。
独立.的模型对「诸多数据集体现不错.粗略地说,这最先说我们期望在不一样的群体中
的等位基因频率彼此不一样。有关的频率模型说它们实际上也许十分相似。对于亲缘关系近
的群体,这常常改善聚类,不过也许增长过高估计的K的危险(如下).假如一种群体与其他
群体分歧较大,则当那个群体被除去时,有关的模型有时可以获得更好的推论。
估计Q固定人1对于大多数数据是一种好主意,不过在某些状况下,例如SNP数据.其中
大多多次要的等位基因是稀少的,这时候较小的数值也许工作得更好.对于这个原因,你可
以让程序为你的数据估计I你也许想要这样做一次,或许对于K=1来说,然后将九固定在被估
计的值上,由于在试图同步国际太多的假设参数(九,a,刀时对于非识别性
(non-identifiability)仿佛有某些问题.
有关的等位基因频率模型:如同Falush等(a)描述的那样,有关的频率模型使用一种(多
维的)矢量,PA,它记录假设的“祖先”群体中的等位基因频率。假定在我们的样品中代表
的K个群体每个都已经经历过与这些祖先频率的独立的漂移,速率分别用参数Q,匕,f3…,
心表达.除归因于有点不一样的模型的差异和估计的差异外,被估计的人值应当数量上类似
于FsX直。此外,对于具有许多混合的数据要精确地估计人很难。
PA被假设为具有Dirichlet先验,具有与上面的群体频率使用的相似的形式:
(入1,九2,o..,Aj),(1)
对每个/独立。然后,群体A中的频率的先验为
对每个2和/独立.在这个模型里,尸与遗传学距离外而亲密的关系。按照八7的原则的参数化
措施,每个群体中的期望频率由总的平均频率给出,当等位基因的总频率为〃时,跨越亚群
体的频率的方差为p(l-〃)FST.这里的模型几乎同样,除了我们对模型稍微做了推广以外,
通过容许每个群体以一种不通的速率(入)漂离祖先群体,如同群体具有不一样的大小时也
许被期望的那样.我们也试图估计“祖先频率”,而不是使用平均的频率
我们将独立的先验(prior)放于凡上,与平均数为0。01、原则差为0。05的Y分布成正
比(不过有Pr[&21]=0).Y先验分布的参数可以由顾客修改。某些试验表明,0o01的先
验平均值对应于非常低细分的水平,对于独立频率模型的数据常常导致好的体现。在其他的
问题中(其中群体之间的差异愈加明显),仿佛数据一般压倒了这个人的先验.
3.3程序要运行多长时间?
程序从一种随机的配置启动,从那里采用一系列环节穿过参数空间,每个环节(只)依
赖于前一种环节的参数值.这个程序在运行期间引起不一样的点上的Markov链的状态之间的
有关性。但愿是通过运转模拟足够久,有关性将可以被忽视。
有两个问题要紧张:(I)burnin长度:在搜集数据使启动配置的影响减到最小之前模
拟要运行多久,(2)在burnin以得到精确的参数估计之后模拟要运行多久。
要选择合适的bumin长度,看看由这个程序打印的归纳记录量的值是真的有协助的(例
如(a,E在群体之间的分歧距离。“,以及似然),以便理解它们与否已经收敛。一般1000("
—100000的burnin非常足够了.
要选择合适的运行长度,你需要在每个K上做几次运行,也许长度不一样,看看你与否得
到一致的答案。一般,运用10000—JOOOOO步运行你能得到参数(P和Q)的好的估计,不过
Pr(X]K)的精确的估计也许需要更长时间的运行。实际上,你的运行时间的长度也许决定于
你的计算机速度和耐心。假如你正处理极其大的数据集,并且被运行时间制止,你可以试着
修剪运行的长度和标识/个体的数量,至少为探索的分析。
前端提供了儿种重要参数的时间序列曲线。在burnin阶段结束之前你应当看看这些曲
线,以便理解这些曲线与否看起来到达了平衡。假如在burnin阶段结束时数值仍然在增长或
者减少,你需要增长burnin长度。
假如在整个运行期间(即,不只是在bumin期间)Q的估计值变化非常大,你可以通过
增大ALPHAPROPSD来得至IJ对Pr(XIK)的更精确的估计,这改善了在那种形势下的混合。(见
在第5节的一种有关的问题).
4缺失数据,无效的等位基因和显性标识
当不停改善。和P时,程序忽视缺失的基因型数据。当在一种尤其的位点有漏缺数据的
也许性与个体在那里有什么等位基因无关时,这种措施乃对的的。当具有漏缺数据的个体的
Q的估计不那么精确时,没有尤其的原因制止这样的个体参与分析,除非他们主线几乎没有数
据。
当数据以系统的方式遗漏时,出现一种严重的问题,如同用无效等位基因那样。这些不
适合假设的模型,虽然没有群体构造,也可以导致明显的违反哈迪-温伯格。人们不应当期望
假设的模型对此类破坏是稳健的。不过假如无效的等位基因也许是一种重要的问题的话,则
显性标识模型(下面)可以被使用。
在样本中有多名家庭组员也会破坏模型假定。这有时会导致K的过而估计,尤其对于有
关的频率模型(Falush等,a),不过当K固定期,这对将个体分派给群体的影响很小.
4o1显性标识、无效等位基因和多倍体基因型
对某些类型的遗传学标识(例如AFLP)来说,辨别所有基因型是不也许的.其他类型的
标识也许导致模棱两可的基因型,假如由于附近序列的变化导致PCR产物不能扩增,一部分
等位基由于“无效”。从2.2版开始,我们实现了一种模型,处理与显性标识有关的基因型的模
糊性。
总之,我们假定在任何特定的位点也许有对所行其他等位基因(例如A)为隐性的单个的
等位基因,而所有其他的标识是共显性的。因此A8和将作为“体现型”B出目前未加工
的基因型数据中,AC和CC将被记录为C,而8C将被记录为8C。当有模糊性时,模型在也许
的基因型上求和。所有的细节在Falush等()里给出.
为了执行这些计算,必须告诉算法每个位点上的哪个等位基因(假如有的话)是隐性的.
这通过设置RECESSIVEALLELES=1来进行,并且在输入文献顶上包括一行单L整数,在标识
名称和图谱距离的(可选的)行之间,表明在数据集里的7/个位点的每个上面的隐性等位基因。
假如一种给定的位点上的所有标识是共显性的,那么那个位点上的隐性值必须被调整成
MISSING(缺失的)数据值,相反,假如隐性等位基因从未在纯合状态被观测到,不过你认为它
也许存在(例如也许有无效的等位基因),那么就把隐性值设置成在那个位点没被观测到的
等位基因(而不是MISSING!).
编码基因型数据:假如体现型是不模糊的,那么它被在Structure输入文献里按照它本来
的样子编码.假如它是模糊的,那么它被作为显性等位基因的纯合体编码。例如,体现型A被
编码为被编码为3氏BC被编码为BC,等等。假如标识是其他方面为二倍体的一利个体
中的单倍体(例如男性中的X染色体),那么第2个等位基因被象此前同样编码为MISSING(缺
失)。当A是隐性的时,基因型48、AC等等在输入文献里是不合法的。
当RECESSIVEALLELES被用来处理无效的等位基因时,看起来是无效的纯合体
(homozygotenull)的基因型应当作为隐性等位基因的纯合体而不是作为缺失数据被输入。
在实践中也许不确定与否一种失败的基因型真的归因于纯合的无效等位基因。Smiclure应当
对这些编码为缺失的数据是稳健的,除非无效等位基因在一种位点上的频率很高。
在多倍体(PLOIDY>2)中形势更复杂,由于甚至对共显性标识都也许有基因型的模糊。
在杂合体中精确地识别出基因型常常足困难的。例如在二倍体中,体现型A3也许是AM或
者AB8。假如Structure在RECESSIVEALLELES=O的条件下运行,那么就假定没有模糊。
对于多倍体,当RECESSIVEALLELES=I时,Slructure容许数据包括具有基因型模糊和
不具有基因型模糊的位点。假如某些位点不模糊那么设置代码NOTAMBIGUOUS为一种整
数,这个整数不与数据内的的任何等位基因相匹配,并且不等于MISSING(缺失)。然后在
输入文献顶上的隐性等位基因的行里为不模糊的位点放置NOTAMBIGUOUS代码.假如不是
那样,而是在一种特定的位点上等位基因所有是共显性的,不过有有关每个的数目(例如为
在四倍体里的微卫星)模糊,那么就把隐性等位基因代码设置为MISSING。最终,假如有隐
性等位基因,并且尚有有关每个等位基因的数目的模糊性,则设置隐性等位基因代码来表明
哪个等位基因是隐性的。存在拷贝数模糊性的等位基因的编码与存在显性标识的那些相似.
因此,举例来说,在四倍体中,观测到3个共显性位点8、C和。,这应当被编码为BCDD或者
等效地BBCD或者任何包括3个等位基因中的每一种的其他组合。它不应当被编码为BCD
(MISSING),由于这表明该特定的个体在所指的位点是三倍体。假如在这个位点上存在
一种隐性等位基因A,它也不能被编码为BCDAo
Pr(K)的估计:当RECESSIVEALLELES被用于二倍体时,Markov链的每个环节上的
似然值是通过在也许的基因型上求和来计算的。为了便于编码,当要么PLOIDY>2要么使用
了连锁模型时,我们以目前推算的(impuled)基因型为条件。这减小似然值,并且仿佛大大
地扩大似然值的方差。有限的经验表明在后一种状况下这导致对K的估计效果变差,你应当把
K的这种估计看做是不可靠的。
5K(群体数目)的估计
在描述这个程序的我们的文章里,我们指出这个问题应当被小心看待,由于两个原因:
(1)要获得对Pr(x|/O的精确估计在计算上是困难的,我们的措施仅仅提供一种专门的(ad
hoc)近似;(2)K的生物学解释也许不是简朴的.
在我们的经验里我们发现真正的困难在于第2个问题。我们的用于估计K的程序一般在
具有少许离散的群体的数据集中计算效果很好。不过,诸多现实世界的数据集并不精确地符
合Siruclure模型(例如,由于通过距离或者近交而产生的隔离)。在那些状况里对于什么是K
的对的值也许没有一种自然的答案。
或许由于这种原因,在真实的数据中我们的模型选择原则的值伴随增长的K而继续增长
是不稀有的。那么集中于捕捉数据中的大多数构造的K的值一般是讲得通的,这在生物学上似
乎是合理的。
5o1估计K的环节
l.(命令行版本)在文献extraparams里把COMPUTEPROBS和INFERALPHA设置
为L(前端版本)保证a容许变化。
2.对不一样的MAXPOPS(K)值运行MCMC方案.最终它将输出一行aEstimatedLn
ProbofData"o这是InPr(X]K)的估计。你应当对每个K独立地运行几次,以便证
明不一样运行得到的估计值是一致的。假如与不一样的K获得的估计值的变异性
相比,一种给定的K的不一样运行的变异性是明显的,那么你也许需要使用更长的
运行或者更长的burnin时期。假如lnP「(X]K)看起来是双峰的(bimodal)或者多
峰的(multimodal),则MCMC方案也许找到不一样的答案。你可以对此进行验
证,通过比较在单个K上的不一样运行的Q.1参看Pritchardetal.(a)的数据集2A
(DataSet2A),也见下面有关多峰性(Multimodality)的部分,)。
3.计算K的后验概率.例如,对于论文中的数据集2A(这里K是2),我们得到
KInPr(XIK)
1-4356
2-3983
3—3982
4一3983
5-4(X)6
我们一开始可以假定一种有关长={1,5}的均匀先验分布.然后根据贝叶斯定理,Pr(K=2)
由下式给出:
,3983
;
--------------------------------(3))
,-4356,L-3983i,L-3982-iL-3983i-L-4006°
假如我们将该式简化为下面的公式,计算就会更轻易
~l
——---:---e------:-----=0.21(4)
e-374+,e-1+.e0+.e-I+.e-24
5.2轻微的违反模型也许导致过高估计K
当存在真正的群体构造时,这导致不连锁的位点之间的LD,以及违反哈迪温伯格比例。
粗略地说,这是被Slructure算法使用的信号。不过模型的某些违反也能导致哈迪温伯格或连
锁不平衡.这些包括近交和基因型鉴定错误(例如偶尔的、未被发现的无效的等位基因).虽然
在没有群体构造的状况下,对于K〉I,这些类型的原因也也许导致弱的记录信号.
从2版本开始,我们提出有关的等位基因频率模型(correlatedallelefrequencymodel)应
当被用作默认,由于它在困难的问题上常常实现更好的执行,不过顾客应当意识到,在这样
的设置中也许更轻易过高估计K,与独立的频率模型下相比(Falushetal。(a))。
下一节讨论怎样确定推断的构造与否是真实的。
5.3有关选择K的非正式提醒;构造是真实的吗?
有两个非正式的提醒,也许有助于选择K.第一种是,对于比合适的值(有效零)更小的
K,Pr(K)常常是非常小的,本于更大的K,则有或多或少的高原,如同上面显示的数据集2A的例
子中那样。在这种情形中(其中K的儿种值给出logPr(X|K)的相似的估计下),似乎这些
估计中最小的常常是对的狗.
对于我们通过“或多或少的高原”所示的东西,要提供一种结实的规则有点难。对于小
数据集来说,这也许意味着logPr(X|K)的值在5-10的范围内,不过DanielFalush写道”在非常
大的数据集中,K=3和K=4之间的差异也许是50,不过假如K=3和K=2之间的差异是5000,
那么我将肯定选择K=3"。想要使用改正式的原则(这种原则将这一点纳入了考虑)的读者也
许对Evanno等()的措施感爱好.
我们认为考虑这一点的一种明智的措施是就模型选择而言。即,我们也许不总是能懂得
K的真值,不过我们应当致力于捕捉数据里的重要构造的K的最小的值。
第二提醒是,假如真的有单独的群体,那个,一般有许多有关a的值的信息,一旦Markov
链收敛,a一般将相对恒定(范围常常为0。2或更少).不过,假如没有任何真正的构造,在运
行过程中a一般变化很大。
这一点的一种必然的成果是当没有群体构造时,你将一般将看到分派给每个群体的样本
的比例是大体匀称的(每个群体中1/K),大多数个体将被公平地混和.假如某些个体被强烈地
分派到一群体或者另一种,以及假如分派给每组的比例不对称,那么这是你有真正的群体构
造的强的迹象。
假定你有两个清晰的群体,不过你试图决定与否这些中之一是更深入再分(例如,Pr
(*K=3)的值类似于P(XIK=2),或者也许比P(X|K=2)还大一点)。那么,你能尝试
的一件事情是只使用你怀疑也许被再分的群体内的个体来运行Siructure,看看与否有一种如
上所述的强信号。
总之,你应当对根据小的Pr(2的差异推断的群体构造持怀疑态度,假如(I)对于分派
没有清晰的生物学解释,(2)对所有群体的分派大体匀称,没有个体被强烈地分派。
5o4通过距离数据的隔离
通过距离的隔离指的是这样的想法:个体也许跨越莫些地区呈空间分布,带有当地分散
的.在这种形势下,等位基因频率跨越地区逐渐变化.基础的Structure模型对来自这种状况的
数据不很适合。当这发生时,推断的K的值,以及在每组中的对应的等位基因频率也许相
称任意.取决于取样的计戈人大多数个体也许在多种组中具有混合的组员身份。即,算法将
尝试使用K的不•样组分的加权平均数来对跨越地区的等位基因频率建模。在这样的形势
下,成果的解释也许具有挑战性。
6背景LD和其他miscellania
6,1序列数据,紧密连锁的SNP和单体型数据
Structure模型假定位点在群体内是独立的(即,在群体内不处在LD)。序列数据或者来
自非重组区域的(例如Y染色体或者mtDNA)的数据很也许违反这个假定.
假如你有序列数据或来自多种独立区域的密集的SNP数据,那么尽管数据不完全适合模
型,Structure实际上也许演出得想当好.粗略地说,这将发生,倘若跨越不一样的区域有足够
的独立性,以至于区域内的LD不在数据中占优势.当有足够的独立区域时,区域内的依赖性
(dependence)的重要代价将是Structure在尤其的个体的分派中低估不确定性。
例如,Falush等(b)把Slructure用于来自"〃的”的MLST(多位点序列)数据,以理解〃。
•的群体构造和迁移历史。在那种状况下,在区域内有足够的重组以至于群体构造的信号
超过了背景LD。(有关MLST数据的更多状况,也见第10节)。在人类的应用中,Conrad等
()发现来自36个连锁的区域的3000个SNP生产明智(不过嘈杂)的答案,在一种全世界的样
本中,基本上与基于微卫星的此前的成果一致[见他们的SupplementaryMethodsFigure
SM2]o
然而,假如数据被一种或者少数非重组的或在低重组的区域主导,那么,Structure也许被
严重地误导。例如,假如数据只由Y染色体数据构成,那么估计的构造大概将反应出有美Y染
色体树的某些事情,而非群体构造自身。使用这样的数据的影响很也许是:(1)算法低估祖先
估计中的不确定性的程度、在最坏的状况下,也许是有偏的或者不精确的;(2)K的估计不也许
演出得好。假如你有Y或者mtDNA数据加上许多核标识,一种安全和有效的处理措施是重新
编码来自每个连锁区域的单体型,以至于单体型被描述为•种具有〃等位基因的单个位点。
假如有许多单体型,则可以把有关的单体型归类到一起.
注意连锁模型不一定比(非)混合模型对于处理这些问题更好。连锁模型不是设计来处
理群体内的背景LD的,并且很也许被类似地干扰。
6o2多峰性
Structure算法在参数空间中的一种随机的地方开始,然后朝着参数空间的一种峰收敛。
(在这里的上下文内,峰可以被看作,松弛地讲,具有高的后验概率的一种聚类解.)当不
使用先验的标签时,在K类的编号过程中没有固有的意思,因此有K!个对称的峰,对应于对
类标签的排列。理论上,Sl「ucture可以在这些峰之间切换,不过这一般对真正的数据集不发生
(Pritchardctal.,a).为准备用于出版的图,诺厄•罗森堡(NoahRosenberg)的试验室有一
种有协助的程序,CLUMPP,在对数据绘图之前跨越不一样的运行把类标签排列成行(第10
节)。
除了这些对称的峰之外,某些数据集也许尚有此外的非对称的峰.Structure的目前的实行
一般不在实际长度的运行过程中在这些之间穿过。这表明不一样的运行也许产生明显不一样
的答案,并且更长时间的运行或许将不能修正这一点.
这重要是对于非常更杂的数据集的一种问题,具有大的K值,例如K〉5或者K>10(不
过见Pritchard等(a)中的数据集2A的例子)。你可以检查Q的成果,以理解这与否发生了。
Rosenberg等()提出了此类,,青形的仔细的分析,对一种数据集,其中估计的K大概是19。
6O3当大多数个体被混合时,估计混合比例
假如亲本的群体的代表非常少,估计混合比例也许尤其具有挑战性.在Pritchard等(b)
中对于模拟数据有一种这样的例子。数据假定是来自大多数个体有某种程度的欧洲祖先的美
国黑人群体的一种样本。对那些数据来说,估计的祖先比例与真实(模拟)值高度有关,不
过祖先的实际比例是有偏的。那个例子也是我们用真正的数据的更新近的经历的代表。
这发生由于在缺乏任何程度非掺和的个体的状况下,也许有某些不可识别性
(nonidentifiability),在那里有也许把等位基因频率推得更开,把混合比例挤压到一起(反
过来也是这样),获得儿乎同样的模型拟合.当有强烈非对称的混合时,使用POPALPHAS
1(每个群体单独的a)能协助一点,不过不处理基本的问题。因此,在这些情形下的混合性的
估计应当被谨慎看待.
7从命令行运行Structure
有许多由顾客设置的程序参数。这些在两个文献中(mainparams和exiraparams),每当
程序执行的时候,这些文献被读取。mainparams指定数据文献的输入形式和最基本的运行参
数。extraparams指定多种程序选项。你需要设置mainparams里的所有值,而以extraparams里
的默认值开始运行或许没有问题。注意默认模型假定混合,并且不使用顾客定义的P
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年高二生物下学期期中考试试卷及答案(七)
- 兄弟分家协议
- 2026年口腔颌面外科门诊手术室阻生齿拔除术的护理要点课件
- 未来旅游业蓝图解析-探索旅游业的技术演变与趋势
- 电力设备与新能源行业中东冲突系列报告:新能源平价提前转型即安全
- 体育旅游:商机与挑战-挖掘体育赛事带来的旅游潜力
- 汽车零部件的新时代-智能化与电气化的市场机遇
- 中职机电专业机械制图课程教学的创新
- 谈工商行政管理部门对电子商务的监管
- 梦想与现实的桥梁小学主题班会课件
- Unit 4 Eat Well Section A 1a-1d 课件(内嵌音视频) 2025-2026学年人教版七年级英语下册
- 小学六年级英语下册“四大核心时态”结构化复习教案
- 2026江苏南京紫金投资集团有限责任公司社会化招聘笔试历年参考题库附带答案详解
- 2024年四川省内江市中考英语试题(含答案)
- 2023年港澳台联考历史真题及答案
- 2024金融数据安全数据安全评估规范
- 护工术语和专业知识培训
- 耙斗装岩机操作规程培训
- 2023年湖南永州市中医医院招聘56人历年高频难易度、易错点模拟试题(共500题)附带答案详解
- 2×300MW火电厂电气一次部分设计
- 内科学教学课件:胃炎
评论
0/150
提交评论