群体遗传学——人群结构推断软件Structure2.2使用指南.doc

上传人：扣*** IP属地：宁夏上传时间：2019-12-18 格式：DOC 页数：7 大小：73.50KB 积分：10.8 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

群体遗传学人群结构推断软件structure 2.2使用指南/structure.htmlthe basic algorithm was described by pritchard, stephens & donnelly (2000). extensions to the method were published by falush, stephens and pritchard (2003) and (2007) and by hubisz, falush, stephens and pritchard (2009).1、待分析数据文件的编辑可新建文本文件并命名为project_data，以文本编辑的方式编辑数列：第一列：样品代码（成功录入后被识别为individual id），每一样品占两行，每一行为其一个基因型，如样品1的基因型为aa，样品2的基因型为at，样品3的基因型为tt，则编辑为：（两行数字不一样则表示杂合数据）第一列第二列第三列1 1 111 121 121 232 232 2如果有多个等位基因，可以按1，2，3，4，5等顺序编码各样品的基因型；第二列：人群代码（成功录入后被识别为popid），即第一群人的代码全为1，第二群人的代码全为2，第三群人的代码全为3；（最好说是群体类群编码，可以是不同来源地代号，或是生态类群代码）（这列最好不要有，后续选项中一旦选中最后算出的k值很有可能就是群体类群数（popid的数量）第三列：位点1的分型结果。如上所述，如果有2个等位基因，可用1、2代表；如果有多个等位基因，可分别以1，2，3，4，5等代表；第四列：位点2的分型结果。编码方法同上。 2、打开structure软件，选择file-open data file-选中所编辑好的打他data文件，查看格式、数据，如有修改应保存退出；3、选择file-new project-step 1-命名project name-选择存放路径-选择保存过的待分析文件；4、step 2-填入待分析样品数量，如220-ploidy of data即选择单倍体或二倍体，选2-number of loci，选位点个数-mimissing data value，一般选-9；5、step 3-依次选择row of marker names, row of recessive alleles, map distance between loci, phase information等，没有就不选；最下面，如果没有data file stores data for individuals in a single line就不选；6、step 4-individual id for each individual(选择) ，putative population origin for each individual（选择），usepopinfo selection flag(不选)，phenotype information（不选），other extra column（不选）以及number of extra column（不选）；（其实应根据你数据的实际情况选或不选）7、点击“finish”；proceed；8、点击parameter set-new-length of burnin peroid (填写10000)-number of mcmc reps after burnin (填写10000);（不作数迭代（burnin peroid ）最好设为10000，而后续的mcmc最好设为100000）9、ancestry models，allele frequency model，advanced等均选default setting; enter the name: 输入名字，运行完毕将产生一个由该名字命名的文件夹以保存运算结果和绘图。（都default是不科学的，no admixture model假设个体基因源来源纯粹. is appropriate for studying fully discrete populations and is often more powerful than the admixture model at detecting subtle structure.而admixture model.假设个体基因源来源非纯粹：individuals may have mixed ancestry. 应该根据你材料具体情况来选择模型）10、点击“start a job”，单击选中命名的文件夹名称，设置k从2到7等，其它不选，点击start。（群体较大比如超过200个体，起码算到20，这里number of iterations 最好选3以上，在计算k时可能用到）11、点击“plotting”，选择刚才命名job的名字，result file选择run_1, run_2等，即可看到聚类的三角图形。（三角图是花架子，论文里常用的是bar plot 才是关键）（此后为我续写内容）13.单击主菜单“view”选项下的simulation summary，会出现所有运行结果的重要参数汇总，其中最重要的是看lnpr(x|k)值的变化是否有拐点，即后验概率的极大值在k等于几时出现，特别注意k值持续增大是常有的事，这时就要用用k 来确定k值，如下图：k虽然持续增大，但k可判断出k应该为2.14.在确定k为几后，点击相应result file选择run_？（k=？）选项，把含有以下内容的文本拷贝到excel中编辑inferred ancestry of individuals: label (%miss) pop: inferred clusters 1 7 (0) 1 : 0.996 0.001 0.001 2 10 (0) 1 : 0.635 0.001 0.003 3 26 (2) 1 : 0.991 0.001 0.001 4 28 (6) 1 : 0.991 0.006 0.001 5 65 (2) 2 : 0.991 0.004 0.00115：整理为以下标准格式后就可以放到tassel软件中计算用了标准格式：8632q1q2q37 0.0140.9720.01410 0.0030.9930.004260.0710.9170.01228 0.0350.8540.111290.0130.9820.00530 0.7620.0170.22116、注意：运行完毕后产生的以“job名字”命名的文件夹中自动含有project_data文件，其内容与最初编辑的project_data文件完全一致，故原编辑的project_data文件可以删去。柱形图绘制软件distruct使用指南当structure软件运行完毕获得结果后，往往需要以clumpp或distruct软件绘制柱形图。distruct用法如下：1、从/distruct.html下载并解压缩distruct 1.1压缩包，可以看到含7个以casia为名的文件及5个名字字首为distruct的文件，还有一个drawparams的文件和一个颜色文件夹；2、运行casia.postscript文件，应该能产生一个含9个群体柱形图的casia.pdf文件，这表明系统及软件正常；3、打开casia.popq和casia.indivq将其原内容清空并置换为前述structure软件运行后所产生的_run_1_f文件的内容（拷贝并粘贴），其中_run_1_f文件同时含有individual和population两者的数据。以word打开casia.indivq文件，将_run_1_f文件后半部分的内容自“inferred ancestry of individuals”行以下的数据拷贝并粘贴到casia.indivq文件中，全部替换原来的210行数据；以excel打开casia.popq文件，将_run_1_f文件前半部分含有“proportion of membership of each pre-defined population in each of the 3 clusters”的行下面的数据拷贝并粘贴到casia.popq中，并替换原来的内容（k=3是可变的！）。新产生的内容注意仍然保持原来210行数据的那种格式。4、打开casia.languages文件，将原内容“50 indo-european51 dravidian57 indo-european59 indo-european58 indo-european52 linguistic isolate54 indo-european629 altaic699 altaic56 indo-european”替换为现内容“1 ceu2 chb3 yri”；保存为原格式；5、打开s文件，将原内容50 balochi51 brahui57 makrani59 sindhi58 pathan52 burusho54 hazara629 uygur699 yakut56 kalash替换为现内容1 ceu2 chb3 yri保存为原格式；6、打开casia.perm文件，将原内容5 yellow4 pink1 red2 green3 blue_purple中的4、5颜色删去，并保存为原格式；7、以文本格式打开drawparams文件，将drawparams文件中的#define k5 / (int) number of clusters#define numpops 9 / (int) number of pre-defined populations#define numinds 210 / (int) number of indivi

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

群体遗传学——人群结构推断软件Structure2.2使用指南.doc

文档简介

温馨提示

最新文档

评论

群体遗传学——人群结构推断软件Structure2.2使用指南.doc

文档简介

温馨提示

最新文档

评论

相关文档