版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基因流计算文档说明一 基因流大小估算群体结构模式是海岛结构模式,基因流在群体间是随机的、均一的而且群体也要达到漂变-迁移平衡,迁移个体来自所有其他群体中随机的一个遗传变异群体。该模型的基本思想是假设个群体分化为无限多个亚群体,亚群体在空间呈离散分布,每个亚群体接受一小部分来自整个群体的迁移个体。迁移率与迁移基因频率在任一世代内假设为常数。岛屿模型中的Nm为每代迁入的有效个体数,即基因流的估计值。其计算公式为:Nm=1-Fst4FstWright, S. The genetical structure of populations. Ann Eugen, 1951. 15(4): p. 323-
2、54.二 长期基因流流向计算采用MIGRATE-N软件中Bayesian inference的策略估算群体间基因流流向,对于群体A和群体B之间基因流流向来说,存在四种可能的模型:1)基因流在A和B之间双向流动;2)基因流从A流向B;3)基因流从B流向A;4)两者为同一群体。该软件通过分别计算前三种模型的marginal likelihood值,再转换为Bayes Factors进行比较来确定各模型的可能性。(1) 软件运行命令parmfile为参数文件,具体设置详见(3)。(2) 输入文件格式MIGRATE-N软件支持多种输入格式,但此类软件运行时间均非常漫长,在利用检测到的全基因组SNP作基
3、因流流向估计时,为减少运行时间,我们通常把所有位点SNP连成DNA序列来进行运算,在此我们仅介绍DNA序列模式的输入文件格式:第一行:分为4列数据信息,第一列留空,第二列为群体数目,第三列为位点数目,第四列为数据注释;第二行:列数与位点数目等同,每列为该位点所含碱基数;第三行:群体1信息,列出群体内个体数及群体名字;第四行起:每个位点该群体内个体信息。 (3) 运行参数主要为parmfile参数文件的设置,该设置可以在命令行中修改,也可以直接采用文本编辑器直接编辑。 设置输入输出文件路径上图中1和7分别为输入输出路径设置选项,也可在parmfile文件中直接对infile和outfile行进行
4、更改。 选择需要分析的模型:图中选项8即为模型选择项,三种不同模型选择如下图示意,*表示计算,0表示忽略,因此选项值*表示模型一;*0*表示模型二,*0*表示模型三,而*00*则不进行任何计算,该选项也可在parmfile文件中直接对custom-migration行进行更改。 运行参数选择主要设置选项:10,更改迭代次数,默认5000,次数越大越好,但运行时间也相应增加,建议最少10,000次以上;12,重复计算,默认关闭,建议设置3-5次为佳;13,heating选项,默认关闭,建议打开,直接采用其打开后的heating的参数。以上参数也可在parmfile文件long-sample、re
5、plicate及heating行中修改,如:long-sample=100000,replicate=YES:3,heating=YES:0:1.000000,1.500000,3.000000,1000000.000000。注意:在命令行窗口中,所有参数设置完成后,必须输入W生成parmfile文件才会保存所有参数,在parmfile文件中修改则直接保存即可。(4) 结果输出每个模型分别计算后,均可输出pdf结果文件,也可直接用文本编辑器打开同名文件提取结果,主要为Thermodynamic integration值和Harmonic mean值,Thermodynamic integrat
6、ion值有两个,分为1a和1b,简单来说1a, 1b(Thermodynamic integration)就是采用heating参数后的结果,而2(Harmonic mean)是没有采用heating参数的结果;1a, 1b之间的区别是作者认为1b采用了贝赛尔曲线从而获得了更好地结果。要统计各个模型的可能性,要转换为Bayes Factors进行比较,我们现在结果中的数值是marginal likelihood值,BF = Explog(P(D|thisModel) - log(P(D|otherModel)。举例来说,我有一组1b的结果三个模型的marginal likelihood值分别为
7、-3,-2,-1,那么我们先取常数e-3,e-2和e-1的值,然后这三个值相加每个值与和的比值就是每个模型的可能性。通常来说,因为我们输入的SNP序列会较长,计算得到的值负数太小,要是取e的负几十万次方根本无法计算,所以不好算这个P值,但是可以简单的知道互相之间的可能性大小,值越大,概率越大,即e-1> e-2> e-3。(5) 结果解释因为我们采用的算法是基于coalescent model,这个模型得到的结果,跟平时的解释是相反的,因为coalescent model在时间上是从现在到过去,而正常情况下,我们解释都从过去到现在,也就是说,从现在到过去,是有popB流向popA,
8、那么从过去到现在就是从popA流向popB。Beerli, P. and M. Palczewski. Unified framework to evaluate panmixia and migration direction among multiple sampling locations. Genetics, 2010. 185(1): p. 313-26.三 近期基因流计算BayesAss软件被用来计算近期基因流,主要流程参数如下:(1) 软件运行命令50000000 -b 5000000 -n 500 -o result/NDSD_nonFD.1.out examples/NDSD
9、_nonFD.haplotype.1 -a 0.55 -m 0.15 -f 0.06(2) 输入文件格式第一列为个体名称,第二列为群体名称,第三列为位点名称,第四第五列为双倍体基因组基因型。(3) 软件参数选择以下参数供参数:-v 屏幕输出详细计算过程;-s 随机种子初始数,可为任意整数,在重复运算时,可设置不同的种子数来验证结果;-i 迭代次数,设置越大越好,但同样会延长计算时间;-b burning数,丢弃开始部分的迭代计算结果;-n 选择迭代结果,每隔n个选择一个用于后续参数计算;-o 输出结果路径-a,-m,-f 混合模型参数,分别表示等位基因频率、近交系数和基因流频率,数值为0到1之间,此三个参数依照不同数据集需特异调整,如:上图为运算过程中间结果输出,%accepted后括号中第1、3、4列数值即由此三个参数分别控制,建议这三列数值为之间为佳。(4) 结果输出结果输出文件可用文本编辑器打开,示例如下:Migration Rates下面mij即为每一代群体i从群体j中迁移过来的个体比率。Rannala B, Yan
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 榆林能源科技职业学院《现代交换技术B》2024-2025学年第二学期期末试卷
- 青海柴达木职业技术学院《有机及物化实验》2024-2025学年第二学期期末试卷
- 消防安全夜查情况通报
- 灭火和疏散预案演练制度
- 西安石油大学《细胞与组织工程》2024-2025学年第二学期期末试卷
- 医院后勤合作委外单位管理制度
- 徐州工程学院《行政管理案例分析》2024-2025学年第二学期期末试卷
- 2026浙江宁波市鄞州区首南街道编外人员招聘2人笔试备考题库及答案解析
- 2026国新国际投资有限公司招聘(第一号)笔试模拟试题及答案解析
- 2026年郑州市两级法院招聘聘用制书记员公开有关情况笔试参考题库及答案解析
- 2026年远程医疗监控系统实施方案
- 《勤俭传家好》-2025-2026学年统编版(新教材)小学道德与法治二年级下册
- XX中学2026学年春季学期教学质量提升专项计划(教学处)
- 2026年春西大版(新教材)小学音乐一年级下册教学计划及进度表
- 2026年青岛农业大学海都学院高职单招职业适应性考试备考试题带答案解析
- 企业防火防爆安全培训课件
- 压水堆核电厂常规岛调试启动验收导则编制说明
- 2026年警察岗位笔试题及法律法规参考答案
- 2024年鄂尔多斯职业学院单招综合素质考试模拟测试卷附答案解析
- 2026年永州职业技术学院单招职业技能测试题库必考题
- 2025-2026学年高二化学上学期第一次月考卷一(人教版)含答案解析
评论
0/150
提交评论