slaf-遗传进化结题报告模板有参无参_第1页
slaf-遗传进化结题报告模板有参无参_第2页
slaf-遗传进化结题报告模板有参无参_第3页
slaf-遗传进化结题报告模板有参无参_第4页
slaf-遗传进化结题报告模板有参无参_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SLAF-遗传进化结题模板客户: 百迈客生物科技联系人: : 传真: 日期:2018 年 X 月 X 日目录1项目概况11.1项目研究背景11.2项目重要名词及术语11.3材料基本信息21.4合同关键指标情况21.5项目执行情况21.6分析结果概述22项目流程42.1酶切方案设计42.1.1 参考组确定42.1.2 酶切方案确定42.2实验流程52.3信息分析流程62.4SLAF开发方法概述73生物信息学分析方法和结果83.1酶切方案评估83.1.1 酶切方案83.1.2 酶切均匀性评估83.2数据统计与评估113.2.1质量值分布检查113.2.2 碱基分布检查123.2.3数据产出和质量统

2、计123.3实验建库评估143.3.1 比对效率统计143.3.2 酶切效率评估统计143.3.3 片段选择评估153.4SLAF 标记开发163.4.1 SLAF统计163.4.2 SLAF 多态性分析163.4.3 SLAF在上的分布173.4.4 SNP 信息统计183.5系统发育分析193.6群体结构分析203.6.1 遗传结构分析203.6.2 PCA 分析223.7群体选择分析233.7.1 连锁不平衡分析233.7.2 选择清除分析233.7.3功能注释264信息26项目5数据 285.1用户登录及数据 285.2结果文件查看说明285.3SVG 文件格式的查看28附件 1 多态

3、性SLAF后续检验方法30附件 2 分子标记辅助选择(MAS)331项目概况1.1项目研究背景进化遗传学是(evolutional genetics)研究群体的遗传结构及其变化规律的遗传学分支学科。它应用数学和统计学方法研究群体中频率和型频率以及影响这些频率的选择效应和突变作用,还研究迁移和遗传漂变等与遗传结构的关系,由此来探讨进化的机制。本项目利用 (Specific-Locus百迈客生物科技 lified Fragment Sequencing)1技术对研发的 SLAF-seq进行分子标记开发,获得全组范围内的SNP 标记。并通过SNP 标记进行群体遗传学研究和全组关联分析。1.2项目重要

4、名词及术语英文名词中文名词产生的reads,SLAF 采用的是双端的是双端reads,因此产生Pair-end Reads双端序列经过SLAF-seq 建库产生的特定酶切片段,一个酶切片段就是一个SLAFSLAFSLAF群体中存在多态性的SLAF,其中主要存在的变异类型是SNP 和InDelPolymorphic SLAF多态性SLAF位于重复序列区的SLAF,在数据上的表现是 SLAFRepetitive SLAF重复序列区的SLAF的深度远高于平均水平SNP单核苷酸多态性DNA 序列上出现的单碱基变异InDel/缺失变异DNA 序列上和/或缺失类的结构变异linkage disequili

5、brium(LD)在某一群体中,不同座位上某两个同时遗传的频率连锁不平衡明显高于预期的随机频率的现象,称连锁不平衡群体中,型频率第二高的型所在的频率,一般Minor allele frequency(MAF)次要型频率MAF0.05 的SNP 在群体分析中被认为是有代表性的SNP表示物种可能的分组情况,一个物种可以分为几个群,潜在的表明物种是有几个祖先来源。Population Structure群体结构XX 群体Fst群体分化指数表示群体间分化的程度1.3材料基本信息(1)研究物种:(拉丁名)(2)样品数量:1.4合同关键指标情况本项目的合同指标完成情况如表 1 所示:表 1 项目合同指标完

6、成情况汇总表指标合同要求实际项目情况SLAF总数XXSLAF 深度XXXX个SLAF,SLAF本项目共开发的平均深度为,完成合同要求。1.5项目执行情况(1)样品检测合格时间为 2018 年 X 月 X 日。(2)样品信息到位时间为 2018 年 X 月 X 日。(3)项目启动时间为 2018 年 X 月X 日。(4)项目分析完成时间为 2018 年 X 月 X 日。1.6分析结果概述(拉丁名)选择组序列为参考组序列进行电子酶切,最的序列定义为 SLAF终确定使用酶切,酶切片段长度在,到个SLAF。%,实际获得的 SLAF酶的酶切效率为长度范围为-bp,共得到Mreads。个 SLAF,其中多

7、态性的 SLAF通过生物信息学分析,获得实验中-XX个 SNP。对 XX 个性状进行全共有个,包含组关联分析,共获得个性状的关联区域,其中找到了个关联。XX2项目流程2.1酶切方案设计2.1.1 参考组确定根据的组大小以及 GC 含量等信息,最终选取组作为参考组进行酶切。具体信息如下所示:1.物种信息:(拉丁名),实际组大小为,GC 含量为;2.参考物种组具体信息如下表格所示,地址:n。表 2 参考组具体信息物种组大小N50GC 含量重复序列比例版本号2.1.2 酶切方案确定利用研发的酶切对参考组进行酶切,选择最适酶切方案,选择原则如下:1.位于重复序列的酶切片段比例尽可能低;2.酶切片段在组

8、上尽量均匀分布;酶切片段长度与具体实验体系的吻合程度3;3.4.最终获得酶切片段(SLAF)数满足预期数。XX%XXG2.2实验流程根据选定的最适酶切方案,对检测合格的各样品组 DNA 分别进行酶切。)进行 3端加 A 处理、连接 Dual-index4对得到的酶切片段(SLAF接头、PCR 扩增、纯化、混样、切胶选取目的片段,文库质检合格后用 Illumina序。 为评 估酶 切实 验的 准确 性 , 选用 拟南 芥 5 ( Arabidopsis进lianaecotypeColumbia)作为对照(Control)进序。实验流程见图 1:图 1 SLAF 实验流程2.3信息分析流程利用 D

9、ual-index 对得到的原始数据进行识别,得到各个样品的 reads。过滤reads 的接头后,进序质量和数据量的评估。通过 Control 数据评估的酶切效率,以此判断实验过程的准确性和有效性。根据生物信息学分析,在群体中开发全组范围的 SNP 标记,利用群体内具有代表性的高质量SNP 进行群体多态性分析,包括进化树的构建,群体结构分析,PCA分析,连锁不平衡分析和全组关联分析。具体生物信息分析流程见图 2:图 2 生物信息分析流程2.4SLAF开发方法概述本项目产生的reads 来源于同一限制性内切酶对不同样品作用产生的长度相同的酶切片段,根据序列相似性将各样品的 reads 进行聚类

10、,聚类到一起的reads 来源于一个SLAF 片段(SLAF)。同一 SLAF在不同样品间的序列相似度远高于不同SLAF间的相似度;一个 SLAF在不同样品间序列有差异(即有多态性),即可定义为多态性 SLAF和Indel6。序列多态性主要包括 SNP多态性SLAF开发流程图见图 3:图 3 SLAF开发流程图3生物信息学分析方法和结果3.1酶切方案评估3.1.1 酶切方案对的参考组序列进行电子酶切,根据酶切方案选择原则(见2.1.2),确定限制性内切酶为-bp 的序列定义为,酶切片段长度在SLAF个SLAF,具体信息见表 3。,到表 3 酶切确定的酶切方案信息统计InsertSLAFRepe

11、titive SLAFEnzymeSizeNumberpercentage(%)HaeIII注:Enzyme:酶切确定的限制性内切酶;Insert Size:酶切确定的酶切片段长度范围;SLAFNumber:酶切确定的酶切方案在参考物种组中可以得到的SLAF数;Repetitive SLAF percentage:位于重复序列的SLAF比例。3.1.2 酶切均匀性评估统计 SLAF上的数量(见表 4),绘制 SLAF在各在上的分布图(见图 4),评价 SLAF表 4 SLAF在组中分布的均匀性。上的数量统计在各Chromosome IDChromosome lengthExpected SLA

12、F numberAverage SLAF distanceGm01Gm02Gm03Gm04Gm05Gm06Gm07Total注:Chromosome ID:;Expected SLAF number:在相应上SLAF数;Chromosome length:长度;Average SLAF distance:平均SLAF 间距。图 4 SLAF在参考组各上的分布注:横坐标为window 内的SLAF长度,每一个黄色条带代表一条数越多,颜色越深,SLAF,按照 1M 的大小对组进行了划分,每个数越少,颜色越浅;图中颜色越深的区域即SLAF集中分布的区域。由表 3 和图 4 可知,SLAF案可行。在组

13、各上分布基本均匀,酶切方酶进行酶切,SLAF总结:本项目通过大豆组进行方案,选择-bp,个 SLAF,SLAF长度选择在到在组上基本分布均匀,位于重复序列区的 SLAF%。比例为3.2数据统计与评估为保证项目分析质量,本项目采用读长 PE析数据。作为后续的数据评估和分3.2.1质量值分布检查质量值(Q)是评估高通量单碱基错误率的重要指标,质量值越高对应的碱基错误率越低。碱基错误率 e 和质量值 Q 的对应公式:Q = log10 e,如果某碱基应该为 30。本项目所有数据出错的概率为 0.001,则该碱基的质量值质量值分布见图 5:Q图 5质量值分布图注:横坐标为reads 的碱基位置,纵坐标

14、为单碱基的质量值。前 80bp 为双端序列的第一端reads所有reads 的每个碱基,同一的质量值分布,后 80bp 为另一端reads 的质量值分布。每个bp 代表位置的各个质量颜色越深表示在数据中这个质量值得比例越高。如第一个bp 即表示该项目所有reads的第一个碱基在时的质量值分布。150bp3.2.2 碱基分布检查SLAF-seqreads 为组 DNA 的酶切片段,其碱基分布会受到酶切位reads 的前 2 个碱基会呈现与酶切位点一致的碱基分点和PCR 扩增的影响离,后续碱基分布会呈现不同程度的波动。本项目碱基分布情况见图 6:图 6 碱基含量分布图注:横坐标为 reads 的碱

15、基位置,纵坐标为碱基所占的比例;不同颜色代表不同的碱基类型,绿色代表碱基A,蓝色代表碱基T,红色代表碱基C,橙色代表碱基G,灰色代表中识别不出的碱基N。前 80bp 为双端序列的第一端Reads 的碱基分布,后 80bp 为另一端reads 的碱基分布。每个 bp 代表的分布情况。的每个碱基,如第一bp 即表示该项目所有reads 在第一个碱基的3.2.3数据产出和质量统计对各样品的数据进行统计,包括 reads 数量、Q30 和 GC 含量,前 5 个样本的具体结果见表 5,其余样本的结果统计见FTP:表 5 前 50 个样品数据统计表SleBMKIDTotalReadsQ30Percent

16、age(%)GCPercentage(%)ID1aa2ab3ac4ad5aeArabControl2,777,06980.4146.82注:Sle ID:项目样品;BMK ID:百迈客对项目样品的;Total Reads:各样品的reads 数;Q30 percentage:质量值大于或等于 30 的碱基所占百分比;GC percentage:结果中G 和C 两种碱基所占总碱基的百分比;Control:用于评估实验建库的拟南芥数据。Mreads(Gbp)数据,数据总结:本项目共获得平均Q30 为%,平均 GC 含量为%。用于评估实验建库的准确性的拟南芥ControlMreads(Gbp)的数据

17、量。获得3.3实验建库评估通过对 Control(拟南芥)数据的评估实验过程是否正常,确定酶切方案实施的有效性。本项目中 Control 所用拟南芥为 Arabidopsisliana(ecotypeColumbia) ,组 大 小 为119.48M ,地址 :。3.3.1 比对效率统计通过SOAP11将Control 的reads 与参考组进行比对,比对结果见表 6。结果显示本次实验双端比对效率在%。表 6 Controlreads 比对结果统计表Paired-endSingle-endSleUnmap readsmapped readsmapped readsControl注:Paired

18、-end mapped reads:一条序列两端在参考例;组上的比对跨度介于 50bp1kb 的reads 占总 reads 的比Single-end mapped reads:一条序列两端在参考的比例;组上的比对跨度小于 50bp,或大于 1kb 的reads 占总 readsUnmap reads:未比对到组上的reads 占总reads 的比例;Single-end mapped reads 和Unmap reads 来源:由于接头过滤不全,reads 中碱基错配,异常的等类似情况导致的比对结果。片段大小3.3.2 酶切效率评估统计酶切效率是评价简化组实验是否成功的一个关键指标组上的复杂

19、结构区域(如环状结构域、连续酶切位点等)、组 DNA 样品纯度较低、酶切时间等通过统计越好6。都可能影响限制性内切酶的活性,导致部分酶切位点未被切开。reads片段中残留酶切位点的比例,统计比例越高,酶切效率Control 数据的酶切效率统计结果见表 7:表 72 Control 数据酶切效率评估统计表Digestion NormallyDigestion PartlyTotalNumberPercentage(%)注:Digestion Normally:reads 中不存在完整的限制性内切酶识别序列;Digestion Partly:reads 中存在完整的限制性内切酶识别序列;Total

20、:reads 总数。从表 6 中可知,本项目 Control 数据的酶切效率为%,表明酶切反应正常。3.3.3 片段选择评估根据Controlpair-end mapped reads 在组中的位置计算SLAF的实际长度,绘制 Control reads片段的长度分布图,并估测实际片段选择范围。实际片段选择范围评估方法:以所有reads 的片段大小的平均值为片段范围的中心,以中心值向两侧以 1bp 为同步延伸,累计 reads 数达到所有reads的 85%时的范围即为实际的SLAF片段范围。Controlreads片段分布见图 7:图 7 Control reads片段分布图注:横坐标表示片

21、段长度,纵坐标表示相应长度的 reads 数。两条红线之间的区间范围为 SLAF 方案的片段范围。如图 7 所示,reads 占所有reads 的%。切胶范围内实验建库评估总结:Control%,酶切效率为数据的双端比对效率为%。3.4SLAF 标记开发3.4.1 SLAF统计个SLAF,前 5本项目共开发,每个样品的平均深度为个样本的信息统计见表 8,其余样本的具体统计见FTP:表 8 SLAF统计SleIDBMK IDSLAF numberTotal depverage depth1aa2ab3ac4ad5ae注:Sle ID:项目样品;BMK ID:百迈客对项目样品的;SLAF numb

22、er:对应样品所含有的SLAF数;Total depth:对应样品的在SLAF中的总深度,即总reads 数;Average depth:平均每个SLAF 上对应样品的reads 数。3.4.2 SLAF 多态性分析个SLAF针对所有样品共开发得到的,根据等位数和序列之间的差异进行多态性分析,共得到 3 种类型的SLAF:Polymorphic 型,No Polymorphic 型,Repetitive 型。各类型SLAF结果统计见表 9:表 9 SLAF类型统计XXPolymorphicNo PolymorphicRepetitiveTotalTypeSLAFSLAFSLAFSLAFNumb

23、erPercentage注:Polymorphic SLAF:表示在一个SLAF中找到多态性位点,多态性位点主要包括SNP 和Indel;No Polymorphic SLAF:表示在SLAF中没有找到多态性位点;Repetitive SLAF:指位于重复序列区的SLAF;Total SLAF:所有的SLAF。从表 8 可以看出,在开发得到的个 SLAF中,多态性 SLAF共有个,多态性比例达到。分析其中多态性 SLAF个 SNP 标记,个 InDel 标,共获得记。通过SOAP10将SLAF定位到参考组上,统计不同上的SLAF和多态性SLAF表 10 SLAF,详细数据见表 10:和多态性

24、SLAF分布统计Chromosome IDSLAF Numbolymorphic SLAFGm01Gm02Gm03Gm04Gm05Total注:Chromosome ID:;SLAF Number:位于相应上的SLAF数;XX%3.4.3 SLAF在上的分布(此步为有参组才能做)PolymorphicSLAF:位于相应上的多态性SLAF数。根据SLAF 在上的分布,绘制 SLAF和多态性SLAF的染色体分布图,如图 8 所示:图 8 SLAF和多态性 SLAF 在上的分布,按照 1M 的大小对注:横坐标为window 内的SLAF长度,每一个黄色条带代表一条数越多,颜色越深,SLAF组进行了划

25、分,每个数越少,颜色越浅;图中颜色越深的区域即SLAF集中分布的区域。左图为SLAF的分布图,右图为多态性SLAF的分布图。3.4.4 SNP 信息统计个SLAF 标记统计SNP 信息,根据 MAF0.05 和完整根据开发得到的度0.8 进行筛选,共得到个群体的 SNP。前 5 个样本的 SNP 信息统计见表 11,其余样本的 SNP 信息见FTP:表 3 前 5 个样品 SNP 信息统计Sle IDTotal SNPSNP numegrityHeter ratioaaabacadaeTotal注:Sle ID:样品;Total SNP:检测到的SNP 总数;SNP num:对应样品中检测到的

26、SNP 个数;egrity:样品中检测到的SNP 完整度;Heter ratio:样品中SNP 的杂合率。根据SNP 在上的分布,绘制 SNP 在上的分布图,如图 9 所示。图 9 SNP 在上的分布注:横坐标为长度,每一个黄色条带代表一条,按照 1M 的大小对组进行了划分,每个window 内的SNP 标记数越多,颜色越深,SNP 标记数越少,颜色越浅;图中颜色越深的区域即SNP 标记集中分布的区域。多态性 SLAF开发总结:本项目共获得个 SLAF,样品平均个 SNP。深度为,多态性 SLAF有个,共获得3.5系统发育分析系统发育树用来表示物种之间的进化关系,根据各类生物间的亲缘关系的远近

27、,把各类生物安置在有分枝的树状的图表上,简明地表示生物的进化历程和亲缘关系。基于SNP,通过 MEGA57,neighbor-joining8算法,构建个样品群体进化树。进化树见图 10:(进化树要有颜色的区分)XX图 10个样品进化树注:图中每个分枝为一个样品。个样品分为 XX 个亚群。如图中所示,通过进化树分析将3.6群体结构分析3.6.1 遗传结构分析群体遗传结构分析能够提供的血统来源及其组成信息,是一种重要的遗传关系分析工具。基于 SNP,通过 admixture9,分析个样品的群体结构,分别假设个样品的分群数(K 值)为 1-20,进行聚类。根据 K 峰值的位置来确定分群数为 3。反

28、映了值为 1-20 的 structure 情况见图 11:所有的样品可能来自于 3 个原始的祖先。KXXXX图 10 XX 个样品分群数为 1-20 的聚类图注:上图图中每种颜色代表一个群,每行代表一个分群值的情况,例如 K=2 是表示每个样品在两个群体结构中分别占的比例;图中展示了 XX 个样品分群值从 1-20 的聚类情况。下图中为每个K 值对应的K 值,K 为 3 的时候K 最小。如图 14 所示,本项目的12 所示:个样品可以分为 3 个群,样品与群体关系如表表 12 样品分群对应关系表Sle IDQ1Q2Q3aa0.999980.000010.00001ab0.000010.837

29、3750.162615ac0.000010.6882190.311771ad0.6203580.0152240.364418ae0.7967070.2032830.00001注:Sle ID:样品;Q1:样本来自第一个原始祖先的可能性;Q2:样本来自第二个原始祖先的可能性;Q3:样本来自第三个原始祖先的可能性。例如 aa 样品,Q1 的值最大,可以确定aa 来自于第一个群。XX3.6.2 PCA 分析基于 SNP,通过 cluster10,进行主成分分析(Principal components个样品的主成分聚类情况。通过 PCA 分析,ysis11,PCA)分析,得到能够得知哪些样品相对比较

30、接近,哪些样品相对比较疏远,可以辅助进化分析。PCA 聚类见图 12,前 5 个样本的具体数据见表 13,其余样本的数据统计见 FTP:图 12个样品 PCA 聚类图注:图中通过PCA 分析将样品聚为三维,pca1 代表第一主成分,pca2 代表第二主成分;pca3 代表第三主成分。一个点代表一个样品,一种颜色代表一个分组。表 4 前 5 个样品分群对应关系表Sle IDPC1PC2PC3aa0.215104-0.092310.026573ab-0.061980.1639050.111522ac0.0245210.4477280.045192ad0.079814-0.08282-0.04613

31、ae0.157891-0.098550.049204注:Sle ID:样品;PC1:第一主成分;PC2:第二主成分;PC3:第三主成分。3.7群体选择分析3.7.1 连锁不平衡分析在某一群体中,不同座位上某两个同时遗传的频率明显高于预期的随机频率的现象,称连锁不平衡(linkage disequilibrium)。进行连锁不平衡分析,可以获得物种的最小的遗元。的SNP 组合,分析SNP 在所有样品中的连锁情况;自通过在同一个然群体中用连锁平衡系数(D)和连锁不平衡系数(r2)表示。D或r2 越接近于 1,代表连锁关系越强。将 组上SNP 间距与r2 进行拟合,一般来说,SNP 间距离越接近,r

32、2 越大,SNP 间距越远,r2 越小。一般用 r2 大于 0.1 的数据作为连锁不平衡的衰减(LD-decay)的数值,LD-decay 越长,即 LD 衰减越慢,代表物种的 SNP 间发生连锁的概率越大,LD-decay 越短,即 LD 衰减越快,代表物种的SNP 间发生连锁的概率越小,一般认为 LD 衰减快的物种比较原始。本项目的 LD-decay 长度为,本项目的 LD-decay 衰减图如图 14 所示:图 11 LD-decay 分布图注:横坐标代表SNP 的间距,纵坐标代表r2 值。r2=0.1 时的SNP 间距即为 LD-decay3.7.2 选择清除分析选择性清除是指由于最近

33、的较强的正向自然选择,一个突变位点相邻 DNA上的核苷酸之间的差异下降或消除。当一个新的突变产生,使相对于其他群体成员的适应性增加,就可能产生选择性清除。自然选择有利于适应性强的生存,随着时间的推移,新突变的等位频率逐渐增加。随着增加变的越来越多,中性遗传变异与新的突变连锁遗传越来越多。组上的选择性清除区域逐渐形成正选择的单体型。使这一段区域的遗传变异大量减少。主要分析方法包括XXKb了基于群体分化(Fst)和群体杂合性分布,通过 Z 转换(Z-transform 指将符合正态分布的数据转化为标准正态分布)来检测受选择的区域。Fst 分析Fst 是传统衡量种群遗传分化、种群遗传结果的基本指标,

34、最初是由 Wright12提出。基于群体中亚种间 SNP 分析,得到亚种之间的分化区域,计算公式如下:WithinFst = 1 BetnBetn代表抽样自两个不同亚群的样品的平均成对差异,Within代表抽样自两个相同亚群的样品间平均成对差异。在中性进化条件下,Fst 的大小主要决定于遗传漂变和迁移等的影响,如果种群中一个等位因为对于特定生境的适合度较高而经历适应性选择,那么其频率的升高会增大种群分化水映常用的指标。最终得到 XX 与XX 之间的分化区域,XX结果见图 15,具体结果见表 14,提取分化区域内的,注释结果见FTP。图 15 注:横坐标表示,纵坐标表示。Tajimas D 检验

35、Tajimas D 检验通过比较群体突变率的两个估计值 和 的差异检测正向选择效应。如果 Tajimas D 值为正,即 , 表明存在大量的中等频率的等位,这可能是由于群体瓶颈效应,群体结构,或者平衡选择引起的。如果Tajimas D 值为负,即 表明存在大量的低频等位位点,可能了选群体的分析结果见图 16:择清除效应。XX在数据上就是选择区域有较大的Fst 值。 分析 表示的是核苷酸多态性,一般不受群体大小的影响,是选择清除分析时最图 16 Tajimas D 检验注:横坐标表示,纵坐标为计算的Tajimas D 的值通过Tajimas D 检验,发现有个位点为负值,个位点为正值。Hp 检验

36、Hp 是表示一个群体杂合度的参数,Hp 越小,表示杂合低,该位点可能是受选择的位点。基于群体杂合性:通过计算窗口内 SNP 位点的杂合性,进而对选择清除进行评估。具体方法:以指定步长滑动窗口,分布计算每个位点最大,最小等位个数(Nmax,Nmin),每个窗口的杂合性分数为:其中 Nmax 表示每个位点最大等位个数。个数,Nmin 表示每个位点最小等位通过计算窗口内 SNP 位点的杂合性,进而对 Selective sp 进行评估,具体方法为以指定步长滑动窗口,分别计算每个位点最大、最小等位个数( Nmax, Nmin),每个窗口的杂合性分数为 Hp。对HP 进行Z 转换,公式为:结合群体杂合差

37、异以及群体分化分布,选择(参数可调)区域为候选选择性清除区域。最终得到 XX 群体受选择的区域,XX结果见图 17,具体结果见表16,提取分化区域内的,注释结果见FTP。图 17 选择清除分析注:横坐标为位置,纵坐标为每个窗口计算得到的 Hp 的Z 转换值。ZHp-2XXXX表 5 群体受选择区域信息统计表Region IDPop1Pop2ChrStartEndGene注:Pop1,Pop2:两个亚群;Start,END:分化区域的起始位置;Gene:关联区域的Gene 数;Region ID:表示区域的ID3.7.3功能注释(此步主要针对有参考组的物种;无参考组的物种如果想要进行信息可能不理

38、想)注释,则通过 blast 与 Nt 数据库进行比对,只是注释的表 6 群体受选择区域信息统计表Region IDGoNRSwissProtCOGKEGG注:Region ID 表示区域的ID,对应表 14 里的内容4项目信息表 18 SLAF-遗传进化信息表分析内容名称版本对分化区域进行功能注释,具体结果见表 15联合分析酶切Call SNP进化树群体结构PCA连锁不平衡Fst 分析选择清除分析5数据5.1用户登录及数据直接在浏览器中输入ftp:/,但是这种方法可能会因为网速.cn,然后输入用户名和进行而出现打不开页面,无法的情况。一个FTP 客户端好之后直接解压缩,然后双击文件夹中的图标

39、,打开Filezilla 界面,在主机栏中输入x,然后点击快速连接进入到服务器,在就可以了。.cn,输入用户名站点中对想x,的文件5.2结果文件查看说明上传目录中有Readme.txt 说明,详细介绍了每个文件所代表的内容。上传的结果数据文件多以文本格式为主(fa 文件、txt 文件、detail 文件、xls 文件等)。在Windows 系统下查看文件使用Editplus 或 UltraEdit 作为文本浏览程序,否则会因文件过大造成死机。在 Unix 或Linux 系统下可以浏览较大的文本文件,用Less 等操作命令可以顺利地查看。5.3SVG 文件格式的查看文件含有SVG 格式的文件,S

40、VG 是矢量化的文件,可以随意放大而不失真。要查看SVG 格式的文件,请先安装SVG 插件。【参考文献】1.Crow, James F., and Motoo Kimura. Anroduction to population genetics theory. Anroduction to population genetics theory. (1970).2.Sun X, Liu D, Zhang X, et al. SLAF-seq: an efficient method of large-scale De novo SNPdiscovery and genotye58700.usin

41、g high-throughput sequencingJ. PloS one, 2013, 8(3):3.Project I R G S. The map-based sequence of the rice genomeJ. Nature, 2005, 436(7052):793-800.4.Davey J W, Cezard T, FuentesUtrilla P, et al. Spel features of RAD Sequencing data:implications fenotyJ. Molecular ecology, 2013, 22(11): 3151-3164.5.K

42、ozich J J, Westcott S L, Baxter N T, et al. Development of a dual-index sequencing strategyand curation pipeline foryzinglicon sequence data on the MiSeqIlluminasequencing platformJ. Appd and environmental microbiology, 2013, 79(17): 5112-5120.6.Arabidopsis Genome Initiative.ysis of the genome seque

43、nce of the flowering plantArabidopsislianaJ. Nature, 2000, 408(6814): 796.7.Koichiro T,Daniel P, Glen S,Masatoshi N, Sudhir K,MEGA5: Molecular EvolutionaryGeneticsysis Usingum Likelihood, Evolutionary Distance, andumParsimony Methods.2011, 28 (10): 2731-2739.8.N Saitou and M Nei, The neighbor-joinin

44、g method: a new method for reconstructingphylogenetic trees.Molecular Biology and Evolution,1987, 4(4):406-425.9.Alexander D H, Novembre J, Lange K. Fast m-based estimation of antry in unrelatedindividualsJ. Genome research, 2009, 19(9): 1655-1664.10.de Hoon M J L, Imoto S, Nolan J, et al. Open sour

45、ce clustering softwareJ. Bioinformatics,2004, 20(9): 1453-1454.11.Dunteman G H. Principal componentsysisM. Sage, 1989.12.Brown A H D. The estimation of Wrights fixation index from genotypic frequenciesJ.Genetica, 1970, 41(1): 399-406.13.Bradbury P J, Zhang Z, Kroon D E, et al. TA: software for assot

46、ion mapofcomplex traits in diverse slesJ. Bioinformatics, 2007, 23(19): 2633-2635.附件 1 多态性 SLAF后续检验方法1. CAPS 标记开发酶切扩增多态性序列(Cleavedlified Polymorphism Sequen,CAPS)标记又称为 PCR-RFLP,是 PCR 技术与 RFLP 技术结合的法。它的基本步骤是利用己知位点的 DNA 序列设计出特异性 PCR 引物,PCR 扩增,扩增产物用限制性内切酶酶切,琼脂糖凝胶电泳分离酶切片段,EB 染色并进行 RFLP分析。与 RFLP 技术一样,CAP

47、S 技术检测的多态性其实是酶切片段大小的差异。在酶切前进行PCR产物检测,其多态性称ALP(slified length polymorphisms)。CAPS 是一类共显性分子标记,其优点是避免了 RFLP 分析中膜转印这一步骤,又能保持RFLP 分析的精确度。SNP 正好处于限制性内切酶位点上,可将它转化为 CAPS 标记,即在 SNP两侧设计引物,经限制性内切酶对 PCR 产物进行酶切后,电泳检测产物的多态性。2. dCAPS 标记开发当 SNP 所处的位置不是限制性内切酶识别位点时,可以通过在引物 3端引入错配碱基将 SNP 位点改造成酶切位点,将其转化为衍生的酶切扩增多态性序列(de

48、rived Cleavedlified Polymorphism Sequen,dCAPS)标记。可用dCAPS Finder、SNP2CAPS 等来设计引物;或者凭经验对序列进行目测来设计引物。其基本原则是先确定引入错配碱基的正向引物,以距 SNP 位点约 20bp的序列作为正向引物,仅靠 SNP 位点的碱基作为正向引物 3端,在此引入 12个错配碱基,使在亲本之一的 PCR 扩增产物上产生一个常用限制性内切酶识别位点,而在另一个亲本的 PCR 扩增产物上没有新增的这个酶切位点,即双亲的 PCR 产物具有酶切长度差异。然后再按引物设计的一般原则确定方向引物。产物大小应控制在 500bp 以下

49、。3. 等位特异 PCR(AS-PCR)组中只有 30%40% SNP 能转化为CAPS 或dCAPS 标记,其他SNP 经改造后也不能成为常用限制性内切酶识别位点,但可用 AS-PCR 的方法来检测。同 CAPS 和 dCAPS 标记一样,用 AS-PCR 方法检测的 SNP 标记也是共显性标,而且此法同样经济实用、易于操作。AS-PCR 方法需设计两条特异的正向引物和一条反向引物,两条正向引物仅在 3端最后一个碱基不同。其中一条正向特异引物与一个亲本能完全匹配,与反向引物一起扩增出 PCR 产物,而与另一亲本不能完全匹配,也不能扩增出 PCR产物。这两种引物组合都能从杂合体中扩增出 PCR

50、 产物。为了提高检测效率,可在其中一条正向引物的 5端加上 20bp 的M13 等序列,使两条正向引物与反向引物配对扩增出的 PCR 产物具有长度差异,这样 3 条引物可以同时在一个 PCR反应中检测样品的标记值。由于特异引物、Taq 酶等反应体系和 PCR 反应程序的原因,AS-PCR 并不能完全抑制由于错配引起的非特异性扩增而出现假阳性的结果。为了克服这个缺点,可在正向特异引物 3端的 3bp 范围内引入 1 个错配碱基来提高 AS-PCR 反应的特异性。在两个 SNP 位点相隔不远的情况下,可将两条特异引物分别设计在不同亲本的两个 SNP 位点上,这样既可以保证三条引物在同一 PCR 反

51、应体系中的反应特异性,又提高了检测效率。同样,可以在一条正向特异引物 5端加M13 等序列用PCR 长度做区分,在 3端引入错配碱基提高反应特异性。为了增加 AS-PCR 的特异性,在引物设计和 PCR 反应时需遵循以下原则:由于在正向引物 3端引入错配碱基的种类和数量不同,AS-PCR 的特异性也不同,需要用不同的 PCR 反应条件来检测引物的特异性,选择特异性高的引物。每个 SNP 可设计 24 组引物,在PCR 反应中设立不同退火温度、不同 DNA 模板浓度(相差 10 倍以上)、不同循环数(38 个和 28 个)的对比试验,选择在各对比试验中都表现有特异性的引物组,即根据一个亲本设计的

52、特异引物只能在这个亲本中扩增出产物,而在另一个亲本在不能扩增出产物。4. 单链构象多态性SSCP(single strand conformation polymorphism,SSCP)是基于单链 DNA片段构象差异来检测 PCR 产物单链碱基微小差异的方法。PCR 产物变性后,单链产物经中性聚丙烯酰胺凝胶电泳,靶 DNA 中含单碱基置换,或数个碱基或缺失等改变时,因迁移率变化会出现泳动变位,从而可将变异 DNA 与正常 DNA 区分开。主要实验步骤包括:根据目的序列设计引物,PCR 扩增目的DNA片段,琼脂糖凝胶电泳鉴定 PCR 产物,PCR 产物热变性后立即置于冰上冷却以复性,聚丙烯酰胺

53、凝胶低温电泳分离,银染或溴化乙锭染色后检测。由于该方法的实验结果受多种的影响,如:PCR 产物、温度、电压、PAGE胶的浓度和交联度等,重复性比较差,因此在做 SSCP 时要注意各种条件的一致性。由于核酸片段越小,SSCP 检测的敏感性越高,因此,在设计引物时尽量选择长度300bp 的片段,尤其是 150bp 左右的核酸片段更适于 SSCP 分析;对于大于 400bp 的PCR 产物可以用限制性酶消化,产生小于 400bp 的 DN段,再进行 SSCP 分析。此外,因为游离引物可能同 PCR 产物结合而改变其泳动率,因此在具体实验时还应采用不对称引物扩增、PCR 产物过柱或磁珠纯化、或稀释PC

54、R 产物等方法减少游离引物的干扰。【参考文献】1.,等. 2010. 现代植物育种学.:科学附件 2 分子标记辅助选择(MAS)分子标记辅助选择是通过分析与目标紧密或完全连锁的分子标记的基因型来判断目标是否存在。分子标记辅助选择的效果受群体大小,性状的遗传结构,选用分子标记数目,标记与因或 QTL 之间的遗传距离),世代等几种方法方法间的连锁方式,连锁强度(即标记与基的影响。分子标记辅助选择主要有以下1. 标记辅助回交MABC 是把分子标记技术与回交育种相结合,借助连锁分子标记将供体亲本中有用(即目标)快速转移或渗入到受体亲本遗传背景中,从而达到改良受体亲本个别性状的目的。研究表明,早期世代利用更大群体,后期世代利用更大群体,MABC 效率更高。MABC 基本程序:(1)找到与或 QTL 紧密连锁的标记;(2)证实或

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论