1_slaf-遗传图谱结题报告-无参考基因组_第1页
1_slaf-遗传图谱结题报告-无参考基因组_第2页
1_slaf-遗传图谱结题报告-无参考基因组_第3页
1_slaf-遗传图谱结题报告-无参考基因组_第4页
1_slaf-遗传图谱结题报告-无参考基因组_第5页
已阅读5页,还剩36页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、遗传图谱项目结题报告遗传图谱结题报告XX 高密度遗传图谱构建及 QTL 定位项目 结题报告 客户单位: 报告单位: 联系人:联系电话: 传真:报告日期:项目负责人:XXX北京百迈客生物科技有限公司 010-57045006010-570450012015 年 7 月 14 日 审核人: 遗传遗图传谱图项谱目结题报告目录1项目概况11.1项目研究背景11.2项目报告重要名词及术语11.3材料基本信息21.4合同关键指标情况21.5项目执行情况21.6分析结果概述32项目流程42.1酶切方案设计42.2文库构建及测序52.3信息分析流程63生物信息学分析结果73.1酶切方案设计73.2测序数据统计

2、与评估73.2.1 测序质量值分布检查73.2.2 碱基分布检查83.2.3 测序数据产出和质量统计93.3实验建库评估113.3.1 比对效率统计113.3.2 酶切效率评估统计113.3.3 片段选择评估123.4SLAF 标签开发123.4.1 SLAF 多态性标签分析143.4.2 多态性 SLAF 标签编码15遗传遗图传谱图项谱目结题报告3.5遗传图谱构建173.5.1 上图标记筛选173.5.2 绘制连锁群183.5.3 连锁分析193.6遗传图谱评估203.6.1 遗传图谱基本信息统计203.6.2 上图标记 SNP 信息统计213.6.3 偏分离标记信息统计213.6.4 上图

3、标记深度信息统计233.6.5 上图标记完整度统计233.6.6 单体来源评估233.6.7 连锁关系评估243.7性状关联分析263.7.1 QTL 分析263.7 数据可视化284 项目总结295 数据查阅305.1 结果文件查看说明305.2SVG 文件格式的查看30附件 1 生物信息分析流程32附件 2 英文材料方法35遗传遗图传谱图项谱目结题报告1项目概况1.1项目研究背景遗传连锁图谱(Genetic Map),是指分子标记在染色体上的相对位置与遗传距离,通常以基因或 DNA 片段在染色体交换过程中的分离频率厘摩(cM)来表示,cM 值越大,两者之间距离越远。利用遗传图谱,主要可以进

4、行 QTL 定位,比较基因组,辅助基因组组装等科研工作。本项目利用北京百迈客生物科技有限公司自主研发的 SLAF-seq1技术和HighMap2软件对 XX 物种 XX 遗传分离群体(2 个亲本和 XX 个子发高密度分子标签,进行遗传图谱构建和相关性状的 QTL 关联分析,获得与性状紧密关联的分子标签和候选区域。1.2项目报告重要名词及术语英文名词中文名词名词解释Pair-end Reads双端序列测序产生的reads,SLAF 采用的是双端测序,因此产生的是双端reads经过 SLAF-seq 建库产生的特异酶切片段,一个酶切片段就是一个SLAF 标签群体中存在多态性的SLAF 标签,多态性

5、的 SLAF 中主要存在的变异类型是SNP位于重复序列区的 SLAF 标签,在数据上的表现 SLAF 标签的测序深度远高于平均水平,或者超过物种倍性的基因型数目,比如 2 倍体物种中,某个样品出现了 3 种基因型DNA 序列上出现的单碱基变异重组率是两个分子标记间发生重组的可能性,重组率越低,发生重组的可能性越低两个标记间的连锁强度,LOD=3 表示两个标记的连锁可能性是不连锁的 1000 倍两个分子标记之间的遗传距离,单位为厘摩(cM),1cM 表示两个标记间的重组率约为 1%分子标记在染色体上的相对位置与遗传距离,通常以基因或 DNA 片段在染色体交换过程中的分离频率厘摩(cM)来表示控制

6、数量性状的一个染色体片段根据标记基因型与数量性状表型,应用一定的统计方法,在遗传连锁图上标定有关的 QTL 位置(以重组率表示),并估计其效应SLAFSLAF 标签Polymorphic SLAF多态性SLAF 标签Repetitive SLAF重复序列区中的SLAF标签SNPRecombinant Rate单核苷酸多态性重组率LOD连锁值Map Distance图距Genetic Map遗传连锁图谱QTLQTL Mapping数量性状基因座QTL 定位1遗传遗图传谱图项谱目结题报告1.3材料基本信息(1)研究物种:XX(2)群体类型:XX(3)群体数量:2(亲本)+XX(子代)1.4合同关键

7、指标情况本项目的合同指标完成情况如下表所示:表 1 项目合同指标完成情况汇总表指标合同要求实际项目情况SLAF 标签总数上图标记亲本深度(x) 上图标记子代深度(x) 上图标记数目100,0002052,000447,17740.90 4.692,467本项目共开发XX 个 SLAF 标签,亲本有效多态性为XX%,上图标记为XX,上图标记亲本平均测序深度为 XXX;子代平均测序深度同要求。XXX,完成合1.5项目执行情况(1)全部样品检测合格时间为 XX 年 XX 月 XX 日。(2)样品全部信息到位时间为 XX 年 XX 月 XX 日。(3)项目启动时间为 XX 年 XX 月 XX 日。(4

8、)项目分析完成时间为 XX 年 XX 月 XX 日。2遗传遗图传谱图项谱目结题报告1.6分析结果概述项目分析主要结果见下表:表 2项目主要结果项目相关信息具体情况备注酶切方案酶切片段长度 酶切预测标签数Clean Reads平均Q30平均 GC 含量 开发SLAF 总数亲本平均深度子代平均深度连锁群数上图标记数 遗传图总图距遗传图平均图距性状数量性状关联区域RsaI+HaeIII 364-414bp133,2220.97Mreads 34.10%54.11X7.89X206,1593,020.59cM0.66cM14303遗传遗图传谱图项谱目结题报告2项目流程2.1酶切方案设计根据鸭茅基因组大

9、小以及 GC 含量等信息, 最终选取二穗短柄草(Brachypodiumdistachyon)基因组作为参考基因组进行酶切预测。所用参考基因组下载地址:XXXXXXXX。所用参考基因组具体信息如下表所示:表 3参考基因组具体信息GC 含量物种基因组大小基因组水平海胆(Echinoidea)271MbChromosome 或Scaffold46.40%利用自主研发的酶切预测软件对参考基因组进行酶切预测,选择最适酶切方案,选择原则如下:1.位于重复序列的酶切片段比例尽可能低;2.酶切片段在基因组上尽量均匀分布;酶切片段长度与具体实验体系的吻合程度3;3.4.最终获得酶切片段(SLAF 标签)数满足

10、预期标签数。4遗传遗图传谱图项谱目结题报告2.2文库构建及测序根据选定的最适酶切方案,对检测合格的各样品基因组 DNA 分别进行酶切实验。对得到的酶切片段(SLAF 标签)进行 3端加 A 处理、连接 Dual-index4 测序接头、PCR 扩增、纯化、混样、切胶选取目的片段,文库质检合格后用IlluminaHiSeq 测序平台进行 PE125/PE150 bp 测序。为评估建库实验的准确性, 选用日本晴水稻(Oryza sativa L. japonica)或者拟南芥(Arabidopsis thaliana)作为对照(Control)进行相同的处理参与建库和测序。实验流程如下图所示:图

11、1 SLAF 实验流程5遗传遗图传谱图项谱目结题报告2.3信息分析流程利用 Dual-index 对测序得到的原始数据进行识别,得到各个样品的 reads。对过滤完接头的测序 reads 进行测序质量和数据量的评估。通过 Control 数据的比对效率评估酶的酶切效率,判断实验过程的准确性和有效性。通过 reads 聚类的方法,在亲本和子代中开发 SLAF 标签,寻找多态性的 SLAF 标签1。对多态性的 SLAF 标签进行基因型编码后,通过 HighMap 作图软件2,构建遗传图谱, 进行图谱评估。通过 QTL 定位软件进行 QTL 关联分析获得与性状紧密关联的SLAF 标签和关联区域。生物

12、信息分析流程见下图,详细流程见附件 1。图 2 生物信息分析流程6遗传遗图传谱图项谱目结题报告3生物信息学分析结果3.1酶切方案设计对参考物种基因组序列进行电子酶切预测,根据酶切方案选择原则(见 2.1),选择最适内切酶为 XX,酶切片段长度在 XX-XXbp 的序列定义为 SLAF 标签, 预测可得到 XX 个 SLAF 标签,具体酶切方案信息见下表:表 4 SLAF 最优酶切方案信息统计InsertSizeSLAFNumberRepetitive SLAFPercentage(%)EnzymeHaeIII314-374116,7340.53注:Enzyme:电子酶切中用到的酶; Inser

13、t Size:酶切片段的长度范围;SLAFNumber:酶切方案预测的可以得到的SLAF 标签数;Repetitive SLAF Percentage:位于重复序列的 SLAF 标签比例。3.2测序数据统计与评估SLAF-seq文库的原始测序读长为PE125/150bp。为保证信息分析质量,在分析前会对原始测序的数据进行过滤,原始数据过滤标准如下:(1) 需要过滤掉含有接头序列的reads;(2) 当read中含有的N的含量超过该条read长度比例的10% 时,需要去除此对reads;(3)由于测序reads中前几bp为酶切片断遗留的残基,末端测序质量较低,本项目选择XX-XXbp为分析数据,

14、总长度为XXbp。3.2.1测序质量值分布检查碱基识别(Base Calling)过程中每个碱基都会得到一个测序质量值,用于评估该碱基的准确性。测序质量值是评估高通量单碱基错误率的重要指标,测序质量值越高对应的碱基测序错误率越低。碱基测序错误率 e 和测序质量值 Q 的对应公式:,如果某碱基测序出错的概率为 0.001,则该碱基的质量值 Q 应该为30。本项目母本样品(客户编号 100)样品测序质量分布情况见下图:7遗传遗图传谱图项谱目结题报告图 3 测序质量值分布图注:横坐标为 reads 的碱基位置,纵坐标为单碱基的质量值。前 125/150bp 为双端测序序列的第一端测序reads的质量

15、值分布,后 125/150bp 为另一端测序reads 的质量值分布。同一个位置对应的不同质量的测序reads, 颜色越深,代表所对应位置的测序质量比例越高。3.2.2碱基分布检查碱基类型分布检查用于检测有无 AT、GC 分离现象,而这种现象可能是测序或者建库所带来的,并且会影响后续分析。由于 SLAF-seq 测序 reads 为基因组 DNA 的酶切片段,其碱基分布会受到酶切位点和 PCR 扩增的影响,碱基分布会呈现不同程度的波动。本项目母本样品(客户编号 100)样品测序碱基分布情况见下图,样本 GC 含量分布基本正常。8遗传遗图传谱图项谱目结题报告图 4 碱基含量分布图注:横坐标为 r

16、eads 的碱基位置,纵坐标为碱基所占的比例;不同颜色代表不同的碱基类型,绿色代表碱基A,红色代表碱基 C,橙色代表碱基 G,蓝色代表碱基 T,灰色代表测序中识别不出的碱基 N。前 125/150bp 为双端测序序列的第一端测序Reads 的碱基分布,后 125/150bp 为另一端测序reads 的碱基分布。如第一个位置代表测序的reads 在第一个碱基的A、T、G、C、N 的分布情况。3.2.3测序数据产出和质量统计对各样品的测序数据进行统计,包括 reads 数量、bases 数量、Q30 和 GC 含量,具体结果见下表:9遗传遗图传谱图项谱目结题报告表 5各样品测序数据统计表Sampl

17、eIDBMKIDTotalReadsTotalBasesQ30Percentage(%)GCPercentage(%)11-1(1)17-1(1)Offspring Control TotalP MOffspringControl Total11,667,00111,702,3661,251,60311,667,00136,287,9712,333,400,2002,340,473,200250,320,6002,333,400,2007,257,594,20089.4089.4689.3489.2989.3844.9945.0445.2246.4636.86注:Sample ID:样品信息单

18、中样品编号;BMK ID:百迈客对样品的统一编号,P 代表父本,M 代表母本;Total Reads:各样品的reads 数;Total Bases:各样品的bases 数;Q30 Percentage:测序质量值大于或等于 30 的碱基所占百分比; GC Percentage:测序结果中G 和 C 两种碱基所占总碱基的百分比; Offspring:子代测序数据的平均值; Control:对照,用于评估实验建库数据;Total:整体数据信息(除control 数据外)。测序数据总结:本项目共获得 XXMreads(XX Gb)数据,测序平均 Q30为 XX%,平均 GC 含量为 XX%,样本

19、GC 分布正常。综上所述,数据量、质量达到合同要求。10遗传遗图传谱图项谱目结题报告3.3实验建库评估本实验,将 Control(拟南芥)作为 Control,通过对 Control 数据的评估监控实验过程是否正常,确定酶切方案实施的有效性。本项目中 Control 所用拟南芥为 Arabidopsis thaliana(Ecotype: Columbia),基因组大小为 119.48M,下载地址:/genome/?term=Arabidopsis%20thaliana。3.3.1比对效率统计用于评估实验建库准确性的 Control 测序获得

20、 XXMreads 的数据量,通过SOAP5软件将 Control 的测序 reads 与参考基因组进行比对,比对结果见下表, 本次建库双端比对效率在 XX%,比对效率基本正常。表 6 Control 测序 reads 比对结果统计表Paired-EndMapped ReadsSingle-EndMapped ReadsSampleUnmapped ReadsControl(%)80.710.9318.36注:Paired-End Mapped Reads:一条序列两端在参考基因组上的比对跨度介于 50bp1kb 的reads 占总reads 的比例;Single-End Mapped Rea

21、ds:一条序列两端在参考基因组上的比对跨度小于 50bp,或大于 1kb 的reads 占总reads 的比例;Unmapped Reads:未比对到基因组上的reads 占总reads 的比例;Single-End Mapped Reads 和Unmapped Reads 来源:由于接头过滤不全,reads 中碱基错配,异常的插入片段大小等类似情况导致的比对结果。3.3.2酶切效率评估统计酶切效率是评价简化基因组实验是否成功的一个关键指标。基因组上的复杂结构区域(如环状结构域、连续酶切位点等)、基因组 DNA 样品较低、酶切时间不足等因素都可能影响限制性内切酶的活性,导致部分酶切位点未被酶切

22、开。通过统计测序 reads 插入片段中残留酶切位点的比例,统计比例越低,酶切效率越好6。从下表中可知,本项目 Control 数据的酶切效率为 XX%,表明酶切效率正常。11遗传遗图传谱图项谱目结题报告表 7 Control 数据酶切效率评估统计表Digestion NormallyDigestion PartlyTotalPercentage(%)98.571.43100注:Digestion Normally:reads 中间不存在未被酶切开的酶切位点; Digestion Partly:reads 中间存在未被酶切开的酶切位点; Total:reads 片段总数。3.3.3片段选择评估

23、根据 Control 测序 Pair-end mapped reads 在基因组中的位置计算 SLAF 标签的实际长度,Control 测序 reads 插入片段分布见下图:图 5 Control reads 插入片段分布图注:横坐标表示reads 的插入片段长度,纵坐标表示reads 所占的比例。实验建库评估总结:Control 数据的双端比对效率为XX%,SLAF 建库正常。XX%,酶切效率为3.4SLAF 标签开发利用自主研发的SLAF 标签开发流程,将同一个位置的 reads 作为一个SLAF标签,本项目共开发 XX 个 SLAF 标签,SLAF 标签亲本平均测序深度为 XXX, 子代

24、平均测序深度为 XXX。具体统计见下表:12遗传遗图传谱图项谱目结题报告表 8 SLAF 标签统计Sample IDBMK IDSLAF NumberTotal DepthAverage Depth11-1(1)P301,8984,383,08914.5217-1(1)M303,8364,331,38914.26OffspringOffspring172,334464,7532.70注:Sample ID:样品信息单中样品编号; BMK ID:百迈客对样品的统一编号; SLAF Number:SLAF 标签数量; Total Depth:测序reads 数;Average Depth:平均每个

25、SLAF 上该样品的测序 reads 数;Offspring:子代基本信息,表中为所有子代的平均值。13遗传遗图传谱图项谱目结题报告3.4.1SLAF 多态性标签分析根据等位基因数和基因序列之间的差异进行多态性分析,共得到 3 种类型的SLAF 标签:Polymorphic 型,Non-Polymorphic 型,Repetitive 型。针对所有样品共开发得到的 XX 个 SLAF 标签,各类型 SLAF 标签结果统计见下表。从下表可以看出,在开发得到的 XX 个 SLAF 标签中,多态性 SLAF 标签共有 XX 个,多态性比例达到 XX%。表 9SLAF 标签类型统计Polymorphi

26、cSLAFNon-PolymorphicSLAFRepetitiveSLAFTotalSLAFTypeNumberPercentage89,03819.91%349,36278.13%8,7771.96%447,177100.00%注:Polymorphic SLAF:表示在一个SLAF 标签中存在多态性位点,多态性位点主要包括是 SNP 和InDel; Non-Polymorphic SLAF:表示在SLAF 标签中没有多态性位点;Repetitive SLAF:指位于重复序列区的SLAF 标签;Total SLAF:所有的SLAF 标签。14遗传遗图传谱图项谱目结题报告3.4.2多态性 S

27、LAF 标签编码为了便于后续的遗传学分析,需要对多态性标签进行基因型编码,基因型编码规则为遗传学通用的 2 等位编码规则,如下表所示。如某标记的亲本基因型为aa(父本)和 bb(母本),子代基因型 ab 则表示该样品在这个标记的编码类型为杂合,其中有一个基因型来自于父本,有一个基因型来自于母本。其中,aaxbb 型适用于近交群体(如 F2,RIL,DH),其余标记适用于杂交群体(如:CP)表 10 基因型编码规则PaternalGenotypeMaternalGenotypeOffspringGenotypeTypeabxcd efxeg abxcc ccxab hkxhk lmxll nnx

28、npaaxbbab ef ab cc hk lm nnaacd eg cc ab hk ll npbbac,ad,bc,bd,-ee,ef,eg,fg,- ac,bc,-ac,bc,-hh,hk,kk,-lm,ll,-nn,np,- F2(aa,ab,bb),RIL/DH(aa,bb)-注:Type:分离类型;Paternal Genotype:父本基因型; Maternal Genotype:母本基因型; Offspring Genotype:子代基因型;-表示子代基因型缺失。基于亲本基因型检测结果,过滤掉亲本信息缺失的位点,根据上表基因型编码规则对本项目获得的 XX 个多态性 SLAF 标

29、签编码基因型,有 XX 个标签成功编码,各类型标签统计分布见下图:15遗传遗图传谱图项谱目结题报告图 6 各个类型标签分布图注:横坐标表示所有的标签类型,纵坐标代表该类型标签个数。本项目为F1 群体,筛选父母本都为杂合且亲本间具有多态性的位点,因此选取除 aaxbb 外的其余 7 种多态性标签作为符合群体特征的有效标签,本项目构建遗传图谱时的有效多态性为 XX%。多态性 SLAF 标签开发总结:本项目共获得 XX 个 SLAF 标签,其中多态性 SLAF 标签有 XX 个,可以用于遗传图谱构建的标签有 XX 个,构建遗传图谱时的有效多态性为 XX%。16遗传遗图传谱图项谱目结题报告3.5遗传图

30、谱构建3.5.1上图标记筛选为保证遗传图谱质量,将多态性 SLAF 标签按照以下规则进行过滤:1)过滤父母本测序深度 10X 以下。依照亲本对子代基因分型,高深度的亲本测序深度,保证了子代分型的正确性;2)SNP 数目大于 5。由于 SNP 标签测序长度为 200bp,出现过多的 SNP 被认为是测序高频变异区。3)亲本完全纯合的多态性标签的剔除。4)完整度过滤。筛选基因型至少覆盖所有子代 70%以上个体的标记(该标准根据实际标记数据量进行适当调整)。即对于单一多态性标记位点,100 个子代中至少有 70 个个体有确定基因型。5)偏分离标记过滤。偏分离标记普遍存在,一般不会影响图谱的构建,可能

31、对 QTL 定位有影响。借鉴多数文献对偏分离标记处理方法对严重偏分离(卡方检验 P0.01)的多态性标记进行过滤。最终得到可用于作图的 SLAF 标签 XX 个。各类型标签统计见下表:表 11用于图谱构建的 SLAF 标签类型统计TypeSLAF NumberPercentageefxeg hkxhk lmxll nnxnpTotal101151,2251,5722,9220.34%3.94%41.92%53.80%100.00%注:Type:亲本基因型,近交群体亲本纯合,只有一种基因型; SLAF Number:用于构建遗传图谱的SLAF 标签数; Percentage:各类型SLAF 标签

32、占有效SLAF 标签总数百分比; Total:有效SLAF 标签总数。17遗传遗图传谱图项谱目结题报告3.5.2绘制连锁群将筛选出的 XX 个 SLAF 标签,通过两两标签之间计算 MLOD 值7,设置最小群与最大群标签数,预设 MLOD 值区间,按标签的 MLOD 值从小到大排列, 标签之间MLOD 值最高的分在同一个连锁群,过滤掉与其他SLAF 标签的MLOD值均低于 5 的标签,定位为上图标记(Marker)。共上图 XX 个,上图率为 XX%。连锁分群情况如下表所示:表 12Marker 连锁分群项目统计表LGIDMarker NumberLG1 LG2 LG3 LG4 LG5 LG6

33、 LG7Total5274251571593266741992,467注:LGID:连锁群 ID 号;Marker Number:上图标记数目。18遗传遗图传谱图项谱目结题报告3.5.3连锁分析以连锁群为单位,采用 HighMap2软件分析获得连锁群内 Marker 的线性排列,并估算相邻 Marker 间的遗传距离,最终得到中性图总图距为 XXcM 的遗传图谱。 绘制中性图高密度遗传图谱图如下图所示:图 7中性图遗传图谱结果示意图19遗传遗图传谱图项谱目结题报告3.6遗传图谱评估3.6.1遗传图谱基本信息统计各个连锁群 Marker 数、总图距、平均图距等基本信息统计见下表:表 13 中性图

34、谱基本信息统计Gap 5 cMLinkageGroup IDTotalMarkerTotalDistance(cM)AverageDistance(cM)MaxGap(cM)LG1 LG2 LG3 LG4 LG5 LG6 LG7Total5274251571593266741992,467218.31172.35167.56104.3662.65128.6288.52942.370.410.411.070.640.480.990.980.990.970.940.950.960.9819.3820.3621.3410.143.9011.276.9421.34表 14 雄性

35、图谱基本信息统计LinkageGroup IDTotalMarkerTotalDistance(cM)AverageDistance(cM)Gap 5 cMMaxGap(cM)LG1 LG2 LG3 LG4 LG5 LG6 LG7Total371228431033520998243.26160.0447.310.000.00205.5551.73707.890.660.701.100.000.000.612.590.810.990.980.990.970.940.950.960.9816.5941.4321.340.000.0024.215.7241.43表 15 雌性图谱基本信息统计Gap

36、5 cMLinkageGroup IDTotalMarkerTotalDistance(cM)AverageDistance(cM)MaxGap(cM)LG1 LG2 LG3 LG4 LG5 LG6 LG7Total1642121151593264021991,577101.60171.97167.56104.3662.65126.47104.38838.990.620.811.460.660.190.310.520.650.990.980.990.970.940.950.960.9830.9345.9340.3710.143.9016.059.8245.93注:Linkage group I

37、D:连锁群编号,本项目与基因组的编号一致;20遗传遗图传谱图项谱目结题报告Total Marker:上图标记数,表示一条连锁群上的标记的总数目; Total Distance:总图距,表示一条连锁群上标记的总遗传距离;Average Distance:平均图距,表示平均一条连锁群上标记的平均遗传距离; Gap5cM:gap 小于 5cM 占总 gap 数的比例,比例越高,代表图谱越均匀; Max Gap:连锁群中最大的gap,最大gap 越小,表示图谱越均匀;Total:所有连锁群总的标签数、总图距、平均图距和最大的 Gap 信息。3.6.2上图标记 SNP 信息统计各个连锁群上图 SNP 标

38、记的信息统计见下表。该项目获得 XX 个上图 SNP标记。表 16上图 SNP 标记类型统计表Linkage Group IDSNP NumberTri/TrvLG1 LG2 LG3 LG4 LG5 LG6 LG7Total8797422322805821,1283444,187139/31388/18127/6435/7380/186187/32549/131605/1273注:Linkage Group ID:连锁群编号;SNP Number:SNP 类型的 Marker 个数; Tri/Trv:SNP 转 换 /SNP 颠 换 ; Total:连锁群SNP 标记转换/颠换总数。3.6.3

39、偏分离标记信息统计偏分离标记(Segregation distortion)普遍存在,并且会影响图谱构建结果及QTL 定位,选择部分偏分离(卡方检验,P0.05)的多态性标记进行图谱构建, 部分上图偏分离标记数目及在连锁群位置结果见下表。该项目上图标记中包含了XX个偏分离标记,占标记总数的比例为XX%,其中偏向亲本P的数目为XX,偏向亲本M的数目为XX。偏向指占优势的基因型/劣势的基因型的值大于等于1.2。 21遗传遗图传谱图项谱目结题报告表 17子代个体部分偏分离情况Linkage Group IDTotal BSPMLG1 LG2 LG3 LG4 LG5 LG6 LG7Total52215

40、3426452156273317962053321929136270194446101045232031235注:Linkage Group ID:本项目连锁群编号; Total BS:该连锁群上图偏分离标记数目;P:在这条连锁群上子代基因型偏向父本的SLAF 个数;M:在这条连锁群上子代基因型偏向母本的SLAF 个数。22遗传遗图传谱图项谱目结题报告3.6.4上图标记深度信息统计各个连锁群上图标记的平均测序深度统计见下表。本项目上图标记达到合同要求,且较高的深度保证了分子标记的准确性。表 18 上图标记深度统计Sample IDBMK IDMarker NumberTotal DepthAv

41、erage Depth11-1(1)17-1(1)OffspringM PAverage of Offspring2,4672,4672,176108,26493,51910,19943.8837.914.69注:Sample ID:样品信息单中样品编号; BMK ID:百迈客对样品的统一编号; Marker Number:各样品的上图标记数; Total Depth:各样品上图标记总深度;Average Depth:各样品上图标记的平均深度;Average of Offspring:代表所有子代的平均值,分别是平均Marker 数,上图标记总深度的平均值(所有标记深度/样品数),平均每个样品

42、在每个上图标记中的深度。3.6.5上图标记完整度统计作图群体每个个体上图标记完整性(即上图标记中,确定基因型的标记占总标记的比例)如下图所示。本项目完整度平均为 XX%,保证了图谱基因分型的准确性。图8 所有个体上图标记完整性分布图注:横坐标表示样品;纵坐标表示完整度。3.6.6单体来源评估统计各个样品在全部连锁群中的单体来源,寻找其中的可能的双交换位点,双交换位点产生的原因有两个:1)基因组的重组热点区域;2)由于测序导致的23遗传遗图传谱图项谱目结题报告分型错误。在一条连锁群中,双交换的比例越高,表示图谱的分型或顺序存在一定的问题,通常双交换控制在3%以下,LG XX的单体来源评估如下图所

43、示。本项目每个个体中较大区段的来源会保持一致,说明遗传图谱质量高。图 9LG XX 单体来源评估结果展示注:每一个 横行代表一个Marker,按照在连锁群上的位置顺序排列。每一列代表一个样品中的一条染色体,绿色代表来自母本,蓝色代表来自父本,红色代表杂合分型,同一列颜色发生变化的位置即为重组生的位置。(F2,RILs)发注:每一个横行代表一个 Marker,按照在连锁群上的位置顺序排列。每一列代表一个样品中的一条染色体,蓝色代表来自母本,红色代表来自父本,同一列颜色发生变化的位置即为重组发生的位置。(DH)注:每一个横行代表一个 Marker,按照在连锁群上的位置顺序排列。每一列代表一个样品中

44、的一条染色体, 每个个体的第一列表示父本染色体,第二列表示母本染色体,个体之间用空白列隔开,标记以图谱顺序排列,绿色代表来自亲本第一个等位基因,蓝色代表来自亲本第二个等位基因,白色代表无法判断,灰色代表缺失。同一列颜色发生变化的位置即为重组发生的位置。(CP)统计所有连锁群的双交换和缺失比例如下表所示:表 19 上图标记双交换和缺失比例LinkageGroup IDSingletonPercent(%)MissingPercent(%)LG1 LG2 LG3 LG4 LG5 LG6LG70.000.000.000.000.000.000.000.730.840.730.50.470.030.3

45、7注:Linkage Group ID: 连 锁 群 ID; Singleton Percent:双交换的位点比例; Missing Percent :缺失的比例。3.6.7连锁关系评估24遗传遗图传谱图项谱目结题报告遗传图谱实质上是多点重组分析,Marker间距离越近,重组率越小。分析Marker与周围Marker的重组关系,可以找到其中存在潜在排图问题的Marker。绘制Marker重组关系热图,LG XX连锁群的连锁关系如下图所示。本项目各个连锁群上相邻标记间得连锁关系很强,与较远标记间得连锁关系渐变弱,说明标记顺序正确。图 10 LGXX 连锁群上 Marker 连锁关系图注:每一行和

46、每一列都是按图谱顺序排列的 Marker,每个小方格代表两个 Marker 间的重组率,颜色从黄到红到紫的变化代表重组率从小到大变化。距离越近的Marker 重组率越小,颜色越接近黄色,距离越远的Marker 重组率越大,越接近紫色。25遗传遗图传谱图项谱目结题报告3.7 性状关联分析3.7.1QTL 分析本项目采用R/qtl进行QTL定位分析,首先通过PT检验1000次设定阈值,先考虑0.99置信度对应的阈值,若没有定位区间则考虑0.95置信度对应的阈值;若没有定位区间则考虑0.90置信度的阈值。若仍没有结果则不考虑PT检验的结果, 手动降低阈值到3.0;若3.0没有区间则降到2.5;若2.

47、5没有区间则降到2。共对XX个性状关联分析共获得XX个性状关联区域,对应的基因组位置以及其他信息如下表所示:表 22 关联区域的基本信息LODthresholdLinkageGroup IDMaxLODTraitStartEndPVEADDDOMhilum_colorhilum_color338927.6587.5029.8189.276.234.3411.688.9318.88-0.111.44-0.800.57注:Trait:目标性状;LOD threshold:该性状的关联阈值; Linkage Group ID:连锁群编号;Start:关联区域在遗传图谱上的起点位置; End:关联区域

48、在遗传图谱上的终点位置; Max LOD:该性状的关联的最大LOD 值; PVE:表型贡献率;ADD:加性效应值;DOM:显性效应值。26遗传遗图传谱图项谱目结题报告根据连锁群的信息和标记与性状的连锁关系,绘制 XX 性状 QTL 分布图,如下图所示:图 12 XX 性状 QTL 分布图注:横坐标是连锁群Marker 的排列顺序,左纵坐标是LOD 值,右纵坐标是表型贡献率,蓝线表示 marker对应的LOD 值,红线表示marker 对应的表型贡献率,灰线是阈值线,阈值线以上的区域即关联到的 QTL区域。27遗传遗图传谱图项谱目结题报告3.7 数据可视化结合上述内容,将图谱基本信息,SLAF

49、信息,QTL 定位信息绘制到 Circos 图上,如下图所示。图中从外到里,第一圈为连锁群,条形长短表示连锁群遗传图距;第二圈为 SLAF 标记连锁群分布,区域内 SLAF 标记越多,颜色越深;第三圈偏分离标记连锁群分布,偏分离越多,颜色越深;第四圈是性状关联区域; 不同颜色的圆点表示不同的性状。不同颜色的曲线表示不同的性状,曲线的两端表示同一性状关联区域的关联。图 13 Circos 信息图28遗传遗图传谱图项谱目结题报告4 项目总结测序数据总结:本项目共获得 XXMreads(XX Gb)数据,测序平均 Q30为 XX%,平均 GC 含量为 XX%,样本 GC 分布正常。综上所述,数据量、

50、质量均达到合同要求。实验建库评估总结:Control 数据的双端比对效率为 XX%,酶切效率为XX%,SLAF 建库正常。总结:本项目通过 XX 进行酶切,选择基因组片段范围在 XX-XXbp 的SLAF片段,预期能够得到 XX 个 SLAF 标签,位于重复序列区的 SLAF 标签比例为XX%。多态性 SLAF 标签开发总结:本项目共获得 XX 个 SLAF 标签,其中多态性 SLAF 标签有 XX 个,共有 XX 个标签成功编码,去除 XX 型标签后,可以用于遗传图谱构建的标签有 XX 个,构建遗传图谱时亲本的有效多态性为 XX%。本项目共构建 XX 个连锁群的,上图 XX 个 Marker

51、,总图距为 XXcM,上图标记完整度为 XX%,发生双交换的比例为 XX%,亲本测序深度为 XXX,子代为 XXX。结合 XX 个连锁群的图谱和分型数据,以及 XX 个数量性状表型数据,进行数量性状 QTL 定位分析,XX 个性状用 MapQTL 获得了 XX 个性状关联区域。29遗传遗图传谱图项谱目结题报告5 数据查阅5.1 结果文件查看说明上传目录中有 Readme.txt 说明,详细介绍了每个文件所代表的内容。上传的结果数据文件多以文本格式为主(fa 文件、txt 文件、detail 文件、xls 文件等)。在 Windows 系统下查看文件,推荐使用 Editplus 或 UltraE

52、dit 作为文本浏览程序, 否则会因文件过大造成死机。在 Unix 或 Linux 系统下可以浏览较大的文本文件,用 Less 等操作命令可以顺利地查看。5.2SVG 文件格式的查看报告文件含有 SVG 格式的图片文件,SVG 是矢量化的图片文件,可以随意放大而不失真。要查看 SVG 格式的文件,请先安装 SVG 插件。30遗传遗图传谱图项谱目结题报告【参考文献】1.Sun X, Liu D, Zhang X, et al. SLAF-seq: an efficient method of large-scale De novo SNPdiscovery and genotyping using high-throughput sequencingJ. PloS ONE, 2013, 8(3): e58700.2.Liu D, Ma C, Hong W, Huang L, Liu M, et al. Construction and A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论