群体测序多组学数据汇交标准_第1页
群体测序多组学数据汇交标准_第2页
群体测序多组学数据汇交标准_第3页
群体测序多组学数据汇交标准_第4页
群体测序多组学数据汇交标准_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

群体测序多组学数据汇交标准范围本文件规定了医院及科研机构汇交基因组、转录组、表观组、蛋白质组、代谢组、宏基因组等群体多组学的原始数据,以及经规范化处理的初始结果文件的应用标准。本文件适用于医院及科研机构汇交基因组、转录组、表观组、蛋白质组、代谢组、宏基因组等群体多组学的原始数据和经规范化处理的初始结果文件,以及多组学数据信息的存储、管理、交换与共享。规范性引用文件下列文件中的内容通过本文件的规范性引用而成为本文件必不可少的条款。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T39908-2021科技计划形成的科学数据汇交通用代码集GB/T39909-2021科技计划形成的科学数据汇交通用数据元GB/T39912-2021科技计划形成的科学数据汇交技术与管理规范GB/T42751-2023\t"/search/stdPage?q=GB/_blank"信息技术生物特征识别高通量测序基因分型系统规范GB/T35890-2018高通量测序数据序列格式规范GB/T29859-2013生物信息学术语术语和定义下列术语及定义适用于本文件。原始测序数据Rawsequencingdata通过碱基calling获得的原始数据,是FASTQ文件。FASTQ格式FASTQformatFASTQ是基于文本的、保护生物序列(通常是核苷酸序列)和其测序质量信息的、每四行表示一条序列的标准格式。BAM格式BinaryAlignmentMapformatBAM文件是一个二进制格式的文件,用于存储DNA测序数据的比对信息。它通常包含测序读段与参考基因组的比对位置、质量得分等信息。BED格式BrowserExtensibleDataformatBED文件是一种文本文件格式,通常用于描述基因组中的区域,如基因的外显子、染色体上的特定功能区域等。VCF格式TheVariantCallformat一种基因组变异数据的描述记录格式。测序覆盖率Coverage测序总数据量除以测序基因组大小。1倍测序深度1X测序得到的碱基总量与基因组大小比值为1。20倍测序深度20X测序得到的碱基总量与基因组大小比值为20。Q20测序数据中,碱基识别质量值大于20的碱基占所有碱基的比例。注:碱基识别质量值为20时,表示碱基的正确率为99%以上,Q20≥95%,则表示测序数据中95%以上的碱基质量之大于20。Q30测序数据中,碱基识别质量值大于30的碱基占所有碱基的比例。注:碱基识别质量值为30时,表示碱基的正确率为99.9%以上,Q30≥85%,则表示测序数据中85%以上的碱基质量之大于30。平均读长Averagereadlength测序数据中所有序列的平均长度。一般以千碱基(kb)为单位,常见的读长有20kb、30kb、50kb、150kb等。中位数读长ReadsN50中位数读长是指将序列按照长度排序,从最长的序列开始加和,直到加和值占总长度50%的那个序列长度,该长度就是中位数读长,即N50读长。常见的N50读长有20kb、30kb、50kb、150kb等。测序数据量Sequencingdatavolume测序得到碱基总量,常见测序数据量有30G、45G、100G、1T等;或以测序芯片数计量,如一张芯片、五张芯片等。单核苷酸多态性SingleNucleotidePolymorphism;SNP在基因组水平,由单个核苷酸位点的变异(替代、插入或缺失)所引起的脱氧核糖核苷酸序列多态性。插入缺失突变Insertionanddeletion;Indel在基因组的某个位置上所发生的小片段序列的插入或者缺失,插入或缺失片段的长度在50bp以下。结构变异StructuralVariation在基因组上发生的大于50bp的大片段变异,包括片段缺失、重复、插入、倒位、易位。重复Duplication指基因组中存在两个或更多类似或相同的基因序列。这些重复可以发生在同一染色体上,也可以发生在不同染色体之间。倒位Invertion倒位指染色体上某一段序列发生了180度的颠倒。易位Translocation易位是一种染色体结构变异,指两个非同源染色体之间的段落相互交换位置。FAST5格式FAST5formatFAST5格式是纳米孔测序所使用的一种原始数据格式,其包含了每个单分子读取时产生的电信号信息。POD5格式POD5formatPOD5格式是纳米孔测序平台推出的最新测序仪的输出结果储存格式,用于存储读取的测量信号数据,以取代现有的FAST5格式。mzML文件mzMLformatmzML格式是标准化的开放质谱数据格式,该格式存储原始质谱数据和相关的元数据,包括质谱图、质谱峰和扫描参数等。可移动遗传元件ChromosomalMobilegeneticelements,cMGEs能够在DNA分子内部或之间移动的可移动基因元件,包括插入序列(IS)、转座子(Tn)、整合子(In)、质粒、噬菌体和整合接合元件(ICE)等。基因组组装Genomeassembly将序列测序产生的reads经过一定规则地拼接,最后生成基因组的全碱基序列。基因组组装可以分为从头组装(Denovogenomeassembly)和有参组装(Referencegenomeassembly)两种类型。叠连群Contigs不同的reads之间存在overlap交叠区,根据overlap区域将不同reads组装起来,形成更大的一个片段就被称为contig。分箱Binning宏基因组组装过程中得到的contigs是不同物种基因组序列的集合,将contigs按照不同物种分开归类的过程叫做分箱(Binning),分箱得到的每个物种的基因组序列被称为Bins。缩略词S—字符串类型(String)L—布尔类型(Boolean)N—数值类型(Number)D—日期类型(Date)T—时间类型(Time)DT—日期时间类型(Datetime)MD5—信息摘要算法(MD5Message-DigestAlgorithm)DNB—DNA纳米球(DNANanoball)DNA—脱氧核糖核酸(deoxyribonucleicacid)cDNA—互补脱氧核糖核酸(complementaryDNA)mRNA—信使核糖核酸(messengerRNA)SNP—单核苷酸多态性(SingleNucleotidePolymorphism)INDEL—插入缺失突变(Insertions/Delections)SV—基因组结构变异(StructuralVariants)5mC,m5C—5-甲基胞嘧啶(5-methylcytosine)LC-MS—液相色谱质谱联用(LiquidChromatography-MassSpectrometry)GC-MS—气相色谱质谱联用(GasChromatography-MassSpectrometry)MAG—宏基因组组装的基因组(metagenome-assembledgenomes)总体要求汇交原则及时完整群体多组学数据应在数据管理方规定期限内,遵循预定的规范流程,按时、完整汇交到数据管理方,确保数据汇交的及时性和完整性。真实可靠群体多组学数据应该按照实际产生的数据进行汇交,确保所汇交的数据质量,保证数据的真实性和可靠性。科学规范群体多组学数据应按照本标准和相关科学数据汇交要求的标准进行规范加工处理,确保汇交数据的可发现性、可获取性、互操作性和可重复利用性。汇交数据内容汇交数据应按照本标准规范加工处理,包括检测设备的原始下机数据、基于原始数据通过规范化加工处理获取的可进一步用于下游分析的数据,也可包含其它相关分析结果。二代基因组汇交数据范围二代基因组汇交数据包括高通量测序获取的原始FASTQ格式数据和经过规范化处理分析获得的变异数据(一般以VCF格式存储)。元数据描述样品、FASTQ数据、VCF数据获取过程的规范信息,数据文件描述信息等。(1)样品信息:在汇交时应整理准确的样品信息,包括样品编号、样品类型、样品采集部位、采集地点、采集时间等,同时应包括样本所属生物体的表型、年龄、性别、国籍、民族等重要特征信息(表头信息参考附录A.1)。(2)检测信息:在汇交时应整理样品检测的信息,如样品提取的实验平台信息,文库构建的试剂耗材、建库平台、文库构建策略、文库选择及测序仪型号等信息(表头信息参考附录A.2)。(3)FASTQ文件信息:宜汇交FASTQ文件编号,属于单末端测序还是双末端测序、FASTQ测序质控标准信息、接头含量等信息(表头信息参考附录A.3)。(4)规范化分析过程信息:宜提供规范化的分析过程信息,包括使用的分析软件,并提供软件的版本和必要参数。具体包含何软件对下机数据进行去除接头、低质量信息过滤等,及其版本、参数,例如使用SOAPnuke2.1.8默认参数,得到过滤后的FASTQ;使用何软件进行序列比对,及其版本、参数,在参数中应该注明比对时使用的参考基因组版本,例如使用BWA0.7.17默认参数,得到比对后的BAM文件;使用何软件进行变异检测分析,及其版本、参数,例如GATK3.7默认参数,得到变异检测结果VCF(如表1所示)。表1.基因组规范化分析过程元数据目录及值域表名称定义数据类型数据元允许值过滤软件名称信息分析过程中过滤软件名称。S自由文本过滤软件版本信息分析过程中过滤软件版本号。S自由文本过滤软件参数信息分析过程中过滤软件参数信息。S自由文本比对软件名称信息分析过程中比对软件名称。S自由文本比对软件版本信息分析过程中比对软件版本号。S自由文本比对软件参数信息分析过程中比对软件参数信息。S自由文本变异检测分析软件名称信息分析过程中变异检测分析软件名称。S自由文本变异检测分析软件版本信息分析过程中变异检测分析软件版本号。S自由文本变异检测分析软件参数信息分析过程中变异检测分析软件参数信息。S自由文本其他软件注明软件名称、版本、参数及功能。

S自由文本(5)VCF文件信息:应明确汇交的变异结果文件属于哪种变异,如单核苷酸多态性、短的插入/缺失或基因组结构变异等,可汇交简单且长度<=50bp的基因组变异,如SNP、INDEL,及长度>50bp的基因组结构变异,例如插入、缺失、重复、倒位易位、可移动元件等。变异结果文件包含变异位点信息,变异类型、长度、质量值、每个样本的基因型(纯合或杂合)等内容(如表2所示)。表2.VCF文件元数据目录及值域表名称定义数据类型数据元允许值VCF格式文件编号VCF格式文件唯一编号。S自由文本样本编号样本编号。S自由文本变异结果可汇交简单且长度<=50bp的基因组变异,如SNP、INDEL,及长度>50bp的基因组结构变异SV。S自由文本VCF文件版本储存变异信息的VCF文件版本。S自由文本VCF文件格式变异位点储存格式,一般包含:CHROM(染色体名称),POS(变异位点起始位置)、ID(变异位点编号)、REF(参考碱基/序列)、ALT(替代碱基/序列)、QUAL(变异位点质量)、FILTER(变异位点筛选结果)、INFO(附加信息)、FORMAT(样本信息储存格式),样本信息。S自由文本数据实体应汇交规定的元数据信息表、原始FASTQ文件、VCF文件,宜汇交BAM文件。二代转录组汇交数据范围二代转录组汇交数据包括高通量测序获取的FASTQ原始数据和和经过规范化分析得到的基因及转录本的表达矩阵文件。元数据描述样品、FASTQ数据、转录组数据分析结果获取的规范信息,数据文件描述信息等。(1)样品信息:在汇交时应整理准确的样品信息,包括样品编号、样品类型、样品采集部位、采集地点、采集时间等,同时应包括样本所属生物体的表型、年龄、性别、国籍、民族等重要特征信息(表头信息参考附录A.1)。(2)检测信息:在汇交时应整理样品检测的信息,如样品提取的实验平台信息,文库构建的试剂耗材、建库平台、文库构建策略、文库选择及测序仪型号等信息(表头信息参考附录A.2)。(3)FASTQ文件信息:宜汇交FASTQ文件编号,属于单末端测序还是双末端测序、FASTQ测序质控标准信息、接头含量等信息(表头信息参考附录A.3)。(4)规范化分析过程信息:宜提供规范化的分析过程信息,包括使用的分析软件,并提供软件的版本和必要参数。具体包含使用何软件对下机数据进行去除接头、低质量信息过滤等,及其版本、参数,例如使用SOAPnuke2.1.8默认参数,得到过滤后的FASTQ;使用何软件进行序列比对,及其版本、参数,在参数中应该注明比对时使用的参考基因组版本,例如使用STAR2.7.11a默认参数,得到比对后的BAM文件;使用何种软件对基因和转录本进行定量,及其版本、参数,例如使用Salmon1.4.0默认参数基于比对到参考转录本的得到的BAM文件进行定量,得到基因和转录本的表达矩阵(如表3所示)。(5)表达矩阵文件:宜汇交CSV格式的读数计数(Readcount)、RPKM、FPKM或TPM等描述基因和转录本表达水平的文件。第一列为基因名称,其他列名为样本名,矩阵值为表达丰度(如表4所示)。表3.转录组规范化分析过程元数据目录及值域表名称定义数据类型数据元允许值过滤软件名称信息分析过程中过滤软件名称。S自由文本过滤软件版本信息分析过程中过滤软件版本号。S自由文本过滤软件参数信息分析过程中过滤软件参数信息。S自由文本比对软件名称信息分析过程中比对软件名称。S自由文本比对软件版本信息分析过程中比对软件版本号。S自由文本比对软件参数信息分析过程中比对软件参数信息。S自由文本转录本定量软件名称信息分析过程中转录本定量软件名称。S自由文本转录本定量软件版本信息分析过程中转录本定量软件版本号。S自由文本转录本定量软件参数信息分析过程中转录本定量软件参数信息。S自由文本其他软件注明软件名称、版本、参数及功能。S自由文本表4.转录组表达矩阵文件元数据目录及值域表名称定义数据类型数据元允许值文件编号文件唯一编号。S自由文本样本编号样本编号。S自由文本表达矩阵文件格式CSV格式的Readcount、RPKM、FPKM、TPM或其他。S自由文本标准化方法对基因长度和测序深度进行校正的方法。S自由文本数据实体应汇交规定的元数据信息表、原始FASTQ文件,表达矩阵文件,宜汇交BAM文件、差异表达及富集分析结果等文件。二代表观组汇交数据范围二代表观组汇交数据包括高通量测序获取的FASTQ原始数据和经过规范化分析得到的位点甲基化BED文件。元数据描述样品、FASTQ数据、转录组数据分析结果获取的规范信息,数据文件描述信息等。(1)样品信息:在汇交时应整理准确的样品信息,包括样品编号、样品类型、样品采集部位、采集地点、采集时间等,同时应包括样本所属生物体的表型、年龄、性别、国籍、民族等重要特征信息(表头信息参考附录A.1)。(2)检测信息:在汇交时应整理样品检测的信息,如样品提取的实验平台信息,文库构建的试剂耗材、建库平台、文库构建策略、文库选择及测序仪型号等信息(表头信息参考附录A.2)。(3)FASTQ文件信息:宜汇交FASTQ文件编号,属于单末端测序还是双末端测序、FASTQ测序质控标准信息、接头含量等信息(表头信息参考附录A.3)。(4)规范化分析过程信息:宜提供规范化的分析过程信息,包括使用的分析软件,并提供软件的版本和必要参数。具体包含使用何软件对下机数据进行去除接头、低质量等信息过滤,及其版本、参数,例如使用SOAPnuke2.1.8默认参数,得到过滤后的FASTQ;使用何软件进行序列比对,及其版本、参数,在参数中应该注明比对时使用的参考基因组版本,例如使用BWA0.7.17默认参数,得到比对后的BAM文件;使用何软件提取甲基化信息,及其版本、参数,例如MethylDackel0.6.1默认参数,得到包含甲基化位置信息的结果BED(如表5所示)。表5.表观组规范化分析过程元数据目录及值域表名称定义数据类型数据元允许值过滤软件名称信息分析过程中过滤软件名称。S自由文本过滤软件版本信息分析过程中过滤软件版本号。S自由文本过滤软件参数信息分析过程中过滤软件参数信息。S自由文本比对软件名称信息分析过程中比对软件名称。S自由文本比对软件版本信息分析过程中比对软件版本号。S自由文本比对软件参数信息分析过程中比对软件参数信息。S自由文本甲基化分析软件名称信息分析过程中甲基化分析软件名称。S自由文本甲基化分析软件版本信息分析过程中甲基化分析软件版本号。S自由文本甲基化分析软件参数信息分析过程中甲基化分析软件参数信息。S自由文本其他软件注明软件名称、版本、参数及功能。

S自由文本(5)BED文件信息:应明确汇交的甲基化位置文件包含甲基化坐标、长度等内容(如表6所示)。表6.BED文件元数据目录及值域表名称定义数据类型数据元允许值BED格式文件编号BED格式文件唯一编号。S自由文本样本编号样本编号。S自由文本BED文件格式甲基化位置储存的格式,包括甲基化坐标、长度等。S自由文本数据实体应汇交规定的元数据信息表、原始FASTQ文件,甲基化位置信息BED文件,宜汇交BAM文件。二代宏基因组汇交数据范围二代宏基因组汇交数据包括高通量测序获取的FASTQ原始数据和群落物种功能组成分析结果数据。元数据描述样品、FASTQ数据、宏基因组数据分析结果获取的规范信息,数据文件描述信息等。(1)样品信息:在汇交时应整理准确的样品信息,包括样品编号、样品类型、样品采集部位、采集地点、采集时间等,同时应包括样本所属生物体的表型、年龄、性别、国籍、民族等重要特征信息(表头信息参考附录A.1)。(2)检测信息:在汇交时应整理样品检测的信息,如样品提取的实验平台信息,文库构建的试剂耗材、建库平台、文库构建策略、文库选择及测序仪型号等信息(表头信息参考附录A.2)。(3)FASTQ文件信息:宜汇交FASTQ文件编号,属于单末端测序还是双末端测序、FASTQ测序质控标准信息等信息(表头信息参考附录A.3)。规范化分析过程信息:宜提供规范化的分析过程信息,包括使用的分析软件,并提供软件的版本和必要参数。具体包含使用何软件对下机数据进行去除接头、低质量等信息过滤,及其版本、参数,例如使用fastpv0.23.4默认参数,得到过滤后的FASTQ。使用何种软件进行去除宿主序列,及其版本、参数,例如BWA0.7.17-r1188,设置默认参数,得到去除宿主后的FASTQ文件。如果对数据进行组装、分箱,请提供组装、分箱分析过程中所涉及的软件、版本与参数;如果未进行组装,请提供使用何种软件进行宏基因组群落分析,及其版本、参数,例如使用MetaPhAn4/HUMAnN3,得到微生物物种和功能组成丰度表(如表7所示)。表7.宏基因组规范化分析过程元数据目录及值域表名称定义数据类型数据元允许值过滤软件名称信息分析过程中所使用过滤软件名称。S自由文本过滤软件版本信息分析过程中所使用过滤软件版本信息。S自由文本过滤软件参数信息分析过程中所使用过滤软件的参数信息。S自由文本去宿主污染软件名称信息分析过程中所使用去宿主污染软件名称。S自由文本去宿主污染软件版本信息分析过程中所使用去宿主污染软件版本信息。S自由文本去宿主污染软件参数信息分析过程中所使用去宿主污染软件的参数信息。S自由文本组装软件名称信息分析过程中所使用组装软件名称。S自由文本组装软件版本信息分析过程中所使用组装软件版本信息。S自由文本组装软件参数信息分析过程中所使用组装软件的参数信息。S自由文本分箱软件名称信息分析过程中所使用分箱软件名称。S自由文本分箱软件版本信息分析过程中所使用分箱软件版本信息。S自由文本分箱软件参数信息分析过程中所使用分箱软件的参数信息。S自由文本物种注释软件名称信息分析过程中所使用物种注释软件名称。S自由文本物种注释软件版本信息分析过程中所使用物种注释软件版本信息。S自由文本物种注释软件参数信息分析过程中所使用物种注释软件的参数信息。S自由文本基因功能注释软件名称信息分析过程中所使用基因功能注释软件名称。S自由文本基因功能注释软件版本信息分析过程中所使用基因功能注释软件版本信息。S自由文本基因功能注释软件参数信息分析过程中所使用基因功能注释软件的参数信息。S自由文本其他软件注明软件名称、版本、参数及功能。S自由文本(5)物种和功能组成表:包括群落物种注释丰度表,群落功能注释丰度表等(如表8所示)。表8.物种和功能组成表元数据目录及值域表名称定义数据类型数据元允许值文件编号文件唯一编号。S自由文本样本编号样本编号。S自由文本物种分类单元微生物所注释到的分类单元,如科、属、种等。S自由文本功能分类单元基因所注释到的功能分类单元,如KEGGORTHOLOGY(KO),GeneOntology(GO)等。S自由文本功能注释使用的数据库KEGG、GO等。S自由文本数据实体应汇交交规定的元数据信息表、原始FASTQ文件、去除宿主污染后的FASTQ文件、物种组成分析、功能组成分析文件等。三代基因组汇交数据范围三代基因组汇交数据包括Oxford

Nanopore测序和BaseCalling获得的FASTQ原始数据、PacBio高通量测序BAM原始数据和经过规范化分析的VCF变异数据。元数据描述样品、POD5/Fast5数据、FASTQ数据、VCF数据获取过程的规范信息,数据文件描述信息等。(1)样品信息:在汇交时应整理准确的样品信息,包括样品编号、样品类型、样品采集部位、采集地点、采集时间等,同时应包括样本所属生物体的表型、年龄、性别、国籍、民族等重要特征信息(表头信息参考附录A.1)。(2)检测信息:在汇交时应整理样品检测的信息,如样品提取的实验平台信息,文库构建的试剂耗材、建库平台、文库构建策略、文库选择及测序仪型号等信息(表头信息参考附录A.2)。(3)POD5/Fast5文件信息:宜汇交POD5/Fast5相关的测序信息。包括项目编号、文件编号、样本编号和测序平台等(如表9所示)。表9.POD5/Fast5文件元数据及值域表贴名称定义数据类型数据元允许值项目编号项目唯一编号。S自由文本文件编号文件唯一编号。S自由文本样本编号样本编号。S自由文本测序平台测序平台名称。S自由文本basecalling策略basecalling速度及准确度,分为:快速(Fast)、高精度(HAC)和超高精度(SUP)。SFast/HAC/SUP(4)FASTQ/BAM文件信息:宜汇交FASTQ/BAM相关的测序类型、测序长度、N50长度、原始碱基数、质控数据等信息(表头信息参考附录A.4)。(5)规范化分析过程信息:宜提供规范化的分析过程信息,包括使用的分析软件,并提供软件的版本和必要参数。具体包含使用软件对下机数据进行去除接头、低质量等信息过滤,及其版本、参数,例如使用Guppy6.5.7/Doradov0.4.3,默认参数,得到过滤后的FASTQ;或使用lima2.7.2,设置去除接头参数,得到过滤后的BAM文件。使用何种软件进行序列比对,及其版本、参数,在参数中应该注明比对时使用的参考基因组版本,例如使用minimap22.22,设置适配平台数据参数,得到比对后的BAM文件;或使用pbmm21.10.0,默认参数,得到比对后的BAM文件。使用何软件进行变异检测分析,及其版本、参数,例如Sniffles1.0.12\CuteSV2.0.1,设置适配平台数据参数,得到变异检测结果VCF(如表10所示)。表10.三代基因组规范化分析过程元数据及值域表名称定义数据类型数据元允许值碱基识别软件名称信息分析过程中识别碱基序列软件名称。S自由文本碱基识别软件版本信息分析过程中识别碱基序列软件版本号。S自由文本碱基识别软件参数信息分析过程中识别碱基序列软件参数信息。S自由文本样本拆分软件名称信息分析过程中样本拆分软件名称。S自由文本样本拆分软件版本信息分析过程中样本拆分软件版本号。S自由文本样本拆分软件参数信息分析过程中样本拆分软件参数信息。S自由文本过滤软件名称信息分析过程中过滤软件名称。S自由文本过滤软件版本信息分析过程中过滤软件版本号。S自由文本过滤软件参数信息分析过程中过滤软件参数信息。S自由文本比对软件名称信息分析过程中比对软件名称。S自由文本比对软件版本信息分析过程中比对软件版本号。S自由文本比对软件参数信息分析过程中比对软件参数信息。S自由文本变异检测分析软件名称信息分析过程中变异检测分析软件名称。S自由文本变异检测分析软件版本信息分析过程中变异检测分析软件版本号。S自由文本变异检测分析软件参数信息分析过程中变异检测分析软件参数信息。S自由文本其他软件注明软件名称、版本、参数及功能。

S自由文本(6)VCF文件信息:应明确汇交的变异结果文件属于哪种变异,变异结果文件包含变异位点信息,变异类型、长度、质量值、每个样本的基因型(纯合或杂合)等内容(如表2所示)。

数据实体应汇交规定的元数据信息表、原始FASTQ/BAM文件、VCF文件,宜汇交比对结果的BAM文件。三代转录组汇交数据范围三代基因组汇交数据包括Oxford

Nanopore测序和BaseCalling获得的FASTQ原始数据、PacBio高通量测序BAM原始数据和经过规范化分析获得的基因及转录本表达矩阵。元数据描述样品、POD5/Fast5数据、FASTQ数据、VCF数据获取过程的规范信息,数据文件描述信息等。(1)样品信息:在汇交时应整理准确的样品信息,包括样品编号、样品类型、样品采集部位、采集地点、采集时间等,同时应包括样本所属生物体的表型、年龄、性别、国籍、民族等重要特征信息(表头信息参考附录A.1)。(2)检测信息:在汇交时应整理样品检测的信息,如样品提取的实验平台信息,文库构建的试剂耗材、建库平台、文库构建策略、文库选择及测序仪型号等信息(表头信息参考附录A.2)。(3)POD5/Fast5文件信息:宜汇交POD5/Fast5相关的测序信息。包括项目编号、文件编号、样本编号和测序平台等(如表9所示)。(4)FASTQ/BAM文件信息:宜汇交FASTQ/BAM相关的测序类型、测序长度、N50长度、原始碱基数、质控数据等信息(表头信息参考附录A.4)。(5)规范化分析过程信息:宜提供规范化的分析过程信息,包括使用的分析软件,并提供软件的版本和必要参数。具体包含使用何种软件对下机数据进行去除接头、低质量等信息过滤,及其版本、参数,例如使用Guppy6.5.7/Doradov0.4.3,默认参数,得到碱基识别后的FASTQ文件再使用nanofilt2.5过滤平均质量低reads或使smartlink6.0.0默认参数得到高质量的hifireads的BAM文件;使用何种软件识别全长转录本,及其版本、参数,例如使用pychopper2.5设置默认参数得到全长reads的FASTQ文件或使用iso-seq(lima,refine)4.0.0默认参数得到全长reads的FASTQ文件;使用何种软件将数据与参考基因组进行比对,及其版本、参数,在参数中应该注明比对时使用的参考基因组版本,例如使用minimap22.17设置适配平台数据参数得到比对后的BAM文件或使用hisat2.1.0默认参数比对到参考基因组得到比对后的BAM文件;使用何种软件对基因和转录本进行定量,及其版本、参数,例如使用Salmon1.4.0默认参数基于比对到参考转录本的得到的BAM文件进行定量,得到基因和转录本的表达矩阵或使用二代数据用stringtie2.14默认参数定量(如表11所示)。表11.三代转录组规范化分析过程元数据目录及值域表名称定义数据类型数据元允许值碱基识别软件名称信息分析过程中碱基识别软件名称。S自由文本碱基识别软件版本信息分析过程中碱基识别软件版本号。S自由文本碱基识别软件参数信息分析过程中碱基识别软件参数信息。S自由文本数据质控软件名称信息分析过程中数据质控软件名称。S自由文本数据质控软件版本信息分析过程中数据质控软件版本号。S自由文本数据质控软件参数信息分析过程中数据质控软件参数信息。S自由文本比对软件名称信息分析过程中比对软件名称。S自由文本比对软件版本信息分析过程中比对软件版本号。S自由文本比对软件参数信息分析过程中比对软件参数信息。S自由文本转录本定量软件名称信息分析过程中转录本定量软件名称。S自由文本转录本定量软件版本信息分析过程中转录本定量软件版本号。S自由文本转录本定量软件参数信息分析过程中转录本定量软件参数信息。S自由文本其他软件注明软件名称、版本、参数及功能。S自由文本(6)表达矩阵文件:应汇交基因及转录本的表达矩阵的CSV文件(如表12所示)。表12.基因及转录本的表达矩阵文件元数据目录及值域表名称定义数据类型数据元允许值文件编号文件唯一编号。S自由文本样本编号样本编号。S自由文本表达矩阵文件格式Read

count、RPG10K、RPT10K或其他。S自由文本标准化方法对基因测序深度进行校正的方法。S自由文本数据实体应汇交元数据信息表,原始FASTQ/BAM文件,基因及转录本的表达矩阵,宜汇交比对结果的BAM文件及其他分析结果。三代表观组汇交数据范围三代表观组汇交数据包括Oxford

Nanopore测序获取的Fast5/POD5原始数据、甲基化BaseCalling、及经过规范化分析的甲基化位置区域BED文件、PacBio高通量测序获取的BAM原始数据和经过规范化分析的甲基化位置区域BED文件。元数据描述样品、POD5/Fast5数据、FASTQ/BAM数据、BED文件获取的规范信息,数据文件描述信息等。(1)样品信息:在汇交时应整理准确的样品信息,包括样品编号、样品类型、样品采集部位、采集地点、采集时间等,同时应包括样本所属生物体的表型、年龄、性别、国籍、民族等重要特征信息(表头信息参考附录A.1)。(2)检测信息:在汇交时应整理样品检测的信息,如样品提取的实验平台信息,文库构建的试剂耗材、建库平台、文库构建策略、文库选择及测序仪型号等信息(表头信息参考附录A.2)。(3)POD5/Fast5文件信息:宜汇交POD5/Fast5相关的测序信息。包括项目编号、文件编号、样本编号和测序平台等(如表9所示)。(4)FASTQ/BAM文件信息:宜汇交FASTQ/BAM相关的测序类型、测序长度、N50长度、原始碱基数、质控数据等信息(表头信息参考附录A.4)。(5)规范化分析过程信息:宜提供规范化的分析过程信息,包括使用的分析软件,并提供软件的版本和必要参数。具体包含使用软件对下机数据进行去除接头、低质量等信息过滤,及其版本、参数,例如使用Dorado0.3.4/Doradov0.4.3,默认参数,得到过滤后的甲基化BAM;或使用SMRTlink12,得到过滤后的含5mc的BAM文件。使用何种软件进行序列比对,及其版本、参数,在参数中应该注明比对时使用的参考基因组版本,例如使用minimap22.22,设置适配平台数据参数,得到比对后的BAM文件;或使用pbmm21.10.0,默认参数,得到比对后的BAM文件。使用何软件进行表观分析,及其版本、参数,例如使用modkit0.2.2,默认参数,得到包含甲基化位置信息的结果BED或使用pb-CpG-tools2.3.2,默认参数,包含甲基化位置信息的结果BED(如表13所示)。表13.表观组规范化分析过程元数据目录及值域表名称定义数据类型数据元允许值碱基识别软件名称信息分析过程中识别碱基序列软件名称。S自由文本碱基识别软件版本信息分析过程中识别碱基序列软件版本号。S自由文本碱基识别软件参数信息分析过程中识别碱基序列软件参数信息。S自由文本样本拆分软件名称信息分析过程中样本拆分软件名称。S自由文本样本拆分软件版本信息分析过程中样本拆分软件版本号。S自由文本样本拆分软件参数信息分析过程中样本拆分软件参数信息。S自由文本过滤软件名称信息分析过程中过滤软件名称。S自由文本过滤软件版本信息分析过程中过滤软件版本号。S自由文本过滤软件参数信息分析过程中过滤软件参数信息。S自由文本比对软件名称信息分析过程中比对软件名称。S自由文本比对软件版本信息分析过程中比对软件版本号。S自由文本比对软件参数信息分析过程中比对软件参数信息。S自由文本甲基化分析软件名称信息分析过程中甲基化分析软件名称。S自由文本甲基化分析软件版本信息分析过程中甲基化分析软件版本号。S自由文本甲基化分析软件参数信息分析过程中甲基化分析软件参数信息。S自由文本其他软件注明软件名称、版本、参数及功能。S自由文本

(6)BED文件信息:应明确汇交的甲基化位置文件包含甲基化坐标、长度等内容(如表6所示)。

数据实体应汇交规定的元数据信息表、原始FASTQ/BAM文件,甲基化位置信息BED文件,宜汇交比对结果的BAM文件。三代宏基因组汇交数据范围三代宏基因组汇交数据包括Oxford

Nanopore测序获取的Fast5原始数据和BaseCalling获得FASTQ原始数据、PacBio高通量测序BAM原始数据和经过规范化分析的统计学数据。元数据描述样品、Fast5/POD5、FASTQ、BAM、统计学数据获取的规范信息,数据文件描述信息等。(1)样品信息:在汇交时应整理准确的样品信息,包括样品编号、样品类型、样品采集部位、采集地点、采集时间等,同时应包括样本所属生物体的表型、年龄、性别、国籍、民族等重要特征信息(表头信息参考附录A.1)。(2)检测信息:在汇交时应整理样品检测的信息,如样品提取的实验平台信息,文库构建的试剂耗材、建库平台、文库构建策略、文库选择及测序仪型号等信息(表头信息参考附录A.2)。(3)POD5/Fast5文件信息:宜汇交POD5/Fast5相关的测序信息。包括项目编号、文件编号、样本编号和测序平台等(如表9所示)。(4)FASTQ/BAM文件信息:宜汇交FASTQ/BAM相关的测序类型、测序长度、N50长度、原始碱基数、质控数据等信息(表头信息参考附录A.4)。(5)规范化分析过程信息:宜提供规范化的分析过程信息,包括使用的分析软件,并提供软件的版本和必要参数。具体包含使用何种软件对下机数据进行碱基识别和低质量数据过滤,及其版本、参数,例如使用Guppy6.5.7/Doradov0.4.3,默认参数,得到碱基识别和过滤后的FASTQ文件;或使用CCSv3.4.1软件过滤掉低质量的reads,生成高质量的HiFireads的BAM文件。使用何种软件进行样本拆分和去除接头序列,及其版本参数。例如使用lima2.7.2,进行样本拆分,设置去除接头参数,得到去接头后的样本的BAM文件。例如使用ont-guppy-barcoder软件进行样本拆分和去除接头序列,得到去除接头后的样本的FASTQ文件。使用何种软件进行去除宿主序列,及其版本、参数,例如使用minimap22.22,设置默认参数,与宿主基因组进行比对。使用samtoolsv1.4去除宿主污染序列,得到去除宿主后的FASTQ文件;使用何种软件进行数据组装,及其版本、参数,例如meta-flyev2.9.2组装,Nextpolish1v1.4.1进行基因组校正,设置适配数据参数,得到组装后FASTA;或使用hifiasm_meta0.3组装,默认参数,得到组装后的Contigs.fasta。使用何种软件进行宏基因组MAGs(宏基因组组装的基因组)分析,及版本、参数,例如使用metaMARPv1.3.2,默认参数,得到分箱处理的MAGs.fasta文件。使用何种软件进行宏基因组群落物种注释和功能注释,及其版本参数,得到群落物种分类丰度表,功能分类丰度表等(如表14所示)。表14.三代宏基因组规范化分析过程元数据目录及值域表名称定义数据类型数据元允许值碱基识别和低质量数据过滤软件名称信息分析过程中识别碱基序列并过滤低质量数据软件名称。S自由文本碱基识别和低质量数据过滤软件版本信息分析过程中识别碱基序列并过滤低质量数据软件版本号。S自由文本碱基识别和低质量数据过滤软件参数信息分析过程中识别碱基序列并过滤低质量数据软件参数信息。S自由文本样本拆分和去接头软件名称信息分析过程中样本拆分和去接头软件名称。S自由文本样本拆分和去接头软件版本信息分析过程中样本拆分和去接头软件版本号。S自由文本样本拆分和去接头软件参数信息分析过程中样本拆分和去接头软件参数信息。S自由文本去宿主污染软件名称

信息分析过程中所使用比对软件名称。

S自由文本去宿主污染软件版本

信息分析过程中所使用比对软件版本信息。

S自由文本去宿主污染软件参数

信息分析过程中所使用比对软件的参数信息。

S自由文本组装软件名称信息分析过程中所使用的基因组组装软件名称。S自由文本组装软件版本信息分析过程中所使用的基因组组装软件版本信息。S自由文本组装软件参数信息分析过程中所使用的基因组组装软件参数信息。S自由文本分箱软件名称信息分析过程中所使用的基因组分箱软件名称。S自由文本分箱软件版本信息分析过程中所使用的基因组分箱软件版本信息。S自由文本分箱软件参数信息分析过程中所使用的基因组分箱软件参数信息。S自由文本物种注释软件名称

信息分析过程中所使用物种注释软件名称。

S自由文本物种注释软件版本

信息分析过程中所使用物种注释软件版本信息。

S自由文本物种注释软件参数

信息分析过程中所使用物种注释软件的参数信息。

S自由文本基因功能注释软件名称

信息分析过程中所使用基因功能注释软件名称。

S自由文本基因功能注释软件版本

信息分析过程中所使用基因功能注释软件版本信息。

S自由文本基因功能注释软件参数

信息分析过程中所使用基因功能注释软件的参数信息。

S自由文本其他软件注明软件名称、版本、参数及功能。

S自由文本(6)物种和功能组成表:包括群落物种注释丰度表,群落功能注释丰度表等(如表8所示)。数据实体应汇交规定的元数据信息表、原始FASTQ文件、去除宿主污染后的FASTQ文件、物种组成分析、功能组成分析文件等。蛋白质组汇交数据范围蛋白质组汇交数据包括原始质谱数据mzML文件和分析结果数据。元数据描述样品、质谱数据、蛋白组数据分析结果获取的规范信息,数据文件描述信息等。(1)样品信息:在汇交时应整理准确的样品信息,包括样品编号、样品类型、样品采集部位、采集地点、采集时间等,同时应包括样本所属生物体的表型、年龄、性别、国籍、民族等重要特征信息(表头信息参考附录A.1)。(2)检测信息:在汇交时应整理样品检测的信息,如样品提取的实验平台信息、实验参数、及质谱仪型号等信息(如表15所示)。表15.蛋白组检测信息元数据目录及值域表名称定义数据类型数据元允许值样品提取的实验平台信息用于从生物样品中提取或浓缩蛋白的具体实验室、方法和设备等。S自由文本质谱实验参数描述蛋白质质谱实验的离子化的方法如电喷雾(ESI)、大气压化学电离(APCI)等,以及质谱仪的操作参数,如离子源电压、碰撞能量等。S自由文本质谱仪名称与型号质谱平台的名称与型号。S附录B.3质谱仪名称与型号(3)原始质谱数据:宜汇交mzML的原始质谱格式,mzML格式是标准化的开放质谱数据格式,具有良好的跨平台兼容性和可扩展性。该格式存储原始质谱数据和相关的元数据,包括质谱图、质谱峰和扫描参数等。其他原始质谱数据(如.RAW或.WIFF)应转换为开放的mzML格式,可由ProteoWizard软件进行格式转换(如表16所示)。表16.mzML文件元数据目录及值域表名称定义数据类型数据元允许值文件编号文件唯一编号。S自由文本样本编号样本编号。S自由文本质谱数据格式宜汇交mzML的原始质谱格式。S自由文本数据来源质谱数据获得的来源。如果是其他原始质谱格式格式转换的,需描述格式转换的软件和版本。S自由文本(4)规范化分析过程信息:宜提供规范化的分析过程信息,包括使用的分析软件,并提供软件的版本和必要参数。具体包含蛋白定量、鉴定、预处理(过滤、缺失值填充、标准化等)等过程(如表17所示)。表17.质谱数据规范化分析过程元数据目录及值域表名称定义数据类型数据元允许值定量软件名称信息分析过程中定量软件名称。S自由文本定量软件版本信息分析过程中定量软件版本号。S自由文本定量软件参数信息分析过程中定量软件参数信息。S自由文本鉴定软件名称信息分析过程中鉴定软件名称。S自由文本鉴定软件版本信息分析过程中鉴定软件版本号。S自由文本鉴定软件参数信息分析过程中鉴定软件参数信息。S自由文本数据标准化分析名称信息分析过程中标准化分析软件名称。S自由文本数据标准化分析版本信息分析过程中标准化分析软件版本号。S自由文本数据标准化分析参数信息分析过程中标准化分析软件参数信息。S自由文本(5)蛋白表达丰度矩阵:宜提供CSV格式规范化的蛋白表达丰度矩阵,第一列为蛋白名称,其他列名为样本名,矩阵值为蛋白表达丰度(如表18所示)。表18.蛋白表达矩阵文件元数据目录及值域表名称定义数据类型数据元允许值文件编号文件唯一编号。S自由文本样本编号样本编号。S自由文本表达矩阵文件宜提供CSV格式规范化的蛋白表达丰度矩阵,第一列为蛋白名称,其他列名为样本名,矩阵值为蛋白表达丰度。S自由文本标准化方法比如总体标准化、中位数标准化、样品间标准化等。S自由文本数据实体应汇交规定的元数据信息表、mzML文件,蛋白表达丰度矩阵CSV文件,宜汇交蛋白表达谱文件、差异表达及富集分析结果等文件。代谢组汇交数据范围代谢组汇交数据包括原始质谱数据mzML文件和分析结果数据。元数据描述样品、质谱数据、代谢组数据分析结果获取的规范信息,数据文件描述信息等(1)样品信息:在汇交时应整理准确的样品信息,包括样品编号、样品类型、样品采集部位、采集地点、采集时间等,同时应包括样本所属生物体的表型、年龄、性别、国籍、民族等重要特征信息(表头信息参考附录A.1)。(2)检测信息:在汇交时应整理样品检测的信息,如样品提取的实验平台信息、实验参数、及质谱仪型号等信息(如表19所示)。表19.代谢组检测信息元数据目录及值域表名称定义数据类型数据元允许值样品提取的实验平台信息用于从生物样品中提取代谢物的具体实验室、方法和设备等。S自由文本质谱实验参数描述代谢质谱实验的离子化的方法如离子化的方法,如电喷雾(ESI)、化学电离(CI)等等,以及质谱仪的操作参数,如离子源电压、碰撞能量等。S自由文本质谱仪名称与型号质谱平台的名称与型号。S附录B.3质谱仪名称与型号(3)原始质谱数据:宜汇交mzML的原始质谱格式,mzML格式是标准化的开放质谱数据格式,具有良好的跨平台兼容性和可扩展性。该格式存储原始质谱数据和相关的元数据,包括质谱图、质谱峰和扫描参数等。其他原始质谱数据(如.RAW或.WIFF)应转换为开放的mzML格式,可由ProteoWizard软件进行格式转换(如表16所示)。(4)规范化分析过程信息:宜提供规范化的分析过程信息,包括使用的分析软件,并提供软件的版本和必要参数。具体包含代谢物定量、鉴定、预处理(过滤、缺失值填充、标准化等)等过程(如表17所示)。(5)代谢物丰度矩阵:宜提供CSV格式规范化的代谢物丰度矩阵,第一列为代谢物名称,其他列名为样本名,矩阵值为代谢物丰度(如表20所示)。表20.代谢物丰度矩阵文件元数据目录及值域表名称定义数据类型数据元允许值文件编号文件唯一编号。S自由文本样本编号样本编号。S自由文本丰度矩阵文件代谢物丰度矩阵文件,第一列为代谢物名称,其他列名为样本名,矩阵值为代谢物丰度。S自由文本标准化方法比如总体标准化、中位数标准化、样品间标准化等。S自由文本数据实体应汇交规定的元数据信息表、mzML文件,代谢物丰度矩阵CSV文件,宜汇交差异代谢物及富集分析结果等文件。附录A(规范性)元数据目录表A.1样品元数据目录及值域表名称定义数据类型数据元允许值样品编号用于在同一批次中唯一地标识一个特定的样品。S自由文本样品名称描述或标识样品的名称S自由文本样品类型用于描述样品的性质等重要的特征。在本标准中主要用于描述人体样本的不同类型,可以包括但不限于细胞、组织、血液、血清、尿液、粪便样本等。S自由文本样品采集部位用于定义从人体获取样本的具体位置或部位。S自由文本样品采集时间用于定义从人体获取样本的具体时间D自由文本人体表型用于描述样本所属生物体的表型,如疾病状态等S自由文本人体年龄用于描述样本所属生物体的年龄N正整数人体性别用于描述样本所属生物体的性别S男或女人体国籍/民族用于描述样本所属生物体的国籍与民族信息S自由文本采集地点描述样本采集时所处的地点环境信息等,包括但不限于平原、高原、海洋、高寒、高热等。S自由文本其他其他需要补充的描述样品的重要特征S自由文本表A.2检测信息元数据目录及值域表名称定义数据类型数据元允许值样品提取的实验平台信息用于从生物样品中提取核酸(DNA或RNA)的具体实验室、方法和设备等S自由文本文库构建策略文库构建策略说明了文库的测序技术。S附录B.1文库构建策略表文库构建的试剂耗材构建文库过程中主要使用的酶制剂,缓冲液、引物等试剂与耗材S自由文本文库构建平台构建文库的技术平台S自由文本测序仪名称与型号测序平台的名称与型号S附录B.2测序仪名称与型号文库设置文库设置说明。S单末端或双末端测序表A.3二代基因组、转录组、表观组FASTQ文件元数据目录及值域表名称定义数据类型数据元允许值FASTQ格式文件编号FASTQ格式文件唯一编号S自由文本样本编号样本编号S自由文本样品浓度样本的浓度值,计量单位为ng/μLN自由文本样品总量样本的总重量,计量单位为μLN自由文本测序策略描述单末端测序还是双末端测序S单末端或双末端测序总数据量总数据量N自由文本平均读长测序获得序列长度的平均值N自由文本测序深度测序得到的碱基总量与基因组大小的比值,它是评价测序量的指标之一N自由文本测序数据量样本本次测序的数据量,计量单位为GbN自由文本唯一下机序列的比对率唯一下机序列的比对率N自由文本插入片段大小插入片段的大小N自由文本参考基因组的比对率与参考基因组的比对率N自由文本重复率重复下机序列占所有下机序列的比率。重复下机序列指序列一样并且比对到基因组相同位置的下机序列N自由文本错配率错配率N自由文本基因测序覆盖率覆盖率,指检测到的该基因核酸序列长度占该基因组序列长度的百分比N自由文本1X测序的覆盖率测序深度大于或等于1X的碱基占被测碱基的比率N自由文本4X测序的覆盖率测序深度大于或等于4X的碱基占被测碱基的比率N自由文本20X测序的覆盖率测序深度大于或等于20X的碱基占被测碱基的比率N自由文本总体Q20值测序数据中,碱基识别质量值大于20的碱基占所有碱基的比例注:碱基识别质量值为20时,表示碱基的正确率为99%以上,Q20≥95%,则表示测序数据中95%以上的碱基质量值大于20。N自由文本总体Q30值测序数据中,碱基识别质量值大于30的碱基占所有碱基的比例注:碱基识别质量值为30时,表示碱基的正确率为99.9%以上,Q30≥85%,则表示测序数据中85%以上的碱基质量值大于30。N自由文本下机序列1的Q20值表示下机序列1的质量值大于20的碱基所占百分比N自由文本下机序列2的Q20值表示下机序列2的质量值大于20的碱基所占百分比N自由文本下机序列1的Q30值表示下机序列1的质量值大于30的碱基所占百分比N自由文本下机序列2的Q30值表示下机序列2的质量值大于30的碱基所占百分比N自由文本过滤数据量过滤数据量N自由文本过滤数据率过滤数据率N自由文本过滤后数据量过滤后数据量N自由文本过滤后下机序列数目过滤后的总下机序列数目N自由文本比对率比对到参考基因组的下机序列百分比N自由文本唯一比对率唯一比对的下机序列百分比N自由文本接头序列百分比下机序列中接头序列碱基数占总碱基数百分比N自由文本含N序列百分比下机序列中不确定碱基的“N”的数量占总碱基数量的百分比N自由文本表A.4.1三代(ONT)基因组、转录组、表观组FASTQ文件元数据目录及值域表名称定义数据类型数据元允许值文件编号文件唯一编号S自由文本样本编号样本编号S自由文本物种类型描述物种类型S自由文本物种名称描述物种名称S自由文本组织部位描述采样组织部位S自由文本样品类型样品类型,DNA样本/RNA样本S自由文本样品浓度样本的浓度值,计量单位为

ng/μLN自由文本样品总量样本的总重量,计量单位为μLN自由文本测序平台描述使用的测序平台S自由文本质控模式描述进行碱基识别(Basecalling)时使用的质控模式S自由文本下机数据量原始下机数据产出的总碱基bases数目N自由文本下机reads数原始下机数据产出的总reads数目N自由文本质控后数据量质控合格的总碱基bases数目N自由文本质控后reads数质控合格的总reads数目N自由文本Bases数比率质控合格的bases数占原始下机产出bases数比例N自由文本Reads数比率质控合格的reads数占原始下机产出reads数的比例N自由文本Passedreads平均长度质控后reads的平均长度N自由文本PassedreadsN50长度质控后reads的N50长度N自由文本Passedreads最长长度质控后reads最长长度N自由文本表A.4.2

三代(PacBio)基因组、宏基因组、表观组FASTQ文件元数据目录及值域表

名称定义数据类型数据元允许值文件编号文件唯一编号S自由文本样本编号样本编号S自由文本物种类型描述物种类型S自由文本物种名称描述物种名称S自由文本组织部位描述采样组织部位S自由文本样品类型样品类型,DNA样本/RNA样本S自由文本样品浓度样本的浓度值,计量单位为

ng/μLN自由文本样品总量样本的总重量,计量单位为μLN自由文本测序平台描述使用的测序平台S自由文本下机数据量原始下机数据产出的总碱基bases数目N自由文本下机reads数原始下机数据产出的总reads数目N自由文本质控后数据量质控合格的总碱基bases数目N自由文本质控后reads数质控合格的总reads数目N自由文本Bases数比率质控合格的bases数占原始下机产出bases数比例N自由文本Reads数比率质控合格的reads数占原始下机产出reads数的比例N自由文本HiFireads平均长度质控后reads的平均长度N自由文本HiFireadsN50长度质控后reads的N50长度N自由文本HiFi最长reads长度质控后reads最长长度N自由文本总体Q20值测序数据中,碱基识别质量值大于20的碱基占所有碱基的比例注:碱基识别质量值为20时,表示碱基的正确率为99%以上,Q20≥95%,则表示测序数据中95%以上的碱基质量值大于20。N自由文本总体Q30值测序数据中,碱基识别质量值大于30的碱基占所有碱基的比例注:碱基识别质量值为30时,表示碱基的正确率为99.9%以上,Q30≥85%,则表示测序数据中85%以上的碱基质量值大于30。N自由文本

附录B元数据值域表表B.1文库构建策略表类型代码文库构建策略备注二代1WGA非pcr扩增的全基因组的随机测序101AMPLICON重叠或不同的PCR或RT-PCR产物测序102CLONEEND克隆末端(5'、3'或两端)测序103FINISHING在现有的覆盖度下以补空为目的测序104ChIP-Seq染色质免疫沉淀物的直接测序105MNase-SeqMNase消化后的直接测序106DNase-Hypersensitivity对超敏位点或用DNaseI更容易切割的开放染色质片段的测序107Bisulfite-Seq用亚硫酸氢盐将DNA的非甲基化胞嘧啶残基转化为尿嘧啶后的测序108ESTcDNA模板的单次测序109FL-cDNAcDNA模板的全长测序110CTS级联标签测序2WGS全基因组的随机测序201MRE-Seq甲基化敏感性限制性酶测序策略202MeDIP-Seq甲基化DNA免疫沉淀测序策略203MBD-Seq甲基化片段的直接测序策略204Synthetic-Long-Read对大的DNA片段进行合并和条形码标记以利于片段的组装205ssRNA-seq链特异性转录组测序206ncRNA-seqRNAsnRNA(RNA)soNA(RAsRA(RA)或piN/iiRA(与pwiRA207Hi-C染色体构象捕获技术将生物素标记的核苷酸结合在接头处,能够进行嵌合DNA连接点的选择性纯化,然后进行深度测序208ATAC-seq转座酶可接近性核染色质测序策略Tn5DNADNA基因组DNA中,是DNase-seq的替代方法209RAD-Seq限制性位点相关的DNA序列210VALIDATION211WMS全宏基因组的随机测序3WXS从基因组中选择的外显子区域的随机测序301FAIRE-seq甲醛辅助的调控元件分离,揭示开放染色质区域302SELEX指数富集配体的系统进化303RIP_seqRNA免疫沉淀物的直接测序(包括CLIP-Seq、HITS-CLIP和PAR-CLIP)304ChIA_PET邻近连接的染色质免疫沉淀物的直接测序305Targeted-Capture306TetheredChromatinConformationCapture307OTHER4RNA-Seq整个转录组的随机测序5miRNA-Seq小miRNA的随机测序6Tn-Seq从转座子插入位点开始的测序7WCS从基因组中分离的整个染色体或其他复制子的随机测序8CLONE基于基因组克隆(分级)的测序9POOLCLONE混合克隆的鸟枪法建库测序(通常是BACs和Fosmids)三代10WGS全基因组的随机测序10011DLigation连接法,一维建库,DNA正负两条互补链解旋后各自独立10021D^2Ligation连接法,将互补链锚定在孔附近后续贯序入孔10032DLigation连接法,二维建库,DNA正负两条互补链通过测序接头连成一条首尾相连的单链1004SimplexDNA单链通过纳米孔测序,互补链在测序后被丢弃1005DuplexDNA一条链通过纳米孔测序后互补链贯序入孔继续测序1006RapidSequencing转座酶法连接测序接头后测序,操作步骤简单,速度快1007UltraLongSequencing片段长度在50kb以上的超长DNA测序1008BAC-LongSequencing片段长度在150kb以上的更超长DNA测序1009CCSmodeCircularConsensusSequencing,所建文库长度在20kb左右1010CLRmodeContinuousLongReads,所建文库长度在20kb以上101

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论