临床表型的多组学标记物汇交规范_第1页
临床表型的多组学标记物汇交规范_第2页
临床表型的多组学标记物汇交规范_第3页
临床表型的多组学标记物汇交规范_第4页
临床表型的多组学标记物汇交规范_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

临床表型的多组学标记物汇交规范范围本文件规定了包含基因组、转录组、蛋白质组、表观组(甲基化)、代谢组及宏基因组等多组学临床表型标记物数据的汇交标准。本文件适用于临床及科研人员汇交及共享基因组、转录组、蛋白质组、表观组(甲基化)、代谢组及宏基因组等多组学临床表型标记物。规范性引用文件下列文件中的内容通过本文件的规范性引用而成为本文件必不可少的条款。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T39909-2021科技计划形成的科学数据汇交通用数据元GB/T39912-2021科技计划形成的科学数据汇交技术与管理规范GB/T30522-2014科技平台元数据标准化基本原则与方法GB/T30523-2023科技资源核心元数据术语、定义及缩略语术语及定义下列术语及定义适用于本文件。临床表型clinicalphenotype用于描述临床疾病进展或健康状态的各种性状及行为特征,包含基础人口信息、临床检查检验、人群基本特征、个体形态及行为表现等。多组学标记物multi-omicsbiomarker利用高通量测序或质谱技术检测的涵盖基因、转录、蛋白质、甲基化、代谢、宏基因等多个组学维度的生物标记物。基因组标记物genomicbiomarker利用第二代和第三代高通量测序技术识别的与临床表型关联的单核苷酸多态性、插入与缺失型变异、结构性变异、拷贝数变异等。转录组标记物transcriptomicbiomarker利用高通量测序或基因芯片技术识别的与临床表型关联的mRNA、miRNA、lncRNA和circRNA等。表观组标记物epigenomicbiomarker利用高通量测序技术识别的与临床表型关联的甲基化位点或区域。蛋白质组标记物proteomicbiomarker利用质谱技术测定的与临床表型关联的蛋白质分子。代谢组标记物metabolomicbiomarker利用质谱技术测定的与临床表型关联的脂质、碳水化合物、核苷酸、氨基酸、多肽、维生素及其他各类代谢物。宏基因组标记物metagenomicbiomarker利用高通量测序测定的与临床表型关联的细菌、真菌、病毒、原生动物、古菌等各类微生物。元数据metadata关于数据的数据。元数据元素metadataelement元数据的基本单元。元数据实体metadataentity一组说明数据相同特性的元数据元素。元数据子集metadatasection元数据的子集合,由相关的元数据实体和元素组成。专用元数据dedicatedmetadata描述特定领域数据使用的最基本元数据。缩略语下列缩略语适用于本文件。SV:基因组结构变异(StructuralVariant)SNP:单核苷酸多效性(SingleNucleotidePolymorphism)CNV:拷贝数变异(Copynumbervariation)Indel:很短的插入和缺失(InsertionandDeletion)mRNA:信使核糖核酸(messagerRibonucleicAcid)miRNA:小核糖核酸(microRibonucleicAcid)lncRNA:长链非编码核糖核酸(longnon-codingRibonucleicAcid)circRNA:环状核糖核酸(circleRibonucleicAcid)多组学生物标记物的元数据属性从语义和语法两方面对每个元数据元素和元数据实体进行描述,并使用下列属性。a)中文名称赋予元数据元素或元数据实体的一个中文标记。元数据实体名称应唯一,元数据元素名称在元数据实体中也应唯一。b)英文名称赋予元数据元素或元数据实体的一个英文名称。c)缩写词元数据元素或元数据实体的英文缩写名称。缩写词应符合如下规则:1)缩写词应唯一;缩写词不应包括任何空格、破折号、下划线或分隔符等;3)元数据实体缩写词应采用上层驼峰大小写(UCC)命名方式,即每个英文单词的首字母均大写,其他字母均为小写,并把这些单词组合起来;元数据元素缩写词应采用下层驼峰大小写(LCC)命名方式,即除第一个英文单词外,每个单词的首字母大写,其他字母均为小写,并把这些单词组合起来;4)对存在惯用英文名称缩写的,采用惯用缩写。d)定义对元数据元素或元数据实体含义的解释,以使元数据元素或元数据实体与其他元数据元素或元数据实体在概念上相区别。e)数据类型1)对元数据元素的有效值域的规定和允许对该值域内的值进行有效操作的规定,例如数值型、字符串、日期型、二进制、布尔型等;2)元数据实体为复合型。f)值域元数据元素所允许值的集合。g)约束/条件元数据元素或元数据实体的一个说明符,说明一个元数据元素或元数据实体是否应总是在元数据中选用或有时选用(即有值)。该说明符分别为:1)M:必选,表明该元数据实体或元数据元素应选2)C:一定条件下必选,当满足约束条件中所定义的条件时必选,条件必选用于以下三种可能性之一:——当在多个选项中进行选择时,至少有一个选项为必选,且应使用;——当一个元数据元素已经使用时,选用另一个元数据实体或元数据元素;——当一个元数据元素已经选择了一个特定值时,选用另一个元数据元素。3)O:可选,根据实际应用可选择也可不选的元数据实体或元数据元素。已经定义的可选元数据实体和可选元数据元素,可指导部门元数据标准制定人员充分说明其信息。如果一个可选元数据实体未被使用,则该实体所包含的元素(包括必选元素)也不选用。可选元数据实体可有必选元素,但只当可选实体被选用时才成为必选。h)最大出现次数元数据实体或元素在实际使用时可能重复出现的最大次数。只出现一次的表示为“1”,重复出现的表示为“N”。备注元数据元素或元数据实体的进一步补充说明(根据需要选用)。多组学生物标记物的专用元数据模型UML模型符号采用统一建模语言(UML)描述元数据子集、元数据实体和元数据元素之间的关系。用UML中的包表示元数据子集,类表示元数据实体,属性表示元数据元素。UML符号如图1所示。图SEQ图\*ARABIC1UML符号及说明多组学生物标记物专用元数据包多组学生物标记物专用元数据包见图2,多组学生物标记物专用元数据包包括了基本信息、临床表型、研究方案、数据来源,其中基本信息包含基因组、表观组、转录组、蛋白组、代谢组和宏基因组。图SEQ图\*ARABIC2专用数据元包多组学生物标记物专用元数据包UML图多组学生物标记物专用元数据包UML图符合图3。图SEQ图\*ARABIC3专用数据元包UML图多组学标记物元数据描述基因组基因组生物标记物编号英文名称:genomicbiomarkeridentifier缩写词:GBID定义:基因组生物标记物的唯一标识符,SNP优先使用rsid。数据类型:字符串型约束/条件:M最大出现次数:1分类英文名称:Category缩写词:Cat定义:基因组生物标记物的分类,包含SNP、Indel、CNV、SV。数据类型:字符串型约束/条件:M最大出现次数:N变体类型英文名称:Varianttype缩写词:Varianttype定义:变异的具体类型,包含转换、颠换、插入、缺失、重复、异位等。数据类型:字符串型约束/条件:M最大出现次数:N变异前染色体英文名称:RawChromosome缩写词:RawChr定义:二代基因组生物标记物变异前的起始染色体编号数据类型:字符串约束/条件:M最大出现次数:N变异前起始位置英文名称:RawStartPosition缩写词:RawStartPos定义:基因组生物标记物变异前的起始坐标数据类型:数值型约束/条件:M最大出现次数:N变异前终止位置英文名称:RawEndPosition缩写词:RawEndPos定义:基因组生物标记物变异前的终止坐标数据类型:数值型约束/条件:M最大出现次数:N变异后染色体英文名称:VariantsChromosome缩写词:VarChr定义:基因组生物标记物变异后的染色体编号数据类型:字符串约束/条件:M最大出现次数:N变异后起始位置英文名称:VariantsStartPosition缩写词:VarStartPos定义:基因组生物标记物变异后的起始坐标数据类型:数值型约束/条件:M最大出现次数:N变异后终止位置英文名称:VariantsEndPosition缩写词:VarEndPos定义:基因组生物标记物变异后的终止坐标数据类型:数值型约束/条件:M最大出现次数:N原始碱基英文名称:RawBase缩写词:RawBase定义:基因组生物标记物变异前的碱基名数据类型:字符串约束/条件:M最大出现次数:N等位基因英文名称:Alleles缩写词:Alleles定义:位于一对同源染色体相同位置上控制同一性状不同形态的基因。数据类型:字符串型约束/条件:C,当变异类型为SNP时必选最大出现次数:N基因名称英文名称:GeneName缩写词:GeneName定义:标记物位置的基因名称(GeneSymbol)数据类型:字符串约束/条件:O最大出现次数:N基因ID英文名称:GeneIdentifier缩写词:GeneID定义:标记物位置的基因ID(EntrezID)数据类型:数值型约束/条件:O最大出现次数:N功能区域英文名称:FunctionalRegion缩写词:FR定义:生物标记物所在区域的功能:内含子、外显子、ORF、CDS、UTR等。数据类型:字符串型约束/条件:M最大出现次数:N变体长度英文名称:Variantlength缩写词:Variantlength定义:发生变异的碱基长度数据类型:数值型约束/条件:O最大出现次数:N染色体条带定位英文名称:Cytogeneticband缩写词:Cytogeneticband定义:基因所在染色体号及其长短臂区域数据类型:字符串型约束/条件:O最大出现次数:N物种名称中文名称:物种名称英文名称:Organism缩写词:Organism定义:标记物所来自的生物物种的名称,比如Homosapiens数据类型:字符串型约束/条件:M最大出现次数:N参考基因组英文名称:Referencegenome缩写词:ref定义:生物标记物所对应的参考基因组,如hg38数据类型:字符串型约束/条件:M最大出现次数:N临床表型名称英文名称:ClinicalPhenotype缩写词:ClinicalPheno定义:生物标记物所对应的临床表型名称或ID(唯一)数据类型:字符串型约束/条件:M最大出现次数:N临床关联英文名称:ClinicalRelevance缩写词:ClinicalRelevance定义:生物标记物的临床关联,包含了风险、诊断、预后和治疗等。数据类型:字符串型约束/条件:M最大出现次数:N实验验证英文名称:Validation缩写词:Validation定义:生物标记物是否经过了实验验证数据类型:布尔型约束/条件:M最大出现次数:N研究方法名称英文名称:Studymethod缩写词:Studymethod定义:生物标记物与临床表型关联所用的方法,如GWAS数据类型:字符串型约束/条件:M最大出现次数:N风险量值英文名称:RiskRatio缩写词:RR定义:生物标记物对临床表型的风险效应值大小,基因组建议使用OR数据类型:字符串型约束/条件:O最大出现次数:N统计P值英文名称:PValue缩写词:P定义:生物标记物与临床关联的统计学显著性程度,可以根据情况选用PValue,FDR,Bofferroni矫正等。数据类型:数值型约束/条件:C,统计学方法必选最大出现次数:N表观组-甲基化染色体中文名称:染色体编号英文名称:Chromosome缩写词:Chromosome定义:染色体编号数据类型:字符串约束/条件:M最大出现次数:N起始位置中文名称:起始位置英文名称:StartPosition缩写词:StartPosition定义:染色体上的起始位置。数据类型:数值型约束/条件:M最大出现次数:N终止位置中文名称:终止位置英文名称:EndPosition缩写词:EndPosition定义:在染色体上的终止位置。数据类型:数值型约束/条件:M最大出现次数:N链向信息中文名称:正负链信息英文名称:Strand缩写词:Strand定义:基因在染色体上的链向信息,分为正链(+)和负链(-)两种数据类型:字符串约束/条件:O最大出现次数:N

甲基化类型中文名称:甲基化类型英文名称:MethylationType缩写词:MethylationType定义:甲基化类型(位点或区域)数据类型:字符串约束/条件:M最大出现次数:N甲基化水平中文名称:甲基化水平英文名称:MethylationLevel缩写词:MethylationLevel定义:甲基化水平(超甲基化、去甲基化)数据类型:字符串约束/条件:O最大出现次数:N

长度中文名称:长度英文名称:Length缩写词:Length定义:碱基为单位。数据类型:数值型约束/条件:M最大出现次数:N功能区域中文名称:功能区域英文名称:GenomicsLocation缩写词:GenomicsLocation定义:所在的功能区域信息,不同功能区域标注信息具体为:exon,intron,UTR,promoter等数据类型:字符串约束/条件:O最大出现次数:N基因名称中文名称:基因名称英文名称:GeneName缩写词:GeneName定义:基因symbol名称数据类型:字符串约束/条件:M最大出现次数:N基因ID中文名称:基因ID英文名称:GeneID缩写词:GeneID定义:用于唯一标识基因的数字,如EntrezGeneID数据类型:数值型约束/条件:M最大出现次数:N临床表型名称英文名称:ClinicalPhenotype缩写词:ClinicalPheno定义:生物标记物所对应的临床表型名称或ID(唯一)数据类型:字符串型约束/条件:M最大出现次数:N临床关联英文名称:ClinicalRelevance缩写词:ClinicalRelevance定义:生物标记物的临床关联,包含了风险、诊断、预后和治疗等。数据类型:字符串型约束/条件:M最大出现次数:N实验验证英文名称:Validation缩写词:Validation定义:生物标记物是否经过了实验验证数据类型:布尔型约束/条件:M最大出现次数:N研究方法名称英文名称:Studymethod缩写词:Studymethod定义:生物标记物与临床表型关联所用的方法,如eWAS、差异比较等。数据类型:字符串型约束/条件:M最大出现次数:N风险量值英文名称:RiskRatio缩写词:RR定义:生物标记物对临床表型的风险效应值大小,甲基化建议使用差异程度数据类型:字符串型约束/条件:O最大出现次数:N统计P值英文名称:Pvalue缩写词:P定义:生物标记物与临床关联的统计学显著性程度,可以根据情况选用PValue,FDR,Bofferroni矫正。数据类型:数值型约束/条件:C,统计学方法必选最大出现次数:N转录组基因名称英文名称:GeneName缩写词:GeneName定义:标记物位置的基因名称(使用GeneSymbol)数据类型:字符串型约束/条件:M最大出现次数:N基因类型英文名称:Genetype缩写词:Genetype定义:生物标记物的类型,包含mRNA、miRNA、circRNA、lncRNA等。数据类型:字符串型约束/条件:M最大出现次数:N基因ID中文名称:基因ID英文名称:GeneID缩写词:GeneID定义:用于唯一标识基因的数字,如EntrezGeneID数据类型:数值型约束/条件:M最大出现次数:N基因全称英文名称:Genefullname缩写词:GeneFN定义:基因全称,如MTOR全称为MechanisticTargetOfRapamycinKinase。数据类型:字符串型约束/条件:O最大出现次数:N链向信息中文名称:正负链信息英文名称:Strand缩写词:Strand定义:基因在染色体上的链向信息,分为正链(+)和负链(-)两种数据类型:字符串型约束/条件:M最大出现次数:N

靶标基因英文名称:targetgene缩写词:targetgene定义:microRNA或lncRNA靶标基因数据类型:字符串型约束/条件:C,当RNA类型为miRNA和lncRNA时必选最大出现次数:N参考基因组英文名称:Referencegenome缩写词:ref定义:生物标记物所对应的参考基因组,如hg38数据类型:字符串型约束/条件:M最大出现次数:N物种英文名称:Organism缩写词:Organism定义:标记物所来自的生物物种的名称,比如Escherichiacoli数据类型:字符串型约束/条件:M最大出现次数:N细胞类型英文名称:CellType缩写词:CellType定义:标记物所来自的细胞类型数据类型:字符串型约束/条件:C,当RNA类型为单细胞转录测序时最大出现次数:N临床表型名称英文名称:ClinicalPhenotype缩写词:ClinicalPheno定义:生物标记物所对应的临床表型名称或ID(唯一)数据类型:字符串型约束/条件:M最大出现次数:N临床关联英文名称:ClinicalRelevance缩写词:ClinicalRelevance定义:生物标记物的临床关联,包含了风险、诊断、预后和治疗等。数据类型:字符串型约束/条件:M最大出现次数:N实验验证英文名称:Validation缩写词:Validation定义:生物标记物是否经过了实验验证数据类型:布尔型约束/条件:M最大出现次数:N研究方法名称英文名称:Studymethod缩写词:Studymethod定义:生物标记物与临床表型关联所用的方法,如TWAS或差异比较数据类型:字符串型约束/条件:M最大出现次数:N风险量值英文名称:RiskRatio缩写词:RR定义:生物标记物对临床表型的风险效应值大小,转录组建议使用差异倍数log2FoldChange数据类型:字符串型约束/条件:O最大出现次数:N统计P值英文名称:Pvalue缩写词:p定义:生物标记物与临床关联的统计学显著性程度,可以根据情况选用p-value,FDR,Bofferroni矫正。数据类型:数值型约束/条件:C,统计学方法必选最大出现次数:N蛋白质组蛋白质标识符中文名称:蛋白质标识符英文名称:ProteinIdentifier缩写词:ProteinID定义:每个蛋白质的唯一标识符,如UniprotID。数据类型:字符串约束/条件:M最大出现次数:N蛋白质名称中文名称:蛋白质名称英文名称:ProteinName缩写词:ProteinName定义:蛋白质的通用名称。数据类型:字符串约束/条件:M最大出现次数:N基因名称中文名称:基因名称英文名称:GeneName缩写词:GeneName定义:基因symbol名称数据类型:字符串约束/条件:M最大出现次数:N基因ID中文名称:基因ID英文名称:GeneID缩写词:GeneID定义:用于唯一标识基因的数字,如EntrezGeneID数据类型:数值型约束/条件:M最大出现次数:N物种名称中文名称:物种名称英文名称:Organism缩写词:Organism定义:蛋白质标记物所来自的生物物种的名称,比如Homosapiens数据类型:字符串型约束/条件:M最大出现次数:N长度中文名称:长度英文名称:Length缩写词:Length定义:蛋白质氨基酸序列长度的信息。这个字段通常用于描述蛋白质的大小,通常以氨基酸为单位。数据类型:数值型约束/条件:M最大出现次数:N亚细胞位置中文名称:亚细胞位置英文名称:SubcellularLocation缩写词:SubcellularLocation定义:有关蛋白质在细胞内定位的信息。数据类型:字符串约束/条件:O最大出现次数:N临床表型名称英文名称:ClinicalPhenotype缩写词:ClinicalPheno定义:生物标记物所对应的临床表型名称或ID(唯一)数据类型:字符串型约束/条件:M最大出现次数:N临床关联英文名称:ClinicalRelevance缩写词:ClinicalRelevance定义:生物标记物的临床关联,包含了风险、诊断、预后和治疗。数据类型:字符串型约束/条件:M最大出现次数:N实验验证英文名称:Validation缩写词:Validation定义:生物标记物是否经过了实验验证数据类型:布尔型约束/条件:M最大出现次数:N研究方法名称英文名称:Studymethod缩写词:Studymethod定义:生物标记物与临床表型关联所用的方法,如GWAS数据类型:字符串型约束/条件:M最大出现次数:N风险量值英文名称:RiskRatio缩写词:RR定义:生物标记物对临床表型的风险效应值大小,蛋白质组建议使用差异倍数log2FoldChange数据类型:字符串型约束/条件:O最大出现次数:N统计p值英文名称:Pvalue缩写词:p定义:生物标记物与临床关联的统计学显著性程度,可以根据情况选用p-value,FDR,Bofferroni矫正。数据类型:数值型约束/条件:C,统计学方法必选最大出现次数:N代谢组代谢物名称中文名称:代谢物名称英文名称:MetaboliteName缩写词:MetaboliteName定义:代谢物的正式名称或通用名称。数据类型:字符串约束/条件:M最大出现次数:N化合物ID中文名称:化合物ID英文名称:CHEBIID缩写词:CHEBIID定义:自CHEBI数据库的标识符,用于代谢物的统一命名和标识。数据类型:字符串约束/条件:M最大出现次数:N化学结构中文名称:化学结构英文名称:ChemicalStructure缩写词:ChemicalStructure定义:代谢物的分子结构,通常以化学式或分子图示形式表示。数据类型:字符串约束/条件:M最大出现次数:N代谢物类别中文名称:代谢物类别英文名称:MetaboliteCategory缩写词:MetaboliteCategory定义:代谢物所属的化学类别,如氨基酸、脂质、糖类等。数据类型:字符串约束/条件:O最大出现次数:N物种名称中文名称:物种名称英文名称:Organism缩写词:Organism定义:标记物所来自的生物物种的名称,比如Homosapiens数据类型:字符串型约束/条件:M最大出现次数:N临床表型名称英文名称:ClinicalPhenotype缩写词:ClinicalPheno定义:生物标记物所对应的临床表型名称或ID(唯一)数据类型:字符串型约束/条件:M最大出现次数:N临床关联英文名称:ClinicalRelevance缩写词:ClinicalRelevance定义:生物标记物的临床关联,包含了风险、诊断、预后和治疗。数据类型:字符串型约束/条件:M最大出现次数:N实验验证英文名称:Validation缩写词:Validation定义:生物标记物是否经过了实验验证数据类型:布尔型约束/条件:M最大出现次数:N研究方法名称英文名称:Studymethod缩写词:Studymethod定义:生物标记物与临床表型关联所用的方法,如GWAS数据类型:字符串型约束/条件:M最大出现次数:N风险量值英文名称:RiskRatio缩写词:RR定义:生物标记物对临床表型的风险效应值大小,代谢组建议使用差异倍数log2FoldChange数据类型:字符串型约束/条件:O最大出现次数:N统计p值英文名称:Pvalue缩写词:p定义:生物标记物与临床关联的统计学显著性程度,可以根据情况选用p-value,FDR,Bofferroni矫正。数据类型:数值型约束/条件:C,统计学方法必选最大出现次数:N宏基因组菌种ID英文名称:TaxonomyID缩写词:TaxID定义:菌种或菌株的编号数据类型:数值型约束/条件:M最大出现次数:N当前使用名英文名称:Currentscientificname缩写词:Currentscientificname定义:当前使用的菌种或菌株名数据类型:字符串型约束/条件:M最大出现次数:N常用名英文名称:Commonname缩写词:Commonname定义:常用的菌种或菌株名数据类型:字符串型约束/条件:M最大出现次数:N分类等级英文名称:Taxonomicrank缩写词:Taxonomicrank定义:菌株的分类等级(科,属,种,株)数据类型:字符串型约束/条件:M最大出现次数:N宿主英文名称:Host缩写词:Host定义:为菌株提供生存环境的生物物种数据类型:字符串型约束/条件:M最大出现次数:1临床表型名称英文名称:ClinicalPhenotype缩写词:ClinicalPheno定义:生物标记物所对应的临床表型名称或ID(唯一)数据类型:字符串型约束/条件:M最大出现次数:N临床关联英文名称:ClinicalRelevance缩写词:ClinicalRelevance定义:生物标记物的临床关联,包含了风险、诊断、预后和治疗。数据类型:字符串型约束/条件:M最大出现次数:N研究方法名称英文名称:Studymethod缩写词:Studymethod定义:生物标记物与临床表型关联所用的方法,如GWAS数据类型:字符串型约束/条件:M最大出现次数:N风险量值英文名称:RiskRatio缩写词:RR定义:生物标记物对临床表型的风险效应值大小,宏基因组建议使用差异菌群丰度数据类型:字符串型约束/条件:O最大出现次数:N统计P值英文名称:Pvalue缩写词:p定义:生物标记物与临床关联的统计学显著性程度,可以根据情况选用p-value,FDR,Bofferroni矫正。数据类型:数值型约束/条件:C,统计学方法必选最大出现次数:N实验验证英文名称:Validation缩写词:Validation定义:生物标记物是否经过了实验验证数据类型:布尔型约束/条件:M最大出现次数:N临床表型表型名称英文名称:ClinicalPhenotypeName缩写词:ClinicalPhenotypeName定义:生物标记物所对应的临床表型名称。数据类型:字符串型约束/条件:M最大出现次数:1表型分类英文名称:clinicalphenotypeclass缩写词:clinicalphenotypeclass定义:生物标记物所对应的临床表型分类、包含疾病、生化检测、常规检测、人群特征等。数据类型:字符串型约束/条件:M最大出现次数:1表型标识符英文名称:ClinicalPhenotypeIdentifier缩写词:ClinicalPhenotypeID定义:生物标记物所对应的临床表型ID,疾病使用ICD编号数据类型:字符串型约束/条件:C,当表型为疾病时必选最大出现次数:1表型描述英文名称:ClinicalPhenotypedescription缩写词:ClinicalPhenotypeDescription定义:生物标记物所对应的临床表型的简要描述。数据类型:字符串型约束/条件:O最大出现次数:N数据来源提供方名称英文名称:SubmitionOrganizationName缩写词:SubOrgName定义:提供方的组织机构名称全称数据类型:字符串型约束/条件:M最大出现次数:1提供方详细地址英文名称:SubmitionOrganizationAddress缩写词:SubOrgAddress定义:与提供方联系的详细地址数据类型:字符串型约束/条件:M最大出现次数:1提供方邮政编码英文名称:SubmitionOrganizationPostCode缩写词:SubOrgPoseCode定义:与提供方联系的通信地址相对应的邮政编码数据类型:字符串型约束/条件:M最大出现次数:1提供方联系人英文名称:SubmitionOrganizationContactsName缩写词:SubOrgContactsName定义:与提供方联系的联系人姓名数据类型:字符串型约束/条件:M最大出现次数:N提供方联系电话英文名称:SubmitionOrganizationPhone缩写词:SubOrgPhone定义:与提供方联系的电话号码数据类型:字符串型约束/条件:M最大出现次数:N提供方电子邮箱英文名称:SubmitionOrganizationElectronicMailAddress缩写词:SubOrgEmail定义:与提供方联系的电子邮箱地址数据类型:字符串型约束/条件:M最大出现次数:N发布日期英文名称:DataReleaseDate缩写词:ReleaseDate定义:元数据提交或发布的日期。数据类型:日期型约束/条件:M最大出现次数:1研究方法研究方法名称英文名称:StudyDesignName缩写词:StudyDesignName定义:研究方法名称。数据类型:字符串型约束/条件:M最大出现次数:1研究方法概述英文名称:StudyDesignDescription缩写词:StudyDesignDescription定义:研究方法概述,简要阐明研究方法,包含取样条件、建库方法、测序平台或质谱仪信息、质控方法、标记物识别或表型关联方法等。数据类型:字符串型约束/条件:M最大出现次数:1样本量英文名称:SampleSize缩写词:SampleSize定义:研究所用的样本量数目数据类型:数值型约束/条件:M最大出现次数:N实验对照设置英文名称:CaseControlInformation缩写词:Case-Control定义:描述研究的实验组和对照组设置情况数据类型:字符串型约束/条件:M最大出现次数:N研究对象名称英文名称:StudyObjectsName缩写词:StudyObjectName定义:研究实验对象的名称数据类型:字符串型约束/条件:M最大出现次数:N研究对象类别英文名称:StudyObjectsType缩写词:StudyObjectsType定义:研究对象的类别,物种-器官-组织-细胞数据类型:字符串型约束/条件:M最大出现次数:N研究环境英文名称:StudyEnvironment缩写词:StudyEnvironment定义:研究进行的环境,如平原、高原等数据类型:字符串型约束/条件:M最大出现次数:N衡量指标英文名称:PerformanceMetrics缩写词:PerformanceMetrics定义:衡量生物标记物效果的指标,如精确率、特异性等,对应于标记物的风险量值部分。数据类型:字符串型约束/条件:M最大出现次数:N研究结论英文名称:StudyConclution缩写词:StudyConclution定义:说明研究所得的结论数据类型:字符串型约束/条件:O最大出现次数:1多组学标记物的数据提交格式临床多组学生物标记物的提交使用表格的形式进行提交,数据格式可为xls、xlsx、csv、txt等。根据多组学生物标记物元数据描述,提交时将表格划分为提供者信息、研究方案、临床表型、六类多组学标记物信息等9张表格提交,各个表格的表头参见附录A中的示例。

附录A(资料性附录)临床表型多组学标记物专用元数据数据字典A.1基因组序号中文名称英文名称缩写词定义数据类型值域约束/条件最大出现次数备注1基因组生物标记物编号genomicbiomarkeridentifierGBID基因组生物标记物的唯一标识符,SNP优先使用rsid字符串型自由文本M12分类CategoryCat基因组生物标记物的分类,包含SNP、Indel、CNV、SV字符串型自由文本MN3变体类型VarianttypeVarianttype变异的具体类型,包含转换、颠换、插入、缺失、重复、异位等字符串型自由文本MN4变异前染色体RawChromosomeRawChr二代基因组生物标记物变异前的起始染色体编号字符串型自由文本MN5变异前起始位置RawStartPositionRawStartPos基因组生物标记物变异前的起始坐标数值型正整数MN6变异前终止位置RawEndPositionRawEndPos基因组生物标记物变异前的终止坐标数值型正整数MN7变异后染色体VariantsChromosomeVarChr基因组生物标记物变异后的染色体编号字符串型自由文本MN8变异后起始位置VariantsStartPositionVarStartPos基因组生物标记物变异后的起始坐标数值型正整数MN9变异后终止位置VariantsEndPositionVarEndPos基因组生物标记物变异后的终止坐标数值型正整数MN10原始碱基RawBaseRawBase基因组生物标记物变异前的碱基名字符串型自由文本MN11等位基因AllelesAlleles位于一对同源染色体相同位置上控制同一性状不同形态的基因字符串型自由文本C,当变异类型为SNP时必选N12基因名称GeneNameGeneName标记物位置的基因名称(GeneSymbol)字符串型自由文本ON13基因IDGeneIdentifierGeneID标记物位置的基因ID(EntrezID)数值型正整数ON14功能区域FunctionalRegionFR生物标记物所在区域的功能:内含子、外显子、ORF、CDS、UTR等字符串型自由文本MN15变体长度VariantlengthVariantlength发生变异的碱基长度数值型正整数ON16染色体条带定位CytogeneticbandCytogeneticband基因所在染色体号及其长短臂区域字符串型自由文本ON17物种名称OrganismOrganism标记物所来自的生物物种的名称,比如Homosapiens字符串型自由文本MN18参考基因组Referencegenomeref生物标记物所对应的参考基因组,如hg38字符串型自由文本MN19临床表型名称ClinicalPhenotypeClinicalPheno生物标记物所对应的临床表型名称或ID(唯一)字符串型自由文本MN20临床关联ClinicalRelevanceClinicalRelevance生物标记物的临床关联,包含了风险、诊断、预后和治疗等字符串型自由文本MN21实验验证ValidationValidation生物标记物是否经过了实验验证布尔型是或否MN22研究方法名称StudymethodStudymethod生物标记物与临床表型关联所用的方法,如GWAS字符串型自由文本MN23风险量值RiskRatioRR生物标记物对临床表型的风险效应值大小,基因组建议使用OR字符串型自由文本ON24统计P值Pvaluep生物标记物与临床关联的统计学显著性程度,可以根据情况选用p-value,FDR,Bofferroni矫正数值型0-1C,统计学方法必选NA.2表观(甲基化)组序号中文名称英文名称缩写词定义数据类型值域约束/条件最大出现次数备注1染色体编号ChromosomeChromosome染色体编号字符串自由文本MN2起始位置StartPositionStartPosition染色体上的起始位置数值型正整数MN3终止位置EndPositionEndPosition在染色体上的终止位置数值型正整数MN4正负链信息StrandStrand在染色体上的链信息字符串"+"或"-"ON5甲基化类型MethylationTypeMethylationType甲基化类型字符串位点或区域MN6甲基化水平MethylationLevelMethylationLevel甲基化水平字符串超(去)甲基化ON7长度LengthLength长度数值型正整数MN8功能区域GenomicsLocationGenomicsLocation所在的功能区域信息,不同功能区域标注信息具体为:exon,intron,UTR,promoter等字符串自由文本ON9基因名称GeneNameGeneName基因symbol名称字符串自由文本MN10基因IDGeneIDGeneID用于唯一标识基因的数字,如EntrezGeneID数值型正整数MN11临床表型名称ClinicalPhenotypeClinicalPheno生物标记物所对应的临床表型名称或ID(唯一)字符串自由文本MN12临床关联ClinicalRelevanceClinicalRelevance生物标记物的临床关联,包含了风险、诊断、预后和治疗等。字符串自由文本MN13实验验证ValidationValidation生物标记物是否经过了实验验证布尔型是或否MN14研究方法名称StudymethodStudymethod生物标记物与临床表型关联所用的方法,如eWAS、差异比较等。字符串自由文本MN15风险量值RiskRatioRR生物标记物对临床表型的风险效应值大小,甲基化建议使用差异程度字符串自由文本ON16统计P值PvalueP生物标记物与临床关联的统计学显著性程度,可以根据情况选用PValue,FDR,Bofferroni矫正数值型0-1C,统计学方法必选NA.3转录组序号中文名称英文名称缩写词定义数据类型值域约束/条件最大出现次数备注1基因名称GeneNameGeneName标记物位置的基因名称(使用GeneSymbol)字符串型自由文本MN2基因类型GenetypeGenetype生物标记物的类型,包含mRNA、miRNA、circRNA、lncRNA等字符串型自由文本MN3基因IDGeneIDGeneID用于唯一标识基因的数字,如EntrezGeneID数值型正整数MN4基因全称GenefullnameGeneFN基因全称,如MTOR全称为MechanisticTargetOfRapamycinKinase字符串型自由文本ON5正负链信息StrandStrand基因在染色体上的链向信息,分为正链(+)和负链(-)两种字符串型"+"或"-"MN6靶标基因targetgenetargetgenemicroRNA或lncRNA靶标基因字符串型自由文本C,当RNA类型为miRNA和lncRNA时必选N7参考基因组Referencegenomeref生物标记物所对应的参考基因组,如hg38字符串型自由文本MN8物种OrganismOrganism标记物所来自的生物物种的名称,比如Escherichiacoli字符串型自由文本MN9细胞类型CellTypeCellType标记物所来自的细胞类型字符串型自由文本C,当RNA类型为单细胞转录测序时N10临床表型名称ClinicalPhenotypeClinicalPhenotype生物标记物所对应的临床表型名称或ID(唯一)字符串型自由文本MN11研究方法名称StudymethodStudymethod生物标记物与临床表型关联所用的方法,如TWAS或差异比较字符串型自由文本MN12风险量值RiskRatioRR生物标记物对临床表型的风险效应值大小,转录组建议使用差异倍数log2FoldChange字符串型自由文本ON13统计P值Pvaluep生物标记物与临床关联的统计学显著性程度,可以根据情况选用p-value,FDR,Bofferroni矫正数值型0-1C,统计学方法必选N14临床关联ClinicalRelevanceClinicalRelevance生物标记物的临床关联,包含了风险、诊断、预后和治疗等字符串型自由文本MN15实验验证ValidationValidation生物标记物是否经过了实验验证布尔型是或否MNA.4蛋白质组序号中文名称英文名称缩写词定义数据类型值域约束/条件最大出现次数备注1蛋白质标识符ProteinIdentifierproteinIdentifier每个蛋白质的唯一标识符,如UniprotID。字符串自由文本MN2蛋白质名称ProteinNameProteinName蛋白质的通用名称字符串自由文本MN3基因名称GeneNameGeneName基因symbol名称字符串自由文本MN4基因IDGeneIDGeneID用于唯一标识基因的数字,如EntrezGeneID数值型正整数MN5物种名称OrganismOrganism蛋白质标志物所来自的生物物种的名称,比如Homosapiens字符串自由文本MN6长度LengthLength蛋白质氨基酸序列长度的信息数值型正整数MN7亚细胞位置SubcellularLocationSubcellularLocation有关蛋白质在细胞内定位的信息。字符串自由文本ON8临床表型名称ClinicalPhenotypeClinicalPheno生物标记物所对应的临床表型名称或ID(唯一)字符串自由文本MN9临床关联ClinicalRelevanceClinicalRelevance生物标记物的临床关联,包含了风险、诊断、预后和治疗等。字符串自由文本MN10实验验证ValidationValidation生物标记物是否经过了实验验证布尔型是或否MN11研究方法名称StudymethodStudymethod生物标记物与临床表型关联所用的方法,如eWAS、差异比较等。字符串自由文本MN12风险量值RiskRatioRR生物标记物对临床表型的风险效应值大小,甲基化建议使用差异程度字符串自由文本ON13统计P值PvalueP生物标记物与临床关联的统计学显著性程度,可以根据情况选用PValue,FDR,Bofferroni矫正数值型0-1CNA.5代谢组序号中文名称英文名称缩写词定义数据类型值域约束/条件最大出现次数备注1代谢物名称MetaboliteNameMetaboliteName代谢物的正式名称或通用名称字符串自由文本MN2化合物IDCHEBIIDCHEBIID自CHEBI数据库的标识符,用于代谢物的统一命名和标识字符串自由文本MN3化学结构ChemicalStructureChemicalStructure代谢物的分子结构,通常以化学式或分子图示形式表示字符串自由文本MN4代谢物类别MetaboliteCategoryMetaboliteCategory代谢物所属的化学类别,如氨基酸、脂质、糖类等。字符串自由文本ON5物种名称OrganismOrganism标志物所来自的生物物种的名称,比如Homosapiens字符串自由文本MN6临床表型名称ClinicalPhenotypeClinicalPheno生物标记物所对应的临床表型名称或ID(唯一)字符串自由文本MN7临床关联ClinicalRelevanceClinicalRelevance生物标记物的临床关联,包含了风险、诊断、预后和治疗等。字符串自由文本MN8实验验证ValidationValidation生物标记物是否经过了实验验证布尔型是或否MN9研究方法名称StudymethodStudymethod生物标记物与临床表型关联所用的方法,如eWAS、差异比较等。字符串自由文本MN10风险量值RiskRatioRR生物标记物对临床表型的风险效应值大小,甲基化建议使用差异程度字符串自由文本ON11统计P值PvalueP生物标记物与临床关联的统计学显著性程度,可以根据情况选用PValue,FDR,Bofferroni矫正数值型0-1CNA.6宏基因组序号中文名称英文名称缩写词定义数据类型值域约束/条件最大出现次数备注1菌种IDTaxonomyIDTaxID菌种或菌株的编号数值型正整数MN2当前使用名CurrentscientificnameCurrentScientificName当前使用的菌种或菌株名字符串型自由文本MN3常用名CommonnameCommonname常用的菌种或菌株名字符串型自由文本MN4分类等级TaxonomicrankTaxonomicrank菌株的分类等级(科,属,种,株)字符串型自由文本MN5宿主HostHost为菌株提供生存环境的生物物种字符串型自由文本M16临床表型名称ClinicalPhenotypeClinicalPheno生物标记物所对应的临床表型名称或ID(唯一)字符串型自由文本MN7临床关联Clinical

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论