信息技术 生物特征识别 高通量测序基因分型数据注释格式 征求意见稿_第1页
信息技术 生物特征识别 高通量测序基因分型数据注释格式 征求意见稿_第2页
信息技术 生物特征识别 高通量测序基因分型数据注释格式 征求意见稿_第3页
信息技术 生物特征识别 高通量测序基因分型数据注释格式 征求意见稿_第4页
信息技术 生物特征识别 高通量测序基因分型数据注释格式 征求意见稿_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1GB/TXXXXX—XXXX信息技术生物特征识别高通量测序基因分型数据注释格式本文件规定了基于高通量测序产生的基因分型数据注释格式。本文件适用于高通量测序产生的基因分型数据的存储、交换与比对。2规范性引用文件本文件没有规范性引用文件。3术语和定义下列术语和定义适用于本文件。3.1高通量测序high-throughputsequencing区别于传统Sanger(双脱氧法)测序,能够一次并行对大量核酸分子进行平行序列测定的技术。注:通常一次测序反应能产出不低于100M[来源:GB/T33767.14—2023]3.2分型数据格式formatofgenotypingdata基于高通量测序的基因分型信息呈现格式。3.3人类基因组参考序列referencesequenceofhumangenome由来自于多个人类个体的基因组序列拼接而成的一个数字化的核苷酸序列数据库。注:人类参考基因组序列通常用作基准的基因组参考序列,目前最常用的人3.4短串联重复序列shorttandemrepeat,STR染色体上重复单位为2bp~6bp的串联重复序列,表现出高度的个体差异。[来源:GB/T33767.14—2023]3.5单核苷酸多态性singlenucleotidepolymorphism,SNP由单个核苷酸改变所引起的脱氧核糖核酸序列多态性。[来源:GB/T33767.14—2023]23.6插入缺失多态性insertiondeletionpolymorphism,InDel基因组中插入或缺失不同长度DNA片段所形成的一类多态性遗传标记。3.7线粒体DNAmitochondrialDNA,mtDNA线粒体中的遗传物质。3.8微单倍型microhaplotype,MH在同一染色体上进行共同遗传的、长度一般不超过300bp的多个基因座上等位基因的组合。3.9元信息meta-informationlines高通量测序基因分型数据注释的基本信息,包含注释文件格式、文件生成日期、高通量数据测序平台、基因分型软件和参考基因组等信息。3.10分型质量值Qualityscore,Q遗传标记在样本中基因分型推断的质量评估分值。注:Q=-10log10(e),e表示这个遗传标记分4缩略语下列缩略语适用于本文件。bp:碱基对(BasePair)GRCh38:人类参考基因组序列38版(GenomeReferenceConsortiumHumanBuild38)ID:标识符(Identifier)5注释格式5.1综述本文件使用元信息和数据行注释基因分型数据,即注释格式由元信息和数据行组成。第5.2和5.3分别描述注释格式的这两个组成部分。本文件基因分型数据注释格式的表示是:先分行给出元信息注释,在最后一项元信息注释的下面以列表形式给出数据行注释,格式示例见第6章。5.2元信息本文件中描述的元信息有以下5项:a)文件格式;b)文件生成日期;GB/TXXXXX—XXXX3c)测序平台;d)基因分型软件;e)参考基因组。这5项元信息,每一项元信息用一个特定的元信息注释格式予以注释。元信息注释格式是若干元素组成的一个字段,见表1中“注释要求”栏。其中,元素“##”表示该字段是对相应元信息的注释,紧接其后的小写英文词组是所注释的元信息类别,然后是元素“=”,其含义是它后面的数据是该类元信息的具体注释。跟在“=”后面的元素“****”,即该类元信息的具体注释内容。各元素之间无间隔,例如,##fileformat=****。元信息具体描述及格式要求见表1。##fileformat=****“##fileformat=GB/TXX-XX;”期##filedate=****期“##filedate=20230701:20230821;”##sequenceplatform=****“##sequenceplatform=DNBSEQ-G99;”件##callingsoftware=****为:“##callingsoftware=STRaitRazorv3.0;”若使用多个分型软件时,“****”中用“:”##genomereference=****“##genomereference=GRCh38.p14;”5.3数据行5.3.1数据行注释格式数据行由注释信息类别和基因分型数据注释组成。数据行注释格式的表格形式见表2。表2数据行注释格式表2示出的数据行注释格式中,第一行为注释信息类别,以符号#开头,依次出现的CHROM、POS、ID、REF、ALT、QUAL、FILTER、INFO和FORMAT是9个固定字段名称,然后是样本名(SAMPLE)。4使用数据行格式进行基因分型数据注释时,在上述9个固定字段栏目下面填入每个遗传标记对应的具体注释信息,在样本名下面填入样本注释信息(见5.3.1.3应至少对一个样本进行基因分型注释。对于每一遗传标记,9个固定字段注释信息格式要求见表3。其中,第1-7字段的格式信息已在表格中详细说明,第8和9字段下包含其他信息,在5.3.1.1和5.3.1.2部分分别单独说明。表3数据行固定字段信息1234遗传标记在参考基因组上的序列,由A、G、C、T456);7滤,用“.”表示;如果无对应过滤信息,用“NA”895.3.1.1INFO基因型注释信息,由键信息组成,用“;”作为键信息的分隔符。每一键信息采用如下格式:<键>=<数据>[,数据](<key>=<data>[,data])。如果不存在任何键,使用缺失值“.”替代。键信息显示顺序及格式要求见表4,其中分类中“必选”键信息为必须注释的信息。表4键信息1VT2NS34GB/TXXXXX—XXXX5567/5.3.1.2FORMAT样本显示的注释信息类别,按表5顺序依次显示,其中分类中“必选”注释类别为样本中必须注释的类别。表5样本注释类别1234565.3.1.3样本注释信息每个样本应包含FORMAT(见5.3.1.2)中列出的注释类别对应的注释信息。样本注释信息格式要求见表6:表6样本注释信息1对于多倍体用/或|分隔等位基因。对于除STR之23度45——6基因分型数据注释示例6.1概述本章以常见遗传标记为例,采用本文件描述的注释格式,对高通量测序技术产生的基因分型数据做出注释。元信息列在表格前。列表中给出的是该基因分型数据的指定元信息下的数据注释。列表的第一行是数据行注释类别,之后为每一遗传标记对应的具体注释信息。当需要对多种遗传标记进行注释时,若使用单一基因分型软件,按照本文件第5章中要求进行注释;若使用多个基因分型软件,按照表1中要求在元信息的基因分型软件注释时用“:”分割,数据行注释时仅需首行显示注释信息类别,之后按照基因分型软件显示的顺序依次给出对应类型遗传标记的具体注释信息。66.2SNP注释示例##fileformat=GB/T26237.14—2023;##filedate=20230701:20230821;##sequenceplatform=DNBSEQ-G99;##callingsoftware=GATKv4.6.1.0;##genomereference=GRCh38.p14;GA6.3InDel注释示例##fileformat=GB/T26237.14—2023;##filedate=20230701:20230821;##sequenceplatform=DNBSEQ-G99;##callingsoftware=GATKv4.6.1.0;##genomereference=GRCh38.p14;-A3.46.4MtDNA注释示例##fileformat=GB/T26237.14—2023;##filedate=20230701:20230821;##sequenceplatform=DNBSEQ-G99;##callingsoftware=GATKv4.6.1.0;##genomereference=GRCh38.p14;.AGVT=SNP;NS=2;DP.CT3.VT=SNP;NS=2;DP6.5STR注释示例##fileformat=GB/T26237.14—2023;##filedate=20230701:20230821;GB/TXXXXX—XXXX7##sequenceplatform=DNBSEQ-G99;##callingsoftware=STRaitRazorv3.0;##genomereference=GRCh38.p14;NANA6.6MH注释示例##fileformat=GB/T26237.14—2023;##filedate=20230701:20230821;##sequenceplatform=DNBSEQ-G99;##callingsoftware=MHinNGSv1.0;##genomereference=GRCh38.p14;NANANS=2;8参考文献[1]GB/T33767.14—2023信息技术生物特征样本质量第14部分:DNA数据[2]GB/T35537—2017高通量基因测序结果评价要求[3]GB/T35890—2018高通量测序数据序列格式规范[4]GB/T37870—2019个体鉴定的高通量测序方法[5]GB/T37872—2019目标基因区域捕获质量评价通则[6]TheVariantCallFormat(VCF)Version4.2Specification.23Aug2022.[7]AndrewDJohnson.AnextendedIUPACnomenclaturecodeforpolymorphicnucleicacids.Bioinformatics.2010May15;26(10):1386-1389.[8]Hans-JürgenBandelt,ArneDür.TranslatingDNAdatatablesintoquasi-mediannetworksforparsimonyanalysisanderrordetection.MolPhylogenetEvol.2007Jan;42(1):256-271.[9]WaltherParson,DavidBallard,BruceBudowle,etal.MassivelyparallelsequencingofforensicSTRs:ConsiderationsoftheDNAcommissionoftheInternationalSocietyforForensicGenetics(ISFG)onminimalnomenclaturerequirements.ForensicSciIntGenet.2016May;22:54-63.[10]WParson,LGusmão,DRHares,etal.DNACommissionoftheInternationalSocietyforForensicGenetics:Revisedan

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论