CN113228192B 用于从全基因组测序数据进行诊断的方法和系统 (因美纳有限公司)_第1页
CN113228192B 用于从全基因组测序数据进行诊断的方法和系统 (因美纳有限公司)_第2页
CN113228192B 用于从全基因组测序数据进行诊断的方法和系统 (因美纳有限公司)_第3页
CN113228192B 用于从全基因组测序数据进行诊断的方法和系统 (因美纳有限公司)_第4页
CN113228192B 用于从全基因组测序数据进行诊断的方法和系统 (因美纳有限公司)_第5页
已阅读5页,还剩215页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2021.06.28PCT/US2020/0480442020.08.26WO2021/045947EN2021.03.11US2018237845A1,2018.08.23WO2018144228A1,2018.08.09WO2018213843A1,2018.11.22YANMINGFENG.Thenextpopulation-basedspinalmusculcarrierscreening:comprvariantanalysisbymassively用于从全基因组测序数据进行诊断的方法本文所公开的包括用于旁系同源物基因分型诸如确定运动神经元存活1基因的拷贝数以及使用包含各自表示不同的整数拷贝数的多个高斯函数的高斯混合模型对细胞色素P450家族2亚2非暂态存储器,所述非暂态存储器被配置为存储可执行指令和据包括获自受试者的样本且与运动神经元存活1SMN1基因或运动神经元存活2SMN2基因比硬件处理器,所述硬件处理器与所述非暂态存储器通信,所述硬件接收序列数据,所述序列数据包括获自受试者的样本且与运动神经元存活1SMN1基因确定(i)与分别包含所述SMN1基因或所述SMN2基因的外显子1至外显子6中的至少一者的第一SMN1或SMN2区域比对的所述多个序列读段的序列读段的第一数量和(ii)与分别包含所述SMN1基因或所述SMN2基因的外显子7和外显子8中的至少一者的第二SMN1或SMN2区分别使用(i)所述第一SMN1或SMN2区域的长度和(ii)所述第二SMN1或SMN2区域的长度来确定(i)与所述第一SMN1或SMN2区域比对的所述序列读段的第一归一化数量和(ii)与所述第二SMN1或SMN2区域比对的所述序列读段的第分别考虑到(i)与所述第一SMN1或SMN2区域比对的所述序列读段的第一归一化数量和示不同的整数拷贝数的多个高斯函数的高斯混合模型来确定(i)各自为完整SMN1基因、完整SMN2基因、截短SMN1基因或截短SMN2基因的总运动神经元存活SMN基因的拷贝数和(ii)各自为所述完整SMN1基因或所述完整SMN2基因的任何完整对于与所述完整SMN1基因相关联的多个SMN1基因特异性碱基中的一个碱基,考虑到(a)具有支持所述SMN1基因特异性碱基的碱基的所述多个序列读段的序列读段的数量和(b)具有支持SMN2基因的与所述SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的所述多个序列读段的序列读段的数量,确定各自包括共计为所确定的任何完整SMN基因的拷贝数的所述SMN1基因的可能拷贝数和所述SMN2基因的可能拷贝数的多个可能组合中的使用对于所述SMN1基因特异性碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可2.根据权利要求1所述的系统,其中所述序列数据3.根据权利要求1至2中任一项所述的系统6.根据权利要求1至2中任一项所述的系统,其中所述第一S述第二SMN1或SMN2区域分别包含所述SMN1基因或所述SMN2基因的所述外显子7和所述外显37.根据权利要求1至2中任一项所述的系统,其中确定(i)与所述第一SMN1或SMN2区域比对的所述序列读段的第一归一化数量和(ii)与所述第二SMN1或SMN2区域比对的所述序列读段的第二归一化数量包括:分别使用(i)所述第一SMN1或SMN2区域的长度和(ii)所述第二SMN1或SMN2区域的长度来确定(i)与所述第一SMN1或SMN2区域比对的所述序列读段的第一归一化数量和(ii)与所述第二SMN1或SMN2区域比对的所述序列读段的第二归一化数量,以及确定(iii)在所述序列数据中除包含所述SMN1基因和所述SMN2基因的基因座之外8.根据权利要求7所述的系统,其中确定(i)与所述第一SM列读段的第一归一化数量和(ii)与所述第二SMN1或SMN2区域比对的所述序列读段的第二分别使用(i)所述第一SMN1或SMN2区域的长度和(ii)所述第二SMN1或SMN2区域的长度来确定(i)与所述第一SMN1或SMN2区域比对的所述序列读段的第一SMN1或SMN2区域长度归一化数量和(ii)与所述第二SMN1或SMN2区域比对的所述序列读段的第二SMN1或SMN2区域使用除包含所述SMN1基因和所述SMN2基因的基因座之外的所述受试者的基因组的区域的序列读段的深度,分别根据(i)所述第一SMN1或SMN2区域长度归一化数量和(ii)所述第二SMN1或SMN2区域长度归一化数量来确定(i)与所述第一SMN1或SMN2区域比对的所述序列读段的第一归一化深度和(ii)与所述第二SMN1或SMN2区域比对的所述序列读段的第二述第二SMN1或SMN2区域比对的所述序列读段的第二归一化数量分别为所述第一归一化深9.根据权利要求1至2中任一项所述的系统,其中确定(i)与所述第一SMN1或SMN2区域比对的所述序列读段的第一归一化数量和(ii)与所述第二SMN1或SMN2区域比对的所述序列读段的第二归一化数量包括:分别使用(i)所述第一SMN1或SMN2区域的GC含量和(ii)所述第二SMN1或SMN2区域的GC含量来确定(i)与所述第一SMN1或SMN2区域比对的所述序列读段的第一归一化数量和(ii)与所述第二SMN1或SMN2区域比对的所述序列读段的第二归一化数量,以及确定(iii)在所述序列数据中除包含所述SMN1基因和所述SMN2基因的基因座SMN1基因和所述SMN2基因的基因座之外的所述受试者的基因组的区域的序列读段的平均的所述序列读段的第一归一化数量和/或(ii)与所述第二SMN1或SMN2区域比对的所述序列13.根据权利要求1至2中任一项所述的系统,其中所述高斯混合模型包括一维高斯混414.根据权利要求1至2中任一项所述的系统,其中所述高斯混合模型的所述多个高斯15.根据权利要求1至2中任一项所述的系统,其中所述多个高斯函数中的每个高斯函16.根据权利要求1至2中任一项所述的系统,其中确定(i)所述总SMN基因的拷贝数和(ii)任何完整SMN基因的拷贝数包括分别考虑到(i)与所述第一SMN1或SMN2区域比对的所述序列读段的第一归一化数量和(ii)与所述第二SMN1或SMN2区域比对的所述序列读段的第二归一化数量,使用所述高斯混合模型和第一预先确定的后验概率阈值来确定(i)所述总SMN基因的拷贝数和(ii)任何完整SMN18.根据权利要求1至2中任一项所述的系统,其中所述硬件处理器由所述可执行指令编程以执行:使用(i)所确定的总SMN基因的拷贝数和(ii)所确定的完整SMN基因的拷贝数基因的拷贝数与(ii)所确定的完整SMN基因的20.根据权利要求1至2中任一项所述的系统,其中所述SMN1基因特异性碱基为剪接增21.根据权利要求1至2中任一项所述的系统,其中所述SMN1基因特异性碱基为所述22.根据权利要求1至2中任一项所述的系统,其中异性碱基的碱基的所述多个序列读段的序列读段的数量和(b)具有支持所述对应SMN2基因23.根据权利要求1至2中任一项所述的系统,其中确定所述SMN1基因的可能拷贝数和所述SMN2基因的可能组合的最可能组合包括:考虑到(a)具有支持所述SMN1基因特异性碱基的碱基的所述多个序列读段的序列读段的数量与(b)具有支持所述SMN2基因的与所述SMN1基因特异性碱基对应的所述SMN2基因特异性碱基的碱基的所述多个序列读段的序列读段的数量的比率,确定各自包括共计为所确定的任何完整SMN基因的拷贝数的所述SMN1基因的可能拷贝数和所述SMN2基因的可能拷贝数的多个可能组合中的最24.根据权利要求1至2中任一项所述的系统,其中确定所述SMN1基因的可能拷贝数和确定(a)具有支持所述SMN1基因特异性碱基的碱基的所述多个序列读段的序列读段的数量和(b)具有支持所述SMN2基因的与所述SMN1基因特异性碱基对应的所述SMN2基因特异确定(a)具有支持所述SMN1基因特异性碱基的碱基的所述多个序列读段的序列读段的数量与(b)具有支持所述SMN2基因的与所述SMN1基因特异性碱基对应的所述SMN2基因特异基于(a)具有支持所述SMN1基因特异性碱基的碱基的所述多个序列读段的序列读段的5数量与(b)具有支持所述SMN2基因的与所述SMN1基因特异性碱基对应的所述SMN2基因特异性碱基的碱基的所述多个序列读段的序列读段的数量的所述比率来确定各自包括共计为所确定的任何完整SMN基因的拷贝数的所述SMN1基因的可能拷贝数和所述SMN2基因的可能其中确定所述SMN1基因的可能拷贝数和所述SMN2基因的可能组合的最可能组合包括:对于所述多个SMN1基因特异性碱基中的每个碱基,考虑到(a)具有支持所述SMN1基因特异性碱基的碱基的所述多个序列读段的序列读段的数量和(b)具有支持所述SMN2基因的与所述SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的所述多个序列读段的序列读段的数量,确定各自包括共计为所确定的任何完整SMN基因的拷贝数的所述SMN1基因的可能拷贝数和所述SMN2基因的可能拷贝数的多个可能组合中的与最高后验概率相关联的最其中确定所述SMN1基因的拷贝数包括:基于对于所述多个SMN1个碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合的所述SMN1基因的可能拷贝数来确定所述SMN126.根据权利要求25所述的系统,其中所述SMN1基因特异性碱基与除超出预先确定的一致性阈值的所述SMN1基因特异性碱基之外的所述多个SMN1基因特异性碱基中的每个碱28.根据权利要求25所述的系统,其中所述多个SMN129.根据权利要求25所述的系统,其中所述多个SMN1基因特异性碱基中的每个碱基可基于所接收的种族信息,从多个SMN1基因特异性碱基中选择所述用对于所述多个SMN1基因特异性碱基中的每个碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合来确定所述SMN1基因的拷贝数和所述SMN2基因的拷6用对于所述SMN1基因特异性碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合以及SMN1基因的可能拷贝数和所述SMN2基因的可能拷贝数的所述组合的第二预先确定的后验概率阈值来确定所述S并且其中所确定的SMN1基因的拷贝数为所述SMN1基因考虑到(a)具有支持所述多个SMN1基因特异性碱基中的任一个碱基的碱基的所述多个序列读段的序列读段的数量和(b)具有支持所述多个对应SMN2基因特异性碱基中的任一个碱基的碱基的所述多个序列读段的序列读段的数量,确定包括共计为所确定的任何完整SMN基因的拷贝数的所述SMN1基因的可能拷贝数和所述SMN2基因的可能拷贝数的可能组确定所述可能组合的可能拷贝数为所述SMN1基39.根据权利要求1至2中任一项所述的系统,其中确定所述SMN1基因的拷贝数包括确40.根据权利要求1至2中任一项所述的系统,其中所述硬件处理器由所述可执行指令41.根据权利要求40所述的系统,其中所述受试者的所述SMA状态42.根据权利要求1至2中任一项所述的系统,其中所述硬件处理器由所述可执行指令编程以执行:使用与所述SMN1基因的g.27134比对的所述多个序列读段的序列以及与所述SMN1基因的所述g.27134比对的所述序列读段的碱基确定受试者为沉默SMA携43.根据权利要求1至2中任一项所述的系统,其中所述硬件处理器由所述可执行指令45.一种用于对细胞色素P450家族2亚家族D非暂态存储器,所述非暂态存储器被配置为存储可执行指令和据包括获自受试者的样本且与细胞色素P450家族2亚家族D成员6CYP2D6基因或细胞色素硬件处理器,所述硬件处理器与所述非暂态存储器通信,所述硬件接收序列数据,所述序列数据包括获自受试者的样本且与细胞色素P45成员6CYP2D6基因或细胞色素P450家族2亚家族D成员7CYP2D7基因确定(i)与所述CYP2D6基因或所述CYP2D7基因比对的所述多个序列读段的序列读段的分别使用(i)所述CYP2D6基因或所述CYP2D7基因的长度来确定(i)与所述CYP2D6基因7考虑到(i)与所述CYP2D6基因或所述CYP2D7基因比对的所述序列读段的第一归一化数量,使用包含各自表示不同的整数拷贝数的多个高斯函数的高斯混合模型来确定(i)所述对于多个CYP2D6基因特异性碱基中的一个碱基,考虑到(a)具有支持所述CYP2D6基因特异性碱基的碱基的所述多个序列读段的序列读段的数量和(b)具有支持与所述CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的所述多个序列读段的序列读段的数使用对于所述CYP2D6基因特异性碱基所确定的CYP2D6基因的可能拷贝数和CYP2D7基46.根据权利要求45所述的系统,其中所述序列数据包括49.根据权利要求45至46中任一项所述的系统,其中将所述多个序列读段的序列读段50.根据权利要求45至46中任一项所述的系统,其CYP2D7基因比对的所述多个序列读段的序列读段的第一数量包括:确定(i)与所述CYP2D6基因的至少一个外显子或内含子或者所述CYP2D7基因的外显子或内含子中的至少一者比51.根据权利要求45至46中任一项所述的系统,其CYP2D7基因比对的所述序列读段的第一归一化数量包括:分别使用(i)所述CYP2D6基因或所述CYP2D7基因的长度来确定(i)与所述CYP2D6基因或所述CYP2D7基因比对的所述序列读段的第一归一化数量,以及确定(iii)在所述序列数据中除包含所述CYP2D6基因和所述CYP2D7基因的基因座之外的所述受试者的基因组的区域的序列读段52.根据权利要求51所述的系统,其中确定(i)与所述C分别使用(i)所述CYP2D6基因或所述CYP2D7基因的长度来确定(i)与所述CYP2D6基因或所述CYP2D7基因比对的所述序列读段的第一CYP2D6基因或所述CYP2D7基因长度归一化使用除包含所述CYP2D6基因和所述CYP2D7的基因座之外的所述受试者的基因组的区域的序列读段的深度根据(i)所述CYP2D6基因或所述CYP2D7基因长度归一化数量来确定(i)与CYP2D6基因或CYP2D7基因比对的所述序列读段的第一归一化深度,与所述CYP2D6基因或所述CYP2D7基因比对的所述序列读段的第一归一化深度为分别与所述CYP2D6基因或所述CYP2D7基因比对的所述序列读段的第一53.根据权利要求45至46中任一项所述的系统,其CYP2D7基因比对的所述序列读段的第一归一化数量包括:使用(i)所述CYP2D6基因或所述8CYP2D7基因的GC含量来确定(i)与所述CYP2D6基因或所述CYP2D7基因比对的所述序列读段的第一归一化数量,以及确定(iii)在所述序列数据中除包含所述CYP2D6基因和所述54.根据权利要求51所述的系统,其中所述区域的深度包括所述序列数据中除包含所述CYP2D6基因和所述CYP2D7基因的基因座之外的所述受试者的基因组的区域的序列读段55.根据权利要求54所述的系统,其中所述区域包含56.根据权利要求45至46中任一项所述的系统,其中(i)与所述CYP2D6基因或所述CYP2D7基因比对的所述序列读段的第一归一化数量57.根据权利要求45至46中任一项所述的系统,其中所述高斯混合模型包括一维高斯58.根据权利要求45至46中任一项所述的系统,其中所述高斯混合模型的所述多个高59.根据权利要求45至46中任一项所述的系统,其中所述多个高斯函数中的每个高斯60.根据权利要求45至46中任一项所述的系统,其中确定(i)所述CYP2D6基因和所述CYP2D7基因的总拷贝数包括:考虑到(i)与所述CYP2D6基因或所述CYP2D7基因比对的所述定(i)所述CYP2D6基因和所述CYP2D62.根据权利要求45至46中任一项所述的系统,其中考虑到(a因特异性碱基的碱基的所述多个序列读段的序列读段的数量和(b)具有支持所述对应63.根据权利要求45至46中任一项所述的系统,其中确定所述CYP2D6基因的可能拷贝数和所述CYP2D7基因的可能拷贝数的最可能组合包括:考虑到(a)具有支持所述CYP2D6基因特异性碱基的碱基的所述多个序列读段的序列读段的数量与(b)具有支持与所述CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的所述多个序列读段的序列读段的数量的比率,确定各自包括共计为所确定的CYP2D6基因和CYP2D7基因的总拷贝数的所述CYP2D6基因的可能拷贝数和所述CYP2D7基因的可能拷贝数的多个可能组合中的最可能组64.根据权利要求45至46中任一项所述的系统,其中确定所述CYP2D6基因的可能拷贝数和所述CYP2D7基因的可能拷贝数的确定(a)具有支持所述CYP2D6基因特异性碱基的碱基的所述多个序列读段的序列读段的数量和(b)具有支持与所述CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基9确定(a)具有支持所述CYP2D6基因特异性碱基的碱基的所述多个序列读段的序列读段的数量与(b)具有支持与所述CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基考虑到(a)具有支持所述CYP2D6基因特异性碱基的碱基的所述多个序列读段的序列读段的数量与(b)具有支持与所述CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱因和CYP2D7基因的总拷贝数的所述CYP2D6基因的可能拷贝数和所述CYP2D7基因的可能拷65.根据权利要求45至46中任一项所述的系统,其中确定所述受试者具有的所述可能拷贝数和CYP2D7基因的可能拷贝数的最可能组合来确定所述受试者具有的所述其中确定所述CYP2D6基因的可能拷贝数和所述CYP2D7基因的可能拷贝数的最可能组合包括:对于所述多个CYP2D6基因特异性碱基中的每个碱基,考虑到(a)具有支持所述CYP2D6基因特异性碱基的碱基的所述多个序列读段的序列读段的数量和(b)具有支持所述CYP2D7基因的与所述CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的所述的总拷贝数的所述CYP2D6基因的可能拷贝数和所述CYP2D7基因的可能拷贝数的多个可能其中确定所述受试者具有的所述CYP2D6基因的所述一个或多于所述多个CYP2D6基因特异性碱基中的每个碱基所确定的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的最可能组合来确定所述受试者具有的所述CYP2D6基因的所述67.根据权利要求66所述的系统,其中确定所述受试者具有的所述CYP2D6基因的所述个碱基以及所述两个或更多个CYP2D6基因特异性碱基的位置所确定的最可能组合的所述CYP2D6基因的拷贝数来确定所述受试者具有的所述CYP2D6基因的所述一个或多个结构变68.根据权利要求66所述的系统,其中所述CYP2D6基因特异性碱基与除超出预先确定的一致性阈值的所述CYP2D6基因特异性碱基之外的所述多个CYP2D6基因特异性碱基中的70.根据权利要求66所述的系统,其中所述多个CYP2D6基因特异性碱基包括118个基于所接收的种族信息,从多个CYP2D6基因特异性碱基中选择所述确定(ii)与所述CYP2D7基因和所述CYP2D7基因下游的重复元件REP7之间的间隔区比使用(ii)所述间隔区的长度来确定(ii)与所述间隔区比对的所述序列读段的第二归考虑到(ii)与所述间隔区比对的所述序列读段的第二归一化数量其中确定所述受试者具有的所述CYP2D6基因的所述结构变体包括:使用对于所述CYP2D6基因特异性碱基所确定的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数以及所述间隔区的拷贝数的最可能组合来确定所述受试者具有的所述CYP2D6基因的等位基76.根据权利要求75所述的系统,其中所述一个或多个结构变体包含具有所述间隔区77.根据权利要求45至46中任一项所述的系统,其中所述硬件处理器由所述可执行指78.根据权利要求77所述的系统,其中确定所述受试者具有的所述CYP2D6基因的所述联的小变体位置,考虑到(a)具有支持所述CYP2D6基因在所述小变体位置处的小变体等位基因的碱基的序列读段的数量和(b)具有支持所述CYP2D6基因在所述小变体位置处的参考贝数的所述CYP2D6基因在所述小变体位置处的小变体等位基因的可能拷贝数和所述因在所述小变体位置处的小变体等位基因的可能拷贝数指示所述CYP2D6基因的所述一个79.根据权利要求77所述的系统,其中确定所述受试者具有的所述CYP2D6基因的所述述小变体位置与所述CYP2D6基因的小变体等位基因相关联,考虑到(a)具有支持所述CYP2D6基因在所述小变体位置处的小变体等位基因的碱基的序列读段的数量和(b)具有支计为所述CYP2D6基因在所述小变体位置处的拷贝数的所述CYP2D6基因在所述小变体位置处的小变体等位基因的可能拷贝数和所述CYP2D6基因在所述小变体位置处的参考等位基处的小变体等位基因的可能拷贝数指示所述CYP2D6基因的所述一个80.根据权利要求45至46中任一项所述的系统,其中所述硬件处理器由所述可执行指对于所述CYP2D6基因的与所述CYP2D6基因的小变体等位基因相关联的虑到(a)与所述CYP2D6基因比对的与所述小变体位置重叠并且具有支持所述CYP2D6基因在所述小变体位置处的小变体等位基因的碱基的序列读段的数量和(b)与所述CYP2D6基因比对的与所述小变体位置重叠并且具有支持所述CYP2D6基因在所述小变体位置处的参考等数的所述CYP2D6基因在所述小变体位置处的小变体等位基因的可能拷贝数和所述CYP2D6使用所确定的最可能组合的所述CYP2D6基因的小变体等位基因的可能拷贝数来确定81.根据权利要求45至46中任一项所述的系统,其中所述硬件处理器由所述可执行指对于所述CYP2D6基因的多个小变体位置中的每个小变体位置,所CYP2D6基因的小变体等位基因相关联,考虑到(a)与所述CYP2D6基因比对的与所述小变体位置重叠并且具有支持所述CYP2D6基因在所述小变体位置处的小变体等位基因的碱基的序列读段的数量和(b)与所述CYP2D6基因比对的与所述小变体位置重叠并且具有支持所述述CYP2D6基因在所述小变体位置处的拷贝数的所述CYP2D6基因在所述小变体位置处的小变体等位基因的可能拷贝数和所述CYP2D6基因在所述小变体位置处的参考等位基因的可使用在所确定的最可能组合的所述CYP2D6基因在所述多个小变体位置处的小变体等位基因的可能拷贝数来确定所述CYP2D682.根据权利要求78所述的系统,其中所述小变体位置处于CYP2D6/CYP2D7同源区中,其中考虑到(a)与所述CYP2D6基因或所述CYP2D7基因比对的具有支持所述CYP2D6基因在所述小变体位置处的小变体等位基因的碱基的序列读段的数量和/或(b)与所述CYP2D6基因或所述CYP2D7基因比对的具有支持所述CYP2D6基因在所述小变体位置处的参考等位基因位置处的拷贝数的所述CYP2D6基因在所述小变体位置处的小变体等位基因的可能拷贝数和所述CYP2D6基因在所述小变体位置处的参考等位基因的可能拷贝数的83.根据权利要求78所述的系统,其中所述小变体位置不处于CYP2D6/CYP2D7同源区中,其中考虑到(a)与所述CYP2D6基因并且不与所述CYP2D7基因比对的具有支持所述CYP2D6基因在所述小变体位置处的小变体等位基因的碱基的序列读段的数量和/或(b)与所述CYP2D6基因并且不与所述CYP2D7基因比对的具有支持所述CYP2D6基因在所述小变体位置处的参考等位基因的碱基的序列读段的数量,确定最可能组合包括确定共计为所述CYP2D6基因在所述小变体位置处的拷贝数的所述CYP2D6基因在所述小变体位置处的小变体等位基因的可能拷贝数和所述CYP2D6基因在所述小变体位置处的参考等位基因的可能84.根据权利要求78所述的系统,包括确定所述CYP2D6基因在所述小变体位置处的拷85.根据权利要求78所述的系统,其中所述CYP2D6基因在所述小变体位置的拷贝数包86.根据权利要求78所述的系统,其中所述CYP2D6基因在所述小变体位置处的拷贝数包括所确定的最可能组合的所述CYP2D6基因的可能拷贝数的所述87.根据权利要求78所述的系统,其中所述CYP2D6基因在所述小变体位置处的拷贝数包括所确定的最可能组合并且最接近所述小变体位置的所述CYP2D6基因的可能拷贝数的88.根据权利要求78所述的系统,其中所述CYP2D6基因在所述小变体位置处的拷贝数包括所述CYP2D6基因在所述小变体位置的5'定具有支持所述CYP2D6基因的参考等位基因的碱基90.根据权利要求45至46中任一项所述的系统,其中确定所述受试者具有的所述91.根据权利要求45至46中任一项所述的系统,其中确定所述受试者具有的所述CYP2D6基因的等位基因包括:使用所确定的CYP2D6基因的所述一个或多个结构变体和/或所确定的CYP2D6基因的所述一个或多个小变体来确定所述受试者具有的所述CYP2D6基因92.根据权利要求45至46中任一项所述的系统,其中所述硬件处理器由所述可执行指94.根据权利要求45至46中任一项所述的系统,其中所述硬件处理器由所述可执行指非暂态存储器,所述非暂态存储器被配置为存储可执行指令和硬件处理器,所述硬件处理器与所述非暂态存储器通信,所述硬件考虑到(i)与第一区域比对的序列读段的第一数量,使用包含各自表示不同的整数拷对于多个第一旁系同源特异性碱基中的一个碱基,考虑到(a)具有支持所述第一旁系同源特异性碱基的碱基的所述多个序列读段的序列读段的数量和(b)具有支持所述第二旁系同源物的与所述第一旁系同源特异性碱基对应的第二旁系同源特异性碱基的碱基的所源物的拷贝数的所述第一类型的第一旁系同源物的可能拷贝数和所述第一类型的第二旁使用对于所述第一旁系同源特异性碱基所确定的第一旁系同源物的可能拷贝数和第二旁系同源物的可能拷贝数的最可能组合来确定第一旁系同源物的拷贝确定(i)序列数据中获自受试者的样本且与所述第一区域比对的多个序列读段的序列读段97.根据权利要求95至96中任一项所述的系统,其中所述硬件处理器由所述可执行指98.根据权利要求95至96中任一项所述的系统,其中所述硬件处理器由所述可执行指99.根据权利要求95至96中任一项所述的系统,其中所述硬件处理器由所述可执行指二旁系同源物的可能拷贝数的最可能组合以及所述第二类型的所述一个或多个旁系同源物的拷贝数来确定所述第一旁系同源物的拷贝101.根据权利要求99所述的系统,其中所述硬件处理器由所述可执行指令编程以执拷贝数和所述第二旁系同源物的可能拷贝数的最可能组合来确定所述第一旁系同源物的102.根据权利要求99所述的系统,其中所述第一旁系同源物为运动神经元存活1SMN1SMN1基因的至少一个外显子1至外显子6以及所述SMN2基因的至少一个外显子1至外显子6,其中所述第二区域包含所述SMN1基因的外显子7和外显子8中的至少一者以及所述SMN2基103.根据权利要求99所述的系统,其中所述第一旁系同源物为细胞色素P450家族2亚家族D成员6CYP2D6基因,其中所述第二旁系同源物为细胞色素P450家族2亚家族D成员述一个或多个旁系同源物包含具有所述间隔区的CYP2D6/CYP2D7融合等位基因和所述CYP2D6/CYP2D7融合等位基因下游的重复元件REP7,并且其中所述第一旁系同源物的等位[0002]本申请要求2019年9月5日提交的美国临时专利申请第62/896,548号、2019年9月30日提交的美国临时专利申请第62/908,555号和2020年4月7日提交的美国临时专利申请能丧失但旁系同源SMN2基因保留所引起的。由于SMN1及其旁系同源SMN2的序列几乎相同,[0006]本文所公开的包括用于确定运动神经元存活1(SMN1)基因的拷贝数的方法。在一些实施方案中,一种用于确定SMN1基因的拷贝数的方法在处理器(诸如硬件处理器或虚拟包含SMN1基因或SMN2基因的外显子1至外显子6中的至少一者的第一SMN1或SMN2区域比对的该多个序列读段的序列读段的第一数量和(ii)与分别包含SMN1基因或SMN2基因的外显子7和外显子8中的至少一者的第二SMN1或SMN2区域比对的该多个序列读段的序列读段的区域的长度来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比因的总运动神经元存活(SMN)基因的拷贝数和(ii)各自为完整SMN1基因或完整SMN2基因的异性碱基中的一个碱基,考虑到(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的多个可能组合拷贝数和SMN2基因的可能拷贝数的最可能组合来确定SMNSMN1或SMN2区域进行比对,其中比对质量得分为约零。第一SMN1或SMN2区域可分别包含[0009]在一些实施方案中,确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二区域比对的序列读段的第二归一化数量包括:分别使用(i)第一SMN1或SMN2区域的长度和(ii)第二SMN1或SMN2区域的长度来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量,以及确定(iii)在序列数据中除包含SMN1基因和SMN2基因的基因座之外的受试者的基因组的区域的序列读段的深度。确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量可包括:分别使用(i)第一SMN1或SMN2区域的长度和(ii)第二SMN1或SMN2区域的长度来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一SMN1或SMN2区域长度归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二SMN1或SMN2区域长度归一化数量。确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对试者的基因组的区域的序列读段的深度,分别根据(i)第一SMN1或SMN2区域长度归一化数量和(ii)第二SMN1或SMN2区域长度归一化数量来确定(i)与第一区域SMN1或SMN2比对的序列读段的第一归一化深度以及(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化域比对的序列读段的第二归一化数量分别为第一归一化深度和第二归一[0010]在一些实施方案中,确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二区域比对的序列读段的第二归一化数量包括:分别使用(i)第一SMN1或SMN2区域的GC含量和(ii)第二SMN1或SMN2区域的GC含量来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量,以及确定(iii)在序列数据中除包含SMN1基因和SMN2基因的基因座之外的SMN1或SMN2区域比对的序列读段的第一归一化数量和/或(ii)与第二SMN1或SMN2区域比对个高斯函数可表示0至10的整数拷贝数。该多个高斯函数中的每个高斯函数的平均值可以[0013]在一些实施方案中,确定(i)总SMN基因的拷贝数和(ii)任何完整SMN基因的拷贝数包括分别考虑到(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与定的后验概率阈值来确定(i)总SMN基因的拷贝数和(ii)任何完整SMN基因的拷贝数。第一确定的完整SMN基因的拷贝数来确定截短SMN基因的拷贝数。截短SMN基因的拷贝数可以为碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持对应SMN2基因特异性碱基的可能拷贝数和SMN2基因的可能拷贝数的最可能组合与最高后验概率相组合包括:考虑到(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率,确定各自包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的该多个可能组合中的最可能组合。确定SMN1基因的可能拷贝数和SMN2基因的可能组合的最可能组合可包括:确定(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量;确定(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率;以及基于(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率来确定各自包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的该多个可能组合中的最异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持SMN2基因的与SMN1基定各自包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基可能拷贝数和SMN2基因的可能拷贝数的最可能组合的SMN1基因的可能拷贝数来确定SMN1性碱基中的每个碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能因特异性碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合以及SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的组合的第二预先确定的后验概率阈个SMN1基因特异性碱基中的任一个碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持该多个对应SMN2基因特异性碱基中的任一个碱基的碱基的该多个序列读段的序列读段的数量,确定包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷读段的数量以及与SMN1基因的g.27134比对的序列读段的碱基确定受试者是沉默SMA携带[0023]本文所公开的包括用于对细胞色素P450家族2亚家族D成员6(CYP2D6)基因进行基者的样本且与CYP2D6基因或细胞色素P450家族2亚家族D成员7(CYP2D7)基因比对的多个序整数拷贝数的多个高斯函数的高斯混合模型来确定(i)CYP2D6基因和CYP2D7基因的总拷贝数。该方法可包括:对于多个CYP2D6基因特异性碱基中的一个碱基,考虑到(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读能拷贝数的最可能组合来确定受试者具有的CYP2D6基因的等因比对的该多个序列读段的序列读段的第一数量包括:确定(i)与CYP2D6基因的至少一个外显子或内含子或者CYP2D7基因的外显子或内含子中的至少一者比对的该多个序列读段[0026]在一些实施方案中,确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一CYP2D7基因比对的序列读段的第一归一化数量,以及确定(iii)在序列数据中除包含(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量和(ii)与的序列读段的第二归一化数量可包括:分别使用(i)CYP2D6基因或CYP2D7基因的长度来确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一CYP2D6基因或CYP2D7基因长度归一化数量。确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量和(ii)基因座之外的受试者的基因组的区域的序列读段的深度根据(i)CYP2D6基因或CYP2D7基因长度归一化数量来确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化深[0027]在一些实施方案中,确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量包括:使用(i)CYP2D6基因或CYP2D7基因的GC含量来确定(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量,以及确定(iii)在序列数据中除包含(iv)确定基因组的区域的GC含量。该区域的深度可包括测序数据中除包含CYP2D6基因和区域可包含约3000个长度为约2kb且各自跨受试者的基因组的预选区域。在一些实施方案域比对的序列读段的第二归一化数量为约3个高斯函数可表示0至10的整数拷贝数。该多个高斯函数中的每个高斯函数的平均值可以[0029]在一些实施方案中,确定(i)CYP2D6基因和CYP2D7基因的总拷贝数包括:考虑到(i)与CYP2D6基因或CYP2D7基因比对的序列读段的第一归一化数量,使用高斯第一预先确定的后验概率阈值来确定(i)CYP2D6基因和CYP2D7基因的总拷贝数。第一预先[0030]在一些实施方案中,考虑到(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持对应CYP2D7基因特异性碱基的碱基的该多个序CYP2D7基因的可能拷贝数的最可能组合与最数的最可能组合包括:考虑到(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率,确定各自包括共计为所确定的CYP2D6基因和CYP2D7基因的总拷贝数的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷的最可能组合可包括:确定(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量;确定(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率;以及考虑到(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段贝数的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的该多个可能组合中的最可[0032]在一些实施方案中,确定受试者具有的CYP2D6基因的等位基因包括:使用对于CYP2D6基因特异性碱基所确定的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的最可能组合来确定受试者具有的CYP2D6基因的一个或多个结构变体。在一些实施方案中,CYP2D6基因特异性碱基中的每个碱基,考虑到(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持CYP2D7基因的与CYP2D6基因特异性碱括共计为所确定的CYP2D6基因和CYP2D7基因的总拷贝数的CYP2D6基因的可能拷贝数和异性碱基中的每个碱基所确定的CYP2D6基因的可能拷贝数和CYP2D7基因的可能拷贝数的或更多个碱基以及该两个或更多个CYP2D6基因特异性碱基的位置所确定的最可能组合的CYP2D6基因的拷贝数来确定受试者具有的CYP2D6基因[0033]在一些实施方案中,CYP2D6基因特异性碱基与除超出预先确定的一致性阈值的于所接收的种族信息,从多个CYP2D6基因特异性碱基中选择该多个CYP2D6基因特异性碱复元件REP7之间的间隔区比对的该多个序列读段的序列读段的第二数量。该方法可包括:可能拷贝数以及该间隔区的拷贝数的最可能组合来确定受试者具有的CYP2D6基因的该一个或多个结构变体。该一个或多个结构变体可包含具有间隔区的CYP2D6/CYP2D7融合等位基因和CYP2D6/CYP2D7融合等位基因下游的重复元[0035]在一些实施方案中,该方法包括:使用所接收的序列数据确定受试者具有的体位置,考虑到(a)具有支持CYP2D6基因在小变体位置处的小变体等位基因的碱基的序列读段的数量和(b)具有支持CYP2D6基因在小变体位置处的参考等位基因的碱基的序列读段小变体等位基因的可能拷贝数和CYP2D6基因的参考等位基因的可能拷贝数的最可能组合,最可能组合的CYP2D6基因在小变体位置处的小变体等位基因的可能拷贝数指示CYP2D6基与CYP2D6基因的小变体等位基因相关联,考虑到(a)具有支持CYP2D6基因在小变体位置处的小变体等位基因的碱基的序列读段的数量和(b)具有支持CYP2D6基因在小变体位置处的的CYP2D6基因在小变体位置处的小变体等位基因的可能拷贝数和CYP2D6基因在小变体位体位置处的小变体等位基因的可能拷贝数指示CYP2D6基因的该一个基因相关联的小变体位置,考虑到(a)与CYP2D6基因比对的与小变体位置重叠并且具有支持CYP2D6基因在小变体位置处的小变体等位基因的碱基的序列读段的数量和(b)与CYP2D6基因比对的与小变体位置重叠并且具有支持CYP2D6基因在小变体位置处的参考等位基因在小变体位置处的小变体等位基因的可能拷贝数和CYP2D6基因在小变体位置处的参考等基因的小变体等位基因相关联,考虑到(a)与CYP2D6基因比对的与小变体位置重叠并且具有支持CYP2D6基因在小变体位置处的小变体等位基因的碱基的序列读段的数量和(b)与CYP2D6基因比对的与小变体位置重叠并且具有支持CYP2D6基因在小变体位置处的参考等位基因的碱基的序列读段的数量,确定共计为CYP2D6基因在小变体位置处的拷贝数的CYP2D6基因在小变体位置处的小变体等位基因的可能拷贝数和CYP2D6基因在小变体位置基因在该多个小变体位置处的小变体等位基因的可能拷贝数来确定CYP2D6基因的一个或[0037]在一些实施方案中,小变体位置处于CYP2D6/CYP2D7同源区中,考虑到(a)与CYP2D6基因或CYP2D7基因比对的具有支持CYP2D6基因在小变体位置处的小变体等位基因的碱基的序列读段的数量和/或(b)与CYP2D6基因或CYP2D7基因比对的具有支持CYP2D6基计为CYP2D6基因在小变体位置处的拷贝数的CYP2D6基因在小变体位置处的小变体等位基因的可能拷贝数和CYP2D6基因在小变体位置处的参考等位基因的可能拷贝数的最可能组因并且不与CYP2D7基因比对的具有支持CYP2D6基因在小变体位置处的小变体等位基因的碱基的序列读段的数量和/或(b)与CYP2D6基因并且不与CYP2D7基因比对的具有支持括确定共计为CYP2D6基因在小变体位置处的拷贝数的CYP2D6基因在小变体位置处的小变体等位基因的可能拷贝数和CYP2D6基因在小变体位置处的参考等位基因的可能拷贝数的[0038]在一些实施方案中,该方法包括确定CYP2D6基因在小变体位置处的拷贝数。置处的拷贝数可包括所确定的最可能组合的CYP2D6基因的可能拷贝数的CYP2D6基因的拷贝数可包括CYP2D6基因在小变体位置的5'位置或3'位置处的拷贝数。在一些实施方案中,及(b)确定具有支持CYP2D6基因的参考等位基因的碱或多个结构变体和/或所确定的CYP2D6基因的该一个或多个小变体来确定受试者具有的同源特异性碱基中的一个碱基,考虑到(a)具有支持第一旁系同源特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持第二旁系同源物的与第一旁系同源特异性自包括共计为所确定的第一类型的旁系同源物的拷贝数的第一类型的第一旁系同源物的可能拷贝数和第一类型的第二旁系同源物的可能拷贝数的多个可能组合中的最可能组合。旁系同源物的可能拷贝数和第二旁系同源物的可能拷贝数的最可能组合来确定第一旁系中确定第一类型的旁系同源物的拷贝数包括:考虑到(i)与第一区域比对的序列读段的第性碱基所确定的第一旁系同源物的可能拷贝数和第二旁系同源物的可能拷贝数的最可能组合以及第二类型的该一个或多个旁系同源物的拷贝数来确定第一旁系同源物的拷贝数旁系同源物的可能拷贝数的最可能组合来确定第一旁系同源物的拷贝数外显子8中的至少一者和SMN2基因的外显子7和外显子8中的至少一者。第一类型的旁系同[0045]在一些实施方案中,第一旁系同源物为细胞色素P450家族2亚家族D成员6二类型的该一个或多个旁系同源物可包含具有间隔区的CYP2D6/CYP2D7融合等位基因和CYP2D6/CYP2D7融合等位基因下游的重复元件REP7。第一旁系同源物的拷贝数可包含受试方案,该计算机可读介质包括可执行指令,这些可执行[0047]本说明书中描述的主题的一个或多个具体实施的细节在附图和以下描述中进行[0048]图1A至图1E示出了根据本文所公开的方法的一个实施方案的SMA和SMN拷贝数调[0049]图2A至图2C示出了使用本文所公开的方法的一个实施方案所确定的SMN1/2拷贝[0051]图4示出了使用本文所公开的方法的一个实施方案确定的群体频率与先前的研究[0052]图5为示出CYP2D6为高度多态性的并且位于CYP2D7(CYP2D6的假基因旁系同源物)[0054]图7为示出通过该方法确定的等位基因频率与来自药物基因变异(PharmVar)联盟[0055]图8为示出使用测序数据确定运动神经元存活1(SMN1)基因的拷贝数的示例性方[0056]图9为显示使用测序数据对细胞色素P450家族2亚家族D成员6(CYP2D6)基因进行[0058]图11为被配置为使用测序数据实现旁系同源物基因分型的示例性计算系统的框[0059]图12A和图12B示出了说明影响SMN1/SMN2基因座的常见CNV的非限制性示例性曲和SMN2(上部)中的坐标。图12B示出了由携带外显子7和8缺失的50个样本聚集而来的深度[0060]图13示出了总SMN(SMN1+SMN2)拷贝数(x轴,由外显子1至6中的读段深度调用)和[0061]图14A至图14D示出了SMN1/SMN2/SMN*拷贝数在群体中的分布。图14A为非限制性示例性图,其示出了在非洲人和非非洲人群体中显示在16个SMN1_SMN2碱基差异位点中与和SMN*拷贝数分布的非限制性示例性柱状图(数值在表15中示出)。图14C为SMN1CN与总个等位基因的CN进行定相并对三人组的每个成个位点以及SMN1:SMN2CN组合的模拟SMN1CN的后验[0063]图16示出了具有外显子7至8缺失的样本中SMN2区域的非限制性示例性IGV快照。的原始SMN1CN和在c840.C>T位点处的原始SMN1CN之间的相关性。将每个位点处的原始SMN1CN计算为完整SMN的CN乘以支持SMN1+SMN2的读段计数中支持SMN1的读段计数的分[0065]图18A和图18B示出了非限制性示例性曲线图,其示出了在1kGP中具有SMN1:2SMN2:0和SMN1:2SMN2:1的样本中的SMN1/SMN2单倍型。y轴示出了如图16所定义的原始REP7和CYP2D6/7的9个外显子在左框(CYP2D6)和右框(CYP2D7)上以框示出。CYP2D6(REP6)和CYP2D7(REP7)下游的两个2.8kb重复区是相同的并且基本上不可比对。虚线框表示见单倍型在五个族群群体中的CYP2D6等位基因的频率。一个单倍型(*2x2)具有提高的功在总CYP2D6+CYP2D7CN为4的所有样本中CYP2D6碱基的CN被调用为2的样本频率。X轴示出[0074]图27示出了在具有SV的示例中跨CYP2D6/7区分位点的原始CYP2D6CN。将原始CYP2D6CN计算为总CYP2D6+CYP2D7CN乘以CYP2D6和CYP2D7支持读段中的CYP2D6支持读段的比率。大菱形表示在基因末端的CYP2D6衍生的基因(可以为完整CYP2D6或CYP2D6结尾的在HG01161中,CYP2D6CN在外显子7和外显子9之间从2变为1,表明CYP2D7_CYP2D6杂交基[0076]图29示出了PacBio数据具有由Aldy在HG02622中作出的假*61(CYP2D6/CYP2D7杂36中但不在*83中的SNP,如在侧接两条黑色垂直线的区域中所示。该拷贝为*83,并且与[0079]图32为非限制性示例性IGV快照,其示出了不包括*68融合体的HG00733中的[0083]本文所公开的包括用于确定运动神经元存活1(SMN1)基因的拷贝数和/或运动神SMN2基因的拷贝数的方法在处理器(诸如硬件处理器或虚拟处理器)的控制下,并且包括:至少一者的第一SMN1或SMN2区域比对的该多个序列读段的序列读段的第一数量和(ii)与分别包含SMN1基因或SMN2基因的外显子7和外显子8中的至少一者的第二SMN1或SMN2区域比对的该多个序列读段的序列读段的第二数量。该方法可包括:分别使用(i)第一SMN1或SMN2区域的长度和(ii)第二SMN1或SMN2区域的长度来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一示不同的整数拷贝数的多个高斯函数的高斯混合模型来确定(i)各自为完整SMN1基因、完整SMN2基因、截短SMN1基因或截短SMN2基因的总运动神经元存活(SMN)基因的拷贝数和于与完整SMN1基因相关联的多个SMN1基因特异性碱基中的一个碱基,考虑到(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量,确定各自包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷SMN1基因特异性碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合来确定SMN1基因和/或SMN2基[0084]本文所公开的包括用于对细胞色素P450家族2亚家族D成员6(CYP2D6)基因进行基者的样本且与CYP2D6基因或细胞色素P450家族2亚家族D成员7(CYP2D7)基因比对的多个序整数拷贝数的多个高斯函数的高斯混合模型来确定(i)CYP2D6基因和CYP2D7基因的总拷贝数。该方法可包括:对于多个CYP2D6基因特异性碱基中的一个碱基,考虑到(a)具有支持CYP2D6基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持与CYP2D6基因特异性碱基对应的CYP2D7基因特异性碱基的碱基的该多个序列读段的序列读能拷贝数的最可能组合来确定受试者具有的CYP2D6基因的等位使用包含各自表示不同的整数拷贝数的多个高斯函数的高斯混合模型来确定第一类型的虑到(a)具有支持第一旁系同源特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持第二旁系同源物的与第一旁系同源特异性碱基对应的第二旁旁系同源物的拷贝数的第一类型的第一旁系同源物的可能拷贝数和第一类型的第二旁系同源特异性碱基所确定的第一旁系同源物的可能拷贝数和第二旁系同源物的可能拷贝数的最可能组合来确定第一旁系同源物的拷贝数方案,该计算机可读介质包括可执行指令,这些[0088]脊髓性肌萎缩(SMA)的特征在于随意肌无力,并且是儿童早期死亡的主要遗传原基对,其中一个(外显子7中的c.840C>T剪接变体)具有功能结果。通过中断剪接增强子,[0089]常规的SMA携带者测试使用基于PCR的方法,诸如多重连接依赖性探针扩增于高通量NGS的测试中可同时对大量基因或甚至整个基因组进行谱图分析可能是有利的。SMN1和SMN2之间几乎完全的序列同一性使得变体调用对于标准的基于GSS的方法具有挑战[0090]本文所公开的是基于生物信息学方法的SMN拷贝数调用器,该方法利用全基因组测序(WGS)数据确定SMN1和SMN2的拷贝数(图1E)。该方法可包括通过将SMN1和SMN2中的读[0091]图1A至图1E示出了根据本文所公开的生物信息学方法的一个实施方案的SMASMN有高百分比一致性的九个位点以对SMN1拷贝数进行联合调用。图2A至图2C和表2示出了所基因转换是SMN1和SMN2的CN可变性的机制。表3示出了使用生物信息学方法测定的拷贝数调用相对于使用数字PCR测定的拷贝数的验证。对于数字PCR的验证在SMN1CN中显示出个三人组中识别的并且使用MLPA验证的SMA。图4和表4示出了使用生物信息学方法确定的[0096]表3.使用生物信息学方法测定的拷贝数调用相对于使用数字PCR测定的拷贝数的[0100]aHendrickson等人。“DifferencesinSMN1allelefrequenciesamong[0101]bSugarman等人。“Pan_ethniccarrierscreeningandforspinalmuscularatrophy:clinicallaboratoryanaly[0104]群体规模的全基因组测序(WGS)数据越来越可用。例如,来自1000基因组项目(1kGP)的>2,500个样本的公共序列数据诸如高深度(>30x)WGS数据是可用的。这极大地改的区域和变体诸如三联体重复和同源物不包括在基于WGS的数据库中,因为注释这些区域布和使用从高质量长读段生成的验证数据对这些方法[0106]CYP2D6是高度多态性的重要药物代谢酶(图5)。CYP2D6与其假基因旁系同源物[0113]表5示出了通过该方法进行的CYP2D6星形等位基因调用的验证结果。通过该方法对96个样本中的92个进行的CYP2D6星形等位基因调用与来自多个平台的GeT_RM共有序列GeT_RM共有序列一致)和Stargazer(CYP2D6星形等位基因调用96个样本中的83个,与GeT_NA24008[0116]图7示出了通过该方法确定的等位基因频率与来自药物基因变异(PharmVar)联盟[0118]图8为示出使用测序数据(诸如全基因组测序数据)确定运动神经元存活1基因的拷贝数的示例性方法800的流程图。方法800可包括在存储在计算系统的计算机可读介质考图11描述的计算系统1100)确定:(i)与分别包含运动神经元存活1(SMN1)基因或运动神经元存活2(SMN2)基因的外显子1至外显子6中的至少一者的第一SMN1或SMN2区域比对的多个序列读段的序列读段的第一数量和(ii)与分别包含SMN1基因或SMN2基因的外显子7和外显子8中的至少一者的第二SMN1或SMN2区域比对的该多个序列读段的序列读段的第二数量。与第一SMN1或SMN2区域比对的序列读段的第一数量(或与第二SMN1或SMN2区域比对的序列读段的第二数量)可以为或为约例如[0120]SMN1基因的外显子1至外显子6中的至少一者可包括SMN1基因的外显子1、外显子或SMN2区域可分别包含SMN1基因或SMN2基因的外显子1至外显子6,并且长度可以为约且与SMN1基因或SMN2基因比对的多个序列读段。测序数据可包括全基因组测序(WGS)数据长度和(ii)第二SMN1或SMN2区域的长度来确定(i)与第一SMN1或SMN2区域比对的序列读段一SMN1或SMN2区域比对的序列读段的第一归一化数量(或与第二SMN1或SMN2区域比对的序列读段的第二归一化数量)可以为或为约例如[0124]在一些实施方案中,为了确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二区域比对的序列读段的第二归一化数量,计算系统可分别使用(i)第一SMN1或SMN2区域的长度和(ii)第二SMN1或SMN2区域的长度来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量,以及确定(iii)在序列数据中除包含SMN1基因和SMN2基因的基因[0125]为了确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量,计算系统分别使用(i)第一SMN1或SMN2区域的长度和(ii)第二SMN1或SMN2区域的长度来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一SMN1或SMN2区域长度归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二SMN1或SMN2区域长度归一化数量。计算系统可使用除包含SMN1基因和SMN2基因的基因座之外的受试者的基因组的区域的序列读段的深度,分别根据(i)第一SMN1或SMN2区域长度归一化数量和(ii)第二SMN1或SMN2区域长度归一化数量来确定(i)与第一区域SMN1或SMN2比对的序列读段的第一归一化深度和(ii)与第二SMN1或SMN2区域比量和与第二SMN1或SMN2区域比对的序列读段的第二归一化数量可以分别为第一归一化深[0126]在一些实施方案中,为了确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二区域比对的序列读段的第二归一化数量,计算系统可分别使用(i)第一SMN1或SMN2区域的GC含量和(ii)第二SMN1或SMN2区域的GC含量来确定(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量,以及确定(iii)在序列数据中除包含SMN1基因和SMN2基因的的受试者的基因组的区域的序列读段的深度可以为或为约例如100或更高。序列数据中除包含SMN1基因和SMN2基因的基因座之外的受试者的基因组的区据中除包含SMN1基因和SMN2基因的基因座之外的受试者的基因组的区域的序列读段的中[0128]在一些实施方案中,与第一SMN1或SMN2区域比对的序列读段的第一归一化数量数量和/或(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化数量为约序列读段的第一归一化数量和(ii)与第二SMN1或SMN2区域比对的序列读段的第二归一化定(i)总运动神经元存活(SMN)基因的拷贝数和(ii)任何完整SMN基因的拷贝数。总运动神何完整SMN基因可包含完整SMN1基因和/或完整SMN2基因。总SMN基因(或本公开的任何基因)的拷贝数可以为或约为例如[0131]在一些实施方案中,为了确定(i)总SMN基因的拷贝数和(ii)任何完整SMN基因的拷贝数,计算系统可分别考虑到(i)与第一SMN1或SMN2区域比对的序列读段的第一归一化和第一预先确定的后验概率阈值来确定(i)总SMN基因的拷贝数和(ii)任何完整SMN基因的[0132]方法800从框816前进至框820,其中对于与完整SMN1基因相关联的多个SMN1基因有支持SMN1基因特异性碱基的碱基的序列读段的数量(例如,序列读段的未归一化或归一化数量)和(b)该多个序列读段的具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2算系统确定各自包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数[0133]在一些实施方案中,考虑到(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持对应SMN2基因特异性碱基的碱基的该多个序列读因的可能拷贝数的最可能组合与最高后验概率相关可能组合,考虑到(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的该多个可组合,计算系统可确定(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量。计算系统可确定(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基的碱基的该多个序列读段的序列读段的数量的比率。基于(a)具有支持SMN1基因特异性碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持SMN2基因的与SMN1基因特异性碱基对应的SMN2基因特异性碱基SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的该多个可能组合中异性碱基的碱基的该多个序列读段的序列读段的数量和(b)具有支持SMN2基因的与SMN1基算系统确定各自包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的多个可能组合中的与最高后验概率相关联的最可能组合。与SMN1基因特异性碱基(或SMN2基因特异性碱基)比对的序列读段的数量可以为或为约例如计算系统可基于对于该多个SMN1基因特异性碱基中的每个碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合的SMN1基因的可能拷贝数来确定SMN1基因定的一致性阈值的SMN1基因特异性碱基之外的该多个SMN1基因特异性碱基中的每个碱基[0138]方法800从框820前进至方框824,其中计算系统使用对于SMN1基因特异性碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合来确定SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合来确定SMN[0139]在一些实施方案中,为了确定SMN1基因的拷贝数,计算系统可使用对于该多个SMN1基因特异性碱基中的每个碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷系统可使用对于SMN1基因特异性碱基所确定的SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的最可能组合以及SMN1基因的可能拷贝数和SMN2基因的可能拷贝数的组合的第二预先确定的后验概率阈值来确定SMN1基因的拷贝基因的拷贝数可以为SMN1基因的一致可能拷贝数。考虑到(a)具有支持SMN1基因特异性碱基中的任何碱基的碱基的该多个序列读段的序列读段的数量与(b)具有支持该多个对应统可确定包括共计为所确定的任何完整SMN基因的拷贝数的SMN1基因的可能拷贝数和SMN2读段的序列读段的数量以及与SMN1基因的g.2713

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论