CN112669908B 并入数据分组的预测模型（香港中文大学）

上传人：a*** IP属地：重庆上传时间：2025-09-03 格式：DOCX 页数：34 大小：1.41MB 积分：10.56 举报 版权申诉

已阅读5页，还剩29页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利(10)授权公告号CN112669908B(21)申请号202011104920.X(22)申请日2020.10.15(65)同一申请的已公布的文献号申请公布号CN112669908A(43)申请公布日2021.04.16(30)优先权数据地址中国香港新界(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204专利代理师王达佐洪欣G16H50/30(2018.0(56)对比文件方法高维数据的随机森林.《2016Networks》.2016,第4383-4389页.(PCA-CQR)框架在湘西流域的应用.《AppliedSoftComputing》.2017,第51卷(第2期),第280-293页.量敏感性分析通过主成分分析.《Reliability卷(第9期),第1-10页.权利要求书3页说明书9页附图6页(54)发明名称并入数据分组的预测模型(57)摘要集的预测模型。具体来讲，PrismVote利用主成分分析将训练样本划分为不同的分组，并基于不同的分组构建预测模型。对于测试样本，根据其分组的概率，使用这个概率作为权重，将多个预2鉴定数据样本的训练集，其中所述训练集中的每个数据样本包括多个变量和已知结果，所述多个变量指示受试者的基因组中多个单核苷酸多态性(SNP)中的每一个是否存在，并且所述已知结果指示所述受试者的表型特征；基于所述数据样本的相似性的测量将所述训练集的数据样本分割为多个分组；训练每个分组的预测模型，其中所述预测模型基于所述变量预测结果的可能性，并且其中针对每个分组独立地实施所述预测模型的训练；基于所述测试样本预测所述患者的表型特征，其中预测所述患者的表型特征包括：对于每个分组，使用所述分组的预测模型来确定所述结果的概率；对于每个分组，确定所述测试样本属于所述分组的概率；以及基于通过所述测试样本属于所述分组的概率加权的每个分组的概率来计算所述测试样本的预测结果，其中所述预测结果代表所预测的所述患者的表型特征。2.如权利要求1所述的方法，其中分割所述训练集的数据样本包括：建立数据样本的训练集的矩阵；从所述矩阵计算一组特征值和一组特征向量；基于所述特征值的各自大小对所述特征向量进行排序；以及使用排序的特征向量来分割所述训练集的数据样本。3.如权利要求2所述的方法，其中使用排序的特征向量来分割所述训练集的数据样本选择所述排序的特征向量的子集作为显著的特征向量；计算所述显著的特征向量的加权平均向量，其中所述加权平均向量使用根据所述特征值确定的权重；对所述加权平均向量的分量进行排序；以及使用所述加权平均向量的分位数将来自所述训练集的每个数据样本分配给所述分组中的一个。计算所述多个分组中的每一个的中心。5.如权利要求4所述的方法，其中对于每个分组，确定所述测试样本属于所述分组的概率包括计算所述测试样本与所述分组的中心之间的距离度量。6.如权利要求1所述的方法，其中基于贝叶斯模型计算所述测试样本的预测结果。7.如权利要求1所述的方法，其中所述每个分组的预测模型是广义线性模型。8.如权利要求1所述的方法，其中所述表型特征对应于生理特征。处理器，其连接到所述存储器并且被配置成：鉴定数据样本的训练集，其中所述训练集中的每个数据样本包括多个变量和已知结果，所述多个变量指示受试者的基因组中多个单核苷酸多态性(SNP)中的每一个是否存在，3并且所述已知结果指示所述受试者的表型特征；基于所述数据样本的相似性的测量将所述训练集的数据样本分割为多个分组；训练每个分组的预测模型，其中所述预测模型基于变量预测结果的可能性，并且其中针对每个分组独立地实施所述预测模型的训练；基于所述测试样本预测所述患者的表型特征，其中预测所述患者的表型特征包括：对于每个分组，使用所述分组的预测模型来确定所述结果的概率；对于每个分组，确定所述测试样本属于所述分组的概率；以及基于通过所述测试样本属于所述分组的概率加权的每个分组的概率来计算所述测试样本的预测结果，其中所述预测结果代表所预测的所述患者的表型特征。10.如权利要求9所述的计算机系统，其中所述处理器还被配置成使得分割所述训练集建立数据样本的训练集的矩阵；从所述矩阵计算一组特征值和一组特征向量；基于所述特征值的各自大小对所述特征向量进行排序；以及使用排序的特征向量来分割所述训练集的数据样本。11.如权利要求10所述的计算机系统，其中所述处理器还被配置成使得使用排序的特征向量来分割所述训练集的数据样本，其包括：选择所述排序的特征向量的子集作为显著的特征向量；计算所述显著的特征向量的加权平均向量，其中所述加权平均向量使用根据所述特征值确定的权重；对所述加权平均向量的分量进行排序；以及使用所述加权平均向量的分位数将来自所述训练集的每个数据样本分配给所述分组中的一个。12.如权利要求9所述的计算机系统，其中所述处理器还被配置成：计算所述多个分组中的每一个的中心，其中对于每个分组，确定所述测试样本属于所述分组的概率包括计算所述测试样本与所述分组的中心之间的距离度量。13.如权利要求9所述的计算机系统，其中基于贝叶斯模型计算所述测试样本的预测结14.如权利要求9所述的计算机系统，其中所述每个分组的预测模型是广义线性模型。15.如权利要求9所述的计算机系统，其中所述表型特征对应于生理特征、疾病的存在或不存在、或对治疗的反应中的一种或多种。16.计算机可读存储介质，其具有存储于其中的程序代码指令，所述程序代码指令在由计算机系统的处理器执行时使所述计算机系统实施以下方法，所述方法包括：鉴定数据样本的训练集，其中所述训练集中的每个数据样本包括多个变量和已知结果，所述多个变量指示受试者的基因组中多个单核苷酸多态性(SNP)中的每一个是否存在，并且所述已知结果指示疾病是否存在；基于所述数据样本的相似性的测量将所述训练集的数据样本分割为多个分组；4训练每个分组的预测模型，其中所述预测模型基于变量预测结果的可能性，并且其中针对每个分组独立地实施所述预测模型的训练；基于所述测试样本预测所述患者是否患有疾病，其中预测预测所述患者是否患有疾病对于每个分组，使用所述分组的预测模型来确定所述结果的可能性；对于每个分组，确定所述测试样本属于所述分组的概率；以及基于通过所述测试样本属于所述分组的概率加权的每个分组的概率来计算所述测试样本的预测结果，其中所述预测结果预测所述患者是否具有所述疾病。17.如权利要求16所述的计算机可读存储介质，其中分割所述训练集的数据样本包括：建立数据样本的训练集的矩阵；从所述矩阵计算一组特征值和一组特征向量；基于所述特征值的各自大小对所述特征向量进行排序；以及使用排序的特征向量来分割所述训练集的数据样本。18.如权利要求17所述的计算机可读存储介质，其中使用排序的特征向量来分割所述训练集的数据样本包括：选择所述排序的特征向量的子集作为显著的特征向量；计算所述显著的特征向量的加权平均向量，其中所述加权平均向量使用根据所述特征值确定的权重；对所述加权平均向量的分量进行排序；以及使用所述加权平均向量的分位数将来自所述训练集的每个数据样本分配给所述分组中的一个。19.如权利要求16所述的计算机可读存储介质，其还包括：计算所述多个分组中的每一个的中心；其中对于每个分组，确定所述测试样本属于所述分组的概率包括计算所述测试样本与所述分组的中心之间的距离度量。20.如权利要求16所述的计算机可读存储介质，其中基于贝叶斯模型计算所述测试样本的预测结果。21.如权利要求16所述的计算机可读存储介质，其中所述每个分组的预测模型是广义线性模型。5并入数据分组的预测模型[0001]相关申请的交叉引用[0002]本申请要求2019年10月15日提交的第62/915,459号美国临时申请的优先权。背景技术[0003]本公开内容总体上涉及结果的预测，并且特别涉及并入数据分组的预测模型。[0004]准确的预测模型在多个领域都有重要的指导意义。例如，在医学领域中，可根据特定患者的癌症风险提出与癌症筛查有关的最佳建议(例如，实施筛查的频率和/或实施哪种筛查测试)。再者，如果患者患有特定疾病，则可以根据预测[0005]传统上，使用诸如线性或逻辑回归的技术，可以基于一个或多个自变量生成预测。在传统方法中，研究团队设计一项研究来测试特定变量(或变量集)与特定结果相关的特定假设，然后收集足以检验该假设的样本数量，其中该数量是基于预期的效应大小、要控制的潜在混淆变量等预先确定的。[0006]最近，机器学习使得个性化预测成为可能，特别是在面临大量的潜在相关变量时。机器学习分类器通常被给予大量“训练”样本，该数据集中变量和结果均已知。使用已知的训练程序来训练分类器，以优化目标函数。通常，机器学习分类器的训练是动态过程，随着新样本被添加到训练数据集中，此分类器会重新训练以利用新的信息。发明内容[0007]随着数据集样本增多，数据结构在样本中的差异性愈来愈明显。这种渐增的异构性会导致假设“整个训练数据集为同质性群体”的预测算法的准确性降低。例如，可能对部分群体的强预测变量对于另一部分样本几乎没有贡献。[0008]所要求保护的发明的某些实施方案涉及适用于群体分层的预测的技术。利用主成分分析的方法将样本根据数据结构分组，并基于不同的分组构建预测模型。对于测试样本，根据其群体分层结构基于贝叶斯方法计算属于不同分组的概率，使用这个概率作为权重，将多个预测模型的预测结果进行加权求和，作为最终决策。[0009]本文所述的技术可应用于存在样本组间差异的任何数据集。虽然本文所述的实例涉及使用基因组数据的疾病预测，但相似的技术也可应用于其它背景中。例如，在卫生保健领域，数据可以包括除基因组数据以外的生物标志物(例如血液化学数据；医学成像数据；生物计量参数，如心率或血压；家族病史；行为参数(如饮食或运动),以及预测可涉及诊断(例如，特定疾病的存在或不存在)、发展疾病的可能性、对特定疗程的预期反应等。本文所述的技术也可应用于其它领域，如金融(例如，预测未来投资回报或贷款违约的可能性)、保险(例如，预测被保险人未来索赔的可能价值)等。[0010]以下详细描述以及附图将提供对所要求保护的发明的性质和优点的更好的理解。附图说明[0011]图1显示了根据本发明的实施方案的用于预测结果可能性的过程的流程图。6[0012]图2显示了在本发明的一些实施方案中可以与图1的过程一起使用的用于训练集分组的过程的流程图。[0013]图3显示了在本发明的一些实施方案中可以与图1的过程一起使用的用于计算预测结果的过程的流程图。[0014]图4A-4D显示了例示出将根据本发明的实施方案的过程应用于模拟数据集的结果的四幅图。[0015]图5是例示出将根据本发明的实施方案的过程应用于模拟数据集的结果的条形[0016]图6是显示使用根据本发明的实施方案的过程和全局逻辑回归分析的阿尔茨海默病数据的接收者操作特性(ROC)曲线的图。[0017]图7是显示使用根据本发明的实施方案的过程和全局逻辑回归分析的精神分裂症具体实施方式[0018]为了提供对所要求保护的发明的各种特征的理解，描述了其中使用基因组数据来预测个体发展特定疾病的可能性的实施方案。然而，应理解，相同的技术可以应用于其它类型的数据，并且本发明不限于基因组数据、疾病预测或健康护理领域。[0020]图1显示了根据本发明的实施方案的用于预测结果的可能性的过程100的流程图。过程100可以使用适当设计的计算机系统来实现。[0021]在框102,鉴定数据样本的训练集。训练集包含N个个体数据样本。对于每个数据样本x,,其包含p个自变量{x;}(对于j=1,…,p)并且已知其因变量(样本患病情况)y,。例如，该变量集{x;;}可以代表表明p个不同的单核苷酸多态性(SNP)。对于每个SNP,变量x:;取值0、1或2,对应于基因型中的次要等位基因的个数。例如，如果G是次要等位基因，并且观察到的基因型是GG,则SNP值被编码为2。如果观察到的基因型是CC,则SNP值被编码为0。在疾病预测中，因变量y可以指示疾病的存在(y=1)或不存在(y=0)。在诸如预测可变物理特征(例如，血糖水平或胆固醇水平)的情况下，结果y,可以是连续值的变量。根据在数据样本x;中代表的特定信息，可以使用其它编码方案。[0022]在框104,训练集数据样本被划分为多个分组。可以基于样本量大小(即，样本数N)和每组最小样本数(C)来选择分组数。在一些实施方案中，可以在范围2≤K≤N/C内选择分组数(K),具体根据自变量的多少等因素综合而定。机器学习分类器可能需要甚至更大的训练集来产生可靠的预测模型，特别是如果变量的数量很大的情况。下面描述了在一些实施方案中可以用于优化给定训练数据集的分组数的技术的实例。[0023]图2显示了用于分割或分组训练集(其可以在过程100的框104处实现)的过程200的流程图。过程200涉及使用训练数据的矩阵表示和主成分分析的元素来定义相似性。[0024]在框202,由训练样本矩阵X。在一些实施方案中，矩阵X的每一行可以对应于数据样本x;并且每一列对应一个自变量。因此，对于N个样本(每个样本具有p个变量)的训练数所有变量处于相似的数值范围内。7意味着部分特征向量分配给一个分组)解释为祖先方向。具有前q个特征向量中的高度变异的对象在遗传上更接近并且被分组在[0037]在框212,每个组的中心可以被计算为该组内的最前q个特征8[0043]其中是因变量观测，是自变量观测矩阵，以及训练数据计算比如线性回归模型的参数的技术在本领域中是已知的，并且可以在过程100(s)。如本文使用的，测试样本s可以是在训练预测模型中未使用并且已知相关变量xs=[0050]在框110,可以基于每个分组的预测模型和测试样本属于该分组的概率来计算测用基于测试样本属于每个分组的概率的权重来组合每个分组预[0051]图3显示了用于计算可在框110使用的预测结果的过程300的流程图。在框302,对于每个分组k,基于测试样本属于分组k的假设来计算每个分组预测(y)。例如，可以将与测9[0052]在框304,对于每个分组k,可以确定测试样本s属于该分组的每个分组概率。在一[0060]在框306,基于在框302确定的每组预测结果y和样本s属于第k组的概率来计算样过以下给出：[0064]其中Pr(s∈k)=n/N是第k组训练样本量占总训练样本量的比例，其式(9)中所定义的。并且其中用于测试样本的预测是通过根据测试样本在特定分组中的概率组合来自不同分[0066]考虑了诸如过程100的Pris数量的变量的任意大小的数据集进行操作。可以例如通过实施框102-106来生成一组预测改变)。[0069]诸如过程100的PrismVote方法开发了适用于群体分层数据不同组别的预测模用所有训练数据训练的单个预测模型)更可靠的预测，可以考虑不同方法的预期预测误差其它预测模型。=Var(Y|X=xs)+Var(fR[0072]对于具有针对每个分组的线性回归模型的K-分组Pris[0074]其中f(X)是来自针对样本X的第k个分组的回归模型的预测，并且w(X)是针对样本X第k个分组的预测的权重。样本x来说，比全局模型预测更准确。不等式的推导归纳为PVI(x)>0,其中PVI(x)通过以下给出：[0077]其中是根据过程100来自第k组的最小二乘估计，是使用全局线性回归模型(对所有样本进行训练)的最小二乘估计.取测试数据集中最小的PVI值，来衡量对于整个测试数据而言，是否要实施PrismVote。[0079]当等式(15)产生PVI>0时，对于所有测试样本，预期使用利用线性回归模型独立地训练每个分组的PrismVote过程可以提供比在所有训练样本上训练的单个线性回归模型更好的预测性能。[0082]应理解，也可以选择除了由等式(16)指示的以外的K值，即使性能是次优的。此外，若预测模型不是线性回归模型，相似的逻辑也可用于定义预期PrismVote过程胜过单个模型和/或确定最佳分组数的条件。数从(1、2、3或4)中取值，并且假定每个分组遵循不同的线性回归预测模型来生成数据。用对于每个数据集，由以上等式(14)定义的PVI(线411、421、431、441)和均方差(MSE)测量-1*下，当K被选择为真实分组数时，PVI被最大化，并且产生最大PVI的K值也提供最小MSE,如由以上等式(16)所指示的。[0087]为了例示出PrismVote的性能，已经使用具有不同表型的两个群体实施了模拟研究。生成了五种不同情境的数据。每种情境使用相同的预测器集(变量)和线性回归模型，但针对两个群体之间的各种自变量的效应差(表示为平均差)不同。在情境1中，两个群体的效应大小之间没有差异(平均β差为0);在情境2-4中，效应量存在渐增的差异(平均β差为0.18、0.4、0.67);在情境5中，效应完全不同(平均β差为1)。情境1-5的所得PVI为0.27、0.10、0.76、1.46和3.23.对于每个情境，计算全局线性回归模型(对所有数据样本训练的)和K=2的PrismVote过程的均方误差(MSE)。[0088]图5是比较每个情境中预测的MSE的条形图。对于每个情境，全局(传统)线性回归模型的结果在左边，PrismVote过程的结果在右边。从图5中可以看出，当存在效应大小差[0090]使用针对每一分组的逻辑回归预测模型的PrismVote过程已经应用于分别与阿尔茨海默病和精神分裂症相关的两个全基因组数据集。还将全局逻辑回归预测模型应用于相同的数据集进行比较。将每个训练的模型应用于已知结果的测试数据，以便评估灵敏度和特异性。[0091]图6是显示PrismVote过程(线602)和全局逻辑回归(线604)的阿尔茨海默病数据的接受者操作特性(ROC)曲线的图。在PrismVote过程的情况下，在5组交叉验证(5GCV)中平均曲线下面积(AUC)达到74.36%,相对于常规逻辑回归提高了3.5%。[0092]图7是显示PrismVote过程(线702)和全局逻辑回归(线704)的精神分裂症数据的高了3.1%。[0093]这些实例显示，可以使用本文所述类型的PrismVote过程来提高预测的准确性。应理解，这些实施例是例示性的而不是限制性的。性能可以取决于被建模的变量和结果的特定集合，以及取决于所使用的预测模型、分组数和数据集的大小。[0094]计算机系统实现[0095]本文所述类型的数据分析和计算操作可以在通常为常规设计的计算机系统中实现，如台式计算机、平板计算机、移动装置(例如智能电话)等。这样的系统可以包括执行程序代码的一个或多个处理器(例如，可用作中央处理单元(CPU)的通用微处理器和/或诸如图形处理器(GPU)的专用处理器，其可以提供增强的并行处理能力);存储程序代码和数据风);用户输出装置(例如，显示装置、扬声器、打印机);组合的输入/显示器);信号输入/输出端口；网络通信接口(例如，有线网络接口，如以太网接口和/或无线网络通信接口，如Wi-Fi);等。掺入所要求保护的发明的各种特征的计算机程序可以被编码和存储在各种计算机可读存储介质上；合适的介质包括磁盘或磁带、诸如光盘(CD)或DVD(数字通用光盘)的光存储介质、闪速存储器和其它非暂时性介质。(应理解，数据的“存储”与使用诸如载波的瞬时性介质的数据传播不同)。用程序代码编码的计算机可读介质可以与兼容的计算机系统或其它电子装置包装在一起，或者程序代码可以与电子装置分开提供(例如，经由因特网下载或作为单独包装的计算机可读存储介质)。[0096]如上所述，预测模型的训练和训练的预测模型至训练数据的应用可以在不同的时间和/或由不同的计算机系统或相同的计算机系统实施。此外，当有新的训练数据时，PrismVote过程的训练部分可以不时地重复。[0097]另外的实施方案[0098]虽然已经参考特定实施方案描述了本发明，但本领域技术人员将理解，可以进行变化和修改。以上所述的所有过程均是例示性的并且可以被修改。可以将描述为单独框的处理操作组合，可以将操作的顺序修改到逻辑允许的程度，可以改变或省略以上所述的处

人人文库> 全部分类> 行业资料 > 各类标准

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN112669908B 并入数据分组的预测模型（香港中文大学）

文档简介

温馨提示

最新文档

评论

CN112669908B 并入数据分组的预测模型（香港中文大学）

文档简介

温馨提示

最新文档

评论

相关文档