版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于SEER数据的癌症患者生存预后Logistic回归与机器浅析1.1研究背景及意义错误!未定义书签。1.2国内外研究现状错误!未定义书签。1.3主要工作错误!未定义书签。2预后生存分析 32.1生存分析概述 32.2生存数据 32.3生存函数 42.4生存分析方法 5 62.4.2Cox比例风险模型 83基于传统生存分析方法的结直肠癌患者预后分析 93.1分析内容 93.1.1数据来源 3.1.2数据预处理 3.2KM法单因素分析 3.2.1SEER结直肠癌患者数据分析及结果 3.2.2实验室结直肠癌患者数据分析及结果 3.3Cox比例风险模型多因素分析 3.3.1SEER结直肠癌患者数据分析及结果 3.3.2实验室结直肠癌患者数据分析及结果 3.4.1模型介绍 3.4.3建模分析 4基于机器学习方法的结直肠癌患者生存分析 4.1随机森林 264.1.1算法原理 26 4.2支持向量机 294.2.1算法介绍 304.2.2建模分析 30 4.3.1BP神经网络 4.3.2神经网络搭建及训练 4.3.3模型评估 36 4.4.1算法介绍 384.4.2建模分析 38 参考文献 生存分析,是研究特征变量与生存时间和目标事件关征变量是否与目标事件有关,还可以分析特征变量与目标事件出现时间之间的关系。生存分析问题的目标变量有两个:观测时间和对应的目标事件是否发生 (通常用0表示未发生,1表示发生)。分析之后,可以估计出目标事件随时间变化的概率分布函数。而生存分析方法就是用于解决这些特定的生存分析问题的一类方法。利用生存分析方法分析之后,可以基于所或帮助医学研究人员发现与所研究病症相关的指标等。例如,在临床上被广泛应用的乳腺癌生存预后模型包括:PREDICT、AdjuvantOnlin、21Gene,这些基于生存分析方法搭建的生存预后模型,在乳腺疾病的预后研究领域,一定上减轻了乳腺癌患者的负担,同样也帮助医学研究人员更好地分析研究相关病析领域,生存分析方法也可以提前预测各种风险,为人们特定状态下分析结论自然明了以便人们更好地决策。因此,生存分析模型在医学预后研究和其他领域中都被广泛应用。如何搭建准确、实用、稳健的生存预测模型就自然而然地成为了国内外研究者共同关注的课题。而随着机器学习的不断发展,通过机器学习优化传统的生存分析方法,来提高模型预测性能具有本次论文就针对传统和基于机器学习的生存分析方法进行比较,并利用现2预后生存分析2.2生存数据生存数据,用于研究观测时间目标事件的状态(患者是否死亡、故障是否发生),是生存分析建模的依据。在医疗领域,主要通过随访得到。 时间观测终点考虑到背景由于观测时间在实际数据里面是离散时刻不止一个样本观测到目标事件发生的情况,尽管在理集中存在Ties时,出于表述的方便,先定义几个全文通用的符号。在成本管理方面,通过删减不必要的过程、采用更具成本效益的措施,显著降低了整个项 tk表示生存数据中发生目标事件的k个不同的时间点,示观测时间等于t的样本,集合q(t)={i|Ti=t,Ei=1}表示在t时刻发生目2.3生存函数生存分析主要研究在观测时间点发生特定事件的概率样本生存状态(观测时间和目标事件状态)之间的内在关系。生存函数是生存生存函数S(t)=Pr(T>t)表示生存时间T超过t的概率。率密度函数f(t)是其累积分布函数F(t)对如图2-2所示,这一结果不言而喻一般而言,生存分析中的生存函数式,为研究提供了坚实的证据和理论依据。本文也进行了结论的复审,本阶段KM法(Kaplan-Meier法),汇总已有成果能够推导出结论即乘积极限法 (product-limitmethod),是利用条件概率及概率的乘法原理去计算目标的生存率及标准误的。基于这该阶段性成果不仅是对前文讨论的完整概括,(1)将n个生存数据ti,从小到大排列,若删失数据与非删失数据相同,则完全数据排在前面,并写出每个生存数据的状态Si(即是否发生目标事件);(2)得出各个非删失数据的初始人数n;和死亡人数di;(4)计算累积生存率,即时间t;的生存率估计值:S(ti)=Log-Rank是一种非参数检验,对于生存概率的分布没有任何假设。在Log-Rank基础上增加权重,则是Breslow检验,设置各个时强调了理论分析与实证数据相结合的关键性。在此特定状况下不难窥见其真相即开始存活人数(未发生事件)多的时间点情况变化对于整个模型的权重大,而开始存活人数(未发生事件)少的时间点情况变化对于整个模型的权重小(陈本次论文使用Log-Rank对KM法单因素分析得到的生存曲线进行检验。图2.4KM生存曲线示例图2.4为KM生存曲线,直观上来看性别对于生存率的影响并无显著差从统计学上可以认为性别对生存率的影响没有显著差异(当P<0.05具有统计学新的现象和趋势,这些发现不仅丰富了现有理论的内容英国统计学家D.R.Cox在1972年提出了Cox比例风险模型91,经常用于医学上的预后分析,也用于工业故障预测和金融风险领域。出h(t,X)是风险函数,即生存时间已到达t的一群观察对象在t时刻的瞬时死函数形式无任何限定(此时所有协变量取值为0)。于非参部分,另一部分是含参的部分,因此Cox模型又称为半参数模型(杨泽的研究框架,本文得以更深刻地揭示数据背后的原理和关系,从而获得了更为某危险因素Xi在非暴露组取值为0,在暴露组取值为1。两边同时对t求积分,,结果带入回归方程:3基于传统生存分析方法的结直肠癌患者预后分析本次论文先从传统的预后分析方法出发,用KM法对生存数据进行单因素分型筛选出来的具有统计学意义的变量,这在一定水平上彰显了搭建这些变量获取数据之后,需要对数据进行预处理,先剔除掉其中信息缺失的数据(某些变量未知)和无效数据(某些变量没有意义),而对于KM分析法和Cox比例风3.1.1数据来源美国国立癌症研究所(NationalCancerInstitute)管理的SEER数据库收集了为科学研究的创新提供了源源不断的活力。SEER数据库提供了不同组织的病理通过SEER*Stat软件从SEER数据库下载结直肠癌患者数据(图3.1所示),其移除情况,以及连续型变量:肿瘤大小、受累程度、远处转移情况、浸润程度、DatabaneNameIncdence-SEERResearchDaa.13Regsties.Nor2019Sub[1992-20171Incdence-SEER18RegRetechData+HunicaneKatinalmpactedLouitianaCates,Nov2017SPopdafon-TotalUS.19692019]<Katina/FitaAdustPoodafonTotalUS.19502019]<Katina/PiaAdjutPodafona-TotalUS.1990-PoodafonTotalUS.19502019]<Katina/PiaAdjutCounyAmbutes-TotalUS.,1969201CounyAmbutes-TotalUS.,1969201Popdaion·TotalUS.19902018](Katina/PiaAdjutmenbPopdafons-TotalU5.1990-2018CouryAmbules-TotalU.S.,1969-201.Popdafon-TotalUS.19502018]<Katina/PitaAdutPopdafons-TotalUS.19692017]<Katina/RkaAdustmenb"Cour'yAmbules-TotalUS.,1969201.Suaeco.Popdaiona-TotalUS.19692017CounyAPopdaior-TotalUS.19902017)cKatina/RitaAdutmerbCouryAmbutes-TotalUS.1969201.Popdaion-TotalU5.1990-2017StandadPopusione-19AgeGroup+014.59.10-StandadPopusione-19AgeGroup+014.59.10-StandadPopulsions-22AgeGroupe10.14.59.10-14,….589,90-94,9599,100+)StandadPopuabion-18AoeGroup104.59.1014.StandadPopulsfons-AgeGroupa10.1SuggettedcalonforthCourtiet,NationsCancenstute.DCCPS,SurvelanceReseachProgiam,releasedApi2020.baredonheNovember2019uABCDEFGHKMNoP208141516273809111024111081110228111ABCDEFGHIEMN12男C18.7|乙状结肠4男5女6男C18.41横结肠8女C18.71乙状结肠女女C18.71乙状结肠女0男0女男0男罗女女C18.71乙状结肠女女0男女女男女女男女T0女男C18.6|降结肠T本次论文的数据处理主要过滤年龄、性别等要素者数据组织分化情况性别未知年龄未知生存状态未知相关癌症标记物情况未知或不符合要求筛选后的数据肿瘤浸润程度未知生存时间未知未知种族未知筛选后的数据图3.4SEER数据筛选流程(左)实验室数据筛选流程(右)筛选之后的数据可以用于KM法单因素分析和Cox比例风险模型多因素分析。(1)生存:生存时间大于N年的死亡病例+随访时间大于N年尚未发生终点(2)死亡:生存时间小于N年的死亡病例;(3)其他数据:随访时间小于N年且尚未发生终点事件的病例,剔除。对于SEER数据,N=5,即生存时间大于5年(60个月)的死亡病例以及随访时间大于5年(60个月)尚未发生终点事件的病例作为生存病例,编码为0;生存时间小于5年(60个月)的死亡病例,编码为1;随访时间小于5年(60个月)且对于实验室数据,N=2,这在某种程度上指出即生存时间大于2年(730天)的死亡病例以及随访时间大于2年(730天)尚未发生终点事件的病例作为生存病例,编码为0;生存时间小于2年(730天)的死亡病例,编码为1;随访时间小于2年(730天)且尚未发生终点事件的病例则剔除掉。筛选完之后样本总量为:124组生存率,Log-rank法比较各组间差异,在这般的框架内结果显示:性别、种族、年龄、组织分化程度、肿瘤移除情况和手术类型这6项指标具有统计学意义 临床病理参数百分比P值性别男%女%<黑种人%%白种人%<青年(≤44岁)中年(45~59岁)老年(>60岁)组织分化程度IⅡⅢ移除1到3个区域的淋巴结切除了4个及以上区域的淋巴结局部淋巴结活检或刺穿没有切除切除的区域淋巴结数量不明前哨淋巴结活检前哨淋巴结活检和清除时间不同前哨淋巴结活检和清除时间相同/未注明未知或不适用手术类型(编号)%%%<%%%%<%%% %%<%89.7%% 0图3.5KM生存曲线(性别)图3.6KM生存曲线(组织分化程度) 临床病理参数类数性别2TNM分期434444444444444图3.8KM生存曲线(Shp2)逐步回归法的其基本思想是:自变量逐个引过统计学检验显著时,才将其引入。从这些信息中可的自变量时,旧的自变量均应进行检验,以消除偏回归平方和统计学意义不显著的自变量。这样一直边引入边剔除,直到既无新变量止。通过对多种来源和类型的信息进行广泛验证,本文进一步证明了本策略的接着搭建年龄、性别、种族、组织分化情况、阳性数量13个变量的Cox比例风险模型,然后用逐步回归法筛选重要变量,筛选结果见表3.3,其中变量前的“-”表示保留该变量。从上可以可以看出该方案相比于其他方案具有更好的性价比,同时其Df(自由度)Start(初始值)-nodes(受累程度)1-Sex(性别)1-Size(肿瘤大小)工-Race(种族)2-Positive(阳性数量)11420888-Total(肿瘤数量)-Examined(受检数811Df(自由度)-Surg(手术类型)4111-Age(年龄)1通过筛选,所有变量均为重要变量,因此搭建这13个变量的Cox比例比较黄种人和白种人相较于黑种人的风险比,如表中所示,黄种人为0.78,表明黄种人相较于黑人而言其风险会低,反之若HR值大于1,则风险相较于黑人揭示了则是该变量每增加1个单位,则增加相对应的风险,HR越大,则风险越大;从研究设计之初,便充分参考经典理论模型的构建建合理且坚实。数据收集阶段采用多种被理论验证有效的方法,实对收集到的数据运用适配的统计分析方法。即组织分化程度越性别男(0)女(1)黑种人1白种人组织分化程度移除1到3个区域的淋巴结1切除了4个及以上区域的淋巴结局部淋巴结活检或刺穿没有切除切除的区域淋巴结数量不明前哨淋巴结活检前哨淋巴结活检和清除时间不同注明未知或不适用手术类型(编号)1肿瘤大小受累程度浸润程度受检数量阳性数量变量Df(自由度)AIC值Start(初始值)798.80工工1MSH2、MDM2这8个变量的Cox比例风险模型用于TNM分期针对本次论文,使用二元Logistic回归模型,根据已有的变量信者给定时间后状态如何(0:存活,1:死亡),这在某种程度上凸显了并用ROC曲线和AUC值作为评价该模型的评价指标。上述内容的创新之处在于视遍特征与关联,而本文则采取不同策略,深入Logistic回归模型与传统的多元线性回归模型类似,但两者的前提并不相同。首先Logistic回归模型的因变量是二元的Logistic回归的自变量类型既可以((可以有其他形式的概率分布,某程度能看出只需要通过上面的线性预测函数进价指标有似然比、ROC曲线的AUC值等。对于二分类问题,其混淆矩阵的结果真实值=1真实值=0总计预测值=1真阳性(TP)伪阳性P’预测值=0伪阴性(FN)真阴性N’总计PN其中真阳性(Truepositives),这在一为阳性样本的个数,即实际为阳性样本且被分类器划分为阳性的个数,按照上述分析所呈现信息即实际为阴性样本且被分类器划分为阴性的样本数。P’和N’分别表示预测为阳性和预测为阴性的样本总数,P和N环节,本文根据刘教授关于根据环境变化调整参数的通过分析可以得知,最理想的预测模型TPR=1通过分析可以得知,最理想的预测模型TPR=1且FPR=0,此时所有实际阳性的样本均被分类器划分为阳性,所有实际为阴性的样本均被分类器划分为ROC曲线的AUC值(取值范围为[0,1])是曲线面积下的大小,由这些表现(2)AUC>0.5,此时分类器可以正常分类,且AUC越接近1,该分类器模(3)AUC<0.5,此时分类器反向分类,即更多阳性样本被划分为阴性用KM法单因素分析和Cox比例回归模型多因素分析中具有统计学意义的变下不难窥见其真相其中SEER数据集筛选出来的织分化程度、肿瘤移除情况、手术类型、肿瘤大况、浸润程度、肿瘤数量、受检数量、阳性数量共1通过随机抽样的方式,在筛选完的数据集中抽取训练和测试集的样本数量之比设置为7:3,依据之前的分析结果用训练集训练分类模图3.9Logistic回归模型ROC曲线及AUC(SEER数据集)图3.10Logistic回归模型ROC曲线及AUC(实验室数据集)4基于机器学习方法的结直肠癌患者生存分析本章内容将着重介绍一些经典的机器学习方法,的数据与第三章搭建Logistic回归分析模型所使用的数据集相同,训练集和测试最后将几种基于机器学习方法的生存分析算法与Logistic回归分析模型进行随机森林(RF,RandomForest)算法是Breiman在2001年提出的[211,在分类器包含了多个决策树,也是一种有监督学习的算法,输出的类别取决于单所突破,在实际应用中也展现了更高的准确度和可靠性。研究所得出的结论与在这样的背景下除了叶节点,每个特征属性测试均占用一个节点,某个特征属性在特定值范围内的输出与该属性所在的分支相对应,而每个叶节点保存着一个类别。在没有优化参数的前提下,随机森林在绝大多数的分类和预测问题上依然能取得比较理想的结果,因此它是一种比较灵活且易于使用的算法(宋明个数,用同样的抽样方式抽取K次,每次抽取都可以得到一个新的训练样本集回的抽样保证了根据这些训练样本集训练的决策树之间互不相同,因为这些样OOB)。由于是用有放回的抽样方式,因此每个样本没被抽中的概率是(1-针对被训练的决策树,一次约有36.8%的数据没有被抽取到(雷志远,岳丽对于每一个节点对应一个特征变量,接着从这个变量选值集根据这个最优值分解为两个数据集,不断递归,是随机子空间(RSM,Randomsubspacemethod)的方式,对于每一棵树的每个节点,随机抽取a个特征(a≤样本特征数),在此特定状况下不难窥见其真相而不是将所有特征都用来训练分类器,这样的方法降低了每个分类器之间的相新兴分析工具和技术的采纳。随着信息技术的不断革新,大数据分析、机器学习算法等尖端手段正逐步成为科研探索不可或缺的一环。对于每个节点,抽取完特征后,各个特征所包含的信息通过分类回归树(CART,ClassificationAndRegressionTree)算法去求解,在a个特征中挑出一个分类效果最好的特征和该特征的取值,对节点进行分裂,不断递归。借助已有成果能够推导出当节点中的样本数小于设定值时,或样本集的基尼系数小于设定值,此时意味着样本之间没有太大差别,或者特征携带的信息量降低时,决策树停止生长。构建的决多种数据收集技术能提升数据的完备性和可靠性。本文提出的框架模型以其高本次生存分析是一个分类问题,分类回归树用对于分类问题,需要找到某个划分特征C和该特征的划分点s使得基尼系数林模型的AUC值为0.804,于此类环境中可以推知其结果随机森林在处理小样本0.25AUC=0.795图4.1随机森林模型ROC曲线及AUC(SEER数据集)4.2支持向量机支持向量机(SupportVectorMachine,SVM)是Vapnik在1995年基于统计学习理论、VC维数理论和结构风险最小化原理提出的持向量机的优点在于它在样本较少时,基于本文研究背通过训练仍能得到预测或回归性能较好的模型,与此同时4.2.1算法介绍SVM原本是用来处理二分类问题,然而现实中绝大多数分类问题都是多分它的特征数将会很高,依据现有结果能得出甚至超过了样本数。因此在SVM分别对SEER和实验室结直肠癌患者数据进行SVM分类器训练,与前面不同的是,SEER数据集对于SVM分类器而言属于大样本,而实验室数据集属于择。最终基于实验室数据集的SVM分类器选择了“sigmoid”核函数,而SEER本文重新评估了原始数据,使用不同统计方法和技SEER和实验室结直肠癌患者数据SVM分类器ROC曲线及AUC值见图4.3,图4.4。SEER数据集的SVM分类器AUC值为0.714,低于Logistic回归一步巩固了该领域的理论框架。而实验室数据集的SVM分类器AUC值为0.769,不难看出高于Logistic回归分析模型,预测性能较好。可以看出,样本大小对于SVM分类器的影响较大,除此之外,核函数的选择也影响SVM分类4.3人工神经网络人工神经网络是模仿生物神经网络结构的模型,由输入层,隐藏层和输出层三部分组成。输入层中的每个节点对应于输入数节点对应于目标输出,根据这些表现可以猜测出中间隐藏层可以是单层或多地近似任何复杂的非线性关系,学习并适应未知和不确定的系统,具有鲁棒性和容错性,并且可以同时处理定量和定性数据。它设和研究方向,促进该领域的发展。研究中遇到的定了改进的目标,推动研究人员不断优化和完善研究设计,4.3.1BP神经网络本次论文使用的人工神经网络是BP(BackPropagation)神经多层前馈网络。BP神经网络的结构见图4.5,所包括的结构有:输入层,输入层的输入数量是所输入的特征变量数量;输出层,BP算法包含两个传播方向,信号前向传播和误差后向传播。前向传播就是输入信号经过隐藏层非线性变换之后得到输出结实际的输出结果不一致时,将这个误差后向传播,这在一定程度上显露在后向传播的过程中,误差分摊到每一层的所有单元,逐层返回获取阶段,本文采用了多种数据途径,以实用标准化流程来削减数据采集的主观干扰。程度上见证着误差沿着梯度方向下降。通过迭代训练之设定神经网络的n维输入可以表示为x=[x₁,…,xn]T,l表示神经元节点的所在层数,输入层l=0,总层数标函数是神经网络的实际与理论输出的均方误差,这在一定层面(1)定义初始时间t=0;确定神经网络的原始参量,给网络的各层权(2)从训练集合中随机选取一个训练样本x=[x₁,…,xn]T;它的期望(3)从输出层开始调整权值,对于第l层神经元权值:δ'=y;(1-y;)(dj-yj),j=1,…,m针对中间层,8是指神经网络的输出结果误差通过反向调节计算得到的(4)按照步骤(3)中的公式迭代计算所有调整权值之后重新按步骤(2)计算输出,对比调整权值后的网络输出结果与期望输出的误差,当迭代输出误差结果小于期望误差时,则停止迭代训 根据SEER结直肠癌患者数据搭建神经网络模型,采取反复迭代试验的方式确定神经网络模型节点数目,这在一定水平上彰显了神经网络模型参数见表4.1。使用前面对Logistic回归分析模型训练和测试的训练集和测试集,并对数据进行标准化处理。之后对神经网络进行训练,得到训练集损失值((val_accuracy)随训练次数的变化见图4.6。可以看出,随着训练次数的增00gaussian_dropout_190参数见表4.2。可以看到,随着训练次数增加,该神经网络模型的准确度也随之提高(见图4.7)。表4.2神经网络模型参数(实验室数据集)000对上面训练得到的神经网络模型用ROC曲线和AUC值进行评估,见图集),
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年邯郸钢铁集团有限责任公司医院医护人员招聘笔试备考题库及答案解析
- 2026年度智能合约开发承包合同书
- 厨房设备采购转包协议
- 2026年度独家技能鉴定协议
- 2026年交通加盟质量管理合同
- 2025年浦北县皮肤防治院医护人员招聘笔试试题及答案详解
- 2026年丹江口市第二医院医护人员招聘笔试备考题库及答案解析
- 2025年鹤壁煤业集团总医院医护人员招聘笔试试题及答案详解
- 2026年沈阳共济爱婴医院医护人员招聘笔试备考题库及答案解析
- 2026年中国建筑二局职工医院医护人员招聘笔试备考题库及答案解析
- 形势与政策分析课件
- 2026年湖北单招机电类职业适应性测试模拟卷含答案普高生专用
- 公安催泪喷射器课件
- JJG 688-2025 汽车排放气体测试仪检定规程 含第1号修改单
- 大学生职业生涯规划与就业创业指导(实践版)教学大纲
- 种植绿萝课件
- 2025中国国际货运航空股份有限公司货站事业部招聘6人(人事派遣制)考试笔试备考题库及答案解析
- 浙江省宁波市2026届高三第一学期模拟考试数学试卷(宁波一模)(含答案)
- 湛江市2024年高中体音美信通考试(高中新学考)参考材料(理论考试参考材料)
- 2025年安徽师范大学出版社招聘4人模拟试卷及答案详解一套
- 职工安全健康意识与应急技能知识竞赛测试题与答案
评论
0/150
提交评论