版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
II第一章绪论1.1研究背景2020年,世界卫生组织国际癌症机构研究了全球36种癌症类型的最新发病率和死亡率情况,该研究数据显示,全球新增226万例乳腺癌病例,乳腺癌成为全球第一大癌[1]。虽然我国乳腺癌发病和死亡率相对较低,但是呈现着上升的趋势[2],严重威胁着女性的生命健康。目前,国内外常用的乳腺肿瘤检测的方法主要包括乳腺超声检查、X线检查以及核磁共振检查等。医学研究发现,这些方法存在着一些局限性。比如乳腺的X线检查存在着放射性辐射,并且对某些乳腺病变的诊断率较低,检查结果不是特别可靠。乳腺超声检查的局限性在于受设备和医生经验影响,并且对微小钙化不敏感,对非肿块型病变的诊断和鉴别困难。乳腺核磁共振检查虽然方法简单且准确率高,但该检查比较耗时且价格相对较高,而且部分病人无法进行,因此该方法使用范围不广泛。目前在临床诊断中上经常使用多种检查相结合的办法来提高肿瘤的诊断率。因此,探究乳腺肿瘤诊断的方法,实现对这一疾病的早期预测意义重大。1.2研究意义目前传统的乳腺肿瘤检测技术较为复杂,并且进行一系列检查后仍需有经验的乳腺专科医生进行诊断,而当今影像数据不断增加,并且患者愈加重视对于疾病的精确诊断,这也大大增加了医生的工作量。因此亟需可以辅助医生进行快速、精确进行疾病诊断的工具。本文针对乳腺癌这一重大疾病,利用医学上乳腺肿瘤临床数据,结合逻辑回归分类算法建立模型,以达到早期预测的目的,辅助医生对疾病进行更高效率的识别和分类,极大程度上降低人为因素造成的误诊,在提高乳腺患者诊断方面有重要的现实意义。1.3国内外研究现状近年来,医学图像人工智能检测系统的发展帮助医生进行高效的诊断。这一系统通过对医学图像的分析,建立数学模型,进而完成有关分析。而机器学习是该系统中使用最多的的方法之一,随着机器学习技术和相关医疗数据的发展,其在医疗方面的应用也逐步深入,目前机器学习分类技术应用于医疗中大多是来研究肿瘤问题,各种分类算法已经在乳腺肿瘤检测[3]、肺部肿瘤检测[4]和肝肿瘤预测[5]等许多医学领域显示出了较为优异的性能,并且这些方法存在着巨大的潜力。由于乳腺癌发病率的增高,对于乳腺肿瘤的诊断更是一个研究热点。Becker等人利用深度学习算法对乳腺癌患者进行了相关实验分析。根据实验得到了曲线下面积,利用该结果与医生的结果进行对比,发现利用该方法对乳腺癌进行诊断的结果与医生的结果大体相同,由此可见该方法可靠性较高。另外,他们还利用这一方法对患者进行分类研究,其中550名患者为良性肿瘤,82名患者为恶性肿瘤。实验结果显示,计算机对于肿瘤良恶性的分类时间仅为3.7s,并且AUC可达到0.84,同时测验了三位医生对于肿瘤良恶性的分类时间以及分类精度,实验结果显示分类时间分别为28min、22min和25min,分类精度为0.79~0.88。这一对比表明,利用该方法对乳腺肿瘤分类的准确率与医生的准确率大体相同,但是工作效率相对较高。霍双红[7]利用人工神经网络的方法对乳腺肿瘤的诊断进行研究。利用了三种判别方法对肿瘤数据进行了分析,并且比较三种方法的实验结果,最终发现,fisher判别效果更佳。然后利用两种神经网络算法对乳腺肿瘤数据进行了实验分析,并且利用主成分分析方法进行了优化,提高了两种算法的正确率。章飞[8]等人利用K-近邻、支持向量机、逻辑回归的方法对乳腺肿瘤数据进行了实验分析,并且对训练和测试结果进行了比较和分析,对这些方法在乳腺癌检测中的性能进行了研究,发现逻辑回归算法更适用于此类问题的检测。从测试结果来看,该方法性能较好,同时对这一方法在肿瘤检测中的应用进行了展望。本文主要利用了主成分分析和逻辑回归两种方法对乳腺肿瘤数据集进行实验分析,利用主成分分析方法完成肿瘤特征的降维,之后利用逻辑回归方法建立乳腺肿瘤的分类预测模型。通过这一研究,希望对乳腺肿瘤分类预测问题提供自己的意见与方法。1.4研究内容及安排本文以乳腺肿瘤分类预测为研究对象,在对相关理论进行学习的基础上,以美国威斯康星州临床中心的原始数据集作为样本,利用逻辑回归算法建立模型进行诊断分类,最后对模型结果进行分析。全文内容安排如下:绪论。主要介绍研究背景及意义、国内外有关研究以及研究内容等。第二部分,阐述模型研究的相关技术。介绍疾病预测模型,机器学习分类方法等。第三部分,主成分分析进行特征提取。本文所使用的数据为美国威斯康星州临床中心的原始数据集,详细介绍主成分分析的理论基础,并利用SPSS软件进行实验分析,选择合适的主成分,实现对特征的降维。第四部分,基于逻辑回归算法的乳腺肿瘤分类模型的建立与预测分析。详细介绍逻辑回归的理论,之后建立模型并对模型的分类效果进行分析。第五部分,总结与展望。这一部分主要总结研究内容和研究结果,并对该研究进行展望。第二章模型研究的相关技术2.1疾病预测模型疾病产生的因素复杂多样,在给患者带来身体与心理负担的同时,也给国家带来了严峻挑战,尤其是肿瘤、糖尿病等一系列的慢性疾病。有关数据显示,我国糖尿病、肿瘤等慢性疾病发病率呈现上升趋势,并且患者呈现出年轻化的趋势[9]。大多数患者由于缺少预防疾病的相关知识,并未及时诊断与治疗,这是慢性疾病患者一直较多的重要原因,因此对疾病进行预测尤为重要。疾病预测是医生利用已有的理论知识和治疗经验,根据患者的现有症状判断出未来可能出现的疾病情况,从而达到疾病预防的目的[10]。所以研究准确预测疾病的发生以及疾病的发展变化,在提高患者生存率方面有重要意义。在中国,疾病预测经历了很长时间的发展,随着科学技术的不断发展以及人们的不断学习,人们逐渐摒弃了过去一些缺乏科学技术的预测,开始用更加科学有效的方法来研究疾病并进行更加可靠的疾病预测。收集汇总专家的诊断经验,经过多次反馈与修改,最终形成疾病诊断方法,从而建立疾病诊断模型,成为专家系统,如王加宽[11]开发的颈椎病专家诊断系统。这一方法使得诊断结果更具权威性,且在临床诊断取得较为良好的效果,但汇总专家的诊断经验需要花费大量人力,成本较高。并且这一方法受主观影响较大,无法给出定量分析。随着医疗技术的发展,利用数学公式表达疾病的内在结构建立模型之后计算机语言完成复杂运算,采用数据挖掘技术和统计分析技术从医学数据中自动总结诊断,完成对疾病的预测,这一方法成为了主要的研究方法。随着人们对于疾病预测模型的深入研究,上述方法越来越多的应用于各种慢性疾病如糖尿病、肿瘤等疾病的预测中。随着科技的发展,疾病预测模型逐步完善,越来越多的方法应用于这一问题上,其中机器学习算法展现出了一定的优越性,这一方法下节将具体阐述。2.2机器学习方法机器学习技术是计算机通过研究人类的学习行为,利用所学的新知识,重新组织已有结构,实现不断改善计算机性能的过程。从多种角度可以对该方法进行分类。按照学习方式来进行分类,可将机其分类为两种,分别为监督学习和无监督学习,还可以根据解决的任务来分类,可将机器学习算法分为解决分类问题、解决回归问题、解决聚类问题。在监督学习中,首先利用数据进行训练,得出模型,然后利用该模型完成对于数据的预测。如果输出的变量值是连续的,那么该问题是回归问题,例如预测温度变化情况,线性回归、支持向量机等方法都可以用来解决这一类问题;如果输出的变量是离散值,那么该问题为分类问题,例如判断肿瘤是良性还是恶性,逻辑回归、支持向量机、决策树等方法可以用来解决这一类问题。该方法被逐渐应用于疾病预测模型中,Green等人[12]利用两种机器学习方法建立模型,来研究急性冠状动脉综合症这一疾病。其中神经网络模型预测效果更好。本文研究的乳腺肿瘤诊断问题就是监督学习中的分类问题,所采用的具体方法是逻辑回归方法。在监督学习中,分类方法是一种广泛应用的方法。该方法利用现有信息发现分类规则,建立起分类模型,利用该模型完成获取未知信息数据特征。实现分类过程有以下两个步骤。首先,通过对训练的数据集进行分析发现分类规则,建立分类模型。其次,用测试集数据来检验该模型的准确性,选择更合适模型,完成对未分类数据的预测。第三章乳腺肿瘤数据的特征分析3.1数据来源本文的乳腺肿瘤数据来源于威斯康星州临床科学中心,该数据集共包含乳腺瘤数据样本共699份,每份诊断样本数据中包含10个特征数据和1个良恶性分类的诊断结果,由于不同编号对于肿瘤良恶性没有影响,所以排除患者编号这一特征,共包含九个特征,具体特征参考表3.1。乳腺肿瘤良恶性是根据肿瘤细胞的外观特征即五个特征以及细胞核的特征即四个特征来进行划分的。这些特征得分为1表示其状态最接近良性肿瘤,得分为10表示其状态最接近恶性肿瘤,特征数据得分为1至10之间的整数,诊断结果中2为良性肿瘤,4为恶性肿瘤。详细情况如表3.1。表3.1乳腺肿瘤特征特征特征名称肿瘤厚度1-10细胞大小均匀性1-10细胞形状均匀性1-10边缘附着力1-10单层上皮细胞大小1-10裸核1-10染色质的颜色有丝分裂1-10核仁正常情况1-10有丝分裂1-10分类肿瘤类别2为良性,4为恶性3.2主成分分析方法3.2.1主成分分析概述主成分分析的概念最早是由皮尔森提出的,之后霍特林将这一概念进行了推广与研究[13]。主成分分析法是一个将多个特征映射为少数几个特征的分析方法,是一种数据降维的方法[14]。其主要思想是把由p个线性相关变量表示的原始数据经分析后转化成为m个由线性无关变量表示的数据,满足的条件是得到的m个变量是原来变量的线性组合。通过该做法实现将p维特征映射到m维上,对特征进行简化,这m维全新的正交的特征被称为主成分[15]。在一个新的空间中找出几个综合的特征来代表原来空间中的众多特征,使这些新的综合特征能够尽可能多的反映出原来的特征所要表达的信息,并且彼此之间不具备相关性,从而舍去其余的相关的特征信息,达到简化精确的目的,这一方法也受到越来越多的关注。3.2.2主成分分析基本理论假设在研究某一问题时,数据集有个样品,每个样品包含个变量,分别用来表示。则这个变量构成一个维随机向量设为,其相关系数矩阵为(也可为协方差矩阵),的特征值是为特征值对应的标准正交特征向量。主成分分析就是将原来的个变量进行组合,得到个新变量的过程,得到的新变量即为主成分。第个主成分为(3.1)即满足下式(3.2)此时可得到(3.3)(3.4),所以(3.5)为了取得较好的主成分变量,通常的做法就是用主成分即的方差来表达,如果用来代表原来的变量即,这时Var()越大,则表示包含的原有信息就越多[16]。这时称为第一主成分[17]。
若第一主成分包含原来变量的信息过少,应继续选择第二个线性组合,[18]为了更有效的反映原始信息,应该在中除去已包含的信息,此时需满足这时将称为第二主成分,类似方法还可以计算出其余的主成分。在研究实际问题时,我们通常选取前几个主成分,用前个主成分代表原来的个变量,实现数据的降维。3.2.3主成分分析算法步骤(1)原始数据的标准化处理。在数据的计算过程中,考虑到数据单位等影响,先对数据进行标准化处理。其公式为
(3.6)其中为原始的数据,为第个变量全体样本的均值,为第个变量的样本标准差,为标准化后的数据,由此得到标准化后的数据集(2)计算标准化后的数据集的相关系数矩阵即协方差矩阵。
(3)计算特征值和单位特征向量由特征方程计算出矩阵特征根,将特征值由大到小排列,即为,并根据特征根计算地应对的单位特征向量,第个主成分为其方差即所对应特征值为。计算每个主成分的贡献率贡献率:第个主成分的特征值占全部特征值的比例。该主成分贡献率的数值越大,说明该主成分包含原变量信息越多,其计算公式为:(3.7)计算累积贡献率累积贡献率:前个主成分的特征值之和占全部特征值总和的比重,这个数值越大,说明前个主成分包含原始变量的信息越多。其计算公式为:(3.8)在研究实际问题时,我们通常选取使累积方差贡献率达到80%以上的前几个主成分,这时可用前个主成分代表原来的个变量,实现数据的降维。计算主成分为矩阵的单位特征向量,主成分的计算公式如下:(3.9)3.3主成分分析的SPSS实现本文利用SPSS软件完成主成分分析,提取乳腺肿瘤数据集的主成分,实现对乳腺肿瘤九个特征的降维。具体实现过程如下:第一步分析本文的乳腺肿瘤数据集共包括9个特征,其中有肿瘤细胞的外观特征,包括肿瘤厚度,细胞大小均匀性,细胞形状均匀性,边缘附着力,单层上皮细胞大小,以及细胞核的特征,包括裸核,染色质的颜色,核仁正常情况,有丝分裂情况。从医学角度判断,有些变量是存在相关性的,同时各个变量对于肿瘤的诊断也是不一样的,所以可以进行主成分分析。同时,我们还可以利用软件中的“KMO和巴特利特球形检验”进行定量分析,使判断更具可靠性。第二步数据导入将乳腺肿瘤数据导入到SPSS中,自动生成变量视图和数据视图两个表格,按照“文件→打开→数据”的顺序打开“文件”对话框,选择乳腺肿瘤数据导入即可。部分数据如图3.1。图3.1乳腺肿瘤原始数据第三步原始数据的标准化处理。对原始数据进行标准化处理,通过“分析→描述统计→描述”的顺序进行操作,将乳腺肿瘤数据的9个特征导入到变量的选项里,并且选择“将标准化得分另存为变量(Z)”,可发现标准化后的数据自动保存至数据视图与变量视图中。第四步因子分析通过“分析→降维→因子分析”的顺序进行实验,将标准化得到的乳腺肿瘤数据的9个特征导入到变量的选项里,针对这9个特征进行降维特征,得到主成分。如图3.2。图3.2主成分提取过程(1)在右侧“描述”选项中,选择“系数”以及“KMO和巴特利特球形检验”。通过“系数”选项,得到各变量间的相关系数。通过“KMO和巴特利特球形检验”选项,对问题进行定量分析,判断是否可进行主成分分析。这一部分主要检验是否可以进行分主成分分析。(2)在右侧“抽选”中,选择“相关性矩阵”、“碎石图”,将“因子的固定数量”,设置为3个,其它选择默认选项。通过“相关性矩阵”,选项,得到相关系数矩阵,通过该矩阵判断相关性。通过“碎石图”,选项,得到按大小排序的9个特征值的图形,更加清晰直观,有助于确定主成分个数。在“抽取”选项中有两个选择,代表着确定主成分个数的两种方法,一种是选择特征值大于1的主成分,一种是固定主成分的个数,通过观察累积方差贡献率,确定使累积贡献率达到80%以上的主成分,由此确定个数。本文应用第二种方法,即勾选“因子的固定数量”为3。这是因为通过先前实验分析,发现前3个主成分的累积方差贡献率达到80.088%,超过80%,所以前三个主成分可以解释原来9个成分总信息的80%。(3)在右侧“得分”子对话框中,选择“保存为变量”,这样保存因子得分这一变量。选择“回归”,选择“显示因子得分矩阵”,得到因子得分系数矩阵。(4)点击“确定”,开始运行程序,输出主成分分析结果。3.4实验结果分析通过实验得到原始九个乳腺肿瘤特征的相关系数矩阵,如表3.2相关矩阵,观察表中数据,可以看出肿瘤厚度与细胞大小均匀性、细胞形状的均匀性有较高的相关性,细胞大小的均匀性与细胞形状的均匀性、染色质的颜色、单层上皮细胞的大小有较高的相关性,可以看出这9个变量之间的相关系数在0.5左右,,说明这些变量之间都存在一定程度的相关性,并且大部分相关性较高。这说明可以从这9个变量中提取出主成分,该问题适合做主成分分析。表3.2相关矩阵1.0000.6450.6540.4860.5220.5880.5580.5370.3500.6451.0000.9070.7050.7510.6890.7560.7220.4590.6540.9071.0000.6820.7190.7120.7360.7200.4390.4860.7050.6821.0000.5980.6620.6670.6020.4180.5220.7510.7190.5981.0000.5800.6170.6270.4810.5880.6890.7120.6620.5801.0000.6760.5840.3350.5580.7560.7360.6670.6170.6761.0000.6670.3440.5370.7220.7200.6020.6270.5840.6671.0000.4300.3500.4590.4390.4180.4810.3350.3440.4301.000除了上述的分析外,主成分分析前,应进行KMO检验和巴特利特球形度检验。表3.3为KMO和巴特利特球形检验的结果。KMO检验变量之间的偏相关性,即控制其他变量,检验两个变量之间的相关性,比较变量的相关系数和偏相关系数的大小,根据给出的KMO度量标准,一般KMO检验系数>0.5,可以进行主成分分析。观察表3.3可得KMO输出结果为0.936,0.936>0.5,所以这个问题非常适合进行主成分分析。巴特利特球形度检验主要是比较相关系数矩阵与单位矩阵的差异,一般p<0.05,说明有显著性差异,可以进行主成分分析。观察表3.3的结果可得其显著性概率为0.00,明显小于显著性水平0.05,可以进行主成分分析。表3.3KMO和Bartlett的检验结果取样足够度的Kaiser-Meyer-Olkin度量Bartlett的球形度检验近似卡方dfSig0.9364837.923360.000综合上述两个检验,说明乳腺肿瘤九个变量可以进行主成分分析。通过实验得到公因子方差表格如表3.4,该表输出的是提取出的主成分因子解释原来变量信息的程度,通过观察可以看到主成分因子对肿瘤厚度、有丝分裂的解释程度均在95%以上,对于正常核仁的解释程度最低为67.4%,主成分因子解释原变量信息的程度在65%以上,说明提取的主成分能较好代表原来变量的信息。表3.4公因子方差结果初始提取Zscore(肿瘤厚度)Zscore(细胞大小的均匀性)Zscore(细胞形状的均匀性)Zscore(边缘附着力)Zscore(单层上皮细胞大小)Zscore(裸核)Zscore(染色质的颜色)Zscore(正常核仁)Zscore(有丝分裂)1.0001.0001.0001.0001.0001.0001.0001.0001.0000.9550.8580.8470.7520.6930.7090.7680.6740.952通过实验得到解释的总方差表格如表3.5,该结果是最为重要的结果之一,该表反映了各个主成分的贡献率以及累计贡献率,通过该表来完成主成分的确定。观察表格可以得到,第一列为由大到小排列的主成分的特征值,第二列为每个主成分的贡献率,即每个主成分解释原变量信息的大小,第一个主成分的贡献率为65.451%,即可以解释原变量信息的65.451%,第二个主成分的贡献率为8.658%,即可以解释原变量信息的8.658%,其余主成分均有显示。第三列为累积贡献率,通过观察得到前三个主成分的累计贡献率达到80.088%,说明前三个主成分可以累积解释原变量信息的80.088%,可以解释大部分信息,因此我们可以选择前三个主成分来进行分析。表3.5解释的总方差结果成分初始特征值提取平方和载入合计方差的%累积的%合计方差的%累积的%1234567895.8910.7790.5380.4560.3810.3080.2950.2630.08965.4518.6585.9795.0714.2323.4213.2782.9220.98865.45174.10980.08885.15989.39192.81292.09099.012100.0005.8910.7790.53865.4518.6585.97965.45174.10980.088为了更清晰直观地得到上述结果,通过实验获取了图3.3碎石图。该图横坐标为主成分的个数,纵坐标为九个主成分的特征值。从图中可以看出,前三个主成分折线比较陡峭,之后折线趋于平缓,该图更加清晰直观的说明了解释的总方差表格的结论,因此选择前三个主成分是比较合理的。图3.3碎石图在确定主成分之后,还需考虑各个主成分解释变量信息的情况,参考成分矩阵结果表3.6可得。该表反映了提取的三个主成分解释原各个变量信息的程度。第一列为第一个主成分解释原来各个变量的大小,数值越大,说明该主成分包含的对应变量的信息越多。观察该表可得,第一个主成分包含细胞大小的均匀性以及细胞形状的均匀性信息较多,同理,可以得到其余两个主成分的相关信息。表3.6成分矩阵结果成分123Zscore(肿瘤厚度)Zscore(细胞大小的均匀性)Zscore(细胞形状的均匀性)Zscore(边缘附着力)Zscore(单层上皮细胞大小)Zscore(裸核)Zscore(染色质的颜色)Zscore(正常核仁)Zscore(有丝分裂)0.7350.9250.9170.8060.8150.8100.8400.8160.557-0.127-0.042-0.074-0.0360.150-0.231-0.2010.0210.7990.631-0.0100.028-0.317-0.072-0.011-0.148-0.0850.063为了更明确三个主成分的表示,通过实验获得成分得分系数矩阵如表3.7所示。通过表中得到的结果,利用主成分计算公式,主成分用表示,原来九个肿瘤变量为,通过九个变量的线性组合得到三个主成分的表达式。表3.7成分得分系数矩阵结果成分123Zscore(肿瘤厚度)Zscore(细胞大小的均匀性)Zscore(细胞形状的均匀性)Zscore(边缘附着力)Zscore(单层上皮细胞大小)Zscore(裸核)Zscore(染色质的颜色)Zscore(正常核仁)Zscore(有丝分裂)0.1250.1570.1560.1370.1380.1370.1430.1390.095-0.162-0.054-0.096-0.0460.193-0.297-0.2580.0271.0251.173-0.0190.052-0.589-0.133-0.020-0.274-0.1570.118根据以上三个表达式得到数据集中每个样本对应的三个主成分部分数据如图3.4,将会自动保存在原数据集中,之后本文将会利用这三个主成分进行后续逻辑回归分析,建立乳腺肿瘤分类模型,将在下一章中进行具体说明。图3.4主成分部分数据第四章逻辑回归模型的建立及结果分析4.1逻辑回归概述逻辑回归(LogisticRegression)简称为LR,是现在应用较多的机器学习方法之一。由于该方法简单、高效,并且其数学模型和求解方法简单易懂,实用性很强,因此在实际应用非常广泛[19],主要是生物统计学、社会学、经济学、医学等领域。该方法是一种分类方法,常用于解决二分类问题[20]。主要在流行性疾病学中应用比较多,比如探究某疾病的影响因素[21],判断肿瘤的良性还是恶性等问题。因此本文采用逻辑回归方法来研究乳腺肿瘤诊断问题。其的思想是在线性回归的基础上增加一个非线性函数,即sigmoid函数[22],使连续的输出值y转化为二分类问题中0或1两种离散的值,下一节逻辑回归定义中将具体介绍这一函数。4.2逻辑回归模型基本理论4.2.1定义逻辑回归主要用于解决二分类问题,而对于二分类问题来说,输出值y的取值应该满足,为满足这一结果,需要在线性回归函数上做处理,得到逻辑回归的假设函数。线性回归函数如下:(4.1)其中,。利用sigmoid函数将输出值映射到区间上,sigmoid函数如下:(4.2)通过MATLAB绘制sigmoid函数图像,如4.1所示图4.1sigmoid函数图像观察函数图像可得,,当时,;当时,;当时,。结合(4.1)和(4.2)两个式子,将线性函数输出值作为自变量带入到得到sigmoid函数中,得到逻辑回归的假设函数:(4.3)4.2.2决策边界通过上述操作,使逻辑回归函数的值为区间上的连续值,对于二分类问题来说,输出值只有0或1,这是我们需要通过设定决策边界使满足这一要求。决策边界时由假设函数的参数决定的可以将样本正确分类的一条边界,即当输出值大于决策边界时,将分类结果视为1,当输出值小于决策边界时,将分类结果视为0。在逻辑回归函数中,设定的决策边界如下:(4.4)其中,综合sigmoid函数图像,得到如下决策边界:(4.5)由此我们得到逻辑回归的决策边界为,根据这一边界确定分类结果。4.2.3代价函数上面给出了逻辑回归的假设函数以及决策边界,由于不同的值决定不同的假设函数,因此需要通过构造代价函数衡量函数的拟合效果。目标函数为要最大化或者最小化的函数,最小化目标函数称为代价函数,代价函数越小,说明对于实际问题的拟合效果更好。考虑线性回归函数构造代价函数的方法,选择预测值与实际观测值之间误差的平方均值为代价函数,即:(4.6)对于逻辑回归的假设函数来说,要使为凸函数,以得到全局最优的值,这时利用对数函数改变(4.6)式的损失函数,得到逻辑回归的代价函数:(4.7)在逻辑回归问题中,输出值只有0或者1,如果把输入值看成一个事件的话,的值就可以看成结果为1时的概率,所以输出值为1和0的概率分别为:(4.8)利用极大似然函数对简化5式中的对数损失函数得到:(4.9)代入到代价函数:(4.10)其中x为输入变量,y为实际观测值,为预测值,为参数,m为训练样本数。4.2.4参数估计为计算得到最优的参数,通常利用梯度下降法对所得的代价函数求最小值即,不断计算代价函数关于的偏导,沿着梯度下降最快的方向即偏导方向前进,不断地更新参数,来使变小,直至找到最小值,得到最终的值。可以将其比作成下山,每一步从坡度最大的地方前进,一步一步到达最低的地方。迭代过程如下:(4.11)其中,为学习率,即梯度下降的速度。利用(4.11)式,得到:(4.12)将该式代入7式的的迭代过程:(4.13)由此得到,这时得到最优参数,建立逻辑回归模型,以更好地实现实际问题的分类。4.2.5回归模型的检验确定了逻辑回归模型的参数后,还要检验该模型的拟合程度。若所建立的逻辑回归模型的预测值与实际值拟合度较高,说明该模型拟合程度较好,常用的检验方法有Hosmer-Lemeshow统计量、Pearson统计量等。4.3基于逻辑回归的乳腺肿瘤模型建立本节的数据为第二章中提取的乳腺肿瘤数据集的三个主成分以及原始数据中的肿瘤类别,利用SPSS建立乳腺肿瘤的分类模型。具体实现过程如下:第一步分析共有三个乳腺肿瘤的主成分,即三个自变量,并且数据类型均为定量的,而因变量即肿瘤类别是定性的,只有两种情况,良性肿瘤为0,恶性肿瘤为1。判断肿瘤的良恶性,这是一个典型的二分类问题,可以用逻辑回归来解决。第二步数据导入将包含乳腺肿瘤三个主成分和肿瘤类别的EXCEL表格导入到SPSS中,自动生成变量视图和数据视图两个表格,按照“文件→打开→数据”的顺序打开“文件”对话框,选择数据导入即可。部分实验数据如图4.2。图4.2部分实验数据第三步逻辑回归分析按照“分析→回归→二元逻辑回归”的顺序打开对话框,将乳腺肿瘤类别导入因变量,是二分类变量,将三个自变量即第一主成分,第二主成分,第三主成分导入协变量中,如图4.3所示。图4.3逻辑回归(1)在右侧“保存”子对话框中,勾选“概率”以及“组成员”两项,点击“继续”。通过“概率”选项,将预测概率的概率保存下来,根据样本确定逻辑回归模型,之后由该模型对事件进行预测。通过“组成员”选项,根据预测概率,对每个乳腺肿瘤样本的预测结果进行分类。(2)在右侧“选项”子对话框中,选择“估计值的相关性”、Hosmer-Lemeshow拟合度等选项,如图4.4。完成实验,得到分析结果。图4.4逻辑回归选项通过“Hosmer-Lemeshow拟合度”选项检验模型的拟合度,当该值大于0.5时,表示模型能够较好的拟合原始数据。
通过“个案的残差列表”选项得到预测概率、乳腺肿瘤的实际值与预测值的分类。
通过“估计值的相关性”选项反映了各变量之间的相关性,各自变量之间的相关性越低越对预测结果越有利。本文中经过主成分分析得到的乳腺肿瘤三个主成分之间是互不相关的,因此会使逻辑回归模型的预测结果更加准确。通过上述逻辑回归相关操作,对乳腺肿瘤数据样本进行了拟合,剔除缺失值,对其余683个样本进行逻辑回归分析,来确定逻辑回归模型系数,完成自变量的显著性检验,模型拟合程度检验。下节将对该模型结果做具体分析。4.4实验结果分析由实验得到的案例处理汇总如表4.1来看,该建模过程中,剔除了16份缺失的乳腺肿瘤案例案例,保留了683份有效案例,对683份有效的乳腺肿瘤数据进行逻辑回归建模。表4.1案例处理汇总结果未加权的案例N百分比选定案例包括在分析中缺失案例总计未选定的案例总计68316699069997.72.3100.00100.0模型建立完成后,需要对模型各自变量进行显著性检验,以此检验所选择的自变量在模型中,是否能对因变量的变化产生显著的影响。在乳腺肿瘤问题中,即检验三个主成分是否对乳腺肿瘤的良恶性产生显著影响。若显著性不明显,说明自变量不能很好的反应和因变量的关系,应当从模型中剔除。通过实验获得方程中的变量结果如表4.2,该表可以观察到显著性检验结果。检验自变量对因变量的显著性,主要看P值,即表中的Sig的值,一般Sig值越小,说明逻辑回归的系数的估计值不相等的显著性越高。本文取显著性水平为0.05,即如果自变量的P值小于0.05,则检验通过,说明此自变量对因变量影响显著,否则没有显著影响。观察结果可以得到,乳腺肿瘤的三个主成分P值均为0.00,均小于0.05,因此可以得到三个主成分对于乳腺肿瘤良恶性的影响是显著的。表4.2显著性检验结果BS.EWalsdfSigExp(B)Exp(B)的95%C.I.下限上限步骤x4.5040.446102.12510.00090.42037.744216.608y2.9820.34674.31610.00019.72010.01238.843z1.6510.38318.61110.0005.2122.46211.036常量-1.1470.28416.27610.0000.317求解逻辑回归的参数,通常采用4.2节中的方法,通过实验可简化计算过程,得到系数的估计值。由表4.2,我们还可以得到,通过不断更新参数,最终确定了逻辑回归模型中各变量对应的系数,该表中,B列为模型中三个自变量以及常数项的系数,由此,确定了以乳腺肿瘤三个主成分为自变量的逻辑回归的假设函数:(4.14)检验了自变量对因变量的显著性,确定了乳腺肿瘤逻辑回归模型的系数,建立模型完成之后需要模型的拟合程度进行了检验。检验模型的拟合度,即检验模型的预测值是否能与对应的观测值有较高的一致性,否则不能接受这一模型。通过实验共得到以下结果。判断模型优劣最直观的方法是乳腺肿瘤分类结果的正确率,其反映了实际观测值与模型预测值的拟合程度。4.3分类表给出了乳腺肿瘤分类的预测值与实际数据集中乳腺肿瘤分类的观测值的对应情况,以及各预测分类结果的正确率。逻辑回归分析过程中,当预测概率大于决策边界0.5时,系统预测输出结果为1,即预测乳腺肿瘤为恶性,否则,系统预测输出结果为0,即预测乳腺肿瘤为良性。表4.3分类表已观测已预测类别百分比校正01步骤一类别01总计百分比433101129997.595.896.9分析表4.3分类表可以得到,在模型的444个乳腺肿瘤良性样本中,有433个样本预测为良性,即分类正确,有11个样本预测为恶性,即分类错误,分类正确率为97.5%;在模型的239个乳腺肿瘤恶性样本中,有229个样本预测为恶性,即分类正确,有10个样本预测为良性,即分类错误,分类正确率为95.8%.总体乳腺肿瘤分类正确率为96.9%,这说明该模型的预测效果较好。观察实验结果,除了上述检验拟合程度的结果外,也给出了两个R方统计量以及Hosmer-Lemeshow检验的相关结果。在逻辑回归模型中,两个R方统计量Cox&SnellR方和NagelkerkeR方也可以检验模型拟合度,其值越趋近于1,说明模型拟合度越高。观察表4.4模型汇总结果,得到在该模型中的结果分别为0.677和0.932,说明模型的拟合度较好。表4.4模型汇总结果步骤-2对数自然值Cox&SnellR方NagelkerkeR方1113.1440.6770.932除此之外,得到Hosmer和Lemeshow检验结果。通过表4.5得到卡方值是6.724,,同样说明该模型能很好拟合乳腺肿瘤数据。表4.5Hosmer和Lemeshow检验结果步骤卡方dfSig.16.72480.567结论1.工作总结本文在主成分分析与逻辑回归的理论基础上,首先利用主成分分析方法对肿瘤特征进行提取,之后利用逻辑回归方法建立乳腺肿瘤的分类预测模型,并对模型的拟合性进行了检验。经检验模型分类正确率为96.9%,说明模型的分类预测效果较好。本文主要完成了以下工作:详细介绍了模型建立的相关技术,详细介绍了模型的相关理论基础,包括主成分分析理论与逻辑回归理论。利用主成分分析方法,完成对乳腺肿瘤9个特征的降维,得到乳腺肿的3个主成分,为之后建模打下良好基础。利用逻辑回归方法建立了乳腺肿瘤分类预测模型,并对模型的可靠性进行了检验,经检验模型分类正确率为96.9%,模型总体的分类预测效果较好。研究展望本文通过主成分分析方法与逻辑回归建模对乳腺肿瘤数据进行了分析,得到了较好的分类预测效果,但本文还有一些问题可以继续探讨研究。(1)现有数据丰富性不够,该研究样本数据有一定的区域性,今后可以考虑使用医院的实时数据进行分析,也可考虑其他疾病的模型分析。(2)可用于乳腺肿瘤分类预测的方法较多,也可考虑其它方法相结合解决这一问题,比较其分类预测效果,以得到更好的方法。参考文献[1]WorldHealthOrganizatio
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 美甲类采购管理制度
- 如何退出采购小组工作制度
- 各国政府采购制度
- 采购部保密二级制度
- 专职采购员制度
- 中建采购管理制度
- 诚信技术开发采购制度
- 设备采购与维修管理制度
- 中药采购验收保管制度
- 采购部门下放管理制度
- 2026杭州市市级机关事业单位编外招聘148人笔试参考题库及答案解析
- 2026年春季贵州人民版(2024)六年级下册综合实践活动《小学毕业留念》教学课件
- 湖北省襄阳市2026届高三下学期3月一模统一调研测试数学试题
- 第4课《坚持才会有收获》课件
- 2026年春季安全教育班会记录表(19周):开学安全第一课-启航安全守护新学期
- 2025年黄山职业技术学院单招职业技能测试题库附答案解析
- 市政道路建设项目设计招标文件
- 浅谈三国演义中的智慧型人物诸葛亮
- 社会福利院服务投标方案
- 初中地理命题的原则和技巧课件
- 07版皇冠2.5说明书-Y整理版
评论
0/150
提交评论