第三组-第十队:肿瘤诊断模型.doc_第1页
第三组-第十队:肿瘤诊断模型.doc_第2页
第三组-第十队:肿瘤诊断模型.doc_第3页
第三组-第十队:肿瘤诊断模型.doc_第4页
第三组-第十队:肿瘤诊断模型.doc_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

肿瘤诊断数学模型第三组-第十队 组员:颜琴、谢飞平、苏林伟摘要为解决肿瘤的诊断问题,使数据更加直观,我们先用excel对所给的数据进行统计分析,将患者分为良性与恶性两类。对于问题一,我们建立了多元线性回归模型和Fisher判别模型,建立Fisher判别模型是通过预留20组数据用于模型的检验,最后可知用Fisher判别法的正确率为96%。通过分析肿瘤病灶组织的细胞核显微图像的10个量化特征:细胞核直径,质地,周长,面积,光滑度,紧密度,凹陷度,凹陷点数,对称度,断裂度与该肿瘤的良、恶性的关系,建立这10个量化特征与肿瘤关系的模型,并通过所建立的模型判断69位病患的肿瘤性质。对于问题二,为了得到特征数少而又能很好区分患者的良、恶性的模型,我们通过计算各个指标的相关系数,得出对肿瘤良、恶性影响较大的量化特征,并用这些量化特征建立相应模型用于判断病患的肿瘤性质。为使良性患者与恶性患者的10个量化特征的对比更加直观,我们用matlab作了相应的量化特征的平均值、标准差、最坏值对比图,通过对比图可以粗略判断出10个特征的平均值、标准差、最坏值对肿瘤性质的影响程度的大小,通过对比所建模型的诊断结果与所给数据的良恶性来检验所建立模型的可靠性和准确性。关键字:穿刺采样分析,量化特征,matlab,Excel,多元线性回归,Fisher判别法.一、问题的重述:问题一:肿瘤通过穿刺采样进行分析可以确定其为良性的或为恶性的。医学研究发现肿瘤病灶组织的细胞核显微图像的10个量化特征:细胞核直径,质地,周长,面积,光滑度,紧密度,凹陷度,凹陷点数,对称度,断裂度与该肿瘤的性质有密切的关系。根据已获得的10个量化特征的平均值、标准差和最坏值,建立诊断肿瘤是良性还是恶性的模型,并将所建立的模型用于另外69名已做穿刺采样分析的患者,判断出患者的肿瘤是良性还是恶性的。问题二:为节省费用,根据所提供的10个量化特征的的平均值,标准差和最坏值与肿瘤的良、恶性相关性情况,得出用部分特征来区分肿瘤是良性还是恶性的模型。二、问题分析针对问题一:我们根据所提供的数据,将患者分成良性与恶性两个类别,通过建立多元线性回归模型和Fisher判别模型,预留200组数据用于模型的检验,最后可知用Fisher判别法的正确率为96%。并对所建模型进行检验,最后用所建立的模型来诊断69位患者的肿瘤恶、良性。针对问题二:在问题一的基础上,我们采用多元线性回归模型来诊断肿瘤的良、恶性。要求确定主要的指标来诊断患者的肿瘤是良性还是恶性的,我们通过计算各个指标的相关系数,剔除相关度较低的特征,用对多元线性回归模型的检验结合剩下的特征量来断定患者的肿瘤恶、良性,并通过良性、恶性肿瘤的15个特征量的对比图来检验所取的特征量是否合理,通过所建模型的检验结果与真实情况的对比来检验模型的可靠性。三、模型的假设与符号说明模型假设1、数据来源真实可靠。2、肿瘤的良、恶性只与题目中所给的10个量化特征相关,与其他指标无关。3、题目中所给的10个量化特征对肿瘤的良、恶性影响相互独立。4、题目中各项指标在测定时带来的误差忽略不计。符号说明:1、Xi分别为细胞核直径,质地,周长,面积,光滑度,紧密度,凹陷度,凹陷点数,对称度,断裂度的平均值(i=1,2,3,)。2、Ni分别为细胞核直径,质地,周长,面积,光滑度,紧密度,凹陷度,凹陷点数,对称度,断裂度的标准差(i=1,2,3,)。3、y为多元线性函数。4、Bi为多元线性函数的参系数(i=1,2,3,)。5、ci为Fisher判别函数第个指标的系数(i=1,2,3,.)。6、Y判别函数,Y0判别函数的临界值。7、t “恶性”肿瘤患者的数量,s为“良性”肿瘤患者的数量。8、为“良性”肿瘤患者判别函数的均值,为“恶性”肿瘤患者判别函数的均值。9、表示“良性”肿瘤,有209组数据;表示“恶性”肿瘤,有91组数据。四、模型的建立与求解4.1问题一的解答模型一:根据所给数据及数据的特点,我们建立多元线性回归模型。多元线性函数:Bi为参数,将样本数据带入上式中,用matlab软件求的各个参数为:B=3.3527 0.2175 -0.0120 -0.0227 -0.0004 -1.3896 4.7071 -1.7276 -1.0372 0.0478 -2.3696 -0.4219 -0.0038 0.0353 0.0004 -15.7300 0.8315 4.1749 -15.7663 -0.7212 4.4496 -0.1937 -0.0021 -0.0006 0.0011 -0.3516 -0.2715 -0.3448 -0.2383 -0.7181 -3.6739则多元线性回归函数为:,y=1时为良性,y=0时为恶性。对所建模型进行检验:抽取195个恶性肿瘤病例,运用上述回归模型对它们进行诊断,诊断结果为13个良性,182个恶性,正确率93.3%,因此说该模型较合理。用上述方法对69名患者的良、恶性进行诊断,结果如表一所示:表一:患者的良、恶性诊断结果一览表患者编号y值良、恶性判断915040.8204B915050.2196M915500.8385B91789-0.2238M918051.0909B918581.0003B927510.9050B9148620.8150B9151430.6166B9151860.1927M9152760.9537B9154520.8680B9154600.2403M9156640.7456B9156910.6337B9159400.9178B9162210.1490M9167990.0614M9168380.8821B9170620.8358B9170800.8922B917092-0.1327M9178961.1242B9178970.6787B9181921.0620B9184651.1644B9195370.7262B9195550.9565B9198120.6111B9210920.9549B9213620.7885B9213850.8405B9213860.8514B9216440.1666M9222961.0814B9222970.0909M9225760.5756B9225770.6795B9228401.0371B9231691.2159B9234651.1157B9237480.4609M9237800.5871B9240840.7771B9243420.9149B9246320.7480B9249341.1490B9249641.0375B9252361.0551B9252770.7906B9252911.1413B9252921.0101B9253110.6813B9256221.1182B9261250.7465B9264240.8646B9266821.1903B9269541.0546B9272410.9110B915440010.8422B915440020.6527B915946021.1096B91762702-0.2621M91813701-0.1894M91813702-0.3266M919039010.0124M919039020.4010M91930402-0.6316M919797011.2541B模型二:Fisher判别模型模型的建立:通过观察恶性与良性两种不同性质的肿瘤的特征量的数据看出,种间差异较大,种内差异较小,因此,我们建立Fisher判别模型。将题中30个肿瘤指标用X表示即:。我们采用剔除前两百组数据后,余下的肿瘤诊断为“良性”的数据有209组,“恶性”的数据有91组。利用以上数据我们确定判别函数为:并找出临界值Y0令表示“良性”肿瘤,有209组数据;表示“恶性”肿瘤,有91组数据,则: 和的列平均数分别为E=()和F=()两组的离差矩阵s1=A*A,S2=B*BS=s1+s2方程系数矩阵C=S*(E-F)为参数,将样本数据带入上式中,用matlab求解各个参数得:C= 0.0040 -0.0003 0.0013 -0.0001 0.0920 0.2059 -0.2520 0.0752 -0.1082 0.1901 -0.0293 0.0018 0.0051 0.0000 -1.0296 0.6458 0.1831 -1.6885 -0.6132 -0.9443 -0.0163 -0.0005 -0.0006 0.0001 -0.1252 -0.0638 0.0076 0.0309 0.0285 -0.2223得出判别函数:“良性”肿瘤患者判别函数的均值 =-0.1568“恶性”肿瘤患者判别函数的均值 =-0.2242临界值Y0=-0.1772A判断.时,若YY0, 则判别对象属于“良性”,反之,则判别对象属于“恶性”。B判断.时,若YY0则判别对象属于“恶性”,反之,则判别对象属于“良性”。综上所述,明显得,则选A判断。判别函数的检验:现在来对上述方法的正确性作必要的检验,即检验上面求出的最优判别函数是否有效。步骤如下:1:计算统计量 =38.3142:对于给定点的显著水平,这里给定点的=0.005,从F分布表中查出=1.793:结果分析:因为F=1.79,则可以说明用来判别的函数有效可以用来作为判别。 表二:患者的良、恶性诊断结果一览表患者编号Y值Y-Y0良、恶性判断91504-0.16220.015B91505-0.2102-0.033M91550-0.16620.011B91789-0.2581-0.0809M91805-0.14820.029B91858-0.15620.021B92751-0.15850.0187B914862-0.16130.0159B915143-0.185-0.0078M915186-0.2098-0.0326M915276-0.15150.0257B915452-0.16460.0126B915460-0.2033-0.0261M915664-0.17270.0045B915691-0.1781-0.0009M915940-0.15560.0216B916221-0.2167-0.0395M916799-0.2313-0.0541M916838-0.15760.0196B917062-0.16450.0127B917080-0.16190.0153B917092-0.2515-0.0743M917896-0.13710.0401B917897-0.17250.0047B918192-0.14140.0358B918465-0.13330.0439B919537-0.1660.0112B919555-0.14950.0277B919812-0.17630.0009M921092-0.15240.0248B921362-0.16010.0171B921385-0.15990.0173B921386-0.1590.0182B921644-0.223-0.0458M922296-0.14070.0365B922297-0.2222-0.045M922576-0.1842-0.007M922577-0.1710.0062B922840-0.14660.0306B923169-0.13560.0416B923465-0.14250.0347B923748-0.188-0.0108M923780-0.1852-0.008M924084-0.16150.0157B924342-0.15630.0209B924632-0.16650.0107B924934-0.13990.0373B924964-0.14680.0304B925236-0.14920.028B925277-0.16460.0126B925291-0.13950.0377B925292-0.14560.0316B925311-0.17070.0065B925622-0.14850.0287B926125-0.16560.0116B926424-0.15960.0176B926682-0.13040.0468B926954-0.13930.0379B927241-0.15490.0223B91544001-0.15890.0183B91544002-0.17480.0024B91594602-0.1310.0462B91762702-0.2428-0.0656M91813701-0.2502-0.073M91813702-0.2543-0.0771M91903901-0.2262-0.049M91903902-0.1941-0.0169M91930402-0.2936-0.1164M91979701-0.13550.0417B4.2问题二的解答为筛选出有效的特征量,我们对各特征量与肿瘤的良、恶性的相关性及各特征量之间的相关性进行分析 ,得到它们的相关系数如下表所示:表三:各特征量与肿瘤的良、恶性的相关性及各特征量之间的相关性(右接下图) 表第一列为肿瘤的良、恶性与各特征量之间的相关系数,因此通过观察第一列,我们剔除了相关系数的绝对值小于0.5对应的特征量,剩下15特征量分别为:细胞核直径的平均值,周长的平均值,面积的平均值,紧密度的平均值,凹陷度的平均值,凹陷点数的平均值。细胞核直径的标准差,周长的标准差,面积的标准差。细胞核的直径最坏值,周长的最坏值,面积紧密的最坏值,凹陷度的最坏值,凹陷点数的最坏值。为使良性肿瘤细胞与恶性肿瘤细胞的十个量化特征量的平均值、标准值、最坏值能有个更加直观的对比,做图一至图十分别表示良性肿瘤细胞与恶性肿瘤细胞的细胞核直径,质地,周长,面积,光滑度,紧密度,凹陷度,凹陷点数,对称度,断裂度的平均值、标准差、最坏值的对比图。通过对比图,我们可以直观得看出良性患者与恶性患者的(细胞核直径的平均值,周长的平均值,面积的平均值,紧密度的平均值,凹陷度的平均值,凹陷点数的平均值。细胞核直径的标准差,周长的标准差,面积的标准差。细胞核的直径最坏值,周长的最坏值,面积紧密的最坏值,凹陷度的最坏值,凹陷点数的最坏值)有显著差别,与所建模型结果相同。利用筛选出的特征量,使用上述模型对肿瘤的良、恶性进行诊断。模型一:多元线性回归模型多元线性回归函数:Bi为参数,将样本数据带入上式中,用matlab软件求的各个参数为:B=1.8260 0.4328 -0.0426 -0.0009 4.2956 0.3230 -5.2977 -0.4956 0.0145 0.0015 -0.2720 0.0066 0.0013 -0.7699 -0.1484 -1.1899则多元线性回归函数为:,y=1时为良性,y=0时为恶性。对所建模型进行检验:抽取195个恶性肿瘤病例,运用上述回归模型对它们进行诊断,诊断结果为16个良性,179个恶性,正确率91.79%,因此说该模型较合理。用上述方法对69名患者的良、恶性进行诊断,结果如表三所示:表三:患者的良、恶性诊断结果一览表患者编号y值良、恶性判断915040.6795B915050.4624M915500.949B91789-0.2647M918051.2218B918581.1245B927511.0121B9148621.0257B9151430.6422B9151860.3804M9152760.9133B9154520.8758B9154600.2763M9156640.5948B9156910.5418B9159400.9712B9162210.1515M9167990.0499M9168380.7628B9170620.8529B9170801.1039B917092-0.189B9178961.1778B9178970.7547B9181920.9792B9184651.1416B9195370.7126B9195550.7993B9198120.7005B9210920.9198B9213620.7319B9213850.8509B9213860.7925B9216440.0904M9222961.0148B922297-0.0897M9225760.6742B9225770.8827B9228401.2267B9231691.2953B9234651.0822B9237480.6001B9237800.7073B9240840.8277B9243420.948B9246320.7831B9249341.1597B9249641.0738B9252361.0756B9252770.8424B9252911.1789B9252921.0099B9253110.8955B9256221.2329B9261250.8725B9264241.0467B9266821.2716B9269541.1487B9272410.8324B915440010.8782B915440020.7683B915946021.1726B917627020.0137M91813701-0.0616M91813702-0.2585M919039010.103M919039020.4109M919304020.6795M919797010.4624B五、模型结果分析对于问题一,在处理500个样本的过程中, 300个样本用来处理数据,其余200个样本用来检测样本的真确性与精确度。方法一采用Fisher判别式法,此处的正确率为96%,方法二采用多元线性回归模型模型正确率为93.3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论