基于代价敏感学习的乳腺癌预测模型研究及应用.doc_第1页
基于代价敏感学习的乳腺癌预测模型研究及应用.doc_第2页
基于代价敏感学习的乳腺癌预测模型研究及应用.doc_第3页
基于代价敏感学习的乳腺癌预测模型研究及应用.doc_第4页
基于代价敏感学习的乳腺癌预测模型研究及应用.doc_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于代价敏感学习的乳腺癌预测模型研究及应用 乳腺癌发病隐匿,确切病因尚未完全明确,一般认为与遗传、生育、行为生活习惯等多种内在和外界的因素共同作用有关。 早期乳腺癌通过规范化治疗,治愈率较高;中晚期乳腺癌虽可延长患者生存期,却难以彻底治愈。 由于人们早发现、早诊断、早治疗的健康意识淡薄,加之我国人口众多、医疗卫生资源有限等因素,很难实现全国范围内的乳腺癌筛查工作。 因此开展乳腺癌预测模型的研究,及时筛选出乳腺癌高危人群,从而有的放矢显得尤为重要。 课题引入代价敏感学习算法,对乳腺癌预测模型进行研究,进而实现对高危人群的筛选,达到乳腺癌辅助检测的目的。 本文的主要工作内容如下 (1)数据分析。 课题收集并1031位就诊者的临床诊疗数据。 分别对训练数据(数据集1)中定量因素之间的独立性,以及各因素在病例组和对照组之间的差异性进行分析。 将具有统计学意义的影响因素变量纳入乳腺癌危险因素中,并组建新的实验数据集(数据集2)。 (2)提出了一种基于阈值优化Logistic回归的乳腺癌预测模型。 针对实验数据存在的不平衡问题,实验采用优化分类阈值的方法提升Logistic回归模型的预测性能。 本文分别对数据集1和数据集2构建Logistic回归模型,并且通过查准率-查全率曲线评价改变阈值对模型性能的影响效果。 实验表明,数据集2构建的Logistic回归模型设置阈值为0.031时,模型Main_Logistic_Model预测性能最高,其AUC值为75.08%,敏感度为71.43%。 (3)提出了一种基于代价敏感决策树C5.0的乳腺癌预测模型。 在不平衡问题中,不同的分类错误会导致不同的分类代价。 实验通过引入代价矩阵(cost matrix)的方法,分别对数据集1以及数据集2构建的决策树C5.0预测模型进行优化。 实验表明,数据集1构建的决策树C5.0模型,设置c(A)/c(B)比值为18/1时,模型C5.0_Model的预测性能最优,其AUC值为89.37%,模型的敏感度更是高达100.00%。 (4)设计并实现了乳腺癌预测系统。 针对本文提出的两种不同的分类器,制定合理的系统算法,设计并实现乳腺癌预测系统。 其包括用户端和管理员端。 用户端通过收集用户相关指标,实现对女性乳腺癌的患病风险进行预测,及时有效的筛选出高危人群,基于代价敏感学习的乳腺癌预测模型研究及应用IV对于乳腺癌的辅助检测,具有积极意义。 关键词乳腺癌;代价敏感学习;Logistic回归;决策树C5.0;预测模型济南大学硕士学位论文V AbstractBreast cancer is theleading malignanttumor in the world,and ithas agreat impacton females health,national economyand socialdevelopment.It hasbee amajor publichealth problemin currentsociety.The incidenceof breast cancerisconcealed,and theexact causeis notpletely clear.It isgenerally believedto berelated toa varietyof internaland externalfactors suchas heredity,fertility,and behavioralhabits.Early breast cancer hasa relativelyhigh curerate throughstandardized treatment.Although thereare somemethods forprolonging thesurvival ofpatients withterminal breastcancer,it isdifficult topletely cure.Due tothe lackof healthawareness ofearly detection,early diagnosisand earlytreatment,and thefact thatChina hasa largepopulation andlimited medicaland healthresources,it isdifficult toachieve breastcancer screeningacross the country.Therefore,it isparticularly importantto carryout researchon breastcancer prediction models andtimely screen out high-risk groupsof breastcancer.The subjectintroduces acost-sensitive learningalgorithm tostudy breastcancer prediction models,in orderto screenout high-risk populationsand achievethe purposeof breastcancer assisted detection.The mainwork ofthis paperis asfollows: (1)Data Analysis.The projecthas collectedand piledclinical dataon1031breastcancerpatients.This paperanalyzes theindependence betweenquantitative factorsinthetraining data(data set1)and thedifferences betweenthe diseasegroups inthe casegroup and the controlgroup.Statistically significantinfluencing factorswere includedin breastcancer riskfactors anda newexperimental data set(data set2)was established. (2)A breastcancer prediction model basedon threshold-optimized Logistic regression wasproposed for the imbalance problem ofexperimental data,the experimentused themethod ofoptimizing classificationthreshold toimprove theprediction performance of Logistic regression model.In this paper,Logisticregression models areconstructed fordata set1and data set2respectively,and theeffect ofchanging thresholdsonmodelperformance isevaluated bythe precision-recall curve.Experiments showthat whenthe thresholdof Logisticregressionmodel constructed by dataset2is0.031,the modelMain_Logistic_Model has the highestprediction performance,the modelAUC valueis75.08%,andthesensitivity is基于代价敏感学习的乳腺癌预测模型研究及应用VI71.43%. (3)A breastcancer predictionmodel basedon cost-sensitive decision tree C5.0is proposed.In theimbalanceproblem,different classificationerrors leadto differentclassification costs.The experimentoptimizes thedecision treeC5.0predictionmodelconstructed bydataset1and dataset2by introducingthe costmatrix method.Experiments showthat thedecision treeC5.0modelconstructedbydataset1has thebest predictiveperformanceofthe modelC5.0_Model whenthec(A)/c(B)ratio is18/1,and itsAUC valueis89.37%.Sensitivity isas highas100.00%. (4)The breastcancer predictionsystem wasdesigned and implemented.Aording tothe twodifferent classifiersproposed inthispaper,a reasonablesystem algorithmis developedto designandimplementthe breastcancer predictionsystem.The systemincludes aclient andan administrator.By collectinguser-related indicators,the clientcan predictthe riskof breastcancer infemale,so canscreenouthigh-risk groupseffectively,which haspositive significancefortheassisteddetectionof breastcancer.Key Words:breastcancer;cost-sensitive learning;Logisticregression;decisiontreeC5.0;predictionmodel济南大学硕士学位论文1第一章绪论本章1.1节介绍了课题研究背景和意义,1.2节阐述了国内外研究现状以及存在的问题,引入代价敏感学习算法;本章1.3和1.4节,分别简要介绍了本文研究的主要内容和本文的结构安排。 1.1研究背景及意义乳腺癌是女性最常见的恶性肿瘤之一,位于女性肿瘤死因的首位1。 其对经济、社会及家庭都造成了极大的影响。 据世界卫生组织下属国际癌症研究机构(International Agencyfor Researchon Cancer,IARC)2018年发布的全球癌症统计数据显示,全球新发癌症病例1810万,其中乳腺癌210万,约占11.6%;新发癌症死亡人数960万,其中包含63万乳腺癌患者,约占6.6%。 在全球860万女性新发癌症病例中,乳腺癌约占24.2%,位于女性癌症发病首位(图1.1a)。 在全球420万女性癌症死亡人数中,乳腺癌约占总数的15.0,也高居第一(图1.1b)。 在全球绝大多数国家,女性乳腺癌的发病率均高于其它癌症2。 由此可见,乳腺癌已成为当前社会的重大公共卫生问题3。 (a)全球女性的癌症发病率分布(b)全球女性的癌症死亡率分布图1.1全球女性的癌症发病率和死亡率分布中国虽不是乳腺癌高发国家,但随着我国经济发展以及人们生活水平的提高,乳腺癌的发展状况不容乐观。 据国家癌症中心2018年发布的全国乳腺癌统计数据显示,我国女性乳腺癌新发病例约27.89万,占女性新发癌症病例的16.51%,位居女性癌症发病首位。 女性乳腺癌死亡病例约6.60万,占女性癌症死亡病例的7.82%,是女性癌症死基于代价敏感学习的乳腺癌预测模型研究及应用2亡的主要原因之一4。 高死亡率大多归因于诊断较晚,导致错过最佳治疗时机。 针对乳腺癌现状,加强乳腺癌筛查工作,使大批可能患有乳腺癌的病人得到及时有效的控制和治疗,从而提高乳腺癌早期发现率是目前工作的重中之重。 由于乳腺癌发病机制复杂、加之人们的健康意识淡薄,以及我国人口众多、医疗卫生资源有限等综合因素,很难实现全国范围内的乳腺癌筛查工作,因而开展乳腺癌预测模型的研究,筛选出乳腺癌高危人群从而有的放矢显得尤为重要。 课题开展乳腺癌预测模型的研究,通过构建基于代价敏感学习的乳腺癌预测模型,准确评估出乳腺癌高危人群,并对高危人群及时实施合理有效的干预和监测手段,对于乳腺癌的辅助检测,具有积极意义。 1.2国内外研究现状乳腺癌预测模型基于收集就诊者乳腺癌危险因素信息,进而开展研究。 研究认为,基因因素、生育因素、内分泌因素、饮食、运动情况、体质指数等均与乳腺癌的发病风险相关5-10。 模型依据选定的乳腺癌危险因素不同,主要分为两大类统计型预测模型和基因型预测模型。 国外专家和学者对乳腺癌预测模型研究较早。 目前欧美国家使用范围较广的乳腺癌统计型模型是Gail模型和Claus模型。 1989年,Gail等11针对三十万白人妇女的乳腺癌危险因素相关数据进行分析,并从样本中选取2852例患者和3146例对照,采用非条件Logistic回归分析方法,提出用于评估特定人群在一定的影响因素下患乳腺癌概率的Gail模型。 Gail模型存在明显弊端,除考虑危险因素不够全面外,Gail模型还具有明显的种族局限性。 Claus等12将患乳腺癌的亲属个数及其发病的年龄(包括一级和二级亲属)纳入到模型当中,提出用于评估具有乳腺癌家族史的女性患乳腺癌的风险的Claus模型。 但对于无家族史女性,Claus模型的预测效力偏低,且Chay等13也报道该模型不适用于评估亚洲女性。 随着Miki14和Wooster等15分别发现BRCA1基因、BRCA2基因与乳腺癌有一定关联。 1997年,Couch等16构建了Couch模型。 之后陆续研究出Shattuck-Eidens模型、Myriad模型、Myriad模型、BRCAPRO模型以及BOADICEA模型17。 目前使用范围最广的基因型模型是BRCAPRO模型,该模型利用贝叶斯理论预测BRCA基因的突变概率,用于评估特定年龄患乳腺癌的风险18。 但BRCAPRO模型在预测没有遗传因素的女性患有乳腺癌的风险时准确率欠佳,且模型的适用性存在不同种族性差异。 Fischer等19发现,BRCAPRO模型较准确预测出德国人群携带BRCA突济南大学硕士学位论文3变基因的概率,但Kang20却发现,该模型不适用于韩国女性。 国内学者和专家考虑我国乳腺癌现状,很难开展全国范围内的乳腺癌筛查工作,纷纷投入乳腺癌预测模型的研究当中。 由于基因检测昂贵,通过个体的家族史建立携带乳腺癌易感基因概率,进而预测易感基因突变概率的预测模型不适合大规模乳腺癌筛查。 故目前大多是从流行病学角度考虑乳腺癌危险因素,应用机器学习和数据挖掘技术进行乳腺癌统计型预测模型研究。 xx年,侯争光等21对未绝经、已绝经病例组和对照组分别进行Logistic单因素和多因素回归分析,建立预测模型并进行判别分析,对乳腺癌的预测有一定的参考价值。 xx年,徐卫云等22通过流行病学调查并结合西部二级城市女性乳腺癌相关危险因素,提出基于Logistic回归的乳腺癌预测模型,对临床工作起到指导作用,但模型尚需进行大规模人群的验证研究。 xx年,吴菲等23采用Cox比例风险模型,计算乳腺癌5年发病风险,初步建立符合该人群流行病学特征的乳腺癌预测模型,为乳腺癌高危人群的筛选提供依据。 董华24等提出基于决策树算法和支持向量机(SVM)特征消除算法构建三阴乳腺癌(TNBC)预测模型,实现对三阴乳腺癌精准诊断,但模型不适用于其它类型乳腺癌预测。 2019年,段文鑫等25针对西藏地区女性乳腺癌数据,构建了基于Logistic回归的乳腺癌风险评分模型,但不适用于大范围筛查。 其它各地区乳腺癌预测模型研究也陆续展开,为中国制定合理有效的乳腺癌干预策略提供科学依据。 虽然上述方法均取得了一定研究成果,但仍存在以下问题。 (1)没有考虑医疗数据的特殊性。 上述模型构建时,收集病例组数据和对照组数据偏差均较小。 但在现实生活中,患乳腺癌和未患乳腺癌的人数是极不对称的。 忽略数据存在的严重不平衡问题,会极大影响预测效果。 (2)传统的学习方法总是基于不同类别样本代价相同为前提。 其以优化总体精度为最终目标,极易造成分类器在多数类分类精度过高,而少数类分类精度极低的情况。 但在实际乳腺癌预测中,把一个真正的乳腺癌患者预测为不患病的成本,要远远大于把一个健康用户预测为乳腺癌的成本。 代价敏感学习(Cost-Sensitive Learning,CSL)可通过对不同类别样本赋予不同的错分代价,从而解决数据不平衡问题。 目前,代价敏感学习应用于我国很多研究领域。 在医学领域,任福龙等26提出基于代价敏感的半监督Bagging(CS-SemiBagging)的算法,实现对糖尿病视网膜病变进行分级。 在科技领域,杨杰等27提出基于Boosting算法的软件缺陷预测模型。 在商业领域,石瀚凌28提出基于Boosting与代价敏感决策树的集成算法,基于代价敏感学习的乳腺癌预测模型研究及应用4用来进行客户流失预测等。 故针对课题数据存在的严重不平衡问题,本文基于代价敏感学习对乳腺癌预测模型进行研究,分别提出了一种基于阈值优化Logistic回归的乳腺癌预测模型和一种基于代价敏感决策树C5.0的乳腺癌预测模型,有助于高效的筛选出乳腺癌高危人群,并及时进行干预以达到降低乳腺癌死亡率的目的。 课题对于乳腺癌的辅助检测,有一定的参考价值。 1.3论文研究内容本文共收集和了1031个就诊者的临床诊疗数据,所有就诊者均进行了乳腺癌检查。 其中26例患乳腺癌(诊断结果呈阳性),1005例未患乳腺癌(诊断结果呈阴性)。 由于数据集存在严重不平衡问题,且实际的乳腺癌诊断中,少数类的错分代价要远高于多数类。 故课题采用代价敏感学习的方法,分别构建了基于阈值优化Logistic回归的乳腺癌概率预测模型和基于代价敏感决策树C5.0的乳腺癌分类预测模型,其对于乳腺癌的辅助检测研究,具有指导作用。 本课题运用R语言进行研究,技术路线如图1.2所示,研究内容主要包括以下五个方面图1.2课题技术路线图 (1)数据与数据预处理。 课题采用的实验数据均为医院临床数据。 由于数据采集过程中存在噪声,所以先对数据进行预处理,主要包括缺失值处理以及异常值处理。 确定研究方案数据收集和数据预处理乳腺癌数据分析构造基于代价敏感学习的乳腺癌预测模型(a:基于阈值优化Logistic回归的乳腺癌预测模型b:基于代价敏感决策树C5.0的乳腺癌预测模型)乳腺癌预测系统设计与开发有助于乳腺癌辅助检测且为我国制定乳腺癌早期干预策略提供科学依据济南大学硕士学位论文5且基于随机采样按照预测目标变量将数据集划分为70%的训练数据(数据集1)和30%的测试数据。 (2)乳腺癌数据分析。 首先对数据集1中定量因素之间的独立性进行分析,删除冗余变量。 然后分析数据集1中各维度因素在病例组和对照组之间的差异性。 课题采用假设检验的方法进行分析,定量资料选用参数检验法,主要包括t检验和F检验;定性资料选用Pearson X2独立性检验或者Fisher精确独立性检验。 数据分析主要包括以下四个部分的内容1)分析基础资料与乳腺癌之间的关系;2)分析生育因素与乳腺癌之间的关系;3)分析遗传因素与乳腺癌之间的关系;4)分析行为生活习惯与乳腺癌之间的关系;通过假设检验,筛选得到乳腺癌高危因素。 由于数据集1自身存在不平衡问题,故适当调整检验水平(P0.3),以免丢失某些重要的影响因素变量。 利用筛选得到的乳腺癌高危因素,组建新的实验数据集(数据集2)。 (3)基于阈值优化Logistic回归的乳腺癌概率预测模型。 对于数据集1和数据集2分别构建Logistic回归预测模型,并寻找其最佳阈值,最后对测试数据进行预测,通过AUC以及敏感度等其它模型评价指标综合对模型进行对比分析,得到基于阈值优化Logistic回归的最佳乳腺癌预测模型。 (4)基于代价敏感决策树C5.0的乳腺癌分类预测模型。 对于数据集1和数据集2分别构建决策树C5.0预测模型,并引入不同的代价矩阵对初始模型进行优化,最后对测试数据进行预测,通过AUC以及敏感度等其它模型评价指标综合对模型进行对比分析,得到基于代价敏感决策树C5.0的最佳乳腺癌预测模型。 (5)根据上述实验得到两种基于不同算法的最优乳腺癌预测模型,制定合理的系统算法,设计并开发乳腺癌预测系统。 用户通过注册个人信息,登录系统,输入自身相关指标信息,即可预测患乳腺癌的风险高低。 对于预测结果,建议中、高危人群去正规医院进行近一步诊断。 1.4论文组织结构本文组织结构内容如下基于代价敏感学习的乳腺癌预测模型研究及应用6第一章绪论。 该部分先介绍课题研究背景、目的以及意义;然后阐述国外、国内相关的乳腺癌预测模型研究成果以及存在问题,继而提出代价敏感学习的研究方法;最后确定课题的研究内容和技术路线。 第二章相关知识及技术介绍。 主要介绍了本文所采用的关键技术以及功能的实现。 首先简述乳腺癌病因以及常见的乳腺癌筛查方法;之后对课题采用的主要工具R进行概述;然后从数据层面和算法层面两个方面展开介绍代价敏感学习方法,从而引出课题实验部分所采用算法。 最后介绍了数据分析采用的假设检验的相关方法。 第三章数据和数据预处理。 首先介绍了课题的数据以及相关指标信息。 然后为保证后期得到高质量的数据分析和构建模型效果,在进行数据分析和构建模型之前,对原始数据进行缺失值和异常值处理。 最后依据预测目标变量将数据集划分为训练数据(数据集1)和测试数据。 第四章数据分析。 首次对数据集1中的定量变量进行独立性分析,然后分别对数据集1中基础资料、生育因素、遗传因素和行为生活习惯和是否患乳腺癌之间的关系进行统计学分析,主要采用假设检验(t检验、F检验、Pearson X2独立性检验、Fisher精确独立性检验)方法进行数据分析。 最后将具有统计学意义(P0.3)的影响因素变量纳入乳腺癌高危因素中,组建新的实验数据集(数据集2)。 第五章基于代价敏感学习的乳腺癌预测模型研究。 由于数据存在严重不平衡性问题,课题提出采用代价敏感学习的方法进行乳腺癌预测模型研究。 该章节主要分为四部分。 第一部分介绍常见的模型评价指标,并确定课题使用的主要评价指标。 第二部分主要介绍了基于阈值优化Logistic回归的乳腺癌概率预测模型的构建。 首先阐述了Logistic回归算法;然后针对数据集1和数据集2分别构建基于Logistic回归的乳腺癌预测模型,并通过确定最优阈值对模型进行优化;最后对模型构建结果进行对比分析。 第三部分主要介绍了基于代价敏感决策树C5.0的乳腺癌分类预测模型的构建。 首先阐述了决策树C5.0算法,然后针对数据集1和数据集2分别构建基于C5.0的乳腺癌预测模型,并引入代价矩阵对模型进行优化;最后对模型构建结果进行对比分析;第四部分总结了本章的内容。 第六章乳腺癌预测系统的设计与实现。 课题设计并开发乳腺癌预测系统,通过采集用户指标,可评估用户患乳腺癌的风险高低。 该章节主要分为系统设计和系统实现两部分内容。 系统设计部分介绍了乳腺癌预测系统的用户-角色划分、需求-功能分析、业济南大学硕士学位论文7务流程分析以及数据库结构的设计。 系统实现部分介绍了乳腺癌预测系统的开发环境、系统的算法设计思想以及系统的主要功能及界面显示。 第七章结论与展望。 第一部分重点讲述课题展开哪些方面的研究工作,以及研究成果;第二部分指出课题存在的不足之处,并对课题后期改进和完善工作进行展望。 基于代价敏感学习的乳腺癌预测模型研究及应用8第二章相关知识与技术介绍本章2.1节介绍了乳腺癌病因以及筛查方法,2.2节是对数据挖掘工具R进行概述;2.3节从数据层面和算法层面阐述代价敏感学习算法,2.4节对数据分析使用的假设检验方法进行介绍。 2.1乳腺癌病因及筛查方法女性乳腺由皮肤、纤维组织、乳腺腺体和脂肪组成,乳腺癌是发生在乳腺腺上皮组织的恶性肿瘤。 在通常情况下,乳腺腺上皮细胞以有序方式分裂和生长。 但有时,由于复杂的原因,一些细胞发生基因突变,细胞增生失控,表现为无序、无限制的恶性分裂和生长,逐渐形成乳腺癌。 图2.1乳腺癌危险因素乳腺癌的病因尚不十分明确,研究者多年分析得到乳腺癌患者具有的危险因素,是女性日常需要防范的因素。 其中主要包括家族遗传、基因因素、生育因素、环境因素、激素影响、行为生活习惯六个方面的因素以及其它因素(图2.1)。 其中家族因素包括乳腺癌家族史、乳腺良性病史等;基因因素包括BRCA1基因、BRCA2等;生育因素包括首次妊娠年龄、月经初潮时间、绝经年龄等;环境因素包括有无长期辐射等;激素影响指个体雌激素水平,比如是否长期使用含激素药物等;行为生活习惯包括吸烟、饮酒等。 虽具有上述某些项危险因素的女性不一定患乳腺癌,但其患病风险却比正常人高。 医学上将乳腺癌分为0期、I期、II期、III期、IV期。 乳腺癌的治愈率与临床分期有很大的关系。 早期乳腺癌患者的治愈率较高,晚期患者的治愈率极低。 由于乳腺癌发济南大学硕士学位论文9病隐匿,早期症状并不明显,所以很多患者一旦经过诊断,就确诊为中晚期,不仅延误病情,同时给家庭和社会造成了极大的影响。 故乳腺癌防控比治疗更为重要。 乳腺癌筛查29是对无明显症状的妇女进行有效的乳腺检查,以达到早期发现,降低乳腺癌死亡率的目的。 常用的乳腺癌筛查方法有 (1)临床乳腺检查; (2)乳腺超声检查; (3)乳腺磁共振成像; (4)数字乳腺断层合成技术; (5)乳腺癌风险预测系统。 由于人们早发现、早诊断、早治疗的健康意识淡薄;加之我国人口基数大、医疗卫生条件有限等多种因素制约,前四种筛查方法很难进行大规模开展。 所以借助科技手段,设计并实现准确高效的乳腺癌预测系统,用户可实时进行乳腺癌风险评估。 其有利于乳腺癌的辅助诊断,同时为我国制定乳腺癌干预策略,提供科学依据。 2.2R语言概述R语言由新西兰奥克兰大学的Ross Ihaka和Robert Gentleman创建,目前由R语言开发的核心团队进行研究。 R语言类似于传统的C语言和Java语言,是一门计算机编程语言。 但除此之外,R语言更适用于数据分析、统计建模、数据可视化等。 R具备良好的数学计算的环境,除了提供一些集成的统计工具之外,它还提供大量适用于数学计算、统计计算的函数,方便用户能够灵活开展数据分析,甚至创造符合需要的新型统计计算方法。 相比其他的数据挖掘软件,R的优点如下。 (1)R是一个开源的自由软件,它有Unix、Windows、Mac OS、Linux版本,可以直接在CRAN(Comprehensive RArchive Network)上进行下载和使用,且安装简单。 (2)R具备完整的数据处理以及计算系统,其功能非常强大。 主要功能包括数据存储和处理系统;数组运算工具;完整连贯的统计分析工具;R是简便且强大的编程语言,对数据输入、输出进行操纵,实现循环、分支,用户自定义等功能。 (3)语言简单易学。 虽然R与C、Java等编程语言有很大差别,但编程语言的基础逻辑仍保留一致。 (4)优秀的统计制图功能,是很好的数据可视化工具。 (5)R与其它编程语言、数据库之间存在良好接口。 基于代价敏感学习的乳腺癌预测模型研究及应用102.3代价敏感学习代价敏感学习30通常应用于不平衡学习中。 不平衡学习,即训练数据少数类和多数类数量存在较大差异情况下采用的学习方法。 现实生活中存在很多不平衡问题,比如癌症检测、网络入侵以及客户流失等。 传统的学习方法总是基于样本不同类别数目相等,以及不同类别被错分代价相等为前提展开。 虽然准确率较高,但本质上无法实现真正意义上的模型最优,故不适用于不平衡学习。 解决不平衡学习的方法主要包括重采样和代价敏感学习。 重采样是通过调整原始训练数据的样本比例,对数据进行处理从而得到平衡数据的方法,其主要包括过采样(oversampling)、欠采样(undersampling)以及混合采样(包括SMOTE算法31)等。 重采样改变了数据原始组成,使数据失去客观性。 代价敏感学习基于原始数据,对不同类别错分赋予不同代价进行不平衡学习。 大量研究表明,利用代价敏感学习方法解决不平衡问题的效果明显优于重采样方法。 所以本课题采用基于代价敏感学习的方法进行乳腺癌预测模型的研究。 本章主要从数据层面和算法层面两方面来介绍代价敏感学习。 2.3.1数据层面代价敏感学习对原始数据的处理与重采样不同,其根据错误分类的代价,对原始训练样本的分布进行调整。 例如,Chan32和Stolfo33提出层次化模型(Stratification),把不均匀分布的训练数据转化为均匀分布的正负例数据。 Zadrozny等34研究人员基于cost-proportionate思想,进行调节训练数据权值大小。 Abe等35探讨如何实现多分类问题的代价敏感学习,提出了一种新的迭代学习方法。 2.3.2算法层面代价敏感学习在算法方面主要提出了如下几种常见的处理方法。 (1)对模型输出数据进行后处理。 该方法以实现损失最小为目标,对采用传统方法学习得到的模型结果作出调整。 此方法不依赖于特定的分类器,但缺点是它要求分类器的输出结果必须为概率。 本课题基于阈值优化的Logistic回归的乳腺癌预测模型的构建即采用该方法实现代价敏感学习,按照Logistic回归构建模型,然后把代价敏感性考虑在内,通过调整多数类阈值的方法,增加对少数类样本的学习速率,以此达到最小化误分类代价。 济南大学硕士学位论文11 (2)改进单一的学习模型,使之适应不平衡数据的学习。 专家针对决策树,SVM以及神经网络等不同的学习模型分别提出了对应的代价敏感的方法。 Knoll等36和Bradford等37为决策树提出了代价敏感的剪枝方法。 Bradford等研究了在代价敏感的条件下如何对决策树进行剪枝使得损失达到最小,研究表明基于拉普拉斯方法的剪枝方法能够取得最好的效果。 Drummond和Holte38研究了代价敏感学习的决策树的节点分裂方法。 Fumera和Roli等39从结构风险最小的角度来看代价敏感问题,提出了代价敏感的SVM分类算法。 Kukar和Kononenko40为神经网络提出一种新的后向传播算法,使其能够满足代价敏感学习的需求。 其中常用的是与决策树和SVM相结合的代价敏感学习分类方法。 由于决策树与其它分类算法相比较,产生的分类规则易于理解,且准确率较高,故本课题引入代价矩阵,构建基于代价敏感决策树C5.0的方法来进行乳腺癌预测模型。 (3)集成学习(Ensemble learning)算法。 Adaboost算法41是对Boosting算法42的调整,它能够针对弱学习训练的弱分类器的错误,进行适应性调整。 Adaboost算法是一种迭代算法,核心思想是把不同训练集训练得到的分类器整合起来,最终构建一个强分类器。 Fan和Stolfo等43人提出了基于代价敏感的提升算法AdaCost。 AdaCost是AdaBoost的一种变体,是一种误分类的代价敏感的增强方法,其比AdaBoost更多地减少累积错误分类成本,实证评估表明,在不消耗额外计算能力的情况下,AdaCost可显著降低累积误分类代价。 Viola和Jones44提出AsymBoost算法,对错分的少数类样本赋予更大的权重,使弱分类器对少数类更加敏感,这种方式在一定程度上提高了对少数类样本的识别能力,但降低了对多数类样本的识别能力。 由于集成学习极易造成过拟合问题,故本课题未采用该方法进行模型构建。 2.4假设检验假设检验也称显著性检验,是推论统计中用于检验统计假设的一种方法。 假设检验是一种先构造假设条件,之后通过样本数据对假设条件进行检验,从而得到结论的方法。 首先需要针对特定问题建立假设检验,通常被称为原假设或零假设(记为0H),与之相对应的假设,称为备择假设(记为1H)。 然后选择合适的假设检验方法计算检验统计量(用于抉择是否拒绝0H的统计量)。 最后判断临界值,作出推断结论。 在根据假设检验做出统计决策时,可能会犯两种错误,分别是否定真实的原假设和接受错误的原假设。 基于代价敏感学习的乳腺癌预测模型研究及应用12犯第一类错误的概率定义为P否定0H|0H为真,犯第二类错误的概率定义

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论