版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于决策树算法的医疗数据挖掘一、实验目的利用商业智能分析项目中的数据分析功能,对乳腺癌数据集breast-cancer基于决策树算法进行挖掘,产生相关规则,从而预测女性乳腺癌复发的高发人群。并通过本次实验掌握决策树算法关联规则挖掘的知识及软件操作,以及提高数据分析能力。二、实验步骤1、在SQLserver2005中建立breast-cancer数据库,导入breast-cancer数据集;2、对该数据集进行数据预处理,包括列名的中文翻译、以及node-caps缺失值的填充,即将null填充成?3、新建数据分析服务项目,导入数据源、新建数据源视图、新建挖掘结构,其中,将breast-cancer
2、表中的序号作为标识,是否复发作为分类4、部署;5、查看决策树、依赖关系网络等,并根据结果进行分析、预测。三、实验结果分析1、如以下三张图片所示,通过调整依赖网络图的依赖强度,可得出,在众多因素中,受侵淋巴结数、肿瘤大小、恶心肿瘤程度这三个因素对于是否复发的影响是较大的,并且影响强度依次递减。&AnalysisServices项目2-licrosoftVisualStudioM凶文件g)編辑g)视图辺项目他)生成)调试)数据库)挖掘複型(M)工具d)窗口址)社区()帮助址)勾H耳-二勺oDevelopment刁雪法tfli丘(B开贻|矽6働电商业|型实验|;Micro.|sAnaly色zql+=
3、.|Ig凯|軻新建总乌巳旦也勺巧曲f316:50已保存的项2、从全部节点的挖掘图例可以看到,在breast-cancer数据集中,复发占了29.91%,不复发占了68.32%,说明乳腺肿瘤的复发还是占了相当一部分比例的,因此此挖掘是具备前提意义的。3、由下两张图可知,受侵淋巴数这一因素对于是否复发是决定程度是最高的。在受侵淋巴结数不等于0-2(即大于0-2)节点中,复发占了50.19%的比例,不复发占了44.44%的比例,而在受侵淋巴结数=0-2的节点中,复发只占了21.71%的比例,不复发占了77.98%的比例。由此可见,当受侵淋巴节点数大于0-2时,复发的几率比较高。决策树受侵淋巴结数不等
4、于0-兰值事例槪率直両爭例总计:T3|挖掘国例挖屎棧型:|弘“七直方图条数.Sheet.da设1舐挖掘结构三I画窗口迪社区()帮助堪)3431:门-rwfc.-C4.-rLOre彼高低默认扩展:卜牛飯别显护级别1悲ft肿恶性肿締程度不等于3二-|g|x|解决方案资源管理器-x侖丨禅IAnalysisServices顶目El-石彗据源勺尹Breastc:arLcer.ds-石数据源视图“載勺Breastc:arLcer.dsvI&爹维数据集I“&维度E1-少挖掘结构氏Sheet,dnim已角色|“&程序集已保存的项彳开始|鶴6釦辺订总商业也实验|咬Micro.|SAnaly.|也sql+s.|凹
5、“120.|也新建文件也)编辑视I-|g|x|桂戡模型:|Sheet堂曼淋巴结数直方圉条数:Sheet,du设计隊挖掘皓构IF决策树丨依赖关索网$題|q|缶|菇受传葩巴结敌不等T0-2窗口社区帮助默认扩展:卜亍飯别显不级别1恶性肿瘤程度恶性肿瘤程度不等T3肿細大小=HW4肿瘤大小不誓于10-14解决方案资源管理器IAnalysisServices顶目B-&勢据源勺尹Breastc:arLcer.ds白&数据源视图Breastc:arLcer.dsvI&枣维数据集i“&维度白&挖掘结构“氏Sheet,dnim&角色|“&程序集1&杂项2JAl已保存的项Q开始I昴9橋电倉商业.|凶实验.|Micr
6、o.Analy.凶sql+s.|四心0|色新建|痔陽国心巳團点仇审曲总逐1&494、由以下两张图可见,在受侵淋巴结数不等于0-2(即大于0-2)的情况下,恶性肿瘤程度=3(最高程度)时,复发占了69.55%,不复发占了27.57%;恶性肿瘤程度不等于3时,复发占了33.33%,不复发占了59.14%。也就是说,在受侵淋巴结数较多的情况下大于0-2的情况下,恶性肿瘤程度越高,复发的几率越高。du设1隊挖掘结构挖戡模型:|Sheet决策树直方圉条数|挖掘團例4J凶高低事例总计:36值爭例槪率直方图受侵淋巴结数不等于一兰and恶性肿瘤程度不等于359.14%33.33%7.53%窗口迪社区帮助默认扩
7、展:|3?皱别显示级别1-惡性肿卿程度3I已保存的项2J解决方案资源管理器9xIAnalysisServices顶目B-&彗据源“专*Breastc:arLcer.ds-已数据源视图“4宓Breastc:arLcer.dsv1&爹维数据集i“已维度白&挖掘结构“Sheet,dnim已角色|“巴程序集1已杂项4&开始|“厂Q題电給商业|迺实验IMicro.IAnaly.色sql+s.|凯|軻新建息劈團哲仇曲总逐16:505、由以下两张图可见,在受侵淋巴结数等于0-2的情况下,肿瘤大小=10-14时,复发概率为0;肿瘤大小不等于10-14时(即大于10-14),复发占了24.68%,不复发占了74
8、.99%。由此可见,在受侵淋巴结数等于0-2的情况下,肿瘤复发只跟肿瘤大小大于10-14的因素有关。AnalysisServices1文件也)编辑助视:舊1ifl耳|船Sheet,du设计HBs摺掘结构IF挖戡模型:|弘泌值事例帀牽挖掘團例决策树丨依赖关索网$題|q|聶|嗨言方图条数:高低事例总计:26全部I直方图解决方案资源管理器=3I肿瘤大小=,10T4恶性肿瘤程度不等T3肿梅大小不等丁To-14首丨禅IAnalysisServices顶目El-&勢据源“會*Breastc白&数据源视图Bieastc|&枣维数据集:ancer.ds:ancer.dsv|“已维度El-与挖掘结构“氏Sheet,dnim&甬色&程序集口杂项受任超巴納数不等F0-2愛偎淋巴结数=;,0-2*)窗口社区帮助默认扩展:|3?皱别显示级别19丨4|已保存的项,开始1驴麝働EE商业|凹实验|殳Micro.HAnaly.也sql+s.|1sql20.|也新逹E述仝)出團直41时血1650综上分析可得:1、受侵淋巴结数越高、恶性肿瘤程度越高,越容易复发;2、受侵淋巴结数越低、肿瘤越大,复发程度越高。最后可预测:淋巴结数越高、恶性肿瘤程度越高、肿瘤越大,越容易复发。四、实验总结本次实验从数据的导入、进行挖掘、决策树的分析都能够顺利完成,这
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学食堂审计报告制度
- 审计机关科学管理制度
- 医院损益审计制度范本
- 安全教育培训考核制度
- 初中学校内部审计制度
- 交通财务审计制度
- 农机合作社财务规章制度
- 小饭店财务管理规章制度
- 审计调薪制度规定
- 北海内部审计制度
- 办公室用电安全分享
- 2025年度汽车零部件模具研发与生产合同范本
- 2025年度高速公路智能化监控系统建设合同3篇
- 建筑装饰装修工程监理旁站方案
- 化工泵技术要求
- 船舶内部审核-审核要素
- 2024年常州信息职业技术学院单招职业适应性测试题库及答案一套
- 贵州源鑫矿业有限公司煤矸石洗选综合利用项目环评报告
- 八年级下册音乐复习题及答案(湘艺版)
- 高中地理(湘教版2019版)必修二 全册知识点
- 1993年物理高考试卷与答案
评论
0/150
提交评论