




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计与数据挖掘实验报告基于Clementine11.1方法应用专业:企业管理姓名:王艺霖学号:时间:2014-12-12一、实验目的:1、理解对大型的、复杂的和信息丰富的数据集进行分析的必要性;2、了解数据挖掘软件 Spss-clementine 的基本功能。3、通过案例了解决策树和人工神经网络技术的实际应用。二、实验环境:1、实验设备:华硕A40J计算机2、软件系统:Windows-7、SPSS Clementine Client 11.1软件简介:作为一个数据挖掘平台, Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘功能和
2、显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比, Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。三、研究问题:这次实验内容来源于一个药物应用问题,以往有大批患有同种疾病的不同病人,在服用五种药物中的一种(Drug,分为Drug A、Drug B、Drug C、Drug X、Drug Y)之后都取得了同样的治疗效果。这里的数据是随机挑选的部分病人服用药物前的基本临床检查数据,包括血压(BP,分为高血压High、正常No
3、rmal、低血压Low)、胆固醇(Cholesterol,分为正常Normal和高胆固醇High)、唾液中钠元素(Na)和钾元素(K)含量,以及病人年龄(Age)、性别(Sex,包括男M和女F)等。现在需要通过数据分析发现以往处方适用的规律,给不同临床特征病人更适合服用哪种药物的建议,为未来医生填写处方提供参考。四、数据来源及变量说明本案例的数据是Clementine软件自带的一份关于药物研究的数据DRUG4n,一共有1000条数据,包含7个字段分别是Age(年龄)、 Sex(性别)、 BP(血压)、 Cholesterol (类胆固醇含量)、Na (Na含量)、K(K含量)、 Drug(药品
4、种类)。数据描述:变量名称变量含义备注Age年龄Sex性别BP血压分为高(high)、低(low)和正常(normal)三种Cholesterol胆固醇含量分为高(high)、低(low)和正常(normal)三种Na钠含量K钾含量Drug最适合药物以下五种之一:drugA、drugB、drugC、drugX、drugY五、实验步骤与分析过程:本次实验,首先对DRUG4n中的数据进行了一个简单的分析和解释,比如说Drug的分布情况、Na和K的含量等的分析,接着决策树分析的方法和人工神经网络方法对数据进行分类和分析。1.读数据到Clementine中。打开Clementine11.1,新建一个流
5、命名为“Drug分析”。从数据源中选择“可变文件”,双击使之出现在工作框中,右击选择“编辑”,添加Demos里面的DRUG4n。如图1 图12.浏览数据内容。在“输出”选项卡中选择“表”节点加到数据流中,执行该节点,所生成的数据表名将列在流管理窗口的输出选项卡中,结果如图2图23.观察各个变量的数据分布特征。在“输出”选项卡中选择“数据审核”节点加到数据流中,执行该节点,所生成的数据表名列在流管理窗口的输出选项卡中,如图3图3 可以看到,该数据有1000个样本,对Age、Na、K这三个数值型变量,计算且输出最小值、最大值、均值、标准差、偏态系数等基本描述统计量。数据显示,病人的年龄差距比较大。
6、同时,输出了各个变量的直方图或柱状图。图形表明,病人中的Age、BP、Cholesterol水平的分布都比较均匀,差异不大,但服用药物DrugY的病人数明显高于服用其他药物的人数。4.观察服用不同药物的病人唾液中钠钾的含量情况。这里,希望通过散点图反映。在“图形”卡中选择“散点图”节点加到数据流中,设置节点参数,指定Na为X轴,K为Y轴,服用不同Drug的病人数据采用不同颜色的点,如图4-1,执行该节点,所生成的图形文件名列在流管理窗口的输出选项卡中,如图4-2.图4-1图4-2图形显示,服用DrugY的病人,其唾液中的钾含量明显低于其他类病人,但钠含量有的较低有的较高。单纯的钾含量较低的病人
7、选用DrugY应该比较理想。5.观察服用不同药物病人唾液中的钠钾的浓度比例情况。为更准确地评价药物状况,单纯观察钾含量是不全面的,应观测钠与钾的浓度比值指标,它能够更准确反映病人肾上腺皮质的功能状态。该指标是原始数据中没有的,应首先计算生成,然后观察其分布特征。在“字段选项”选择卡中选择“导出”节点加到数据流中,设置节点参数指定生成的新变量名为Na/K,计算公式为Na/K,如图5-1。在“图形”选项卡中选择“直方图”节点,设置节点参数指定绘制Na/K的直方图,且服用不同药物的病人数据采用不同的颜色,如图5-2。执行“直方图”节点,所生成的图形文件名列在流管理窗口的“输出”选项卡中,如图5-3图
8、5-1图5-2图5-3图形显示,针对Na/K值处在高水平的病人,DrugY应该是理想的选择。6.不同血压特征病人的药物选择,在“图形”选项卡中选择“网络”节点加到数据流中,设置节点参数指定绘制关于Drug与BP的网状网络图,如图6-1。执行“网络”节点,所生成的图形文件名列在流管理窗口的“输出”选项卡中,如图6-2图6-1图6-2网状图通过线条粗细反映病人BP与Drug的取值情况。可以看到,无论血压状况如何,都可以服用DrugY,其三条线的粗细程度差别不大。因此,DrugY对病人的血压没有特殊限定,更具有普遍服用性。在不考虑选择DrugY时,血压高的病人可服用DrugA或DrugB,血压低的病
9、人则应该在DrugX和DrugC中选择。7.全面分析决定药物选择的其他影响因素。通过前面的分析,似乎对选择DrugY的依据有了一定的结论,但没有考虑Age、Sex、和Cholesterol等方面,分析仍是不全面的。同时,应怎样选择其他药物,也没有给出明确且全面的标准。这里,希望进一步利用数据,通过建立模型,从Age、Sex、BP、Cholesterol、Na/K的综合角度分析选择不同药物的依据。首先,在建模中不再直接采用K和Na变量,而是采用Na/K,因此先将变量K和Na筛掉。在“字段”选项卡中选择“过滤”节点加到数据流中,设置参数在K和Na变量上打叉筛掉,如图7-1图7-1然后,指定建立模型
10、过程中各个变量的作用,这里Age、Sex、BP、Cholesterol、Na/K为解释变量,称为模型的输入变量,Drug为被解释变量,称为模型的输出变量。在“字段”选项卡中选择“类型”节点加到数据流中,设置参数指定不同变量的作用角色。如图7-2图7-2最后,在“建模”选项卡中选择“C5.0”节点加到数据流中。选择C5.0模型,执行C5.0节点,生成的模型名列在流管理窗口的模型选项卡中。选择流管理窗口中的模型选项卡,右击鼠标,选择弹出菜单中的“浏览”选项,浏览模型结果,如图7-3.图7-3可以看出,当病人的Na/K值高于14.985时,应选择DrugY,无需考虑其他因素。当病人的Na/K值低于1
11、4.985时,对于高血压病人,年龄是主要的判断依据,年龄低于50岁的,更适合DrugA,高于50的则应选择DrugB;对于低血压病人,则应依据其胆固醇指标选择DrugX和DrugC。对于血压正常的病人可选择DrugX。性别对选择药物没有影响。8.模型的预测精度评价。首先,选择流管理窗口中的“模型”选项卡,右击鼠标,选择弹出菜单中的“添加到流”选项,将模型计算结果加到数据流中;然后,在“输出”选项卡中选择“分析”节点并与模型结果节点相连,执行“分析”节点,所生成的结果列在流管理窗口的输出选项卡中,如图8图8可以看到,所建模型的正确预测精度达到了100%,模型理想。9除了决策树C5.0的应用,这里
12、采用神经网络方式再次进行操作,首先,在数据流中添加“分区”节点,将样本集划分为训练样本集和检验样本集,如图9-1;然后在“建模”选项卡中选择“神经网络”节点添加到数据流中,设置参数如图9-2,9-3,9-4;图9-1图9-2图9-3图9-4然后选择神经网络模型,执行“神经网络”节点,生成的模型名列在流管理窗口的模型选项卡中。选择流管理窗口中的模型选项卡,右击鼠标,选择弹出菜单中的“浏览”选项,浏览模型结果,如图9-5图9-5由上图可以看出,Na/K对选择哪种药物来说相对最为重要,BP其次。最后,对模型的预测精度进行评价。选择流管理窗口中的“模型”选项卡,右击鼠标,选择弹出菜单中的“添加到流”选项,将模型计算结果加到数据流中;然后,在“输出”选项卡中选择“分析”节点并与模型结果节点相连,执行“分析”节点,所生成的结果列在流管理窗口的输出选项卡中,如图9-6:图9-6由图看出,模型预测精度良好,模型较为理想。10.本次实验最终所建立的数据流如图10.图10六、实验心得在本次实验中,从新建工作流一直到获得最终结果,整个流程让我对数据挖掘中数据分析处理的基本方法有了深入的了解,特别是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年河北省隆化县人民医院公开招聘护理工作人员试题带答案详解
- 洪洞教编初中数学试卷
- 医院项目管理课件
- 医院课件教学课件
- 《网络综合布线》教案 项目3实训任务 实施工程预算和撰写采购招标文件
- 健康管理中心课件内容
- 中国无线鼠标行业发展监测及投资战略规划研究报告
- 2021-2026年中国风光互补控制器市场竞争格局及投资战略规划报告
- 2025-2030年中国制动鼓行业市场供需态势及发展前景研判报告
- 中国无糖糖果行业市场发展监测及投资潜力预测报告
- 2025年北京市中考数学真题试卷及答案
- 硬笔书法全册教案共20课时
- 模切品质培训
- 北京昌平霍营街道社区“两委”干部储备人才招募笔试真题2024
- 2025年安徽省中考数学试卷真题(含标准答案及解析)
- (人教PEP版2025新教材)英语三下期末分单元复习课件
- 19S406建筑排水管道安装-塑料管道
- 梁平法识图PPT通用通用课件
- 新概念英语第一册单词汇总打印版已排版
- 湘版高中音乐鉴赏《中国近现代通俗音乐》教学设计、实录与反思
- 混凝土施工仓面设计
评论
0/150
提交评论