数据挖掘实验报告.doc_第1页
数据挖掘实验报告.doc_第2页
数据挖掘实验报告.doc_第3页
数据挖掘实验报告.doc_第4页
数据挖掘实验报告.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘实验报告药物研究 专业: 学号:姓名:时间:2011.12.08数据挖掘实验报告药物分析一、实验目的1、学习数据挖掘的理论知识,理解数据挖掘的目的和意义;2、熟悉SPSS Clementine软件的功能,并学习使用该软件对数据进行分析;3、对该软件提供的数据DRUG1n进行分析,了解人体的血压、类胆固醇、Na、K等的含量对人体的健康状况的影响。二、实验环境系统环境:Windows XP软件环境:SPSS Clementine11.1软件简介:作为一个数据挖掘平台, Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比, Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。SPSS Clementine软件中提供的数据DRUG1n,一共有200条数据,包含7个字段分别是Age(年龄)、 Sex(性别)、 BP(血压)、 Cholesterol (类胆固醇含量)、Na (Na含量)、K(K含量)、 Drug(药品种类)。三、实验数据本实验所使用的数据是SPSS Clementine软件中提供的数据DRUG1n,一共有200条数据,包含7个字段分别是Age(年龄)、 Sex(性别)、 BP(血压)、 Cholesterol (类胆固醇含量)、Na (Na含量)、K(K含量)、 Drug(药品种类)。四、实验步骤与分析过程本次实验,首先DRUG1n中的数据进行了一个简单的分析和解释,比如说Drug(药品)的分布情况、Na和K的含量等的分析。接着决策树分析的方法对数据进行分类和分析。本实验所建立的数据流如图1所示, 图1 具体的分析步骤如下:第一部分:新建工作流,附加数据1、打开软件,新建一个流,命名“Drug分析”。从数据源中选择“可变文件”拖入工作框,双击附加添加。如图2。图2第二部分:步骤1-4所示对Drug 1n的数据进行一个简单探索,了解数据的组成规律。步骤5、6所示,对字段进行选择重新分析Na和K的浓度.步骤7-11,先对数据进行过滤后执行C5.0分析。图31、浏览数据内容。在输出选项中选择“表格”节点加到数据流中,执行该节点,如图3中的1-1步骤,所生成的数据表名将列在流管理窗口的输出选项中,结果如图4所示。图42、观察各个变量的数据分布特征。在输出选项卡中选择“数据审核”节点添加到数据流中,执行该节点,如图3中的1-2步骤,所生成的数据如图5所示。图5可以看到,该数据有200个样本,7个字段。对Age、Na、K这三个数值型变量,计算且输出最小值、最大值、均值、标准值、偏系数等基本描述统计量。数据显示,病人的年龄差距比较大。3、不同血压特征病人的药物选择。在“图形”选项卡中选择“网络”节点加到数据流中,设置节点参数指定绘制关于Drug和BP的网状图,执行该节点,如图3中1-3步骤,所生成的图形如图6所示。图64、观察服用不同药物的病人唾液中钾钠的含量情况。在“图形”选项卡中选择“图形”节点加到数据流中,设置节点参数,指定Na为X轴,K为Y轴,服用不同的Drug的病人采用不同颜色的点,执行该节点,执行该节点,如图3中1-4步骤,所生成的图形如图7所示。图75、观察服用不同药物病人唾液中钠钾的浓度比例情况。为了更准确地评价药物状况单纯的。在“字段”选项卡中选择“导出”节点加到数据流中,设置节点参数,指定Na为X轴,K为Y轴,服用不同的Drug的病人采用不同颜色的点,执行该节点,执行该节点,如图3中5步骤。 6、从导出的新字段中,选择“图形”中的“直方图”选项卡,设置节点参数绘制Na/K的直方图,且服用不同药物的病人采用不同的颜色。执行该节点,如图3的步骤6,所生成的图形如图8所示。图87、全面分析决定药物所选择的其他影响因素。通过前面的分析,似乎对选择DrugY的依据有了一定的结论,但是没有考虑Age、Sex、BP、Cholesterol、Na/K的综合角度分析选择不同的药物依据。首先,在建模中将不再直接采用Na和K的变量,而是采用Na/K,因此应先将变量K和Na删掉。在“字段”中选择“类型”节点加到数据流中,如图3中的步骤7,如图9所示。图98、然后,指定建立模型过程中各个变量的作用,这里的Age、Sex、BP、Cholesterol、Na/K为解释变量,称为模型的输入变量,Drug为被解释变量,称为模型的输出变量,在“字段”选项卡中选择“类型”节点加到数据流中,设置参数指定不同变量的作用角色,如图3中步骤8,如图10所示。9、最后,在“模型”选项卡选择C5.0节点加到数据流中。选择C5.0模型,执行C5.0节点,如图1-3中步骤9所示,生成的模型名将列在流管理窗口的模型选项卡,右击鼠标,选择弹出菜单中的“浏览”选项,浏览结果,如图10所示。图10可以看出,当病人的Na/K值高于14.642时,应选择DrugY,无需考虑其他因素。当病人的Na/K值低于14.642时,对于高血压病人,年龄是主要的判断依据,年龄低于50岁时,更适合选用DrugA,高于50岁的则应选择DrugB;对于低血病人,则应依据其胆固醇指标选择DrugX和DrugC。对于血压正常的病人可选择DrugX。性别对选择药物没有影响。10、模型的预测精度评价。首先,选择流管理窗口中的模型选项卡,右击鼠标,选择弹出的菜单中的增加评价选项,将模型算结果增加到数据流中,如图3中的步骤10;然后,在输出选项卡中选择分析节点并与模型结果节点相连,执行分析节点,如图3中的步骤11,所生成的结果如图11所示。五、实验总结在本次实验中,从新建工作流一直到获得最终结果,整个流程让我对数据挖掘中数据分析处理的基本方法有了深入的了解,特别是C5.0模型应用的理解,同时,也学会了如何使用 Clementine 通过建模(使用 GRI)和直观化(使用 Web 显示)发现数据库中的关系(即链接)以及利用这些链接与数据中的案例组相对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论