评估有指导学习模型(心脏病数据集)_第1页
评估有指导学习模型(心脏病数据集)_第2页
评估有指导学习模型(心脏病数据集)_第3页
评估有指导学习模型(心脏病数据集)_第4页
评估有指导学习模型(心脏病数据集)_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、题 目 数据挖掘评估技术 学院名称 信息科学与技术学院 专业名称 计算机科学与技术 学生姓名 何东升 学生学号 9 指导教师 实习地点 成都理工大学 实习成绩 二 一六年 9月 评估有指导学习模型第1章 、实验目的及内容1.1 实习目的 模型的评估是对数据挖掘而过程非常重要的步骤,是模型是否能够最终投入实际应用的重要环节。在抽取某些数据实例和属性,选择某种数据挖掘技术,设置某些参数进行有指导的学习训练和无指导的聚类分析之后,所建立在性能上差强人意,不能满足解决问题的需求,此时,需要对这个过程所有可能对模型性能产生的因素进行检查和评估,找出可能的问题所在加以调整,重复试验,直到模型性能能达到预期

2、的标准。1.2 算法的核心思想使用混淆矩阵和分类正确率以及假设检验比较模型。在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果,通常是监督学习(非监督学习,通常用匹配矩阵:matching matrix)。其每一列代表预测值,每一行代表的是实际的类别。这个名字来源于它可以非常容易的表明多个类别是否有混淆(也就是一个class被预测成另一个class)。假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记

3、作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u检验法、t检验法、2检验法(卡方检验)、F检验法,秩和检验等。 1.3 实验工具实验软件:Weka3.9数据集来源:配套数据集cardiologynumerical.csv第2章、实验过程 2.1数据准备cardiologynumerical.csv数据集说明属性名称数值类型说明AgeNumeric年龄Sex1,0性别Chest Pain Type1,2,3,4胸痛类型(绞痛,异常绞痛,无绞痛,无

4、症状)Blood PressureNumeric静息血压CholesterolNumeric血清胆固醇Fasting Blood Suager0,1空腹血糖低于120?Resting ECG0,1,2静息心电图(正常,异常,左心室肥大)Maxium Hert RateNumeric最大心率Induced Angina?1,0诱发心绞痛?Old Peak Numeric峰值Slope1,2,3斜度Number Colored Vessels0,1,2,3,4有色导管编号Thal3,6,7地中海缺血Concept ClassYes,No概念类2.2 实验过程 2.2.1.建模 1.将数据集导入We

5、ka中2.打开Classfy选项选择不同的算法在Test Option 选项中选择Precentage Split,值为50%(150个为训练集剩下的为验证)(1)J48算法算法的混淆矩阵如下患病不患病患病5617不患病1365= Summary =Correctly Classified Instances 121 80.1325 %Incorrectly Classified Instances 30 19.8675 %Kappa statistic 0.6015Mean absolute error 0.2326Root mean squared error 0.4367Relative

6、 absolute error 46.746 %Root relative squared error 86.8754 %Total Number of Instances 151 可以看出结果的分类确率到了80.1325 %,已经还不错了。(2)ZeroR算法算法的混淆矩阵如下患病不患病患病073不患病078= Summary =Correctly Classified Instances 78 51.6556 %Incorrectly Classified Instances 73 48.3444 %Kappa statistic 0 Mean absolute error 0.4976R

7、oot mean squared error 0.5027Relative absolute error 100 %Root relative squared error 100 %Total Number of Instances 151 可以看出正确率才51.6556 %,仅一半的正确率,非常不尽人意。而这个与J48(3)LMT算法算法的混淆矩阵如下患病不患病患病5716不患病969Correctly Classified Instances 126 83.4437 %Incorrectly Classified Instances 25 16.5563 %Kappa statistic

8、0.6675Mean absolute error 0.2263Root mean squared error 0.3403Relative absolute error 45.4768 %Root relative squared error 67.6917 %Total Number of Instances 151 该算法的正确率也到达了83.4437 %第三章 实验结果及分析3.1 结果分析三种模型的混淆矩阵如下J48:算法的混淆矩阵如下患病不患病患病5617不患病1365Correctly Classified Instances 121 80.1325 %Incorrectly C

9、lassified Instances 30 19.8675 %ZeroR算法患病不患病患病073不患病078Correctly Classified Instances 78 51.6556 %Incorrectly Classified Instances 73 48.3444 %LMT算法患病不患病患病5716不患病969Correctly Classified Instances 126 83.4437 %Incorrectly Classified Instances 25 16.5563 %以上三种模型中 J48和LMT的算法正确率达到了80%以上,比较可信,而ZeroR算法只有50%左右非常不尽人意。 利用假设检验检验这三种模型算法的假设检验Z=|E1-E2|q(1-q)(1/n1+1/n2)1按照上述公式计算J48与ZeroR q=(0.+0.)/2=0.q(1-q)= 0.带入公式可得Z=|0.-0.|0.(1151+1151)=-5.22设置信区间为0.05 Z1.96 故存在显著性差异2计算J48 与LMTq=(0.+0. )/2=0.q(1-q)= 0.带入公式可得Z=|0.-0. |0.(1151+1151)=0.745设置信区间为0.05

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论