




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘技术最终报告科学学院名称:学生编号:联系号码:专业课:分数:优秀 |良好 |中等 |及格 |不及格一、实验目的基于从UCI公共数据库下载的数据,利用数据挖掘中的分类算法,利用Weka平台的基本功能对数据集进行分类。对算法的结果进行了性能比较,并绘制了性能对比图。此外,对不同数量的训练集进行了对比实验,并绘制了性能对比图进行训练和测试。二、实验环境实验在Weka平台上进行,数据从UCI公共数据库下载,主要使用乳腺癌Wisc-Onsin(原始)数据集数据。Weka是新西兰怀卡托大学开发的怀卡托智能分析系统的缩写。Weka是用Java编写的,仅限于在GNU通用公共证书下发布。它可以运行在几乎所有的操作平台上,并且是一个免费的、非商业的机器学习和数据挖掘软件。Weka提供了一个统一的接口,可以将预处理和后处理方法结合起来,将许多不同的学习算法应用于任何给定的数据集,并评估不同学习方案获得的结果。三。实验步骤3.1数据预处理本实验是对威斯康星乳腺癌数据集进行分类(原始)。该表包含样本代码、块厚度、细胞大小均匀性、细胞形状均匀性。边缘粘连、单上皮细胞大小、裸核、淡染染色质、正常核、有丝分裂、分类,其中第2项至第10项的值均为1-10,其中第2类代表良性,第4类代表恶性。通过实验,我希望找出乳腺癌患者各项指标的分布情况。该数据的数据属性如下:1.样本代码编号(数字),样本代码;2.丛厚度(数字),丛厚度;3.单元尺寸的均匀性(数字)单元尺寸的均匀性;4.单元形状的一致性(数值),单元形状的一致性;5.边缘粘连(数字),边缘粘连;6.单上皮细胞大小(数字),单上皮细胞大小;7.裸核(数字);8.淡染色质(数字),淡染色质;9.正常核仁(数字),正常核仁;10.有丝分裂(数字),有丝分裂;11.类别(枚举),分类。3.2数据分析从UCI公共数据库中获取一组用逗号分隔的数据,复制粘贴到excel表格中,选择数据进行排序。下一步逗号完成。该数据是一个乳腺癌数据集,具有11个属性,即样本编码和块厚度。细胞大小均匀性、细胞形状均匀性、边缘粘附性、单上皮细胞大小、裸核、淡染色质、正常核仁、有丝分裂、分类,由于复制粘贴的数据没有属性,手工添加一行属性名称。Weka分类数据应作为csv文件保存在excel中。图1显示了“乳腺癌数据集。使用“Exploer”打开“csv.arff”。图1显示:(图1)3.2.1数据预处理显然,所使用的数据是数值型的,需要离散化,“团块厚度”、“细胞大小的统一”、“细胞形状的统一”、“边缘粘附”、“边缘适应”、“裸核”、“淡染色质”、“正常细胞核”、“有丝分裂”、“分类”离散化。我们需要使用Weka中名为“离散化”的过滤器来实现这一点。在区域2中,单击“选择”,将出现“过滤器树”。逐步单击“WEKA . filters . unsupervised . attribute . discrete”。“选择”旁边的文本框现在应该显示“离散-b10-m-0.1-rfirst-last”。如箭头所示,单击此文本框将弹出一个新窗口来修改离散化参数。我们需要将第1、2、3、4、5、6、7、8、9和10项离散化,其中第一项是id,可以删除。将属性索引的右侧更改为“1,2,3,4,5,6,7,8,9,10”。我们将这两个属性分为10个段落,因此我们将“箱”改为“10”。其余的将保持不变。单击“确定”返回“浏览器”,您可以看到“团块厚度”、“细胞大小的统一”、“细胞形状的统一”、“边缘粘附”、“边缘粘附”、“裸核”、“淡染色质”、“正常核仁”和“有丝分裂”已被离散化为组件类型的属性。移除后,仍有10个属性,其中一个显示在图2中,10个属性的可视化显示在图3中。(图2)(图3)3.3.1决策树分类使用“浏览器”打开“乳腺癌数据集”。刚刚获得并切换到“类别”。点击“选择”按钮选择“树(Weka。分类器。树。J48),这是在WEKA中实现的决策树算法。结果如图4和5所示:(图4)(图5)这是对第一个丛厚聚类厚度和第九个有丝分裂使用4.5决策算法进行误差分析的结果。分析表明,共对699个数据进行了分类,其中正确分类102个,正确分类率为26.03726%,错误分类517个,错误分类率为73.9268%。第九个有丝分裂项目MITOOSES也分析了699个数据,其中579个数据被正确分类,正确率为82.8326%,120个错误分类和17.1674%的错误分类。根据混淆矩阵,有许多错误分类的例子,如图所示。(图6)3.3.2贝叶斯分类为了与上述决策树进行比较,贝叶斯还选择第一项的第一丛厚度聚类厚度和第九有丝分裂项,并获得如下图7和图8所示的结果:(图7)(图8)这是使用贝叶斯算法对第一个丛厚簇厚度和第九个有丝分裂进行误差分析的结果。分析表明,699个数据被分类,其中198个分类正确,正确分类率为28.3262%,501个分类错误,71.6738%分类错误。在第九个有丝分裂项目MITOOSES中,467个数据被正确分类,正确率为66.8097%,232个错误分类和33.1903个错误分类。根据混淆矩阵,有许多错误分类的例子。相对而言,两种方法对丛厚聚类厚度的混淆程度相似且复杂,而贝叶斯分类对有丝分裂项目的混淆率低于决策树方法,从第六项到第九项的明显回响不多,如图9所示。在以上两种分析的基础上,提出了贝叶斯分类方法,以降低混淆率,提高准确率。(图9)3.3.3K最近邻算法分类在刚刚执行决策树分类和贝叶斯分类的页面上,单击“选择”按钮选择“laze-ibk”,选择交叉验证字段=10,然后单击“开始”按钮:也选择图中的箭头指向选择属性,然后单击“开始”按钮:与上述决策树和贝叶斯进行比较。k最近邻算法还选择第一个丛厚度簇厚度和第九个有丝分裂项,结果在下面的图10和11中显示为:(图10)(图11)这是对第一个丛厚簇厚度和第九个有丝分裂期使用K-最近邻算法进行误差分析的结果。分析表明,共对699个数据进行了分类,其中正确分类191个,正确分类率为27.3247%,错误分类508个,错误分类率为72.6753%。在第九个有丝分裂项目MITOOSES中,546个数据被正确分类,正确率为78.1116%,153个错误分类和21.8884个错误分类。根据混淆矩阵,有许多错误分类的例子。相对而言,丛厚聚类的厚度与前两种算法的混淆程度相似,比前两种算法更复杂。k近邻算法明显混淆了有丝分裂期矩阵,低于决策树方法和贝叶斯方法。如图12所示,从第四项到最后一项的明显回响不多。(图12)3.4三种分类方法结果的比较如下表所示:决策图表贝叶斯k最近邻算法块厚度精度26.03726%28.3262%27.3247%,块厚度标准误差0.31090.31190.3227有丝分裂精确度82.8326%66.8097%78.1116%有丝分裂标准误差0.17550.21040.1989测试中四种或三种算法的性能比较为了比较性能,您需要比较这10个属性的预测。如上所述,这里只比较第一个丛厚簇的厚度和第九个有丝分裂,点击“更多选项.”按钮,选择并选中“退出预测”并取消选中其他选项,然后单击“确定”按钮,如图13所示。(图13)获得的性能测试结果如下。图14是分别通过决策树方法、贝叶斯算法和k最近邻算法的第一丛厚度聚类厚度的预测结果。图15是分别通过决策树方法、贝叶斯算法和k最近邻算法的第九有丝分裂期的预测结果。结果如下:(图14)分析第一个“块厚度”簇的厚度。性能分析应该包括两个部分,一个是测试速度,另一个是测试质量。由于本次使用的数据量不是很大,测试速度的差异太小,无法进行准确的分析。然而,在测试质量方面,从以上数据可以明显看出,在“错误”、决策树和K近邻算法中有许多加号,这表明错误率非常高,从而导致分类质量的降低。对于“概率分布”,决策树和k近邻算法在分布上非常混乱。前六个属性的概率分布波动较大,而贝叶斯方法与其他两种方法相比几乎没有“错误”,这表明贝叶斯方法的错误率远低于其他两种方法。此外,“概率分布”的分布非常整齐,因此贝叶斯算法在性能方面更好。(图15)参见图15,分析了第9项有丝分裂的有丝分裂项,其与第1项团块厚度相同。测试速度差异太小,无法进行准确分析。然而,在测试质量方面,从以上数据可以明显看出,在“错误”方面,决策树比贝叶斯有更多的加号,这表明决策树算法有很大的错误率,导致分类质量下降。与贝叶斯和K近邻算法相比,“错误”贝叶斯错误率明显高于K近邻算法。对于“概率分布”,贝叶斯和K-最近邻算法的分布比较混乱。对于K-最近邻算法,第一属性丛厚度聚类厚度的所有概率分布都近似相同,对于项目3、5、11、12等的数据也是如此。分布非常整齐。因此,从性能角度来看,K近邻算法更好。V.实验总结上述实验对乳腺癌的数据集(原始)进行了一些分析。通过这次数据挖掘实验,我重新学习了数据挖掘的相关概念和知识,了解了数据挖掘的使用和使用步骤,进一步学习了WEKA开源数据挖掘工具在数据挖掘学习中的使用方法。通过本实验,也认识到数据挖掘在挖掘大量数据后,可以揭示
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 难点解析-北师大版8年级数学上册期中试卷及答案详解【历年真题】
- 难点详解人教版8年级数学上册《轴对称》定向练习练习题
- 发动机活塞课件
- 考点解析山东省滕州市中考数学真题分类(平行线的证明)汇编定向练习试卷(含答案详解版)
- 粮油食品检验人员考前冲刺练习题
- 农村信用社招聘考试题库试题及参考答案详解【巩固】
- N-Tosylhydroxy-L-prolinol-生命科学试剂-MCE
- Bekanamycin-sulfate-Kanamycin-B-sulfate-生命科学试剂-MCE
- 难点解析-鲁教版(五四制)6年级数学下册期末试题【模拟题】附答案详解
- 农村信用社招聘考试每日一练试卷(考点梳理)附答案详解
- GB/T 9775-2025纸面石膏板
- 防蚊培训课件
- 弥漫性大B细胞淋巴瘤病例讨论
- 2025年医院血透室人员培训工作计划
- 2025年公务员考试时政热点必做题(附答案)
- 护理烫伤不良事件分析及整改措施
- 执勤警示教育
- 2025年外企德科人力资源服务招聘笔试参考题库含答案解析
- 生态环境综合整治工程项目投资估算
- CJ/T 341-2010混空轻烃燃气
- MSC:破解能源转型密码:中国清洁能源投资实践指南
评论
0/150
提交评论