版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘实验报告基于weka的数据分类分析实验报告1实验基本内容本实验的基本内容是通过使用weka中的三种常见分类和聚类方法(决策树j48、knn和k-means)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评 价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。2数据的准备及预处理2.1格式转换方法(1)打开 data02.xls ”另存为 csv 类型,得到“ data02.csv"。datao2.cs
2、v(2)在 weka中提供了一个"arff viewer”模块,打开一个"data02.csv”进行浏览, 然后另存为arff文件,得到“ data02.arff”。°日加口2启出。3.实验过程及结果截图3.1决策树分类(1)决策树分类用"explorer "打开数据"data02.arff ”,然后切换到“classify "。点击"choose", 选择算法"trees-j48 ",再在"test options "选择"cross-validatio
3、n (flods=10 )”,点 击“ start ”,开始运行。11系统默认trees-j48决策树算法中minnumobj=2,得到如下结果2388.4615 %311.5385 %0.76360.1410.325530.7368 %68.0307 %26precisionrecall f-measureroc areaclass10.8240.9030.892n0.7510.8570.892y0.9130.8850.8870.892=summary =correctly classified instancesincorrectly classified instanceskappa s
4、tatisticmean absolute errorroot mean squared errorrelative absolute errorroot relative squared errortotal number of instances=detailed accuracy by class =tp rate fp rate0.824010.176weighted avg. 0.8850.061 =confusion matrix =ab<- classifiedas143|a = n09|b = y使用不同的参数准确率比较:minnumobj2345correctlycla
5、ssifiedinstances23 (88.4615 %)22 (84.6154 %)23(88.4615 %)23(88.4615 %)由上表,可知 minnumobj为2时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果:国 we人 classifier tree visualizes 11:22:13 - treesj4s 出住02) i 口 !回ir«e vi ewn(2.0dyc10.0/1.0)分析说明:在用j48对数据集进行分类时采用了10折交叉验证(folds=10)来选择和评估模型,其中属性值有两个 y, n。一部分结果如下:88.4615 %11.53
6、85 %“y”有3个错误的预测成了correctly classified instances23incorrectly classified instances3=confusion matrix =a b <- classified as14 3 | a = n0 9 | b = y这个矩阵是说,原来是“y'的实例,有14个被正确的预测为“n:原本是"no'的实仞有0个被正确的预测成为“y;有9个正确的预测成了“n':“14+3+0+9=26是实例的总数,而(14+9) / 26=0.884615正好是正确分类的实例所占比例。这个矩阵对角线上的数字越
7、大,说明预测得越好。(2)k最近邻分类算法用"explorer "打开数据"data02.arff ”,然后切换到“classify "。点击"choose", 选择算法"lazy-ibk ”,再在"test options "选择"cross-validation (flods=10 )”,点 击“ start ”,开始运行。训练结果:f weka explorer系统默认lazy-ibk k 最近邻分类算法中 knn=1得到如下结果=summary =correctly classified
8、 instances 2076.9231%incorrectly classified instances 623.0769%kappa statistic0.4902mean absolute error0.252root mean squared error0.4626relative absolute error54.9136 %root relative squared error 96.694 %total number of instances 26=detailed accuracy by class =f-measure roc areatprate fp rate preci
9、sion recallclass0.8240.3330.8240.8240.8240.768n0.6670.1760.6670.6670.6670.768yweighted avg.0.7690.2790.7690.7690.7690.768=confusion matrix =a b <- classified as14 3| a = n3 6 | b = y使用不同的参数准确率比较:knn1234correctlyclassified20 (76.9231 % )19(73.0769%)23(88.4615 %)20 (76.9231 % )instances由上表,可知 knm 3
10、时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果:分析说明:在用lazy-ibk(knn=3)对数据集进行分类时采用了10折交叉验证(folds=10 )来选择和评估模型,其中属性值有两个y, no 一部分结果如下:=summary =88.4615 %11.5385 %correctly classified instances23incorrectly classified instances3=confusion matrix =a b <- classified as16 1| a = n2 7 | b = y这个矩阵是说,原来是“y'的实例,有16个被正确的
11、预测为 “y”有1个错误的预测成了“n原本是“no的实仞有2个被正确的预测成为“y;有9个正确的预测成了7”。“6+1+2+7 =26”是实例的总数,而(16+7) / 26=0.884615正好是正确分类的实例所占比例。、对“data01"进行聚类分析四 dataol.csv1 .数据格式的转换(1)打开 data01.xls ”另存为 csv 类型,得到“data01.csv”。(2)在 weka中提供了一个"arff viewer”模块,打开一个"data01.csv”进行浏览,然后另存为arff文件,得到“ data01.arff”。如taola小2 .聚
12、类过程用"explorer "打开数据"data01.arff ”,然后切换到“cluster "。点击"choose", 选择算法"simplekmeans (numclusters=6 , seed=200),再在"test options "选择"use training set ",点击 "start ”,开始运行。训练结果:采用 simplekmeans 算法,其中 numclusters=6 , seed=100,得到如下结果:number of iteratio
13、ns: 3(平方误差之和)within cluster sum of squared errors: 6.065322314450069clustered instancesclustered instances04 ( 15%)1 3(12%)2 4(15%)3 3(12%)4 2(8%)5 10 (38%)(各类的包含的实例个数以及占总实例的百分比)1=匚 weka clusterer visualize: 13 22:44 - sirrip'ekmeans idata02)说明:其中当seed的取值越大,平方误差之和越小。在这 次实验 seed=100 , 得到: within
14、cluster sum of squared errors:6.065322314450069.这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离就越小。接下来“cluster centroids :列出了各个簇中心的位置:attributefull data012345(26)(4)(3)(4)(3)(2)(10)=sample=13.522.54.666720.514.66674.511.2old-year48.076965.7559.333350.52556.541.9vegf1.92312.752.333322.666731mvc102.1538126.45100.6667127.488.266710486.58cancer-grade2.57693.75233.33333.51.7cancer-stage2.15381.33.251.333332.33333.5cancer metastasis nn最后“clustered instancesynnyy”列出了各个簇中实例的数目及百分比:clustered instanc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 就业指导规范与标准
- 医药信息咨询公司实习心得体会
- 供应链物流管理试题库1
- 青少年毒品预防安全教育教案
- 大学内部治安管理制度(3篇)
- 2025年福建厦门市集美区少年儿童体育学校编外专职教练员招聘1人笔试参考题库附答案解析
- 江西省赣州市(2026年)公务员遴选考试模拟试题及答案
- 2025年党校考试试卷及答案
- (2025年)阿勒泰地区富蕴县辅警考试真题及答案
- 2026年反邪教工作岗遴选试题及答案
- 2026年汽车销售店员工劳动合同三篇
- 《小石潭记》对比阅读-2024-2025中考语文文言文阅读专项训练(含答案)
- 江岸区2023-2024学年下学期期中七年级数学试卷(含答案)
- 党的基本路线课件
- 杭州市2024届高三二模(高三年级教学质量检测)英语试卷(含答案)+听力音频
- 保密员培训课件教学
- 清明祭英烈-主题课件
- 小学四年级下家长会(数学教师)
- 四下语文园地一
- JBL音响系列产品参数
- GB/T 42061-2022医疗器械质量管理体系用于法规的要求
评论
0/150
提交评论