



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于 weka 的数据分类分析实验报告1实验基本内容本实验的基本内容是通过使用 分别在训练数据上训练出分类模型,weka中的三种常见分类和聚类方法(决策树J48、KNN和k-means)并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。2数据的准备及预处理2.1格式转换方法(1)打开 data02.xls ”另存为 CSV 类型,得到 “ data02.csv”。dataOZcsv(2)在WEKA中提
2、供了一个“ Arff Viewer ”模块,打开一个“data02.csv”进行浏览,然后另存为ARFF 文件,得到“ data02.arff”。O data02.artf。3.实验过程及结果截图3.1决策树分类(1)决策树分类用"Explorer ”打开数据"data02.arff ”,然后切换到"Classify ”。点击"Choose",选择算法 “ trees-J48 ”,再在"Test options ” 选择"Cross-validation (Flods=10 )",点击"Start ”,开
3、始 运行。系统默认trees-J48 决策树算法中minNumObj=2 ,得到如下结果=Summary =Correctly Classified In sta nces In correctly Classified In sta nces Kappa statisticMean absolute errorRoot mean squared errorRelative absolute errorRoot relative squared error2330.76360.1410.325530.7368 %68.0307 %88.4615 %11.5385 %Total Number o
4、f In sta nces26=Detailed Accuracy By Class =TP RateFP RatePrecisio nRecall F-MeasureROC AreaClass0.824010.8240.9030.892N10.1760.7510.8570.892YWeighted Avg.0.8850.0610.9130.8850.8870.892=Con fusi on Matrix =a b <- classified as143 | a = N09 | b = Y使用不同的参数准确率比较:mi nNu mObj2345Correctly23222323Class
5、ified(84.6154 %)(88.4615 %)(88.4615 %)(88.4615 %)Instances由上表,可知 minNumObj为2时,准确率最高。 根据测试数集,利用准确率最高的模型得到的结果:分析说明:10折交叉验证(Folds=10 )来选择和评估模型,其中属性2388.4615 %311.5385 %在用J48对数据集进行分类时采用了 值有两个Y, No 部分结果如下:Correctly Classified In sta ncesIn correctly Classified In sta nces =Con fusi on Matrix =a b <- c
6、lassified as143 | a = N09 | b = Y这个矩阵是说,原来是 “Y'的实例,有14个被正确的预测为 “Y”有3个错误的预测成了 “NO原 本是“NO的实例有0个被正确的预测成为 “Y”有9个正确的预测成了 “No “14+3+0+9=26是实例的 总数,而(14+9) / 26=0.884615正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。(2)K最近邻分类算法用“ Explorer "打开数据“ data02.arff ”然后切换到“ Classify ”点击“ Choose",选择算法 “lazy-IBk &
7、quot;,再在“ Test options "选择“ Cross-validation ( Flods=10 )",点击“ Start ",开始 运行。训练结果:系统默认lazy-IBk K最近邻分类算法中 KNN=1得到如下结果 =Summary =Correctly Classified In sta nces2076.9231 %In correctly Classified In sta nces 623.0769 %Kappa statisticMean absolute error0.49020.252Root mean squared errorR
8、elative absolute error0.462654.9136 %Root relative squared errorTotal Number of In sta nces96.694 %26=Detailed Accuracy By Class =TP Rate FP Rate Precisi on Recall F-Measure ROC Area Class0.8240.3330.8240.8240.8240.768N0.6670.1760.6670.6670.6670.768YWeighted Avg.0.7690.2790.7690.7690.7690.768=Con fu
9、si on Matrix = a b <- classified as 14 3| a = N3 6 | b = Y使用不同的参数准确率比较:KNN1234CorrectlyClassifiedInstances20(76.9231 %)19(73.0769%23(88.4615 %)20(76.9231 %)由上表,可知 KNN为3时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果:分析说明:在用lazy-lbk(KNN=3)对数据集进行分类时采用了10折交叉验证(Folds=10)来选择和评估模型,其中属性值有两个 Y, N。一部分结果如下:=Summary =Correc
10、tly Classified In sta nces2388.4615 %In correctly Classified In sta nces311.5385 %=Con fusi on Matrix =a b <- classified as16 1 | a = N2 7 | b = Y这个矩阵是说,原来是 “Y'的实例,有16个被正确的预测为 “Y”有1个错误的预测成了 “原 本是“NO的实例有2个被正确的预测成为 “Y”有9个正确的预测成了 7” “6+1+2+7=26”是实例的 总数,而(16+7)/ 26=0.884615正好是正确分类的实例所占比例。二、对“ dat
11、aO1 ”进行聚类分析1.数据格式的转换(1)打开 data01.xls "另存为 CSV 类型,得到“ dataO1.csv”ARFF 文件,得到“ dataO1.arff”Q dataOl.arff越 dataOl.csvdata01.csv”进行浏览,然后另存为(2)在WEKA中提供了一个“ Arff Viewer ”模块,打开一个“2.聚类过程用“ Explorer ”打开数据“ data01.arff ”然后切换到“ Cluster ”点击“ Choose”选择算法 “ SimpleKMeans( numClusters=6 , seed=200),再在“ Test opt
12、ions "选择“ Use training set ” 点击“ Start ”,开始运行。训练结果:采用 simpleKMeans 算法,其中 numClusters=6, seed=100,得到如下结果:Number of iterations: 3(平方误差之和)Clustered In sta ncesClustered Instances 0 4 ( 15%)1 3 ( 12%)2 4 ( 15%)3 3 ( 12%)4 2 ( 8%)5 10 ( 38%)(各类的包含的实例个数以及占总实例的百分比)说明:其中当 seed 的取值越大,平方误差之和越小。在这次实验seed=
13、100,得到:9.这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离 就越小。接下来“ Cluster centroids” :列出了各个簇中心的位置:2(4)3(3)4(2)Attribute5(10)Full Data(26)0(4)1(3)sample13.522.54.666720.514.66674.511.2old-year48.076965.7559.333350.52556.541.9VEGF1.92312.75 2.3333 22.666731MVC102.1538126.45100.6667127.488.266710486.58cancer-grade2.57693.75233.33333.51.7cancer-stage2.15383.251.333332.33333.51.3cancer metastasisNYNNYYN最后“ Clustered Instances ”列出了各个簇中实例的数目及百分比: Clustered Instances 0 4 ( 15%)1 3 ( 12%)2 4 ( 15%)3 3 ( 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生活垃圾清理合同(标准版)
- 历史社团·昨日今朝
- 广西壮族自治区防城港生态环境监测中心招聘考试真题2024
- 山西省行政审批服务管理局直属事业单位招聘考试真题2025
- 吉林省地方金融监督管理局直属事业单位招聘考试真题2025
- 难点解析人教版八年级物理上册第4章光现象单元测评试卷(含答案详解版)
- 2025年房地产估价师实务操作模拟(含答案)
- 2025年建筑学专升本建筑力学强化练习试卷(含答案)
- 注册环保工程师考试(大气污染防治专业案例)全真模拟题库及答案(雄安新区2025年)
- 难点解析人教版八年级物理上册第5章透镜及其应用-凸透镜成像的规律专题训练试卷(含答案详解版)
- 生鲜乳质量安全
- 建筑施工危险性较大工程验收表
- 新加坡《合成数据生成指南》
- 人教版三年级上册语文期中测试题试卷(含答案)
- 《加油站消防安全教育》培训
- 汽车智能制造技术课件
- 辽宁省沈阳市郊联体2024-2025学年高三上学期11月期中数学试卷(含答案)
- 医疗设备总体供货服务方案
- 2024-2025学年七年级上学期期中考试英语试题
- 期中拔尖测试卷(1-4单元)(试题)2024-2025学年六年级数学上册人教版
- 通信企业协会网络安全人员能力认证考试复习题库(含答案)
评论
0/150
提交评论