




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选文档基于weka的数据分类分析实验报告1实验基本内容本实验的基本内容是通过使用weka中的三种常见分类和聚类方法(决策树J48、KNN和k-means)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。2数据的准备及预处理2.1格式转换方法(1)打开“data02.xls” 另存为CSV类型,得到“data02.csv”。 (2)在WEKA中提供了一个“Arff V
2、iewer”模块,打开一个“data02.csv”进行浏览,然后另存为ARFF文件,得到“data02.arff”。 。3. 实验过程及结果截图3.1决策树分类(1)决策树分类用“Explorer”打开数据“data02.arff”,然后切换到“Classify”。点击“Choose”,选择算法“trees-J48”,再在“Test options”选择“Cross-validation(Flods=10)”,点击“Start”,开始运行。系统默认trees-J48决策树算法中minNumObj=2,得到如下结果= Summary =Correctly Classified Instances
3、 23 88.4615 %Incorrectly Classified Instances 3 11.5385 %Kappa statistic 0.7636Mean absolute error 0.141 Root mean squared error 0.3255Relative absolute error 30.7368 %Root relative squared error 68.0307 %Total Number of Instances 26 = Detailed Accuracy By Class = TP Rate FP Rate Precision Recall F-
4、Measure ROC Area Class 0.824 0 1 0.824 0.903 0.892 N 1 0.176 0.75 1 0.857 0.892 YWeighted Avg. 0.885 0.061 0.913 0.885 0.887 0.892= Confusion Matrix = a b - classified as 14 3 | a = N 0 9 | b = Y使用不同的参数准确率比较:minNumObj2345Correctly Classified Instances23(88.4615 %)22(84.6154 %)23(88.4615 %)23(88.4615
5、 %)由上表,可知minNumObj为2时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果: 分析说明:在用J48对数据集进行分类时采用了10折交叉验证(Folds=10)来选择和评估模型,其中属性值有两个Y,N。一部分结果如下:Correctly Classified Instances 23 88.4615 %Incorrectly Classified Instances 3 11.5385 %= Confusion Matrix = a b - classified as 14 3 | a = N 0 9 | b = Y这个矩阵是说,原来是“Y”的实例,有14个被正确的预测为
6、“Y”,有3个错误的预测成了“N”。原本是“NO”的实例有0个被正确的预测成为“Y”,有9个正确的预测成了“N”。“14+3+0+9=26”是实例的总数,而(14+9)/ 26=0.884615正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。(2)K最近邻分类算法用“Explorer”打开数据“data02.arff”,然后切换到“Classify”。点击“Choose”,选择算法“lazy-IBk”,再在“Test options”选择“Cross-validation(Flods=10)”,点击“Start”,开始运行。训练结果:系统默认lazy-IBk K最近邻
7、分类算法中KNN=1,得到如下结果= Summary =Correctly Classified Instances 20 76.9231 %Incorrectly Classified Instances 6 23.0769 %Kappa statistic 0.4902Mean absolute error 0.252 Root mean squared error 0.4626Relative absolute error 54.9136 %Root relative squared error 96.694 %Total Number of Instances 26 = Detaile
8、d Accuracy By Class = TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.824 0.333 0.824 0.824 0.824 0.768 N 0.667 0.176 0.667 0.667 0.667 0.768 YWeighted Avg. 0.769 0.279 0.769 0.769 0.769 0.768= Confusion Matrix = a b - classified as 14 3 | a = N 3 6 | b = Y使用不同的参数准确率比较:KNN1234Correctly C
9、lassified Instances20(76.9231 %)19(73.0769%)23(88.4615 %)20(76.9231 %)由上表,可知KNN为3时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果:分析说明:在用lazy-Ibk(KNN=3)对数据集进行分类时采用了10折交叉验证(Folds=10)来选择和评估模型,其中属性值有两个Y,N。一部分结果如下:= Summary =Correctly Classified Instances 23 88.4615 %Incorrectly Classified Instances 3 11.5385 %= Confusio
10、n Matrix = a b - classified as 16 1 | a = N 2 7 | b = Y这个矩阵是说,原来是“Y”的实例,有16个被正确的预测为“Y”,有1个错误的预测成了“N”。原本是“NO”的实例有2个被正确的预测成为“Y”,有9个正确的预测成了“7”。“16+1+2+7=26”是实例的总数,而(16+7)/ 26=0.884615正好是正确分类的实例所占比例。二、对“data01” 进行聚类分析1.数据格式的转换(1)打开“data01.xls” 另存为CSV类型,得到“data01.csv”。 (2)在WEKA中提供了一个“Arff Viewer”模块,打开一个“
11、data01.csv”进行浏览,然后另存为ARFF文件,得到“data01.arff”。 2.聚类过程用“Explorer”打开数据“data01.arff”,然后切换到“Cluster”。点击“Choose”,选择算法“SimpleKMeans(numClusters=6,seed=200),再在“Test options”选择“Use training set”,点击“Start”,开始运行。训练结果:采用simpleKMeans算法,其中numClusters=6,seed=100,得到如下结果:Number of iterations: 3Within cluster sum of s
12、quared errors: 6.065322314450069(平方误差之和)Clustered InstancesClustered Instances0 4 ( 15%)1 3 ( 12%)2 4 ( 15%)3 3 ( 12%)4 2 ( 8%)5 10 ( 38%)(各类的包含的实例个数以及占总实例的百分比)说明:其中当seed的取值越大,平方误差之和越小。在这次实验seed=100,得到:Within cluster sum of squared errors: 6.065322314450069.这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离就越小。接下来“Cluste
13、r centroids”:列出了各个簇中心的位置:Attribute Full Data 0 1 2 3 4 5 (26) (4) (3) (4) (3) (2) (10)=sample 13.5 22.5 4.6667 20.5 14.6667 4.5 11.2old-year 48.0769 65.75 59.3333 50.5 25 56.5 41.9VEGF 1.9231 2.75 2.3333 2 2.6667 3 1MVC 102.1538 126.45 100.6667 127.4 88.2667 104 86.58cancer-grade 2.5769 3.75 2 3 3.3333 3.5 1.7cancer-stage 2.1538 3.25 1.3333 3 2.3333 3.5 1.3cancer metastasis N Y N N Y Y N最后“Clustered Instances”列出了各个簇中实例的数目及百分比:Clustered Instances0 4 ( 15%)1 3 ( 12%)2 4 ( 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025数据中心空调安装工程分包合同
- 2025年小型挖机买卖合同范本
- 2025年土地整治项目合同
- 2025家具订购合同书模板
- 2025年光纤和特种光缆项目建议书
- 山体防汛施工方案
- 碎裂地板施工方案
- 标志板施工方案
- 商场橱窗施工方案
- 高温限电施工方案
- 广西某农贸市场建设项目可行性研究报告
- TSHNX 001-2024 乳制品企业有害生物防制技术规范
- 2024-2030年中国脑动脉瘤治疗行业市场发展趋势与前景展望战略分析报告
- 辽宁省协作校2024-2025学年高二英语下学期期末考试试题
- DL∕T 5362-2018 水工沥青混凝土试验规程
- 药品生产企业质量管理评审要求
- (权变)领导行为理论
- DZ∕T 0282-2015 水文地质调查规范(1:50000)(正式版)
- DZ∕T 0248-2014 岩石地球化学测量技术规程(正式版)
- JTG-T 3331-07-2024 公路膨胀土路基设计与施工技术规范
- 行政复议法-形考作业1-国开(ZJ)-参考资料
评论
0/150
提交评论