版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
**基于weka的数据分类分析实验报告实验基本内容本实验的基本内容是通过使用weka中的三种常见分类和聚类方法(决策树J48、KNN谢谢阅读k-means)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。感谢阅读数据的准备及预处理2.1格式转换方法(1)打开“data02.xls”另存为CSV类型,得到“data02.csv”。谢谢阅读(2)在WEKA中提供了一个“ArffViewer”模块,打开一个“data02.csv”进行浏览,精品文档放心下载然后另存为ARFF文件,得到“data02.arff”。 。精品文档放心下载实验过程及结果截图3.1决策树分类(1)决策树分类用“Explorer”打开数据“data02.arff”,然后切换到“Classify”。点击“Choose”,精品文档放心下载**选择算法“trees-J48”,再在“Testoptions”选择“Cross-validation(Flods=10)”,点感谢阅读击“Start”,开始运行。系统默认trees-J48决策树算法中minNumObj=2,得到如下结果精品文档放心下载===Summary===CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%Kappastatistic0.7636Meanabsoluteerror0.141Rootmeansquarederror0.3255Relativeabsoluteerror30.7368%Rootrelativesquarederror68.0307%**TotalNumberofInstances26===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.824010.8240.9030.892N10.1760.7510.8570.892YWeightedAvg.0.8850.0610.9130.8850.8870.892===ConfusionMatrix===ab<--classifiedas143|a=N09|b=Y使用不同的参数准确率比较:minNumObj2345Correctly23222323ClassifiedInstances(88.4615%(84.6154%(88.4615%(88.4615%))))由上表,可知minNumObj为2时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果:****分析说明:在用J48对数据集进行分类时采用了10折交叉验证(Folds=10)来选择和评估模型,谢谢阅读其中属性值有两个Y,N。一部分结果如下:CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%===ConfusionMatrix===ab<--classifiedas143|a=N09|b=Y这个矩阵是说,原来是“Y”的实例,有14个被正确的预测为“Y”,有3个错误的预精品文档放心下载测成了“N”。原本是“NO”的实例有0个被正确的预测成为“Y”,有9个正确的预测成谢谢阅读了“N”。“14+3+0+9=26”是实例的总数,而(14+9)/26=0.884615正好是正确分类谢谢阅读**的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。感谢阅读(2)K最近邻分类算法用“Explorer”打开数据“data02.arff”,然后切换到“Classify”。点击“Choose”,谢谢阅读选择算法“lazy-IBk”,再在“Testoptions”选择“Cross-validation(Flods=10)”,点感谢阅读击“Start”,开始运行。训练结果:系统默认lazy-IBkK最近邻分类算法中KNN=1,得到如下结果谢谢阅读===Summary===CorrectlyClassifiedInstances2076.9231%IncorrectlyClassifiedInstances623.0769%Kappastatistic0.4902Meanabsoluteerror 0.252**Rootmeansquarederror0.4626Relativeabsoluteerror54.9136%Rootrelativesquarederror96.694%TotalNumberofInstances26===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.8240.3330.8240.8240.8240.768N0.6670.1760.6670.6670.6670.768YWeightedAvg.0.7690.2790.7690.7690.7690.768===ConfusionMatrix===ab<--classifiedas143|a=N36|b=Y使用不同的参数准确率比较:KNN1234Correctly202320Classified19Instances(76.9231%(88.4615%(76.9231%(73.0769%))))由上表,可知KNN为3时,准确率最高。**根据测试数集,利用准确率最高的模型得到的结果:分析说明:在用lazy-Ibk(KNN=3)对数据集进行分类时采用了10折交叉验证(Folds=10)来选谢谢阅读择和评估模型,其中属性值有两个Y,N。一部分结果如下:精品文档放心下载**===Summary===CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%===ConfusionMatrix===ab<--classifiedas161|a=N27|b=Y这个矩阵是说,原来是“Y”的实例,有16个被正确的预测为“Y”,有1个错误的预精品文档放心下载测成了“N”。原本是“NO”的实例有2个被正确的预测成为“Y”,有9个正确的预测成谢谢阅读了“7”。“16+1+2+7=26”是实例的总数,而(16+7)/26=0.884615正好是正确分类感谢阅读的实例所占比例。二、对“data01”进行聚类分析1.数据格式的转换(1)打开“data01.xls”另存为CSV类型,得到“data01.csv”。谢谢阅读(2)在WEKA中提供了一个“ArffViewer”模块,打开一个“data01.csv”进行浏览,谢谢阅读然后另存为ARFF文件,得到“data01.arff”。谢谢阅读2.聚类过程用“Explorer”打开数据“data01.arff”,然后切换到“Cluster”。点击“Choose”,精品文档放心下载选择算法“SimpleKMeans(numClusters=6,seed=200),再在“Testoptions”选择谢谢阅读“Usetrainingset”,点击“Start”,开始运行。感谢阅读训练结果:**采用simpleKMeans算法,其中numClusters=6,seed=100,得到如下结果:精品文档放心下载Numberofiterations:3Withinclustersumofsquarederrors:6.065322314450069(平方误差之和)精品文档放心下载ClusteredInstancesClusteredInstances4(15%)3(12%)4(15%)3(12%)2(8%)10(38%)(各类的包含的实例个数以及占总实例的百分比)精品文档放心下载****说明:其中当seed的取值越大,平方误差之和越小。在这次实验seed=100,得到:Withinclustersumofsquarederrors:谢谢阅读6.065322314450069.这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离就越谢谢阅读小。接下来“Clustercentroids”:列出了各个簇中心的位置:AttributeFullData012345(26)(4)(3)(4)(3)(10)=====================================================谢谢阅读============================感谢阅读sample13.522.54.666720.514.66674.511.2old-year48.076965.7559.333350.52556.541.9VEGF1.92312.752.333322.666731MVC102.1538126.45100.6667127.488.266710486.58cancer-grade2.57693.75233.33333.51.7**cancer-stage 2.1538 3.25 1.3333 3 2.3333精品文档放心下载3.5 1.3cancermetastasis N Y N N Y谢谢阅读Y N最后“ClusteredInstances”列出了各个簇中实例的数目及百分比:精品文档放心下载ClusteredInstances4(15%)3(12%)4(15%)3(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医学26年:CRRT适应症把握 查房课件
- 26年老年肺栓塞应急流程课件
- 2026年陕西省宝鸡市陈仓区多校中考语文一模试卷(含详细答案解析)
- 培训讲师岗位职责说明书
- 2025年设备监理师考试设备工程监理基础及相关知识模拟试题与答案
- 煤矿调度室岗位责任制
- 医院临床路径管理实施及考核评价细则
- 木制踢脚板安装工程及质量保证措施
- 2025年山东省技能兴鲁职业技能大赛(兽医化验员)综合试题及答案
- 绿化工程质量保证措施及承诺
- 大健康连锁店商业计划书
- 职业角色的转换课件
- 禁止纹身主题班会课件
- 井下煤矿爆破方案(3篇)
- 产业引导基金管理制度
- GB/T 14598.27-2025量度继电器和保护装置第27部分:产品安全要求
- 校园消防设施改造项目可行性研究报告
- CJ/T 511-2017铸铁检查井盖
- 教科版科学四年级下册第三单元必背知识点
- 【高考真题】贵州省2024年高考生物试卷(含答案)
- 涂料配方优化研究-深度研究
评论
0/150
提交评论