已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,WEKA操作介绍,1,2020/4/29,命令环境,算法实验环境,知识流环境,2,2020/4/29,在KnowledgeFlow窗口顶部有八个标签:DataSources-数据载入器DataSinks-数据保存器Filters-筛选器Classifiers-分类器Clusterers-聚类器Associations关联器Evaluation评估器Visualization可视化,3,2020/4/29,3,2,5,4,1,6,7,8,4,2020/4/29,1.区域1的几个选项卡是用来切换不同的挖掘任务面板。,Preprocess(数据预处理)Classify(分类)Cluster(聚类)Associate(关联分析)SelectAttributes(选择属性)Visualize(可视化),5,2020/4/29,2.区域2是一些常用按钮。包括打开数据,保存及编辑功能。我们可以在这里把“bank-data.csv”,另存为“bank-data.arff”,3.在区域3中“Choose”某个“Filter”,可以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。,对取值较多的数值型属性,离散化可借助WEKA中名为“Discretize”的Filter来完成。,6,2020/4/29,4.区域4展示了数据集的一些基本情况。,5.区域5中列出了数据集的所有属性。勾选一些属性并“Remove”就可以删除它们,删除后还可以利用区域2的“Undo”按钮找回。区域5上方的一排按钮是用来实现快速勾选的。在区域5中选中某个属性,则区域6中有关于这个属性的摘要。注意对于数值属性和标称属性,摘要的方式是不一样的。,7,2020/4/29,6.区域7是区域5中选中属性的直方图。若数据集的某个属性是目标变量,直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。默认地,分类或回归任务的默认目标变量是数据集的最后一个属性。要想换个分段的依据,即目标变量,在区域7上方的下拉框中选个不同的分类属性就可以了。下拉框里选上“NoClass”或者一个数值属性会变成黑白的直方图。,属性名(Name)、属性类型(Type)、缺失值(Missing)数及比例、不同值(Distinct)数、唯一值(Unique)数及比例对于数值属性和标称属性,摘要的方式是不一样的。数值属性显示最小值(Minimum)、最大值(Maximum)、均值(Mean)和标准差(StdDev),8,2020/4/29,7.区域8是状态栏,可以查看Log以判断是否有错。右边的weka鸟在动的话说明WEKA正在执行挖掘任务。右键点击状态栏还可以执行JAVA内存的垃圾回收。,9,2020/4/29,Usingtrainingset使用训练集评估Suppliedtestset使用测试集评估Cross-validation交叉验证设置折数FoldsPercentagesplit保持方法。使用一定比例的训练实例作评估设置训练实例的百分比,Classify,10,2020/4/29,Runinformation运行信息Summary针对训练/检验集的预测效果汇总(平均绝对误差等等)DetailedAccuracyByClass对每个类的预测准确度的详细描述。ConfusionMatrix混淆矩阵,其中矩阵的行是实际的类,矩阵的列是预测得到的类,矩阵元素就是相应测试样本的个数,11,2020/4/29,主要算法包括:SimpleKMeans支持分类属性的K均值算法DBScan支持分类属性的基于密度的算法EM基于混合模型的聚类算法FathestFirstK中心点算法OPTICS基于密度的另一个算法Cobweb概念聚类算法sIB基于信息论的聚类算法,不支持分类属性XMeans能自动确定簇个数的扩展K均值算法,不支持分类属性,Cluster,12,2020/4/29,右击左侧栏resultlist,点“Visualizeclusterassignments”。弹出的窗口给出了各实例的散点图。,Cluster,13,2020/4/29,Associate,设置参数car:如果设为真,则会挖掘类关联规则而不是全局关联规则。classindex:类属性索引。如果设置为-1,最后的属性被当做类属性。delta:以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。lowerBoundMinSupport:最小支持度下界。metricType:度量类型,设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),平衡度(leverage),确信度(conviction)。minMtric:度量的最小值。numRules:要发现的规则数。outputItemSets:如果设置为真,会在结果中输出项集。removeAllMissingCols:移除全部为缺失值的列。significanceLevel:重要程度。重要性测试(仅用于置
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 针对语言家庭暴力的个案介入
- 家居装修设计知识点自测与答案详解
- 开学文化测试题及答案高
- 健康饮食科学理念测试题及解析
- 惠泉小学入学英语考试攻略
- 矿山安全操作员考试试题与答案详解手册
- 环保生活手册绿色出行船测试题目与答案
- T∕HBYY 0118-2025 核桃分心木提取技术规程
- 广州建筑工地安全管理人员考试试题集
- 建筑工程结构安全检测试题及答案详解
- 黑龙江省哈尔滨市九中2025-2026学年高一上学期期中语文试题(含答案及解析)
- 2025年乌苏市公安局开招聘警务辅助人员(67人)笔试考试参考试题附答案解析
- 2025重庆医科大学附属大足医院招聘4人笔试考试参考试题及答案解析
- DB5201-T 126-2022 商务楼宇等级划分与评定
- 北京市朝阳区2025-2026学年高三上学期期中质量检测化学试题(含答案)
- 2025年法律职业伦理试题和答案
- 2025北京国家电投集团创新投资招聘1人笔试历年常考点试题专练附带答案详解2套试卷
- 2025广东深圳市罗山科技园开发运营服务有限公司第二批招聘4人笔试考试参考试题及答案解析
- 学堂在线 人工智能 章节测试答案
- 彼得·蒂尔:硅谷教父的叛逆人生
- 配送员食品安全培训课件
评论
0/150
提交评论