




免费预览已结束,剩余11页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
WEKA操作介绍 命令环境 算法实验环境 知识流环境 在KnowledgeFlow窗口顶部有八个标签 DataSources 数据载入器DataSinks 数据保存器Filters 筛选器Classifiers 分类器Clusterers 聚类器Associations 关联器Evaluation 评估器Visualization 可视化 3 2 5 4 1 6 7 8 1 区域1的几个选项卡是用来切换不同的挖掘任务面板 Preprocess 数据预处理 Classify 分类 Cluster 聚类 Associate 关联分析 SelectAttributes 选择属性 Visualize 可视化 2 区域2是一些常用按钮 包括打开数据 保存及编辑功能 我们可以在这里把 bank data csv 另存为 bank data arff 3 在区域3中 Choose 某个 Filter 可以实现筛选数据或者对数据进行某种变换 数据预处理主要就利用它来实现 对取值较多的数值型属性 离散化可借助WEKA中名为 Discretize 的Filter来完成 4 区域4展示了数据集的一些基本情况 5 区域5中列出了数据集的所有属性 勾选一些属性并 Remove 就可以删除它们 删除后还可以利用区域2的 Undo 按钮找回 区域5上方的一排按钮是用来实现快速勾选的 在区域5中选中某个属性 则区域6中有关于这个属性的摘要 注意对于数值属性和标称属性 摘要的方式是不一样的 6 区域7是区域5中选中属性的直方图 若数据集的某个属性是目标变量 直方图中的每个长方形就会按照该变量的比例分成不同颜色的段 默认地 分类或回归任务的默认目标变量是数据集的最后一个属性 要想换个分段的依据 即目标变量 在区域7上方的下拉框中选个不同的分类属性就可以了 下拉框里选上 NoClass 或者一个数值属性会变成黑白的直方图 属性名 Name 属性类型 Type 缺失值 Missing 数及比例 不同值 Distinct 数 唯一值 Unique 数及比例对于数值属性和标称属性 摘要的方式是不一样的 数值属性显示最小值 Minimum 最大值 Maximum 均值 Mean 和标准差 StdDev 7 区域8是状态栏 可以查看Log以判断是否有错 右边的weka鸟在动的话说明WEKA正在执行挖掘任务 右键点击状态栏还可以执行JAVA内存的垃圾回收 Usingtrainingset使用训练集评估Suppliedtestset使用测试集评估Cross validation交叉验证设置折数FoldsPercentagesplit保持方法 使用一定比例的训练实例作评估设置训练实例的百分比 Classify Runinformation运行信息Summary针对训练 检验集的预测效果汇总 平均绝对误差等等 DetailedAccuracyByClass对每个类的预测准确度的详细描述 ConfusionMatrix混淆矩阵 其中矩阵的行是实际的类 矩阵的列是预测得到的类 矩阵元素就是相应测试样本的个数 主要算法包括 SimpleKMeans 支持分类属性的K均值算法DBScan 支持分类属性的基于密度的算法EM 基于混合模型的聚类算法FathestFirst K中心点算法OPTICS 基于密度的另一个算法Cobweb 概念聚类算法sIB 基于信息论的聚类算法 不支持分类属性XMeans 能自动确定簇个数的扩展K均值算法 不支持分类属性 Cluster 右击左侧栏resultlist 点 Visualizeclusterassignments 弹出的窗口给出了各实例的散点图 Cluster Associate 设置参数car 如果设为真 则会挖掘类关联规则而不是全局关联规则 classindex 类属性索引 如果设置为 1 最后的属性被当做类属性 delta 以此数值为迭代递减单位 不断减小支持度直至达到最小支持度或产生了满足数量要求的规则 lowerBoundMinSupport 最小支持度下界 metricType 度量类型 设置对规则进行排序的度量依据 可以是 置信度 类关联规则只能用置信度挖掘 提升度 lift 平衡度 leverage 确信度 conviction minMtric 度量的最小值 numRules 要发现的规则数 outputItemSets 如果设置为真 会在结果中输出项集 removeAllMissingCols 移除全部为缺失值的列 significanceLevel 重要程度 重要性测试 仅用于置信度 upperBoundMinS
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年变化点管理考试题及答案
- 混凝土防水施工技术方案
- 钢结构连接节点设计优化方案
- 呼兰河传阅读测试题及答案
- 机械设备采购合同范本【三篇】
- 体育业务考试试题及答案
- 小学三级知识竞赛题及答案
- 济南市前期物业管理委托合同
- 广告学原理学习心得范例五篇
- 保障性住房项目可行性分析与风险评估方案
- 人才服务合同书
- 2025年工会财务大赛理论题库(附答案)
- 2025-2026学年统编版八年级上册道德与法治教学计划含教学进度表
- 矿井顶板事故防治课件
- 2025年工会入职考试试题及答案
- 2025年中国电力投资集团校园招聘笔试题型分析及备考策略
- 旅游服务安全知识培训课件
- 抗生素课件教学课件
- 公司章程制定合同协议书范本模板
- 2024人教PEP版三年级英语上册全册教案
- 中国慢性胃炎诊治指南(2022年)解读
评论
0/150
提交评论