数据挖掘工具软件介绍(weka).ppt_第1页
数据挖掘工具软件介绍(weka).ppt_第2页
数据挖掘工具软件介绍(weka).ppt_第3页
数据挖掘工具软件介绍(weka).ppt_第4页
数据挖掘工具软件介绍(weka).ppt_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘软件介绍 目前较为著名的数据挖掘软件 传统的数据挖掘套件 Classicsuites SASEnterpriseMiner5 3SPSSClementine12开源数据挖掘软件 OpenSource RapidMiner4 2KNIME2 0http www knime org Weka3 6专门化的数据挖掘软件 Specialized ViscoverySOMiner5 0prudsysDiscovery5 5 BasketAnalyzer5 2BissantzDeltaMaster5 3 6 2 目前较为著名的数据挖掘软件 自动化数据挖掘软件 Self Acting KXENAnalyticFramework4 04BI产品内置的数据挖掘软件 BIVendors SAPNetWear7 0DataMiningWorkbenchOracle11gDataMiningMicrosoftSQLServer2005AnalysisServices其他优秀的软件TeradataWarehouseMinerIBM的DB2IntelligenceMinerAngoss的KnowledgeSTUDIOUnica 3 WEKA 简介http www cs waikato ac nz ml weka中文论坛http bbs2 wekacn org 功能ProgramLogWindowMemeryUsageExitVisualization 4 WEKA PLOTROCTreeVisualizerGraphVisualizerBoundaryVisualizerToolsArffViewerSqlViewerBayesNetEditer 5 WEKA ApplicationsExplorerExperimenterKnowledgeFlowSimpleCLIHelpWekahomepageHOWTOs codesnippets etc WekaonSourceforgeSystemInfo 6 WEKA WEKAExplorer1 Preprocess 选择和修改要处理的数据 2 Classify 训练和测试关于分类或回归的学习方案 3 Cluster 从数据中学习聚类 4 Associate 从数据中学习关联规则 5 Selectattributes 选择数据中最相关的属性 6 Visualize 查看数据的交互式二维图像 7 MemoryInformation 在log栏中显示WEKA可用的内存量 8 Rungarbagecollector 强制运行Java垃圾回收器 搜索不再需要的内存空间 7 WEKAEXPLORER 载入数据1 Openfile 打开一个对话框 允许你浏览本地文件系统上的数据文件 2 OpenURL 请求一个存有数据的URL地址 3 OpenDB 从数据库中读取数据 注意 要使之可用 可能需要编辑weka experiment DatabaseUtils props中的文件 4 Generate 从一些数据生成器 DataGenerators 中生成人造数据 8 WEKAEXPLORER 处理属性1 No 一个数字 用来标识数据文件中指定的各属性的顺序 2 选择框 允许勾选关系中呈现的各属性 3 Name 数据文件中声明的各属性的名称 当点击属性列表中的不同行时 右边Selectedattribute一栏的内容随之改变 这一栏给出了列表中当前高亮显示的属性的一些描述 1 Name 属性的名称 和属性列表中给出的相同 2 Type 属性的类型 最常见的是分类型 Nominal 和数值型 Numeric 3 Missing 数据中该属性缺失 或者未指定 的实例的数量 及百分比 4 Distinct 数据中该属性包含的不同值的数目 5 Unique 唯一地拥有某值的实例的数目 及百分比 这些实例每个的取值都和别的不一样 9 WEKAEXPLORERATTRIBUTES Pattern 让用户基于Perl5正则表达式来选择属性 例如所有以M开头的属性 筛选器filterGenericObjectEditor对话框应用筛选器注意 一些筛选器会依据是否设置了class属性来做出不同的动作 点击直方图上方那一栏时 会出现一个可供选择的下拉列表 特别的 supervisedfilters 监督式筛选器 需要设置一个class属性 而某些 unsupervisedattributefilters 非监督式属性筛选器 将忽略class属性 注意也可以将Class设成None 这时没有设置class属性 10 WEKAEXPLORERCLASSIFY 分类器选择分类器测试选项1 Usingtrainingset 根据分类器在用来训练的实例上的预测效果来评价它 2 Suppliedtestset 从文件载入的一组实例 根据分类器在这组实例上的预测效果来评价它 点击Set 按钮将打开一个对话框来选择用来测试的文件 3 Cross validation 使用交叉验证来评价分类器 所用的折数填在Folds文本框中 4 Percentagesplit 从数据集中按一定百分比取出部分数据放在一边作测试用 根据分类器这些实例上预测效果来评价它 取出的数据量由 一栏中的值决定 11 WEKAEXPLORERCLASSIFY 分类器输出文本Classifieroutput区域的文本有一个滚动条以便浏览结果 按住Alt和Shift键 在这个区域点击鼠标左键 会出现一个对话框 让你用各种格式 目前可用JPEG和EPS 保存输出的结果 输出结果1 Runinformation 给出了学习算法各选项的一个列表 包括了学习过程中涉及到的关系名称 属性 实例和测试模式 2 Classifiermodel fulltrainingset 用文本表示的基于整个训练集的分类模型 所选测试模式的结果可以分解为以下几个部分 3 Summary 一列统计量 描述了在指定测试模式下 分类器预测class属性的准确程度 4 DetailedAccuracyByClass 更详细地给出了关于每一类的预测准确度的描述 5 ConfusionMatrix 给出了预测结果中每个类的实例数 其中矩阵的行是实际的类 矩阵的列是预测得到的类 矩阵元素就是相应测试样本的个数 12 WEKAEXPLORERCLUSTER 聚类聚类模式UsetrainingsetSuppliedtestsetPercentagesplit前三个和分类的一样Classestoclustersevaluation是要比较所得到的聚类与在数据中预先给出的类别吻合得怎样 13 WEKAEXPLORERASSOCIATE 关联规则关联规则的学习器也可以跟其它面板的聚类器 筛选器和分类器一样选择和配置 14 AttributeSelection 属性选择属性选择是说搜索数据集中全部属性的所有可能组合 找出预测效果最好的那一组属性 为实现这一目标 必须设定两个东西 属性评估器 evaluator 和搜索策略 评估器决定了怎样给一组属性安排一个表示它们好坏的值 搜索策略决定了要怎样进行搜索 AttributeSelectionMode一栏有两个选项 1 Usefulltrainingset 使用训练数据的全体好决定一组属性的好坏 2 Cross validation 一组属性的好坏通过一个交叉验证过程来决定 Fold和Seed分别给出了交叉验证的折数和打乱数据时的随机种子 15 WEKAEXPLORERVisualize 散点图矩阵选择了Visualize面板后 会为所有的属性给出一个散点图矩阵 它们会根据所选的class属性来着色 在这里可以改变每个二维散点图的大小 改变各点的大小 以及随机地抖动 jitter 数据 使得被隐藏的点显示出来 也可以改变用来着色的属性 可以只选择一组属性的子集放在散点图矩阵中 还可以取出数据的一个子样本 注意这些改变只有在点击了Update了按钮之后才会生效 选择实例1 SelectInstance 点击各数据点会打开一个窗口列出它的属性值 如果点击处的点超过一个 则更多组的属性值也会列出来 2 Rectangle 通过拖动创建一个矩形 选取其中的点 16 WEKAEXPLORERVisualize 3 Polygon 创建一个形式自由的多边形并选取其中的点 左键点击添加多边形的顶点 右键点击完成顶点设置 起始点和最终点会自动连接起来因此多边形总是闭合的 4 Polyline 可以创建一条折线把它两边的点区分开 左键添加折线顶点 右键结束设置 折线总是打开的 与闭合的多边形相反 使用Rectangle Polygon或Polyline选取了散点图的一个区域后 该区域会变成灰色 这时点击Submit按钮会移除落在灰色区域之外的所有实例 点击Clear按钮会清除所选区域而不对图形产生任何影响 17 Weka试验 Experiment Experimenter有两种模式 一种具有较简单的界面 并提供了试验所需要的大部分功能 另一种则提供了一个可以使用Experimenter所有功能的界面 你可使用ExperimentConfigurationMode单选按钮在这两者间进行选择 Simple Advanced 18 Weka试验 Experiment Simple 简单 模式1 新试验2 ResultDestination 结果的目的文件 如果文件名为空 将在系统的TEMP目录下创建一个临时文件 连接数据库 这个时候还没有测试数据库连接 启动试验时才会进行连接测试 JDBC数据库的优点是可以继续运行那些被中止的或扩展了的试验 它不用重新运行那些已试验过的算法 数据集组合 而仅计算还没有被试验的那些 19 3 Experimenttype 试验类型 Cross validation 交叉验证 默认 根据给定的折数执行分层交叉验证Train TestPercentageSplit datarandomized 按比例分割训练 测试集 随机挑选数据 把数据打乱顺序并确定层次后 根据给定的百分比把这个数据集分割成一个训练文件和一个测试文件Train TestPercentageSplit orderpreserved 按比例分割训练 测试集 按顺序挑选数据 20 Weka试验 Experiment 4 Datasets 数据集 可以通过绝对路径或相对路径添加数据集文件 后者使得在不同的机器上运行试验更加方便 因此你在点击Addnew 之前 应该勾选Userelativepaths 使用相对路径 5 Iterationcontrol 迭代控制 Numberofrepetitions 重复次数 Datasetsfirst Algorithmsfirst 数据集优先 算法优先 当存在多个数据集和算法的时候 切换成优先迭代数据集的模式可能会有用 举个例子 会有人把结果存储在数据库中 并且想尽早完成某个算法在所有数据集上的结果 21 Weka试验 Experiment 6 Algorithms 算法 使用Loadoptions 和Saveoptions 按钮 你可从XML加载或保存选中分类器的设置 这对配置相当复杂的分类器 如nestedmeta 分类器 尤其有用 因为手动设置它们需要一些时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论