数据挖掘工具软件介绍weka课件_第1页
数据挖掘工具软件介绍weka课件_第2页
数据挖掘工具软件介绍weka课件_第3页
数据挖掘工具软件介绍weka课件_第4页
数据挖掘工具软件介绍weka课件_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘软件介绍目前较为著名的数据挖掘软件传统的数据挖掘套件(Classic suites):SAS Enterprise Miner 5.3SPSS Clementine 12开源数据挖掘软件(Open Source):RapidMiner 4.2 / KNIME 2.0 / Weka 3.6专门化的数据挖掘软件(Specialized):Viscovery SOMiner 5.0prudsys Discovery 5.5 / Basket Analyzer 5.2Bissantz Delta Master 5.3.62目前较为著名的数据挖掘软件自动化数据挖掘软件(Self-Acting):

2、KXEN Analytic Framework 4.04BI产品内置的数据挖掘软件(BI Vendors):SAP NetWear 7.0 Data Mining WorkbenchOracle 11g Data MiningMicrosoft SQL Server 2005 Analysis Services其他优秀的软件Teradata Warehouse MinerIBM的DB2 Intelligence MinerAngoss的KnowledgeSTUDIOUnica3WEKA简介http:/www.cs.waikato.ac.nz/ml/weka中文论坛/功能ProgramLogWi

3、ndowMemeryUsageExitVisualization4WEKA PLOTROCTreeVisualizerGraphVisualizerBoundaryVisualizerToolsArffViewerSqlViewerBayesNetEditer5WEKAApplicationsExplorerExperimenterKnowledgeFlowSimpleCLIHelpWeka homepageHOWTOs, code snippets, etc.Weka on SourceforgeSystemInfo6WEKA WEKA Explorer 1. Preprocess. 选择和

4、修改要处理的数据。 2. Classify. 训练和测试关于分类或回归的学习方案。 3. Cluster. 从数据中学习聚类。 4. Associate. 从数据中学习关联规则。 5. Select attributes. 选择数据中最相关的属性。 6. Visualize. 查看数据的交互式二维图像。 7. Memory Information. 在 log 栏中显示 WEKA 可用的内存量。 8. Run garbage collector. 强制运行 Java 垃圾回收器,搜索不再需要的内存空间7WEKA EXPLORER载入数据1. Open file 打开一个对话框,允许你浏览本地文

5、件系统上的数据文件。2. Open URL 请求一个存有数据的 URL 地址。3. Open DB 从数据库中读取数据 (注意, 要使之可用, 可能需要编辑weka/experiment/ DatabaseUps 中的文件)4. Generate 从一些数据生成器(DataGenerators)中生成人造数据。8WEKA EXPLORER处理属性1. No. 一个数字,用来标识数据文件中指定的各属性的顺序。2. 选择框. 允许勾选关系中呈现的各属性。3. Name. 数据文件中声明的各属性的名称。当点击属性列表中的不同行时,右边Selected attribute 一栏的内容随之改变。这一栏给

6、出了列表中当前高亮显示的属性的一些描述:1. Name. 属性的名称,和属性列表中给出的相同。2. Type. 属性的类型,最常见的是分类型(Nominal)和数值型(Numeric)。3. Missing. 数据中该属性缺失(或者未指定)的实例的数量(及百分比)。4. Distinct. 数据中该属性包含的不同值的数目。5. Unique. 唯一地拥有某值的实例的数目(及百分比),这些实例每个的取值都和别的不一样。9WEKA EXPLORER ATTRIBUTESPattern.让用户基于 Perl 5 正则表达式来选择属性。例如所有以M开头的属性。筛选器filterGenericObjec

7、tEditor 对话框应用筛选器 注意:一些筛选器会依据是否设置了 class 属性来做出不同的动作。(点击直方图上方那一栏时,会出现一个可供选择的下拉列表。)特别的,“supervised filters”(监督式筛选器)需要设置一个 class 属性, 而某些“unsupervised attribute filters”(非监督式属性筛选器)将忽略 class 属性。注意也可以将 Class 设成 None,这时没有设置 class属性。10WEKA EXPLORER CLASSIFY分类器选择分类器测试选项1. Using training set. 根据分类器在用来训练的实例上的预测

8、效果来评价它。2. Supplied test set. 从文件载入的一组实例,根据分类器在这组实例上的预测效果来评价它。点击 Set 按钮将打开一个对话框来选择用来测试的文件。3. Cross-validation. 使用交叉验证来评价分类器,所用的折数填在Folds 文本框中。4.Percentage split. 从数据集中按一定百分比取出部分数据放在一边作测试用,根据分类器这些实例上预测效果来评价它。取出的数据量由% 一栏中的值决定。11WEKA EXPLORER CLASSIFY分类器输出文本Classifier output 区域的文本有一个滚动条以便浏览结果。按住 Alt 和 S

9、hift 键,在这个区域点击鼠标左键,会出现一个对话框,让你用各种格式(目前可用 JPEG 和 EPS)保存输出的结果。输出结果1. Run information. 给出了学习算法各选项的一个列表。包括了学习过程中涉及到的关系名称,属性,实例和测试模式。2. Classifier model (full training set). 用文本表示的基于整个训练集的分类模型。所选测试模式的结果可以分解为以下几个部分:3. Summary. 一列统计量,描述了在指定测试模式下,分类器预测 class 属性的准确程度。4. Detailed Accuracy By Class. 更详细地给出了关于每

10、一类的预测准确度的描述。5. Confusion Matrix. 给出了预测结果中每个类的实例数。其中矩阵的行是实际的类,矩阵的列是预测得到的类,矩阵元素就是相应测试样本的个数。12WEKA EXPLORER CLUSTER聚类聚类模式Use training setSupplied test set Percentage split前三个和分类的一样Classes to clusters evaluation是要比较所得到的聚类与在数据中预先给出的类别吻合得怎样。13WEKA EXPLORER ASSOCIATE关联规则关联规则的学习器也可以跟其它面板的聚类器,筛选器和分类器一样选择和配置。

11、14Attribute Selection属性选择属性选择是说搜索数据集中全部属性的所有可能组合,找出预测效果最好的那一组属性。为实现这一目标,必须设定两个东西:属性评估器(evaluator)和搜索策略。评估器决定了怎样给一组属性安排一个表示它们好坏的值。搜索策略决定了要怎样进行搜索。Attribute Selection Mode 一栏有两个选项。1. Use full training set. 使用训练数据的全体好决定一组属性的好坏。2. Cross-validation. 一组属性的好坏通过一个交叉验证过程来决定。Fold 和Seed 分别给出了交叉验证的折数和打乱数据时的随机种子。

12、15WEKA EXPLORER Visualize散点图矩阵选择了 Visualize 面板后,会为所有的属性给出一个散点图矩阵,它们会根据所选的class 属性来着色。在这里可以改变每个二维散点图的大小,改变各点的大小,以及随机地抖动(jitter)数据(使得被隐藏的点显示出来)。也可以改变用来着色的属性,可以只选择一组属性的子集放在散点图矩阵中,还可以取出数据的一个子样本。注意这些改变只有在点击了Update 了按钮之后才会生效。选择实例1. Select Instance. 点击各数据点会打开一个窗口列出它的属性值,如果点击处的点超过一个,则更多组的属性值也会列出来。2. Rectang

13、le. 通过拖动创建一个矩形,选取其中的点。16WEKA EXPLORER Visualize3. Polygon. 创建一个形式自由的多边形并选取其中的点。左键点击添加多边形的顶点,右键点击完成顶点设置。起始点和最终点会自动连接起来因此多边形总是闭合的。4. Polyline. 可以创建一条折线把它两边的点区分开。左键添加折线顶点,右键结束设置。折线总是打开的(与闭合的多边形相反)。使用 Rectangle,Polygon 或 Polyline 选取了散点图的一个区域后,该区域会变成灰色。这时点击Submit 按钮会移除落在灰色区域之外的所有实例。点击Clear 按钮会清除所选区域而不对图形

14、产生任何影响。17Weka 试验(Experiment)Experimenter 有两种模式:一种具有较简单的界面,并提供了试验所需要的大部分功能,另一种则提供了一个可以使用 Experimenter 所有功能的界面。你可使用 Experiment Configuration Mode 单选按钮在这两者间进行选择。 Simple Advanced18Weka 试验(Experiment)Simple(简单)模式1.新试验2. Result Destination (结果的目的文件) 如果文件名为空,将在系统的 TEMP 目录下创建一个临时文件。 连接数据库:这个时候还没有测试数据库连接;启动试

15、验时才会进行连接测试。 JDBC 数据库的优点是可以继续运行那些被中止的或扩展了的试验。它不用重新运行那些已试验过的算法/数据集组合,而仅计算还没有被试验的那些。193. Experiment type(试验类型) Cross-validation (交叉验证) (默认) 根据给定的折数执行分层交叉验证 Train/Test Percentage Split (data randomized) (按比例分割训练/测试集,随机挑选数据) 把数据打乱顺序并确定层次后,根据给定的百分比把这个数据集分割成一个训练文件和一个测试文件 Train/Test Percentage Split (order

16、preserved) (按比例分割训练/测试集,按顺序挑选数据)20Weka 试验(Experiment)4. Datasets (数据集) 可以通过绝对路径或相对路径添加数据集文件。后者使得在不同的机器上运行试验更加方便,因此你在点击 Add new之前,应该勾选 Use relative paths (使用相对路径)。5. Iteration control (迭代控制) Number of repetitions (重复次数) Data sets first/Algorithms first (数据集优先/算法优先) 当存在多个数据集和算法的时候,切换成优先迭代数据集的模式可能会有用。举个例子,会有人把结果存储在数据库中,并且想尽早完成某个算法在所有数据集上的结果。 21Weka 试验(Experiment)6. Algorithms (算法) 使用 Load options. 和 Save options. 按钮,你可从 XML 加载或保存选中分类器的设置。这对 配置相当复杂的分类器(如 nested meta-分类器)尤其有用,因为手动设置它们需要一些时间,却又经

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论