WEKA介绍.ppt

上传人：f*** IP属地：河南上传时间：2020-02-25 格式：PPT 页数：30 大小：1.14MB 积分：20 举报 版权申诉

已阅读5页，还剩25页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

WEKA简介机器学习之数据挖掘是一门实验性很强的学科 WEKA是一个数据挖掘实验平台实验过程准备数据数据预处理选择算法设定参数运行算法评估学习结果和学习方案可视化数据及结果在以上任一阶段都可进行 1 简介WEKA的全名是怀卡托智能分析环境 WaikatoEnvironmentforKnowledgeAnalysis 其源代码可从http www cs waikato ac nz ml weka得到同时weka也是新西兰的一种鸟名而WEKA的主要开发者来自新西兰作为一个大众化的数据挖掘工作平台 WEKA集成了大量能承担数据挖掘任务的机器学习算法包括对数据进行预处理分类回归聚类关联规则以及在新的交互式界面上的可视化等等通过其接口可在其基础上实现自己的数据挖掘算法 2005年8月在第11届ACMSIGKDD国际会议上怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖 Weka系统得到了广泛的认可被誉为数据挖掘和机器学习历史上的里程碑是现今最完备的数据挖掘工具之一 Weka的每月下载次数已超过万次 2 数据格式巧妇难为无米之炊首先我们来看看WEKA所用的数据的格式跟Excel一样 WEKA所处理的数据集是一个二维的表格 WEKA文件相关术语表格里的一个横行称作一个实例 Instance 相当于统计学中的一个样本或者数据库中的一条记录竖行称作一个属性 Attrbute 相当于统计学中的一个变量或者数据库中的一个字段这样一个表格或者叫数据集在WEKA看来呈现了属性之间的一种关系 Relation 图1中一共有14个实例 5个属性关系名称为 weather WEKA存储数据的格式是ARFF Attribute RelationFileFormat 文件这是一种ASCII文本文件图1所示的二维表格存储在如下的ARFF文件中这也就是WEKA自带的 weather arff 文件在WEKA安装目录的 data 子目录下可以找到文件内容说明识别ARFF文件的重要依据是分行因此不能在这种文件里随意的断行空行或全是空格的行将被忽略以开始的行是注释 WEKA将忽略这些行如果你看到的 weather arff 文件多了或少了些开始的行是没有影响的除去注释后整个ARFF文件可以分为两个部分第一部分给出了头信息 Headinformation 包括了对关系的声明和对属性的声明第二部分给出了数据信息 Datainformation 即数据集中给出的数据从 data 标记开始后面的就是数据信息了关系声明关系名称在ARFF文件的第一个有效行来定义格式为 relation是一个字符串如果这个字符串包含空格它必须加上引号指英文标点的单引号或双引号属性声明属性声明用一列以 attribute 开头的语句表示数据集中的每一个属性都有它对应的 attribute 语句来定义它的属性名称和数据类型这些声明语句的顺序很重要首先它表明了该项属性在数据部分的位置例如 humidity 是第三个被声明的属性这说明数据部分那些被逗号分开的列中第三列数据85908696 是相应的 humidity 值其次最后一个声明的属性被称作class属性在分类或回归任务中它是默认的目标变量属性声明的格式为 attribute其中是必须以字母开头的字符串和关系名称一样如果这个字符串包含空格它必须加上引号 WEKA支持的有四种分别是numeric 数值型分类 nominal 型string 字符串型date 日期和时间型其中和将在下面说明还可以使用两个类型 integer 和 real 但是WEKA把它们都当作 numeric 看待注意 integer real numeric date string 这些关键字是区分大小写的而 relation attribute 和 data 则不区分数值属性数值型属性可以是整数或者实数但WEKA把它们都当作实数看待分类属性分类属性由列出一系列可能的类别名称并放在花括号中数据集中该属性的值只能是其中一种类别例如如下的属性声明说明 outlook 属性有三种类别 sunny overcast 和 rainy 而数据集中每个实例对应的 outlook 值必是这三者之一 attributeoutlook sunny overcast rainy 如果类别名称带有空格仍需要将之放入引号中字符串属性字符串属性中可以包含任意的文本这种类型的属性在文本挖掘中非常有用示例 ATTRIBUTELCCstring日期和时间属性日期和时间属性统一用 date 类型表示它的格式是 attributedate 其中是这个属性的名称是一个字符串来规定该怎样解析和显示日期或时间的格式默认的字符串是ISO 8601所给的日期时间组合格式 yyyy MM ddTHH mm ss 数据信息部分表达日期的字符串必须符合声明中规定的格式要求下文有例子数据信息数据信息中 data 标记独占一行剩下的是各个实例的数据每个实例占一行实例的各属性值用逗号隔开如果某个属性的值是缺失值 missingvalue 用问号表示且这个问号不能省略例如 datasunny 85 85 FALSE no 78 90 yes 字符串属性和分类属性的值是区分大小写的若值中含有空格必须被引号括起来例如 relationLCCvsLCSH attributeLCCstring attributeLCSHstring dataAG5 Encyclopediasanddictionaries Twentiethcentury AS262 Science SovietUnion History 日期属性的值必须与属性声明中给定的相一致例如 RELATIONTimestamps ATTRIBUTEtimestampDATE yyyy MM ddHH mm ss DATA 2001 04 0312 12 12 2001 05 0312 59 55 3 数据准备 1 数据文件格式转换使用WEKA作数据挖掘面临的第一个问题往往是我们的数据不是ARFF格式的幸好 WEKA还提供了对CSV文件的支持而这种格式是被很多其他软件所支持的 Excel和Matlab都支持CSV文件格式利用WEKA可将其转化成ARFF文件格式毕竟后者才是WEKA支持得最好的文件格式面对一个ARFF文件我们仍有一些预处理要做之后才能进行挖掘任务 Explorer 界面我们应该注意到 Explorer 还提供了很多功能实际上可以说这是WEKA使用最多的模块现在我们先来熟悉它的界面然后利用它对数据进行预处理图2显示的是使用3 5版 Explorer 打开 bank data csv 的情况我们根据不同的功能把这个界面分成8个区域区域1的几个选项卡是用来切换不同的挖掘任务面板这一节用到的只有 Preprocess 其他面板的功能将在以后介绍区域2是一些常用按钮包括打开数据保存及编辑功能我们可以在这里把 bank data csv 另存为 bank data arff 在区域3中 Choose 某个 Filter 可以实现筛选数据或者对数据进行某种变换数据预处理主要就利用它来实现区域4展示了数据集的一些基本情况区域5中列出了数据集的所有属性勾选一些属性并 Remove 就可以删除它们删除后还可以利用区域2的 Undo 按钮找回区域5上方的一排按钮是用来实现快速勾选的在区域5中选中某个属性则区域6中有关于这个属性的摘要注意对于数值属性和分类属性摘要的方式是不一样的图中显示的是对数值属性 income 的摘要区域7是区域5中选中属性的直方图若数据集的最后一个属性我们说过这是分类或回归任务的默认目标变量是分类变量这里的 pep 正好是直方图中的每个长方形就会按照该变量的比例分成不同颜色的段要想换个分段的依据在区域7上方的下拉框中选个不同的分类属性就可以了下拉框里选上 NoClass 或者一个数值属性会变成黑白的直方图区域8是状态栏可以查看Log以判断是否有错右边的weka鸟在动的话说明WEKA正在执行挖掘任务右键点击状态栏还可以执行JAVA内存的垃圾回收预处理bank data数据各属性的含义如下 id auniqueidentificationnumberage ageofcustomerinyears numeric sex MALE FEMALEregion inner city rural suburban townincome incomeofcustomer numeric married isthecustomermarried YES NO children numberofchildren numeric car doesthecustomerownacar YES NO save act doesthecustomerhaveasavingaccount YES NO current act doesthecustomerhaveacurrentaccount YES NO mortgage doesthecustomerhaveamortgage YES NO pep didthecustomerbuyaPEP PersonalEquityPlan 个人参股计划 afterthelastmailing YES NO 2 去除无用属性通常对于数据挖掘任务来说 ID这样的信息是无用的我们将之删除在区域5勾选属性 id 并点击 Remove 将新的数据集保存一次重新打开接下来演示 RemoveType 3 离散化我们知道有些算法如关联规则只能处理所有的属性都是分类型的情况这时候我们就需要对数值型的属性进行离散化在这个数据集中有3个变量是数值型的分别是 age income 和 children 其中 children 只有4个取值 0 1 2 3 这时我们直接修改ARFF文件把 attributechildrennumeric改为 attributechildren 0 1 2 3 就可以了在 Explorer 中重新打开 bank data arff 看看选中 children 属性后区域6那里显示的 Type 变成 Nominal 了 age 和 income 的离散化可借助WEKA中名为 Discretize 的Filter来完成在区域2中点 Choose 出现一棵 Filter树逐级找到 weka filters unsupervised attribute Discretize 点击现在 Choose 旁边的文本框应该显示 Discretize B10 M 0 1 Rfirst last 点击这个文本框会弹出新窗口以修改离散化的参数我们不打算对所有的属性离散化只是针对对第1个和第4个属性见区域5属性名左边的数字故把attributeIndices右边改成 1 4 计划把这两个属性都分成3段于是把 bins 改成 3 其它框里不用更改点 OK 回到 Explorer 可以看到 age 和 income 已经被离散化成分类型的属性若想放弃离散化可以点区域2的 Undo 还可用替换功能将离散化后的值替换使之更具可读性经过上述操作得到的数据集我们保存为bank data final arff 4 属性类型转换NominalToBinary过滤器将所有nominal类型的属性转为binary 0 1二值属性一个可取k个值的nominal类型的属性转为k个二值属性这样可将数据中所有属性转为数值 numeric 属性以下是weather arff轮换后的结果 4 关联规则购物篮分析 bank data 数据的关联规则分析用 Explorer 打开 bank data final arff 后切换到 Associate 选项卡默认关联规则分析是用Apriori算法但是点 Choose 右边的文本框修改默认的参数弹出的窗口中点 More 可以看到各参数的说明 Apriori的有关知识对于一条关联规则L R 我们常用支持度 Support 和置信度 Confidence 来衡量它的重要性规则的支持度是用来估计在一个购物篮中同时观察到L和R的概率P L R 而规则的置信度是估计购物栏中出现了L时也出会现R的条件概率P R L 关联规则的目标一般是产生支持度和置信度都较高的规则有几个类似的度量代替置信度来衡量规则的关联程度 Lift 提升度 P L R P L P R Lift 1时表示L和R独立这个数越大越表明L和R存在在一个购物篮中不是偶然现象参数设置现在我们计划挖掘出支持度在10 到100 之间并且lift值超过1 5且lift值排在前100位的那些关联规则我们把 lowerBoundMinSupport 和 upperBoundMinSupport 分别设为0 1和1 metricType 设为lift minMetric 设为1 5 numRules 设为100 其他选项保持默认即可 OK 之后在 Explorer 中点击 Start 开始运行算法在右边窗口显示数据集摘要和挖掘结果下面是挖掘出来的lift排前5的规则 Bestrulesfound 1 age 52 maxsave act YEScurrent act YES113 income 43759 max61conf 0 54 lev 0 08 45 conv 1 85 2 income 43759 max80 age 52 maxsave act YEScurrent act YES61conf 0 76 lev 0 08 45 conv 3 25 3 income 43759 maxcurrent act YES63 age 52 maxsave act YES61conf 0 97 lev 0 08 45 conv 15 72 4 age 52 maxsave act YES151 income 43759 maxcurrent act YES61conf 0 4 lev 0 08 45 conv 1 49 5 age 52 maxsave act YES151 income 43759 max76conf 0 5 lev 0 09 55 conv 1 72 对于挖掘出的每条规则 WEKA列出了它们关联程度的四项指标左边出现的次数在左边出现的情况下右边出现的次数二者相除即为置信度 5 分类与回归背景知识WEKA把分类 Classification 和回归 Regression 都放在 Classify 选项卡中在这两个任务中都有一个目标属性类别属性输出变量我们希望根据一个样本 WEKA中称作实例的一组特征输入变量对目标进行预测为了实现这一目的我们需要有一个训练数据集这个数据集中每个实例的输入和输出都是已知的观察训练集中的实例可以建立起预测的模型有了这个模型我们就可以对新的未知实例进行预测了衡量模型的好坏主要在于预测的准确程度在WEKA中待预测的目标输出被称作Class属性这应该是来自分类任务的类一般若Class属性是分类型 nominal 时我们的任务叫分类 Class属性是数值型 numeric 时我们的任务叫回归选择算法这一节中我们将使用C4 5决策树算法对bank data建立分类模型观察 bank data csv 文件 ID 属性肯定是不需要的由于C4 5算法可以处理数值型的属性我们也不用像前面用关联规则那样把每个变量都离散化成分类型了尽管如此我们还是把 Children 属性转换成分类型的两个值 YES 和 NO 另外我们的训练集仅取原来数据集实例的一半而从另外一半中抽出若干条作为待预测的实例它们的 pep 属性都设为缺失值把以上数据集一个保存为bank training arff 另一个保存为bank test arff 我们用 Explorer 打开训练集 bank training arff 观察一下它是不是按照前面的要求处理好了切换到 Classify 选项卡点击 Choose 按钮后可以看到很多分类或者回归的算法分门别类地列在一个树型框里 3 5版的WEKA中树型框下方有一个 Filter 按钮点击可以根据数据集的特性过滤掉不合适的算法我们数据集的输入属性中有 Binary 型即只有两个类的分类型和数值型的属性而Class变量是 Binary 的于是我们勾选 Binaryattributes Numericattributes 和 Binaryclass 点 OK 后回到树形图可以发现一些算法名称变红了说明它们不能用选择 trees 下的 J48 这就是我们需要的C4 5算法还好它没有变红点击 Choose 右边的文本框弹出新窗口为该算法设置各种参数点 More 查看参数说明点 Capabilities 是查看算法适用范围这里我们把参数保持默认现在来看左中的 TestOption 我们没有专门设置检验数据集为了保证生成的模型的准确性而不至于出现过拟合 overfitting 的现象我们有必要采用10折交叉验证 10 foldcrossvalidation 来选择和评估模型建模结果OK 选上 Cross validation 并在 Folds 框填上 10 点 Start 按钮开始让算法生成决策树模型很快用文本表示的一棵决策树以及对这个决策树的误差分析等等结果出现在右边的 Classifieroutput 中同时左下的 Resultslist 出现了一个项目显示刚才的时间和算法名称如果换一个模型或者换个参数重新 Start 一次则 Resultslist 又会多出一项我们看到 J48 算法交叉验证的结果之一为CorrectlyClassifiedInstances20668 6667 也就是说这个模型的准确度只有69 左右也许我们需要对原属性进行处理或者修改算法的参数来提高准确度但这里我们不管它继续用这个模型右键点击 Resultsl

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

WEKA介绍.ppt

文档简介

温馨提示

最新文档

评论

WEKA介绍.ppt

文档简介

温馨提示

最新文档

评论

相关文档