《数据挖掘原理与应用 第2版 》课件 第10章 WEKA数据挖掘应用_第1页
《数据挖掘原理与应用 第2版 》课件 第10章 WEKA数据挖掘应用_第2页
《数据挖掘原理与应用 第2版 》课件 第10章 WEKA数据挖掘应用_第3页
《数据挖掘原理与应用 第2版 》课件 第10章 WEKA数据挖掘应用_第4页
《数据挖掘原理与应用 第2版 》课件 第10章 WEKA数据挖掘应用_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章WEKA数据挖掘应用WEKA简介WEKAWEKA的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis)2WEKA也是新西兰的一种鸟名WEKAWEKA软件是新西兰怀卡托大学(http://www.waikato.ac.nz)的计算机科学系的机器学习小组用Java开发的机器学习/数据挖掘开源软件机器学习小组网址:http://www.cs.waikato.ac.nz/ml/index.html主要项目即为WEKA3WEKA2005年8月,在第11届ACMSIGKDD国际会议上,怀卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的最高服务奖,WEKA系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一4目前,WEKA的每月下载次数已超过万次WEKAWEKA几乎可以运行在所有操作系统平台上,包括Linux、Windows、Macintosh等综合性数据挖掘工具:集数据预处理、学习算法(分类、回归、聚类、关联分析)和评估方法等为一体具有交互式可视化界面,提供算法学习比较环境,通过其提供的接口,可实现自己的数据挖掘算法5WEKA安装与运行目前(2020年),WEKA的最新稳定版本为3.8.4,可以进入WEKA开发组的下载页面,根据操作系统和使用情况,选择合适安装包下载和安装。WEKA项目组也在进行3.9版本的开发和调试工作,网站也提供WEKA3.9的下载。6WEKA安装与运行下载安装包:http://www.cs.waikato.ac.nz/ml/index.htmlWEKA需要Java虚拟机的支持,需事先安装所需版本的Java虚拟机。为了用户方便,WEKA也提供集成了Java虚拟机安装程序的安装包查找下载类如WEKA-3-8-0jre(withOracle's32-bitJavaVM1.8).exe进行安装即可安装完成Java虚拟机和WEKA软件7WEKA安装与运行WEKA软件的代码是开源的,其源代码获取可以从http://www.cs.waikato.ac.nz/ml/WEKA/上获取。安装完成后,点击图标即可运行WEKA软件8WEKA安装与运行从WEKA运行主界面可以看出,WEKA的主要模块包括:Explorer探索环境Experimenter算法试验环境KnowledgeFlow知识流环境Workbench工作台SimpleCLI命令行环境910探索环境命令行环境知识流环境算法试验环境WEKA的功能模块Arff数据格式WEKA存储数据的格式是ARFF(Attribute-RelationFileFormat)文件,这是一种ASCII文本文件。写字板打开weather.numeric.arff记事本打开weather.numeric.arff11Arff数据格式注释以“%”开始的行是注释,WEKA将忽略这些行。关系声明关系名称定义格式为:@relation<relation-name>属性声明定义它的属性名称和数据类型,格式为:@attribute<attribute-name><datatype>WEKA支持的<datatype>有四种,分别是:numeric(数值型)、nominal(分类型)、String(字符串型)、date(日期时间型)数据信息数据信息中“@data”标记独占一行,随后为各实例的数据。实例的各属性值用逗号“,”隔开。如果某个属性的值是缺失值(missingvalue),用问号“?”表示,且这个问号不能省略。12Arff数据格式WEKA自带的“weather.numeric.arff”文件内容为13%ARFFfilefortheweatherdatawithsomenumricfeatures%@relationweather@attributeoutlook{sunny,overcast,rainy}@attributetemperaturereal@attributehumidityreal@attributewindy{TRUE,FALSE}@attributeplay{yes,no}@data%14instancessunny,85,85,FALSE,nosunny,80,90,TRUE,noovercast,83,86,FALSE,yesrainy,70,96,FALSE,yesrainy,68,80,FALSE,yesrainy,65,70,TRUE,noovercast,64,65,TRUE,yessunny,72,95,FALSE,nosunny,69,70,FALSE,yesrainy,75,80,FALSE,yessunny,75,70,TRUE,yesovercast,72,90,TRUE,yesovercast,81,75,FALSE,yesrainy,71,91,TRUE,no小结WEKA完成数据挖掘相关的数据预处理分类回归聚类关联分析评估14第10章WEKA数据挖掘应用ExplorerExplorer16Explorer主界面17Preprocess(数据预处理)载入将要进行处理的数据,可进行适当选择和修改;Classify(分类)建立分类或回归模型,并进行测试;Cluster(聚类分析)从数据中建立聚类模型和结果;Associate(关联分析)从数据中学习关联规则;SelectAttributes(选择属性)通过对数据属性的评估来选择数据中最相关的属性;Visualize(可视化)

查看数据的二维散布图Preprocess·数据准备18WEKAExplorerPreprocessClassifyClusterAssociateSelectAttributesVisualize数据准备数据筛选数据可视化数据载入数据生成数据编辑数据转换19PreProcess预处理Preprocess(数据预处理)数据准备数据筛选数据属性选择数据可视化20Preprocess·数据准备21载入数据打开一个本地数据文件支持的格式主要包括:ARFFCSVC4.5JsonbinaryARFF数据文件WEKA软件安装好后,会提供一些以ARFF格式存放的实验数据可以在安装目录的data文件夹下找到(例如:C:\ProgramFiles\WEKA-3-9\data)22Preprocess·数据准备23请求一个存有数据的URL地址载入数据Preprocess·数据准备24从数据库中读取数据载入数据Preprocess·数据准备25从一些数据生成器(DataGenerators)中生成随机数据载入数据Preprocess·数据准备数据生成生成满足一定要求的实验数据单击主界面上的

按钮(a)数据生成的界面(b)选择数据生成算法(c)配置数据生成的参数(d)所生成的数据26Preprocess·数据准备27数据编辑查看和编辑数据Preprocess·数据准备28保存数据,可完成数据格式转换数据转换Preprocess·数据准备29数据转换Preprocess·数据筛选使用筛选器Filter来对数据进行数据类型变换数据属性筛选数据实例筛选等等30点击

Choose按钮,可选择某个Filter,选定的筛选器的名称显示在按钮右侧的文本框中点击

Apply按钮完成筛选Preprocess·数据可视化3132Classify分类分析Classify(分类分析)决策树分类贝叶斯分类器Logistic回归分类人工神经网络分类支持向量机分类基于规则的分类33Classify(分类分析)功能界面选择算法和参数设置测试选项运行结果列表运行结果细节运行状态34Classify·决策树分类J4835选择算法,设置参数Classify(J48)参数v3.8.036binarySplits:设置是否对Nominal类型的属性进行二叉分裂;默认值为False。collapseTree:设置是否按照使训练数据集上分类误差(ClassificationError)最小的原则进行剪枝。confidenceFactor:设置用于修剪的置信因子(小于该值导致修剪);默认值为0.25。debug:设置分类器运行时是否在控制台输出更为详细的的信息;默认值为False。Donotmakesplitpointactualvalue.minNumObj:设置决策树叶结点的最小实例数量,默认值为2。numFolds:设置将数据集分为的折数,其中1折将用于剪枝计算,剩余的用于生成决策树,默认值为2。reducedErrorPruning:设置是否使用REP剪枝,而非使用C4.5算法默认的EBP剪枝。seed:设置随机数生成器的种子值。所产生的随机数用于对REP剪枝所用的数据进行随机排列。useMDLcorrection:设置确定连续属性划分时,是否在使用MDL(MinimumDescriptionLength准则)方法修正。useLaplace:设置是否基于拉普拉斯平滑来进行叶结点计数;默认值为False。unpruned:设置是否不进行C4.5算法默认的EBP剪枝。saveInstanceData:设置是否保存训练数据,以便后续进行展示;默认值为False。subtreeRaising:设置C4.5的EBP剪枝是否也考虑和评估子树上升的修剪方法。TestOptions37Usetrainingset:设置使用训练数据集来对模型进行评估。Suppliedtestset:设置使用额外的测试数据集来对模型进行评估。TestOptions38Cross-validationFolds:设置使用n折交叉测试。TestOptions39Percentagesplit:设置按照一定的百分比将数据集划分为训练数据集和测试数据集来完成分析。TestOptions40Outputmodel:设置是否输出所建立的分类模型。Outputper-classstats:设置是否输出测试结果中各个类的统计信息。Outputentropyevaluatoinmeasures:设置是否输出基于熵的评估指标。Outputconfusionmatrix:设置是否输出混淆矩阵。Storepredictionsforvisualization:设置保存预测结果,以便随后进行可视化分析。RandomseedforXVal/%Split:设置交叉验证和按百分比划分训练和测试数据集时,随机划分的种子值。ResultList41Classify·贝叶斯分类器选择算法,设置参数42useKernelEstimator:设置是否对于数值型属性值使用核概率密度估计而非使用正态分布。useSupervisedDiscretization:设置是否使用带监督的离散化将Numeric属性值转换为Nominal类型。Classify·贝叶斯分类器查看运行结果43Classify·Logistic回归分类选择算法,设置参数44ridge:设置对数似然方程的ridge值。useConjugateGradientDescent:设置是否使用共轭梯度法(而不是BFGS算法)进行回归方程的优化求解计算(对于多系数的回归方程,较为快速)。maxIts:设置最大迭代次数。默认值为-1,表示不限定。Classify·人工神经网络分类选择算法,设置参数45Classify·人工神经网络分类46GUI:设置是否运行时弹出图形界面,显示人工神经网络的结构;默认值为False。autoBuild:设置是否自动添加网络中的连接和隐层。decay:设置是否用初始学习速率除以迭代次数来决定当前的学习速率。hiddenLayers:设置定义神经网络的各隐藏层中神经处理单元的数量。learningRate:设置神经网络的学习率。momentum:设置当更新weights时添加的动量nominalToBinaryFilter:设置是否将nominal值转换为二值的numeric类型。normalizeAttributes:设置是否对数据进行正则化(normalize)处理。normalizeNumericClass:设置是否对数值型分类属性值进行正则化。trainTime:设置对网络参数训练的次数。validationSetSize:设置测试数据集的大小比例。设为0表示不运用validationThreshold的作用(运用trainTime)。validationThreshold:设置测试停止条件阈值,为误差持续变坏的次数。reset:设置是否允许网络将学习率复位到较低的值,重新进行训练。Classify·支持向量机分类47Classify·基于规则的分类4849Cluster聚类分析Cluster聚类分析Kmeans层次聚类DBSCAN50Cluster·Kmeans聚类51Cluster·Kmeans聚类52

设置最低canopy密度,默认值2。如果用canopy聚类方法进行初始化,修剪时的canopy最低密度。设置修剪周期,默认值11。如果用canopy聚类方法进行初始化,修剪低密度canopies周期。设置canopy聚类T1半径,默认值-1.25。设置canopy聚类T2半径,默认值-1。设置是否为调试模式并输出调试信息,默认值False。设置是否显示标准差并统计标称类型属性各类别样本数目,默认值False。设置距离函数,默认值为EuclideanDistance,或选择其他距离函数。设置是否不检查适用范围,默认值为False。设置是否不替换缺失值,默认值为False。设置是否加速距离计算,默认值为False。Kmeans聚类参数Kmeans聚类参数53设置初始化质心的方法,默认值为Random。还可以设置为k-means++、canopy、farthestfirst。设置最大迭代次数,默认值500。设置簇的数目,默认值为2。设置运算执行线程数,默认值为1,。可以设置为可用CPU的数目。设置是否保持实例的原有顺序,默认值False。设置是否减少计算距离数目,默认值为False,指在进行canopy聚类初始化时,减少计算距离的数目。设置随机数种子,默认值为10。Kmeans聚类参数Cluster·Kmeans聚类54Cluster·层次聚类55Cluster·层次聚类56Cluster·DBSCAN聚类57Cluster·DBSCAN聚类5859Associate关联分析Associate(关联分析)Apriori算法FPGrowth算法60分析过程PreProcess载入数据(NormalBasket.ARFF)Associate选择算法AprioriFPGrowth设置算法参数AprioriFPGrowthStart运行评估结果61NormalBasket.ARFF62940instances11attributesApriori算法参数63car是否为基于分类属性的关联分析(需由classIndex指定分类属性)。classindex指定分类属性所在的列(-1为最后一列),仅当car=True时有效。delta支持度阈值由upperBoundMinSupport递减至直至lowerBoundMinSupport或产生了满足数量要求的规则的迭代步长。doNotCheckCapababilities是否不检查关联器的适用范围。lowerBoundMinSupport迭代过程中,支持度阈值下界。默认值为0.1。metricType关联规则度量指标类型。可以是置信度Confidence,提升度Lift,杠杆率Leverage,确信度Conviction。minMtric由metricType指定的度量的阈值。numRules要发现的关联规则个数。outputItemSets是否在运行结果中输出项集。removeAllMissingCols是否去除均为缺失值的属性。significanceLevel设置卡方检验的显著性水平。重要性测试(仅用于置信度)。upperBoundMinSupport支持度阈值上界。从这个值开始迭代减小支持度阈值。verbose算法是否以冗余模式运行。FPGrowth算法参数64Delta同Apriori算法参数。doNotCheckCapababilities同Apriori算法参数。findAllRulesForSupportLevel是否提取满足支持度阈值和metricType所定义的度量阈值的所有关联规则。lowerBoundMinSupport同Apriori算法参数。maxNumberOfItems所产生的频繁项集的最大项的个数。metricType同Apriori算法参数。minMtric同Apriori算法参数。numRulesToFind要发现的规则数。同Apriori算法的numRules参数。positiveIndex指定二元变量属性的第几个为“正”(positive)值rulesMustContain指定只有这些项相关的关联规则才会输出的数据项transactionMustContain指定只有这些项相关的事务,才会被当作输入由FPGrowth算法处理的数据项upperBoundMinSupport同Apriori算法参数。useORForMustContainList是否对上述“MustContain”项运用OR关系而非AND关系。关联分析结果评估65关联分析结果评估66Associate·FPGrowth算法6768SelectAttributes属性选择SelectAttributes(属性选择)69SelectAttributes(属性选择)7071Visualize可视化Visualize(可视化)72小结ExplorerPreprocessClassifyClusterAssociateSelectattributesVisualize73第10章WEKA数据挖掘应用ExperimenterWEKAExperimenterExperimenter为使用者提供了一个进行算法试验的环境,完成对多种算法方案进行管理和统计检验及比较。Experimenter环境可以让用户可创建一个试验空间,配置实验场景(scheme),对一系列数据集运用多个算法进行处理,分析处理结果并进行比较,来判断算法对不同类型的数据集的适用性。75配置Experimenter76添加weather.numeric.arff和weather.nominal.arff数据集设置了J48决策树分类、Logisitic回归分类、Jrip基于规则和朴素贝叶斯分类算法,并设置算法参数指定实验结果的输出文件运行Experimenter77给出运行的状态(包括错误提示等)给出运行过程的结果分析运行结果78载入实验运行结果,即在设置模块中在ResultsDestination功能区所指定的文件第10章WEKA数据挖掘应用KnowledgeFlowKnowledgeFlowKnowledgeFlow为WEKA提供了一个图形化的“知识流”形式的界面。用户可以从一个工具栏中选择组件,把它们放置在面板上并按一定的顺序连接起来,这样组成一个KnowledgeFlow来处理和分析数据。80KnowledgeFlow81[例]决策树分类[例]决策树分类完成过程:加载数据指定类别属性确定训练数据集确定测试数据集指定算法并配置参数显示模型结果对模型进行评估显示评估结果82[例]决策树分类1.加载数据83使用数据载入器ArffLoader或CSVLoader

DatabaseLoaderweather.numeric.arff[例]决策树分类2.指定类别属性84[例]决策树分类3.确定训练数据集4.确定测试数据集85[例]决策树分类3.确定训练数据集4.确定测试数据集86或[例]决策树分类5.指定算法并配置参数87[例]决策树分类6.显示模型结果88[例]决策树分类7.对模型进行评估89[例]决策树分类8.显示评估结果90[例]决策树分类8.显示评估结果91小结通过图形化的处理过程的配置,可以记录处理的过程,并对不同的处理过程、方法和参数所得的不同结果进行对比分析和评估92第10章WEKA数据挖掘应用WEKAAPIWEKAAPIWEKA还定义了丰富的应用程序编程接口API。用户使用其他开发系统或语言的程序,可以非常方便地调用这些API来完成从数据加载(包括从文件进行加载或者从数据库进行加载)、数据的保存、数据的处理到数据的挖掘等各项任务。94WEKAAPI例如,从Arff文件中读取数据的基本读取方式为:Instancesdata=DataSource.read("data\\iris.arff");而从数据库中读取数据的基本方式可以是:InstanceQueryquery=newInstanceQuery();query.setDatabaseURL("jdbc:mysql://localhost:3306/new_schema");query.setUsername("root");query.setPassword("*******");query.setQuery("s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论