《数据挖掘原理与应用 第2版 》课件 10.2WEKA数据挖掘应用-Explorer_第1页
《数据挖掘原理与应用 第2版 》课件 10.2WEKA数据挖掘应用-Explorer_第2页
《数据挖掘原理与应用 第2版 》课件 10.2WEKA数据挖掘应用-Explorer_第3页
《数据挖掘原理与应用 第2版 》课件 10.2WEKA数据挖掘应用-Explorer_第4页
《数据挖掘原理与应用 第2版 》课件 10.2WEKA数据挖掘应用-Explorer_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章WEKA数据挖掘应用ExplorerExplorer2Explorer主界面3Preprocess(数据预处理)载入将要进行处理的数据,可进行适当选择和修改;Classify(分类)建立分类或回归模型,并进行测试;Cluster(聚类分析)从数据中建立聚类模型和结果;Associate(关联分析)从数据中学习关联规则;SelectAttributes(选择属性)通过对数据属性的评估来选择数据中最相关的属性;Visualize(可视化)

查看数据的二维散布图Preprocess·数据准备4WEKAExplorerPreprocessClassifyClusterAssociateSelectAttributesVisualize数据准备数据筛选数据可视化数据载入数据生成数据编辑数据转换5PreProcess预处理Preprocess(数据预处理)数据准备数据筛选数据属性选择数据可视化6Preprocess·数据准备7载入数据打开一个本地数据文件支持的格式主要包括:ARFFCSVC4.5JsonbinaryARFF数据文件WEKA软件安装好后,会提供一些以ARFF格式存放的实验数据可以在安装目录的data文件夹下找到(例如:C:\ProgramFiles\WEKA-3-9\data)8Preprocess·数据准备9请求一个存有数据的URL地址载入数据Preprocess·数据准备10从数据库中读取数据载入数据Preprocess·数据准备11从一些数据生成器(DataGenerators)中生成随机数据载入数据Preprocess·数据准备数据生成生成满足一定要求的实验数据单击主界面上的

按钮(a)数据生成的界面(b)选择数据生成算法(c)配置数据生成的参数(d)所生成的数据12Preprocess·数据准备13数据编辑查看和编辑数据Preprocess·数据准备14保存数据,可完成数据格式转换数据转换Preprocess·数据准备15数据转换Preprocess·数据筛选使用筛选器Filter来对数据进行数据类型变换数据属性筛选数据实例筛选等等16点击

Choose按钮,可选择某个Filter,选定的筛选器的名称显示在按钮右侧的文本框中点击

Apply按钮完成筛选Preprocess·数据可视化1718Classify分类分析Classify(分类分析)决策树分类贝叶斯分类器Logistic回归分类人工神经网络分类支持向量机分类基于规则的分类19Classify(分类分析)功能界面选择算法和参数设置测试选项运行结果列表运行结果细节运行状态20Classify·决策树分类J4821选择算法,设置参数Classify(J48)参数v3.8.022binarySplits:设置是否对Nominal类型的属性进行二叉分裂;默认值为False。collapseTree:设置是否按照使训练数据集上分类误差(ClassificationError)最小的原则进行剪枝。confidenceFactor:设置用于修剪的置信因子(小于该值导致修剪);默认值为0.25。debug:设置分类器运行时是否在控制台输出更为详细的的信息;默认值为False。Donotmakesplitpointactualvalue.minNumObj:设置决策树叶结点的最小实例数量,默认值为2。numFolds:设置将数据集分为的折数,其中1折将用于剪枝计算,剩余的用于生成决策树,默认值为2。reducedErrorPruning:设置是否使用REP剪枝,而非使用C4.5算法默认的EBP剪枝。seed:设置随机数生成器的种子值。所产生的随机数用于对REP剪枝所用的数据进行随机排列。useMDLcorrection:设置确定连续属性划分时,是否在使用MDL(MinimumDescriptionLength准则)方法修正。useLaplace:设置是否基于拉普拉斯平滑来进行叶结点计数;默认值为False。unpruned:设置是否不进行C4.5算法默认的EBP剪枝。saveInstanceData:设置是否保存训练数据,以便后续进行展示;默认值为False。subtreeRaising:设置C4.5的EBP剪枝是否也考虑和评估子树上升的修剪方法。TestOptions23Usetrainingset:设置使用训练数据集来对模型进行评估。Suppliedtestset:设置使用额外的测试数据集来对模型进行评估。TestOptions24Cross-validationFolds:设置使用n折交叉测试。TestOptions25Percentagesplit:设置按照一定的百分比将数据集划分为训练数据集和测试数据集来完成分析。TestOptions26Outputmodel:设置是否输出所建立的分类模型。Outputper-classstats:设置是否输出测试结果中各个类的统计信息。Outputentropyevaluatoinmeasures:设置是否输出基于熵的评估指标。Outputconfusionmatrix:设置是否输出混淆矩阵。Storepredictionsforvisualization:设置保存预测结果,以便随后进行可视化分析。RandomseedforXVal/%Split:设置交叉验证和按百分比划分训练和测试数据集时,随机划分的种子值。ResultList27Classify·贝叶斯分类器选择算法,设置参数28useKernelEstimator:设置是否对于数值型属性值使用核概率密度估计而非使用正态分布。useSupervisedDiscretization:设置是否使用带监督的离散化将Numeric属性值转换为Nominal类型。Classify·贝叶斯分类器查看运行结果29Classify·Logistic回归分类选择算法,设置参数30ridge:设置对数似然方程的ridge值。useConjugateGradientDescent:设置是否使用共轭梯度法(而不是BFGS算法)进行回归方程的优化求解计算(对于多系数的回归方程,较为快速)。maxIts:设置最大迭代次数。默认值为-1,表示不限定。Classify·人工神经网络分类选择算法,设置参数31Classify·人工神经网络分类32GUI:设置是否运行时弹出图形界面,显示人工神经网络的结构;默认值为False。autoBuild:设置是否自动添加网络中的连接和隐层。decay:设置是否用初始学习速率除以迭代次数来决定当前的学习速率。hiddenLayers:设置定义神经网络的各隐藏层中神经处理单元的数量。learningRate:设置神经网络的学习率。momentum:设置当更新weights时添加的动量nominalToBinaryFilter:设置是否将nominal值转换为二值的numeric类型。normalizeAttributes:设置是否对数据进行正则化(normalize)处理。normalizeNumericClass:设置是否对数值型分类属性值进行正则化。trainTime:设置对网络参数训练的次数。validationSetSize:设置测试数据集的大小比例。设为0表示不运用validationThreshold的作用(运用trainTime)。validationThreshold:设置测试停止条件阈值,为误差持续变坏的次数。reset:设置是否允许网络将学习率复位到较低的值,重新进行训练。Classify·支持向量机分类33Classify·基于规则的分类3435Cluster聚类分析Cluster聚类分析Kmeans层次聚类DBSCAN36Cluster·Kmeans聚类37Cluster·Kmeans聚类38

设置最低canopy密度,默认值2。如果用canopy聚类方法进行初始化,修剪时的canopy最低密度。设置修剪周期,默认值11。如果用canopy聚类方法进行初始化,修剪低密度canopies周期。设置canopy聚类T1半径,默认值-1.25。设置canopy聚类T2半径,默认值-1。设置是否为调试模式并输出调试信息,默认值False。设置是否显示标准差并统计标称类型属性各类别样本数目,默认值False。设置距离函数,默认值为EuclideanDistance,或选择其他距离函数。设置是否不检查适用范围,默认值为False。设置是否不替换缺失值,默认值为False。设置是否加速距离计算,默认值为False。Kmeans聚类参数Kmeans聚类参数39设置初始化质心的方法,默认值为Random。还可以设置为k-means++、canopy、farthestfirst。设置最大迭代次数,默认值500。设置簇的数目,默认值为2。设置运算执行线程数,默认值为1,。可以设置为可用CPU的数目。设置是否保持实例的原有顺序,默认值False。设置是否减少计算距离数目,默认值为False,指在进行canopy聚类初始化时,减少计算距离的数目。设置随机数种子,默认值为10。Kmeans聚类参数Cluster·Kmeans聚类40Cluster·层次聚类41Cluster·层次聚类42Cluster·DBSCAN聚类43Cluster·DBSCAN聚类4445Associate关联分析Associate(关联分析)Apriori算法FPGrowth算法46分析过程PreProcess载入数据(NormalBasket.ARFF)Associate选择算法AprioriFPGrowth设置算法参数AprioriFPGrowthStart运行评估结果47NormalBasket.ARFF48940instances11attributesApriori算法参数49car是否为基于分类属性的关联分析(需由classIndex指定分类属性)。classindex指定分类属性所在的列(-1为最后一列),仅当car=True时有效。delta支持度阈值由upperBoundMinSupport递减至直至lowerBoundMinSupport或产生了满足数量要求的规则的迭代步长。doNotCheckCapababilities是否不检查关联器的适用范围。lowerBoundMinSupport迭代过程中,支持度阈值下界。默认值为0.1。metricType关联规则度量指标类型。可以是置信度Confidence,提升度Lift,杠杆率Leverage,确信度Conviction。minMtric由metricType指定的度量的阈值。numRules要发现的关联规则个数。outputItemSets是否在运行结果中输出项集。removeAllMissingCols是否去除均为缺失值的属性。significanceLevel设置卡方检验的显著性水平。重要性测试(仅用于置信度)。upperBoundMinSupport支持度阈值上界。从这个值开始迭代减小支持度阈值。verbose算法是否以冗余模式运行。FPGrowth算法参数50Delta同Apriori算法参数。doNotCheckCapababilities同Apriori算法参数。findAllRulesForSupportLevel是否提取满足支持度阈值和metricType所定义的度量阈值的所有关联规则。lowerBoundMinSupport同Apriori算法参数。maxNumberOfIte

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论