WEKA聚类算法wine数据集分析研究报告(附代码数据)_第1页
WEKA聚类算法wine数据集分析研究报告(附代码数据)_第2页
WEKA聚类算法wine数据集分析研究报告(附代码数据)_第3页
WEKA聚类算法wine数据集分析研究报告(附代码数据)_第4页
WEKA聚类算法wine数据集分析研究报告(附代码数据)_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【原创】R语言案例数据分析报告论文〔附代码数据〕有问题到淘宝找“大数据部落”就可以了WEKAwine试验目的WEKA软件聚类分析有关过程命令,并且可以对数据处理结果进展正确推断分析,作出综合评价。试验数据178条记录。13个属性是13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是全部属性变量都是连续变量。:多变量记录数:178领域:物理:整数,实数属性数目: 13捐赠日期1991-07-01:分类无网站点击数: 337319MostPopularDataSets〔hitssince2023〕中的wine数据集,这13种不同成分的数量。13个属性,用决178个样本分成118个训练样本和60个测试样本,承受朴实贝叶斯分类算法,计算出先同时输出测试样本计算的正确率和错误率。13种不同成分的数量。13种成分分别为:Alcohol,Malicacid,Ash,Alcalinityofash,Magnesium,Totalphenols,Flavanoids,Nonflavanoidphenols,Proanthocyanins,Colorintensity,Hue,OD280/OD315ofdilutedwines,Prolinewine.data”文件中,每行代表一种酒的样本,共有59271348个样本。试验方法1【原创】R语言案例数据分析报告论文〔附代码数据〕有问题到淘宝找“大数据部落”就可以了未知的,故此,这是一个“无指导的学习”过程,它倾向于数据的自然划分。面信息给出聚类分析的争论热点、难点、缺乏和有待解决的一些问题等。FCMUCIMachineLearningRepositoryWINE数据集为根底,然后以WINE数据集在学习了解Weka软件接口方面的根底后作聚类分析,使用最常见的K均值〔即FCMK均值聚类的步骤。KK个类中心。然后:将每个实例安排到距它最近的类中心,得到K个类;重复〔1〕和〔2〕,K个类中心的位置都固定,类的安排也固定。simpleKmeans〔K均值聚类k均值算法,并通过对试验结果进展观看分析,找出试验中所存在的问题。然后再在学习了解Weka软件接口方面的根底上对Weka软件进展确定的扩展以参与的聚类算法来实现基于Weka平台的聚类分析。KKK果并不愿定完全可信。K均值算法的划分理论根底是i1

x vkAi k i2

〔1〕其中c是划分的聚类数,A是已经属于第i类的数据集vi

是相应的点到第i类的平均距离,即

Nixv k1 ki Ni

,xAk i

〔2〕Ni

A中的对象数。i算法的根本过程step1:K个对象作为初始的类的中心;step2:repeat;step3:依据类中的平均值,将每个数据点(重)赋给最相近的类;2【原创】R语言案例数据分析报告论文〔附代码数据〕有问题到淘宝找“大数据部落”就可以了step4:step5:until不再发生变化,即没有对象进展被重安排时过程完毕。FCMFCM算法也是一种基于划分的聚类算法,它的思想就是使得被划分到同一C均值算法是一般CCFCM则是具体算法之前我们先介绍一些模糊集合的根本学问。FCM-模糊集根本学问xA的程度的函数,通常记做A

x,其自变量范围是全部可能属于集合A的对象〔即A

x1。A

x1表x完全隶属于集合A,相当于传统集合概念上的xA。一个定义在空间XAX上本点隶属于每个类的隶属度就是0,1区间里面的值。FCM的算法理论1973年,Bezdek提出了该算法,并作为早期硬C均值聚类〔HCM〕方法的一种改进,命名为模糊CFCM是一种目标函数法。假设将样本空X要分为k个类,则类中心集Ccc1 2

,c,3

c使下式的目标函数值最小kminJm

n

m xij

c j

〔3〕k ij且有

i1j11 〔4〕j1,2, ,j1,2, ,kij其中U( )ij被称为模糊隶属度矩阵。ij

xi3

cj

m是模【原创】R语言案例数据分析报告论文〔附代码数据〕有问题到淘宝找“大数据部落”就可以了糊加权参数,用于把握在模糊类间的程度依据参考的文献中一般取值为1 应用拉格朗日乘法并基于上述约束可得到如下式ij 1ijD2

〔5〕c

m1ijDt1且

tj1ic,1jNNi

mxij mij

1ic 〔6〕Dij

Xj类中心Ci

j1的欧氏距离,即XiFCM

C 。jstep1:m和聚类数k,以及迭代的次数s和算法终止误差。step2:随机化置初始化聚类的中心Ct0。0step3:计算隶属度矩阵U可通过〔5〕式计算Us得来。step4:依据〔6〕式迭代计算聚类的中心C 。s1step5:检验Us1Us是否成立,成立则算法完毕否则goto step3。试验配置FCM模糊聚1~5之间在试验中设置如。也可以依据需要对其进展修改。FCMFCM算法需要两个参数一个是聚类数目cmc要c1m,它是一个把握算法的m过大,则聚类效果会很次,而假设m过小则算法会接近K均值聚类算法。算法的输出是c个聚类中心点向量和c*N的一个模糊划分矩阵,个类的平均特征,可以认为是这个类的中心代表。FCM算法是图像分割使用最多的方法之一,它的成功主要归功于为解决每4【原创】R语言案例数据分析报告论文〔附代码数据〕有问题到淘宝找“大数据部落”就可以了KFCM能够保存初始图像的更多信息。FCM对孤立点和其他人造图像格外敏感。基于weka数据的预处理从网站下载的WINE原始数据集wine.dataWeka软件需要的是ARFFWekaARFF文件格式的。转换过程如下可以将数据文件的名称改为wine.csv。然后,翻开Weka选择Tools选项下的ArffViewer如以以下图FileOpenfiles〔*.csv〕项。然后找到相应的文件后单击翻开后如以以下图5【原创】R语言案例数据分析报告论文〔附代码数据〕有问题到淘宝找“大数据部落”就可以了FileSaveas后弹出如以以下图在文件名栏输入相应的文件名后单击保存即可得到相应的arff格式的数据K将自动实施这个分类型到数值型的变换,而且WEKA会自动对数值型的数据作标准化。WEKAStringToWordVector过滤6【原创】R语言案例数据分析报告论文〔附代码数据〕有问题到淘宝找“大数据部落”就可以了ARFF文件中的文本数据转换为空间向量模型,它同时拥有分词、特征表ExplorerReprocessARFF文件,选择StringToWordVector过滤器,再设置相关参数。聚类过程Openfile后弹出如以以下图的数据集选WINE.arff数据集文件后翻开。chooseClusterClustererchooseWeka中供给的聚类算法ClustersSimpleKMeans,然后设置参数如以以下图7【原创】R语言案例数据分析报告论文〔附代码数据〕有问题到淘宝找“大数据部落”就可以了33K=3,下面的K返回。然后选中“ClusterMode”的“Usetrainingset”,点击“Start”按钮,观看右边“Clustereroutput”给出的聚类结果如下===Runinformation===Scheme: Weka.clusterers.SimpleKMeans-N3-A“Weka.core.EuclideanDistance-Rfirst-last“-I500-S10Relation: WINEDATInstances: 177Attributes: 148【原创】R语言案例数据分析报告论文〔附代码数据〕有问题到淘宝找“大数据部落”就可以了1.42E+011.71E+002.43E+001.56E+011.27E+022.80E+003.06E+002.80E-012.29E+005.64E+001.04E+003.92E+001.07E+031Testmode: evaluateontrainingdata===Modelandevaluationontrainingset===kMeans======Numberofiterations:7Withinclustersumofsquarederrors:49.6509106890353569【原创】R语言案例数据分析报告论文〔附代码数据〕有问题到淘宝找“大数据部落”就可以了Missingvaluesgloballyreplacedwithmean/modeClustercentroids:Cluster#Attribute FullData 0 1 2(177) (59) (49) (69)===================================================1.42E+0113.000613.730513.161212.26231.71E+002.33992.013.34451.90862.43E+002.36622.45852.43472.23861.56E+0119.516917.281421.438820.06381.27E+0299.5876106.542499.020494.04352.80E+002.29232.84861.67822.25263.06E+002.02342.97950.7982.07622.80E-010.36230.28880.45080.36232.29E+001.58691.89371.16311.62575.64E+005.05535.48957.34513.0581.04E+000.9571.06660.68591.05573.92E+002.60433.15071.69022.78621.07E+03 745.6781116.1017 627.551 512.82611 1.9435 1.0169 2.9796 2ClusteredInstances10【原创】R语言案例数据分析报告论文〔附代码数据〕有问题到淘宝找“大数据部落”就可以了059(33%)149(28%)269(39%)也可以在左下角“Resultlist”中这次产生的结果上点右键,“Viewinseparatewindow”在窗口中扫瞄结果。结果分析首先我们留意到结果中有这么一行:Withinclustersumofsquarederrors:49.650910689035356你得到的数值会不一样;实际上假设把“seed“参数改一下,得到的这个数值就可seed,并承受这个数值最小的那个结果。接下来“Clustercentroids:“之后列出了各个类中心的位置。对于数值型的属〔Mean〕;分类型的就是它的众数〔Mode〕,也就个类里的标准差〔StdDevs〕。最终的“ClusteredInstances“是各个类中实例的数目及百分比方下ClusteredInstances059(33%)149(28%)269(39%)实际的聚类各类中的实例安排如下NumberofInstancesclass159class271class348通过比照可以得出聚类的结果还是比较满足的。为了观看可视化的聚类结果,我们在左下方“Resultlist“列出的结果上右击,点“Visualizeclusterassignments“。弹出的窗口给出了各实例的散点图。最上方的11【原创】R语言案例数据分析报告论文〔附代码数据〕有问题到淘宝找“大数据部落”就可以了不同的类“Cluster“给实例标上不同的颜色,如以以下图“Save“把聚类ARFF文件。在这个的ARFF文件中,“instance_number“属性表示某实例的编号,“Cluster“属性表示聚类算法给出的该实例所在的类。试验扩展〔unsupervisedlearning〕,这learning〕相对的。所谓无监视学习就是在预先不知道WekaWeka的聚类算法来满足具体的试验需要。Weka中聚类的一般过程主要如下读入需推想样本初始化聚类算法〔并设置参数〕使用聚类算法对样本进展聚类打印聚类结果或许过程可实现如下Instancesins=null;InstancestempIns=null;12【原创】R语言案例数据分析报告论文〔附代码数据〕有问题到淘宝找“大数据部落”就可以了SimpleKMeansKM=null;DistanceFunctiondisFun=null;try{Filefile=newFile(“data.arff“);ArffLoaderloader=newArffLoader;loader.setFile(file);ins=loader.getDataSet;KM=newSimpleKMeans;KM.setNumClusters(2);KM.buildClusterer(ins);tempIns=KM.getClusterCentroids;System.out.println(“CentroIds:“+tempIns);}catch(Exceptione){e.printStackTrace;}首先读入样本过程比较简洁可以调用ArffLoader函数和setFile函数以及getDataSet函数等在构建聚类器时也是通过现有的类来实现的。SimpleKMean〕,所以需要有一个计算距离的公式常见的就是欧几里得距离了。SimpleKMeanWeka中供给了设置距离setDistanceFunction(DistanceFunctiondf),可以便利我们设置自己的距离计算方法。初衷是相背离的,所以在聚类之前我们要记住删除掉类别属性。ClusterEvaluation类来打印更多的信息。FCMWeka中的聚类算法如以以下图13【原创】R语言案例数据分析报告论文〔附代码数据〕有问题到淘宝找“大数据部落”就可以了Java包importweka.classifiers.rules.DecisionTableHashKey;importweka.core.Attribute;importweka.core.DistanceFunction;importweka.core.EuclideanDistance;importweka.c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论