聚类分析与判别分析_第1页
聚类分析与判别分析_第2页
聚类分析与判别分析_第3页
聚类分析与判别分析_第4页
聚类分析与判别分析_第5页
已阅读5页,还剩23页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.聚类分析 21.1问题描述 2 21.3层次聚类 21.4结果解释 31.5聚类结果的验证与进一步分析 51.6最终的类别特征描述 72.判别分析 72.1问题描述 72.2数据基本分析 2.3判别分析 2.5判别效果的验证 1234567891.2数据初步分析N87.100060.90961咖啡因钠15.509.86252.722714.20在Method中,默认选择的是不对数据进行标准化,但在此例子中,采用ZScores方法对数据进行标准化。1.4结果解释层次聚类输出的聚类过程表(表3),它说明层次聚类过程中的每一个步骤是如何进行的,一般来讲,步骤数为参加聚类的数据条数减1,在这里是15步。表3的第1列列出了聚类过程的步骤号,第2列和第3列列出了在某一步骤中哪些饮料参与了合并,例如在第一步中,饮料5和饮料6首先被合并在一起。第4列列出了每一聚类步骤的聚类系数,这一数值表示被合并的两个类别之间的距离大小。第5列和第6列表示参与合并的饮料是在第几步中第一次出现的,0表示第一次出现在聚类过程中。第7列表示在这一步骤中合并的类别,下一次将在第几步中与其他类别再进行合并。要注意,在聚类过程的描述中,往往一个记录号已经不单单代表的是一个记录,而是一个类别。Cluster1Cluster21234567895854327173168954 1.4362.4283.4554.7166.4798.547000100000869000000300245472217327011步时聚类系数为18.847,比第10步大了3.847,而在12步时聚类系数为26.599,比第11步大了近8,从统计意义上来说聚类过程结束于第12步是合理的;同时在或是2类都是合理的,当然,这种方法只是起到一个做相对距离为25,其余的距离均换算成与之相比的相对距图1:谱系图下面两种比较典型的聚类方案,分别聚成5类和3类。5Clusters3Clusters112233413333522252113352522233411.5聚类结果的验证与进一步分析为了确定分成多少个类别合适,并且为各个类别命名,还需要对聚类结果进行进一步的分析。在进行聚类的过程中,总是理想化的希望每个类别包含当把16种饮料分为3-8类时各类的饮料个数如表5所示:12345678132232122322322232234235244354475从上表中,可以看出分成3类、4类、5类都是合适的,但考虑类别不能过少,并且每类的总数分布应该趋于正态分布,因此选择分成5类是相对合理的。的就是各个类别间是否有显著差异,以及各个类别具有怎样的特征,可以应用SPSS中Means过程计算各个类别的描述统计量和各个类别中4个变量是否有显著差异的方差分析表,结果如表5和表6所示:咖啡因钠12345Total从表7中可以看出,各个类别热量、咖啡因、钠、价FSig.WardMethodBetweenGroupsCombin4WardMethodBetweenGroupsCombine4钠*WardMethod(5)4WardMethodBetweenGroupsCombin4从表6中可以看出,各类之间的F检验在α=0.05的置信区间下,都是有显综合以上的分析,将16种饮料分为5类,并且总结出各个类别的特征如第1类:含高热量。热量要明显高于其他类别,包括第1、10两种饮料。第2类:含钠成分高,价格一般。该类饮料含钠成分要明显高于其他类别,包括第2、8和14种饮料。15种饮料。第4类:咖啡因含量低,价格高的饮料。该类饮料的咖啡因含量明显低于其他类别,同时价格要明显高于其他类别,包括第4、16种饮料。第5类:价格低。该类饮料的价格要明显低于其他类别,包括第7、9、12、13种饮料。2.判别分析我们希望用一套打分体系来描绘企业的状况,该体系对每个企业的一些我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳表8:datagroupsaprr101121101111111011111711071811111511011192222225222225222272222222267272277222233331333135333133133333333333353333333FSig.雇员工资比例市场份额增长流动资金比例资金周转速度 222222222)把group放入GroupingVariable,再定义范围,即在DefineRange输入1-3的范围。然后在Independents输入所有想用的变量;但如果要用逐步3)在方法(Method)中选挑选变量的准则(检验方法;默认值为Wilks'在此例子中有8个变量,所以尝试使用逐步判别方法,剔除作用不明显的变各组的均值向量相等(即分组之间的重心是完全重合个判别函数在卡方检验α=0.05的置信区间下都是显著的%ofVarianceCumulative%CanonicalCorrelation1226.673.262°TestofFunction(s)dfSig.26df3Sig.1234567雇员工资比例市场份额增长资金周转速度123456722222222468AteachstepthevariablethatminFleveltoleranceorVINinsuffici要受哪些变量的影响较大,同时可以写出标准化的判别函数表达式,本例中两个典型判别函数如下:12雇员工资比例(sa)市场份额(ms)资金周转速度(cs)企业规模(is).368.461 D1=0.437zse+0.368zsa-0.333zprr+0.461zms-0.355zmsr-0.4zcszisD2=0.075zse+0zsazprrZmszmsrzcszis变量名前加z表明是标准化之后的数值,实际上两个函数式计算的是各观测在各个判别维度上的坐标值,这样就可以通过这两个函数式计算出各观测值的具体空间位置。表14给出的是判别得分和自变量之间的相关系数,在SPSS中用“*”标识出每个自变量中与每组判别得分中相关系数最大的一个函数,由表格可知,第一判别函数与雇员工资比例、企业规模、服务、资金周转速度和市场份额这些自变量相关,而市场份额增长和利润增长主要与第二判别函数相关,其中资金流动比例变量是被剔除的变量。12雇员工资比例资金周转速度市场份额增长.400' .329' correlationwithinfunction.Centroids组别12123D1=-3.166+3.283se+0saprrmsmsrcsisD2=-4.384+0.567se+0saprrmsmsrcsis12服务(se)雇员工资比例(sa)利润增长(prr)市场份额(ms市场份额增长(msr)资金周转速度(cs)企业规模(is).037.068 归属,但即使是这些训练样本的观测值(企业)按照这里推导出的分类函数来分组别123雇员工资比例市场份额增长资金周转速度 图2:7组变量的联合分布图从表18可以看出,我们的分类能够100%地把训练数据的每一个观测值分到这里的判别结果是100%判别正确,但通常情况下不是100%正确。组别Total12323000000%123100.0100.02300000023

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论