聚类分析与判别分析 (一)_第1页
聚类分析与判别分析 (一)_第2页
聚类分析与判别分析 (一)_第3页
聚类分析与判别分析 (一)_第4页
聚类分析与判别分析 (一)_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录

1.聚类分析...................................................................2

1.1问题描述..................................................................2

1.2数据初步分析.............................................................2

1.3层次聚类..................................................................2

1.4结果解释..................................................................3

1.5聚类结果的验证与进一步分析..............................................5

1.6最终的类别特征描述.......................................................7

2.判别分析...................................................................7

2.1问题描述..................................................................7

2.2数据基本分析............................................................10

23判别分析.................................................................10

2.4结果分析................................................................10

2.5判别效果的验证..........................................................14

1.聚类分析

1.1问题描述

对16中饮料的热量、咖啡因、钠和价格四个变量作为数据进行聚类分析,

希望通过聚类分析的方法将相似的饮料找出米,即将16种饮料划分为若干

类别,从而更好的指导销售者制定销售计划,具体数据如下表L

表1:饮料数据

Numbercaloriecaffeinesodiumprice

1207.203.3015.502.80

236.805.9012.903.30

372.207.3()8.202.40

436.70.4010.504.00

5121.704.109.203.50

689.104.0010.203.30

7146.704.309.701.80

857.602.2013.602.10

995.90.08.501.30

10199.00.010.603.50

1149.808.0()6.303.70

1216.604.706.301.50

1338.503.707.702.00

14.04.2013.102.20

15118.804.707.204.10

16107.00.08.304.20

1.2数据初步分析

首先对数据进行初步的考察,对各个指标做简单描述性统计分析。

表2:DescriptiveStatistics

NMinimumMaximumMeanStd.Deviation

热量16.00207.2087.100060.90961

咖啡因16.008.003.55002.49212

钠166.3015.509.86252.72271

价格161.304.202.8563.96331

ValidN(listwise)16

从表2中可以看出4个指标的量纲基本不同,尤其以热量和价格的差距最为明

显,显示了数据量纲间有很强的差异性。为消除不同变量大小对聚类结果的影响,

有必要在聚类分析前对数据进行标准化处理。

1.3层次聚类

在SPSS中,实现层次聚类的过程步骤如下:

Analyze-Classify-HicrarchicalCluster:

Variables:caloriecaffeinesodiumprice

Labelcaseby:Number

Plots:Dendrogram

Method:

ClusterMethod:WardsMethods

TransformValues:Standardize:ZScores

Save:

ClusterMembership:Rangeofsolutions:3-8

在Method中,默认选择的是不对数据进行标准化,但在此例子中,采用

ZScores方法对数据进行标准化。

L4结果解释

层次聚类输出的聚类过程表(表3),它说明层次聚类过程中的每一个步骤是如

何进行的,一般来讲,步骤数为参加聚类的数据条数减1,在这里是15步。

表3的第1列列出了聚类过程的步骤号,第2列和第3列列出了在某一步骤中哪

些饮料参与了合并,例如在第一步中,饮料5和饮料6首先被合并在一起。第4列

列出了每一聚类步骤的聚类系数,这一数值表示被合并的两个类别之间的距离大

小。第5列和第6列表示参与合并的饮料是在第几步中第一次出现的,0表示第一

次出现在聚类过程中。第7列表示在这一步骤中合并的类别,下一次将在第几步

中与其他类别再进行合并。要注意,在聚类过程的描述中,往往一个记录号已经

不单单代表的是一个记录,而是一个类别。

表3;AgglomerationSchedule

StageClusterCombinedStageClusterFirstAppears

Cluster1Cluster2CoefficientsCluster1Cluster2NextStage

156.233004

21213.6450010

38141.436007

45152.4281011

54163.4550012

63114.7160011

7286.4790313

8798.5470010

911011.3160012

1071215.0008213

113518.8476414

121426.5999515

132735.26271014

142345.703131115

151260.00012140

聚类过程表中大部分内容并不是通常要关注的对象,因为在大部分实际应用

中,并不关心聚类的具体过程。但是当需要判断数据应该分成多少类别时,聚类

系数这一列却有着很好的参考价值。事实上,可以根据该系数的变化来判断数据

应该被分成多少类,当两个相邻步骤系数变化远大于前面相邻步骤变化时,便可

以大致确定应该将聚类过程进行到哪里的类别数是较为合适的。在这个例子中,

11步时聚类系数为18.847,比第10步大了3.847,而在12步时聚类系数为26.599,

比第11步大了近8,从统计意义上来说聚类过程结束于第12步是合理的;同时在

13,14,15步时,聚类系数同样比前一步骤大了很多,这说明数据被分成5类、3类

或是2类都是合理的,当然,这种方法只是起到一个参考作用,真正数据应该分

成多少类,还是需要分析者根据自己实际问题综合进行判断。

层次聚类产生的最重要的结果就是谱系图,通过谱系图可以非常直观地看出

整个聚类过程和结果。

在谱系图中,聚类的全过程以直观的方式表现出来,它把类间的最大距离算

做相对距离为25,其余的距离均换算成与之相比的相对距离大小。图形的左边代

表进行聚类的对象或是事物,而对象或者类别的合并则通过线条连接的方式来表

示,在这个例子中,对应的是这些饮料编号列在结果的最左边,而在结果的上部

列出的是类别见的相走距离,通过观察这个结果,可以将这些饮料分为若干个类

别。

DendrogramusingWardLinkage

RescaledDistanceClusterCombine

图1:谱系图

下面两种比较典型的聚类方案,分别聚成5类和3类。

表4:聚类方案

Case5Clusters3Clusters

1:111

2:222

3:333

4:441

5:533

6:633

7:752

8:822

9:952

10:1011

11:1133

12:1252

13:1352

14:1422

15:1533

16:164i

1.5聚类结果的验证与进一步分析

为了确定分成多少个类别合适,并且为各个类别命名,还需要对聚类结果进

行进一步的分析。

在进行聚类的过程中,总是理想化的希望每个类别包含的对象是差不多相等

的,但是从以上的分析可以看出,这几乎是不可能的,于是找出尽可能等分的分

类就是通常确定类别数目的原则之一。

当把16种饮料分为3-8类时各类的饮料个数如表5所示:

表5:各类的饮料总数

12345678

WardMelhod(8)13223212

WardMethod。)2322322

WardMcthod(6)232234

WardMcthod(5)23524

WardMethod(4)4354

WardMethod(3)475

从上表中,可以看出分成3类、4类、5类都是合适的,旦考虑类别不能过

少,并且每类的总数分布应该趋于正态分布,因此选择分成5类是相对合理的。

在确定的分成多少个类别以及每个类别中含有多少种饮料后,接下来最关心

的就是各个类别间是否有显著差异,以及各个类别具有怎样的特征,可以应用

SPSS中Means过程计算各个类别的描述统计量和各个类别中4个变量是否有显

著差异的方差分析表,结果如表5和表6所示:

表6:Report

Mean

WardMethod(5)热量咖啡因钠价格

1203.10001.650013.05003.1500

231.46674.100013.20002.5333

390.32005.62008.22003.4000

471.8500.20009.40004.1000

574.42503.17508.05001.6500

Total87.10003.55009.86252.8563

从表7中可以看出,各个类别热量、咖啡因、钠、价格等4个变量上都是有

显著差异的,且这种差异存在统计意义。

表7:ANOVATable

Sumof

SquaresdfMeanSquareFSig.

热里*WardMeUiod(5)BetweenGroups(Combined)37356.79349339.1985.616.010

WithinGroups18292.907111662.992

Total55649.70015

咖s卡因*WardMethod(5)BetweenGroups(Combined)52.560413.1403.560.043

WithinGroups40.601113.691

Total93.16015

讷*WardMethod⑸BetweenGroup5(Combined)80.795420.1997.308.004

WithinGroups30.403112.764

Total111.19815

价格*WardMethod(5)BetweenGroups(Combined)10.87842.7199.835,001

WithinGroups3.04211.277

Total13.91915

从表6中可以看出,各类之间的F检验在a=0.05的置信区间下,都是有显

著差异的,聚类效果明显。

1.6最终的类别特征描述

综合以上的分析,将16种饮料分为5类,并且总结出各个类别的特征如

下:

第1类:含高热量。热量要明显高于其他类别,包括第1、10两种饮料。

第2类:含钠成分高,价格一般。该类饮料含钠成分要明显高于其他类别,

包括第2、8和第种饮料。

第3类:咖啡因含量高,含钠成分偏高,价格也偏高,包括第3、5、6、11、

15种饮料。

第4类:咖啡因含量低,价格高的饮料。该类饮料的咖啡因含量明显低于其

他类别,同时价格要明显高于其他类别,包括第4、16种饮料。

第5类:价格低。该类饮料的价格要明显低于其他类别,包括第7、9、12、

13种饮料。

2.判别分析

2.1问题描述

我们希望用一套打分体系来描绘企业的状况,该体系对每个企业的一些

指标(变量)进行评分。这些指标包括:企业规模(is),服务(se),雇员工资比例

(sa),利润增长(prr),市场份额(ms),市场份额增长(msr),流动资金比例(cp),

资金周转速度(cs)等等。

另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。

我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别

之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分

类标准,以对没有被该刊物分类的企业进行分类。

该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳

定型,30个属于下降型。这个数据就是一个“训练样本”,具体如表8所示:

表8:data

groupissesapr「msmsrcpcs

143.208.5214.123.295.415.48.6

142.20.114.461.815.447.522.69.1

I20.110.7248.214.553.918.98.7

134.40.214.2123.821362.412.98.2

131.805.8268.12.860.124.99.4

122.70.212153.53.497.227.98.7

141.80.114.8140.31.853.612.28.4

137.80.215.41978.973.825.99.4

124.60.114.895.824.269.921.37.7

1220.215.8256.710.632.926.99.3

1180.27.4271.917.596.110.87.2

111.9015.816212.255.5137.1

141.70.115175.519335.324.17.8

11930.112.1217.78.889.214.48.2

143.20.37.2131.98.24612.29.3

113.40.2113161.518.268.313.89.4

1260.211.6185.912.876.724.87

1220.115.119011.759.829.87.1

17.201564.822.980.724.17

18.20.28115.19.632.615.58.9

19.60.115.278.313.140.414.29.4

1120.26.5175.213.666.910.18.1

1330.31312124.574.912.37.5

1290.218.894.11.394.724.79.2

140.40.313.2167545.625.69.7

122.50.219117.524.770.510.37.6

12606.493.24.89326.48.7

140.80.214.4291.89.93414.98.9

10.60.39.7225.921.777.726.38.5

133.60.2957.92.750.626.77.6

251.90.537.410.236.43.57.36.7

254.80.538.225.926.618.414.37.3

2640.459.716.625.913.313.96.5

237.90.321.3-3.232.138.113.95.7

246.20.714.2-817.949.515.86.5

2740.659.761.515.811.68.45

255.40.315.311.223.2258.55.6

265.90.342.6-2.434.544.46.65.7

274.20.428.743.921.132.216.45.4

263.60.517.526.438.414.119.37.7

253.90.32838.922.811.216.35

239.80.649.2-8.217.725.87.86.2

263.70.242.312.320.622.714.56.2

247.20.52441.432.33816.47.3

2660.547.4-1.528712.27.1

240.50.224.468.226.731.5196.5

235.70.533.617.81511.319.16.1

266.70.748.328.232.541.55.96.5

2640.338.756.231.71617.75.6

270.20.725.637.529.832.38.77.8

251.50.238.367.824.528.66.17.2

243.90.756.81.832.423.36.95.6

267.20.443.295.419.47.667

2570.718.1-4.828.1469.57

251.20.519.689.322.84.117.96.9

257.20.625.566.51934777

269.70.639.38816.135.415.45.3

236.30.310.725.238.48.36.25.6

243.70.546.482.519.513.16.77.4

267.10.651.998.320.72.510.25.3

372.90.675.47.737.87.29.22.2

382.90.661.3-35.839.110.37.66.1

378.10.754.4-10.9471.78.91.2

382.30.962.9-7738.619.41.1

387.60.758.4-8838.6-1.12.54.7

392.40.768.7-51.749.2-8.49.75.7

398.3152.5-34.746.87.68.15.2

394.30.951.6-64.639.4-2.353.1

369.50.851.2-60.845.214.28.24.3

397.60.86812.64318.67.41.7

389.4163.6-35.132.412.53.31.6

366.70.873.7-56.9377.33.62.9

396.91550.240.515.42.23.2

397.40.858.5-11.433-7.39.64.7

369.10.875.66.137.713.25.71.9

377.20.966-12.248.616.42.33.4

382.60.9587.230.44.42.12.2

395.10.863.5-39.546.16.57.35.6

378.30.773.8-9.648.211.18.75.3

365.20.579.3-42.542.75.58.71.5

370.50.879.58.840.317.78.14.4

395.10.851.6349.4-1.66.24.1

381.60.954-8445.618.86.54.3

397.60.862.1-24.230.712.154.8

392.90.764.5-13.339.87.24.95.5

3740.956.8-98.941.9359.96.4

387.30.66512.738.13.55.23.1

387.90.653.7-82.6463-7.434.2

389.70.673.7-17.834.1-6.85.82.6

378.10.957.9-4.132.3653.14.2

2.2数据基本分析

表9为所有变量做单因素的方差分析,其原假设是:该自变量在各组总体之

间没有差异。从表最后的Sig值可见,很明显各组之间存在差异,因此这些变量

对类间的判别是会起到作用的。

表9:TestsofEqualityofGroupMeans

Wilks'LambdaFdlldf2Sig.

服务.205168.241287.000

雇员工资比例.179199.700287.000

利润增长.256126.415287.000

市场份额.256126.148287.000

市场份额增长.271117.063287.000

流动资金比例.44155.040287.000

资金周转速度.252128.913287.000

企业规模.190185.828287.000

2.3判别分析

在SPSS中实现判别分析的过程步骤如下:

1)Analyze-Classify—Discriminant;

2)把group放入GroupingVariable,再定义范围,即在DefineRange输入1

—3的范围。然后在Independents输入所有想用的变量;但如果要用逐步

判别,则不选Enterindependentstogether,而选择Usestepwisemethod,

3)在方法(Method)中选挑选变量的准则(检验方法;默认值为Wilks'

Lambda)o

4)为了输出Fisher分类函数的结果可以在Statistics中的FunctionCoefficient

选Fisher和UnStandardized(点则判别函数系数),在Matrices中选择

输出所需要的相关阵;

5)还可以在Classify中的Display选summarytable,Leave-one-out

classification;注意在Classify选项中默认的PriorProbability为Allgroups

equal表示所有的类都平等对待,而另一个选项为Computefromgroup

sizes,即按照类的大小加权。

6)在Plots可选Combincd-groups,Territorialmap

在此例子中有8个变量,所以尝试使用逐步判别方法,剔除作用不明显的变

量。

2.4结果分析

最先输出的是描述统计,包括频数和缺失值的统计、总样本以及各组的均

值、标准差和有效案例个数等。

表10输出的是判别函数的特征根以及判别指数,特征根代表了携带信息量的

多少,而相应的判别指数(方差解释度)也是从特征根计算而来,可见本例中提取

了两个判别函数,且绝大部分信息都在第一个判别函数上。

上面分析可知第二个判别函数携带的信息量很少,而表"就是进一步对特

征根的显著性检验,实际上就是间接地检验判别函数有无统计意义,其原假设是:

各组的均值向量相等(即分组之间的重心是完全重合,无法进行判别区分的),两

个判别函数在卡方检验a=0.05的置信区间下都是显著的,即两个典型判别函数

都有意义,第二个判别函数应当保留。

表10;Eigenvalues

FunctionCanonical

Eigenvalue%ofVarianceCumulative%Correlation

126.673a99.099.0.982

2.262a1.0100.0.456

a.First2canonicaldiscriminantfunctionswereusedintheanalysis.

表11:Wilks'Lambda

TestofFunction(s)Wilks'LambdaChi-squaredfSig.

1through2.029298/8114.000

2.79219.5616.003

利用逐步判别分析法剔除了不显著的变量:流动资金比例,剩下7个变量进

入判别函数变量,如表12所示。在逐步判别的每一步,变量的Wilks,值小于总体

Wilks,值时,则该变量进入判别函数模型,否则剔除该变量。

表12:VariablesEntcrcd/Rcmovcda,b,v,d

StepWilks'Lambda

ExactF

EnteredStatisticdfldf2cf3Statisticdfldf2Sig.

i雇员工资比例.1791257.000199.700287.000.000

2服务.1012287.00092.1984172.000.000

3市场份额.0683257.00080.4056170.000.000

4市场份额增长.0494287.00073.7858168.000.000

5利润增长.0405287.00065.97110166.000.000

6资金周转速度.0346287.00060.54312164.000.000

7企业规模.0297287.00056.81814162.000.000

Ateachstep,thevariable(hatminimizestheoverallWilks'Lambdaisentered.

a.Maximumnumberofstepsis16.

b.MinimumpartialFtoenteris3.84.

c.MaximumpartialFtoremoveis2.71.

d.Flevel,tolerance,orVINinsufficientforfurthercomputaiion.

表13为两个判别函数中各个变量的标准化系数,可用来判断两个函数分别主

要受哪些变量的影响较大,同时可以写出标准化的判别函数表达式,本例中两个

典型判别函数如下:

表13:StandardizedCanonical

DiscriminantFunctionCoefficients

Function

12

服务(se).437.075

雇员工资比例(sa).368.406

利润增长(prr)-.333.554

市场份额(ms).461.326

市场份额增长(msr)-.355.668

资金周转速度(cs)-.436-.180

企业规模(is).415.062

DI=0.437zse+0.368zsa-0.333zprr+0.461zms-0.355zmsr-0.436zcs+0.415zis

D2=0.075zse+0.406zsa+0.554zprr+0.326zms+0.668zmsr-0.180zcs+0.062zis

变量名前加z表明是标准化之后的数值,实际上两个函数式计算的是各观测

在各个判别维度上的坐标值,这样就可以通过这两个函数式计算出各观测值的具

体空间位置。

表14给出的是判别得分和自变量之间的相美系数,在SPSS中用标识

出每个自变量中与每组判别得分中相关系数最大的一个函数,由表格可知,第一

判别函数与雇员工资比例、企业规模、服务、资金周转速度和市场份额这些自变

量相关,而市场份额增长和利润增长主要与第二判别函数相关,其中资金流动比

例变量是被剔除的变量。

表14:StructureMatrix

Function

12

雇员工资比例.413,.355

企业规模.400,-.010

服务.381,.069

资金周转速度-.332,-.325

市场份额.329'.226

流动资金比例a-.200'-.122

市场份额增长-.311.644,

利润增长-.326.521,

Pooledwithin-groupscorrelationsbetween

discriminatingvariablesandstandardized

canonicaldiscriminantfunctions

Variablesorderedbyabsoluteszeof

correlationwithinfunction.

*.Largestabsolutecorrelationbetween

eachvariableandanydiscriminant

function

a.Thisvariablenotusedintheanalysis.

表15给出的是各组的判别函数的重心,或者说是各组的判别得分的均值向量。

前面的判别函数的检验就是分别检验这两个向量在各组是否相等。在得知各类别

重心后,只需要为每个待判别个案求出判别得分,然后计算出该个案的散点离哪

一个中心最近,就可以得到该个案的判别结果了。

表15:FunctionsatGroup

Centroids

组别Function

12

1-6.293.343

2.151-.712

36.142.369

Unstandardizedcanonical

discriminantfunctionsevaluated

atgroupmeans

表16给出的是未标准化的判别系数,可以得出直接使用原始变量的判别函数,

在使用上更为方便。

D1=-3.166+3.283se+0.037sa—0.007prr+0.068ms—0.023msr—0.385cs+0.035is

D2=-4.384+0.567se+0.041sa+0.012prr+0.048ms+0.044msr-0.159cs+0.005is

表16:CanonicalDiscriminantFunction

Coefficients

Funciion

12

服务(se)3.283.567

雇员工资比例(sa).037.041

利润增长(prr)-.007.012

市场份额(ms).068.048

市场份额增长(msr)-.023.044

资金周转速度(c$)-.385-.159

企业规模(is).035.005

(Constant)-3.166-4.384

Unstandardizedcoefficients

表17给出了三个Fisher线性分类函数的系数。把每个观测点带入三个函数,

就可以得到分别代表三类的三个值,哪个值最大,该点就属于相应的那一类。当

然,用不着自己去算,计算机软件的选项可以把这些训练数据的每一个点按照这

里的分类法分到某一类。当然,我们一开始就知道这些训练数据的各个观测值的

归属,但即使是这些训练样本的观测值(企业)按照这里推导出的分类函数来分

类,也不一定全都能够正确划分。

表17:ClassificationFunctionCoefficients

组别

123

服务.77021.32941.616

雇员工资比例.345.542.811

利涧增长.086.029-.001

市场份额.355.7431.203

市场份额增长.368.173.081

资金周转速度7.5315.2202.742

企业规模.118.338.554

(Constant)-57.521-53.704-96.084

Fisher'slineardiscriminantfunctions

如果希望能直接观察到坐标空间的划分情况,则可以使用Classify子对话框中

的Plot框组进行结果的图形化展示,在本例中我们输出联合分布图。

联合分布图用于展示样本中各类别在判别空间中的分布情况,绘制出的揉合

分布图如图2所示:可以看到两条坐标轴由第一判别函数和第二判别函数构成,

可以看到在第一判别轴和第二判别轴上3个类别的企业都区分的很清楚。

CanonicalDiscriminantFunctions

组别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论