《多元统计分析》(第6版)课件 第4章 判别分析_第1页
《多元统计分析》(第6版)课件 第4章 判别分析_第2页
《多元统计分析》(第6版)课件 第4章 判别分析_第3页
《多元统计分析》(第6版)课件 第4章 判别分析_第4页
《多元统计分析》(第6版)课件 第4章 判别分析_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025/12/15中国人民大学六西格玛质量管理研究中心1§4.1判别分析的基本思想§4.2距离判别§4.3Bayes判别§4.4Fisher判别§4.5逐步判别§4.6判别分析应用的几个例子第4章判别分析

2025/12/15中国人民大学六西格玛质量管理研究中心2目录上页下页返回结束第4章判别分析

本章介绍的判别分析来解决被解释变量是非度量变量的情形。在这种情况下,人们对于预测和解释影响一个对象所属类别的关系感兴趣,比如为什么某人是或者不是消费者,一家公司成功还是破产等。判别分析在主要目的是识别一个个体所属类别的情况下有着广泛的应用。2025/12/15中国人民大学六西格玛质量管理研究中心3目录上页下页返回结束第4章判别分析

潜在的应用包括预测新产品的成功或失败决定一个学生是否被录取按职业兴趣对学生分组确定某人信用风险的种类预测一个公司是否成功2025/12/15中国人民大学六西格玛质量管理研究中心4目录上页下页返回结束§4.1判别分析的基本思想

有时会遇到被解释变量是属性变量而解释变量是度量变量的问题,就需要选择一种合适的分析方法。比如,我们希望区分好和差的信用风险。如果有信用风险的度量指标,就可以使用多元回归。但我们可能仅能判断某人是在好的或者差的一类,这就不是多元回归分析所要求的度量类型。当被解释变量是属性变量而解释变量是度量变量时,判别分析是合适的统计分析方法。2025/12/15中国人民大学六西格玛质量管理研究中心5目录上页下页返回结束§4.1判别分析的基本思想

判别分析能够解决两组或者更多组的情况。当包含两组时,称作两组判别分析。当包含三组或者三组以上时,称作多组判别分析(Multiplediscriminantanalysis)。判别分析的假设条件判别分析最基本的要求是:分组类型在两组以上;在第一阶段工作是每组个案的规模必须至少在一个以上。解释变量必须是可测量的,才能够计算其平均值和方差,使其能合理地应用于统计函数。2025/12/15中国人民大学六西格玛质量管理研究中心6目录上页下页返回结束判别分析的假设一:每一个判别变量(解释变量)不能是其他判别变量的线性组合。即不存在多重共线性问题。假设二:各组变量的协方差矩阵相等。判别分析最简单和最常用的形式是采用线性判别函数,它们是判别变量的简单线性组合。在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。

§4.1判别分析的基本思想

2025/12/15中国人民大学六西格玛质量管理研究中心7目录上页下页返回结束假设三:是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。当违背该假设时,计算的概率将非常不准确。§4.1判别分析的基本思想

2025/12/15中国人民大学六西格玛质量管理研究中心8§4.2距离判别

目录上页下页返回结束

在距离判别中,由样品估计出各个总体(类)的均值和协方差阵,以待判样品到各总体(类)的距离大小作为待判样品的归属依据,故这种判别方法不要求上述假设二和假设三成立。2025/12/15中国人民大学六西格玛质量管理研究中心9§4.2距离判别

目录上页下页返回结束4.2.1两总体情况

设有两个总体G1和G2,x是一个p维样品,若能定义样品到总体G1和G2的距离d(x,G1)和d(x,G2),则可用如下的规则进行判别:

若样品x到总体G1的距离小于到总体G2的距离,则认为样品x属于总体G1;

反之,则认为样品x属于总体G2;

若样品x到总体G1和G2的距离相等,则待判。2025/12/15中国人民大学六西格玛质量管理研究中心10目录上页下页返回结束§4.2距离判别

这个准则的数学模型可描述如下:

2025/12/15中国人民大学六西格玛质量管理研究中心11目录上页下页返回结束§4.2距离判别

这里,μ1,

μ2,Σ1,Σ2分别为总体G1和G2的均值和协方差阵。当总体不是正态总体时,有时也可以用马氏距离来描述x到总体的远近。

2025/12/15中国人民大学六西格玛质量管理研究中心12§4.2距离判别

目录上页下页返回结束

于是判别规则可表示为:2025/12/15中国人民大学六西格玛质量管理研究中心13§4.2距离判别

目录上页下页返回结束

2025/12/15中国人民大学六西格玛质量管理研究中心14§4.2距离判别

目录上页下页返回结束

2025/12/15中国人民大学六西格玛质量管理研究中心15§4.2距离判别

目录上页下页返回结束4.2.2多总体情况1.协差阵相同

2025/12/15中国人民大学六西格玛质量管理研究中心16§4.2距离判别

目录上页下页返回结束4.2.2多总体情况1.协差阵相同

2025/12/15中国人民大学六西格玛质量管理研究中心17§4.2距离判别

目录上页下页返回结束2.协差阵不相同

2025/12/15中国人民大学六西格玛质量管理研究中心18§4.2距离判别

目录上页下页返回结束

判别规则为:2025/12/15中国人民大学六西格玛质量管理研究中心19§4.2距离判别

目录上页下页返回结束

2025/12/15中国人民大学六西格玛质量管理研究中心20§4.3Bayes判别

目录上页下页返回结束

贝叶斯(Bayes)统计的思想是:假定对研究对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。将贝叶斯思想用于判别分析,就得到贝叶斯判别。

设有k个总体G1,G2,…,Gk,分别具有p维密度函数p1(x),p2(x),…,pk(x),已知出现这k个总体的先验分布为q1,q2,…,qk,我们希望建立判别函数和判别规则。2025/12/15中国人民大学六西格玛质量管理研究中心21§4.3Bayes判别

目录上页下页返回结束用D1,D2,…,Dk表示Rp的一个划分,即D1,D2,…,Dk互不相交,且D1∪D2∪…∪Dk=Rp。如果这个划分取得适当,正好对应于k个总体,这时判别规则可以表示为:

x∈Gi,x落入Di,i=1,2,…,k问题是如何获得这个划分。用c(j|i)表示样品来自Gi而误判为Gj的损失,这一误判的概率为:

p(j|i)=∫Djpi(x)dx于是由以上判别规则,所带来的平均损失2025/12/15中国人民大学六西格玛质量管理研究中心22§4.3Bayes判别

目录上页下页返回结束

2025/12/15中国人民大学六西格玛质量管理研究中心23§4.4Fisher判别

目录上页下页返回结束

2025/12/15中国人民大学六西格玛质量管理研究中心24§4.4Fisher判别

目录上页下页返回结束

令a为Rp中的任一向量,u(x)=a'x为x向以a为法线方向的投影,这时,上述数据的投影为:

它正好组成一元方差分析的数据,其组间平方和为:2025/12/15中国人民大学六西格玛质量管理研究中心25§4.4Fisher判别

目录上页下页返回结束

2025/12/15中国人民大学六西格玛质量管理研究中心26§4.4Fisher判别

目录上页下页返回结束

|B-λE|=02025/12/15中国人民大学六西格玛质量管理研究中心27§4.4Fisher判别

目录上页下页返回结束的最大特征根.设l1,l2,…,lr为相应的特征向量,当a=l1时,可使Δ(·)达到最大。由于Δ(a)的大小可衡量判别函数u(x)=a'x的效果,故称Δ(a)为判别效率。

综上所述,得到如下定理。

定理4.1费歇准则下的线性判别函数u(x)=a'x的解a为方程|B-λE|=0的最大特征根λ1所对应的特征向量l1,且相应的判别效率为Δ(l1)=λ1。

在有些问题中,仅用一个线性判别函数不能很好地区分各个总体,可取λ2对应的特征向量l2,建立第二个判别函数l'2x。如还不够,可建立第三个线性判别函数l'3x,依此类推。2025/12/15中国人民大学六西格玛质量管理研究中心28§4.4Fisher判别

目录上页下页返回结束

迄今为止,我们仅仅给出了费歇准则下的判别函数,没有给出判别规则。前面曾讲过,在费歇准则下的判别函数并不唯一,若u(x)=l'x为判别函数,则au(x)+β为与u(x)

具有相同判别效率的判别函数。不唯一性对于制定判别规则并没有妨碍,我们可从中任取一个。一旦选定了判别函数,根据它就可以确定判别规则。

关于费歇判别具体的性质、详细的数学证明及推导可参见参考文献[2]。2025/12/15中国人民大学六西格玛质量管理研究中心29§4.5逐步判别

目录上页下页返回结束

在多元回归中,变量选择的好坏直接影响回归的效果,而在判别分析中也有类似的问题。如果在某个判别问题中,忽略了最主要的指标,由此建立的判别函数效果一定不好。但是,在许多问题中,事先并不十分清楚哪些指标是主要的。这时,是否将有关的指标尽量收集加入计算才好呢?理论和实践证明,指标太多,不仅带来大量的计算,而且许多对判别无作用的指标反而会产生干扰而影响判别效果,有时还会增加错判次数。

因此,适当筛选变量就成为一件很重要的事情。2025/12/15中国人民大学六西格玛质量管理研究中心30§4.5逐步判别

目录上页下页返回结束

凡具有筛选变量能力的判别方法统称为逐步判别法。和通常的判别分析一样,逐步判别也有许多不同的原则,从而产生各种方法。有关逐步判别法的理论基础详见参考文献[1][2]所讨论指标的附加信息检验。

逐步判别的原则为:

2025/12/15中国人民大学六西格玛质量管理研究中心31§4.5逐步判别

目录上页下页返回结束落入接受域,如果不显著,则表明一个变量也选不中,不能用判别分析;如果显著,则进入下一步。(2)在未选中的变量中,计算它们与已选中的变量x1配合的Λ值。选择使Λ1·i(2≤i≤m)

达到最小的变量作为第二个变量。这样,如已选中了r个变量,不妨设为x1,x2,…,xr,则在未选中的变量中逐次选一个与它们配合,计算Λ1,2,…,r·l(r<l≤m),选择使其达到极小的变量作为第r+1个变量,并检验新选的第r+1个变量能否提供附加信息,如果不能则转入(4),否则转入(3)。(3)在已选中的r个变量中,要考虑较早选的变量其重要性2025/12/15中国人民大学六西格玛质量管理研究中心32§4.5逐步判别

目录上页下页返回结束有没有较大的变化,应及时剔除不能提供附加信息的变量。剔除的原则等同于引进的原则。例如在已进入的r个变量中要考察xl(1≤l≤r)是否应剔除,就是计算Λl·1,…,l-1,l+1,…,r,选择达到极小(大)的l,看是否显著,如不显著则将该变量剔除,继续考察余下的变量是否需要剔除,如显著则回到(2)。(4)这时既不能选入新变量,又不能剔除已选中的变量,利用已选中的变量建立判别函数。有关逐步判别的计算方法和案例可参见参考文献[1][2]。2025/12/15中国人民大学六西格玛质量管理研究中心33§4.6判别分析应用的几个例子

目录上页下页返回结束判别分析的逻辑框图如下:

2025/12/15中国人民大学六西格玛质量管理研究中心34目录上页下页返回结束图4.1判别分析步骤框图

§4.6判别分析应用的几个例子

下面用SPSS软件中的Discriminant模块来实现判别分析§4.6判别分析应用的几个例子

定义新的变量y为被解释变量,用“1”代表Setosa鸢尾花,用“2”代表Versicolor鸢尾花,用“3”代表Virginica鸢尾花,将萼片长(sepallength)、萼片宽(sepalwidth)、花瓣长(petallength)和花瓣宽(petalwidth)四个变量作为解释变量。使用SPSS软件中的Analyze→Classify→Discriminant,就进入了判别分析的对话框。分组变量(GroupingVariable)选择y,然后定义其区域,最小值是1,最大值是3。解释变量(Independents)选择sepal.length,sepal.width,petal.length和petal.width。§4.6判别分析应用的几个例子

保存(Save)选项中可以选择预测的分类、判别得分以及所属类别的概率。如果采用逐步判别法,我们还可以选择判别的方法(Method)。得到分析结果如下(见输出结果4-1)。

输出结果4—1分析的是各组的描述统计量和对各组均值是否相等的检验。第1张表反映的是有效样本量及变量缺失的情况。第2张表是各组变量的描述统计分析。第3张表是对各组均值是否相等的检验。由第3张表可以看出,在0.01的显著性水平上我们拒绝变量萼片长(sepallength)、萼片宽§4.6判别分析应用的几个例子

(sepalwidth)、花瓣长(petallength)和花瓣宽(petalwidth)在三组的均值相等的假设,即认为变量萼片长(sepallength)、萼片宽(sepalwidth)、花瓣长(petallength)和花瓣宽(petalwidth)在三组的均值是有显著差异的。§4.6判别分析应用的几个例子

§4.6判别分析应用的几个例子

§4.6判别分析应用的几个例子

输出结果4-2是对各组协方差矩阵是否相等的Box’sM检验。第1张表反映协方差矩阵的秩和行列式的对数值。它显示各协方差阵的秩均为4,为满秩矩阵。由行列式的对数值可以看出,协方差矩阵不是病态矩阵。第2张表是对各总体协方差阵是否相等的统计检验。由F值及其显著性水平,我们在0.05的显著性水平下拒绝原假设(原假设假定各总体协方差阵相等)。因此,在分类(Classify)选项中的协方差矩阵选择可以考虑采用Separate-groups,以检验采用Within-groups和Separate-groups两种协方差所得出§4.6判别分析应用的几个例子

出的结果是否存在显著差异。如果存在显著差异,就应该采用Separate-groups协方差矩阵;反之,则采用Within-groups协方差矩阵。

下面是费歇判别分析结果。输出结果4-3分析的是典型判别函数。§4.6判别分析应用的几个例子

§4.6判别分析应用的几个例子

第1张表反映判别函数的特征根、解释方差的比例和典型相关系数。第一判别函数解释了99.1%的方差,第二判别函数解释了0.9%的方差,两个判别函数解释了全部方差。第2张表是对两个判别函数的显著性检验。由WilksLambda检验,认为两个判别函数在0.05的显著性水平下是显著的。§4.6判别分析应用的几个例子

输出结果4-4显示的是判别函数、判别载荷和各组的重心

第1张表是标准化的判别函数,表示为:y1=-0.427sepal.length*-0.521sepal.width*+0.947petal.length*+0.575petal.width*y2=0.012sepal.length*+0.735sepal.width*-0.401petal.length*+0.581petal.width*

这里*表示标准化变量,标准化变量的系数也就是前面所讲的判别权重。§4.6判别分析应用的几个例子

第2张表是结构矩阵,即判别载荷。由判别权重和判别载荷可以看出,哪些解释变量对判别函数的贡献较大。§4.6判别分析应用的几个例子

第3张表是非标准化的判别函数,表示为:y1=-2.105-0.829sepal.length-1.534sepal.width+2.201petal.length+2.810petal.widthy2=-6.661+0.024sepal.length+2.165sepal.width-0.932petal.length+2.839petal.width我们可以根据这个判别函数计算每个观测的判别Z得分。

第4张表是反映判别函数在各组的重心。根据结果,判别函数在y=1这一组的重心为(-7.608,0.215),在y=2这一组的重心为(1.825,-0.728),在y=3这一组的重心为(5.783,0.513)。这样,我们就可以根据每个观测的判别Z得分对观测进行分类。§4.6判别分析应用的几个例子

§4.6判别分析应用的几个例子

下面是基于先验概率的贝叶斯判别结果。输出结果4-5是分类的统计结果。第1张表概括了分类过程,说明150个观测都参与分类。§4.6判别分析应用的几个例子

第2张表说明各组的先验概率,我们在Classify选项中选择的是所有组的先验概率相等。§4.6判别分析应用的几个例子

第3张表是每组的分类函数(区别于典型判别函数),也称费歇线性判别函数.

由表中的结果可以说明:y=1这组的分类函数是

f1=-86.308+23.544sepal.length+23.588sepal.width-16.431petal.length-17.398petal.width§4.6判别分析应用的几个例子

y=2这组的分类函数是

f2=-72.853+15.698sepal.length+7.073sepal.width+5.211petal.length+6.434petal.widthy=3这组的分类函数是

f3=-104.368+12.446sepal.length+3.685sepal.width+12.767petal.length+21.079petal.width

我们可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。§4.6判别分析应用的几个例子

第4张表是分类矩阵表。§4.6判别分析应用的几个例子

PredictedGroupMembership表示预测的所属组关系,Original表示原始数据的所属组关系,Cross-validated表示交叉验证的所属组关系,这里交叉验证是采用“留一个在外”的原则,即每个观测是通过除了这个观测以外的其他观测推导出的判别函数来分类的。由第4张表可以看出,通过判别函数预测,有147个观测是分类正确的,其中,y=1组50个观测全部被判对,y=2组50个观测中有48个观测被判对,y=3组50个观测中有49个观测被判对,从而有147/150=98%的原始观测被判对。§4.6判别分析应用的几个例子

在交叉验证中,y=1组50个观测全部被判对,y=2组50个观测中有48个观测被判对,y=3组50个观测中有49个观测被判对,从而交叉验证有147/150=98%的原始观测被判对。还可以通过分类结果分析判对和判错的百分比。最后为分类结果图(见图4-2),可以看到,Setosa鸢尾花与Versicolor鸢尾花和Virginica鸢尾花可以很清晰地区分开,而Versicolor鸢尾花和Virginica鸢尾花这两种之间存在重合区域,即存在误判。§4.6判别分析应用的几个例子

§4.6判别分析应用的几个例子

我们还可以通过保存(Save)选项选择预测的类别关系和判别得分等,对观测进行诊断。

由前面分析发现,协方差矩阵不等,可以考虑采用Separate-groups协方差矩阵。选择Separate-groups协方差矩阵,其他选择同上,得到分类结果如下(见输出结果4-6和图4-3)。§4.6判别分析应用的几个例子

由输出结果4-6中的表可以看出,通过判别函数预测,有146个观测是分类正确的,其中,y=1组50个观测全部被判对,y=2组50个观测中有47个观测被判对,y=3组50个观测中有49个观测被判对,从而有146/150=97.3%的原始观测被判对。§4.6判别分析应用的几个例子

§4.6判别分析应用的几个例子

图4-3为分类结果图,可以看到,Setosa鸢尾花与Versicolor鸢尾花和Virginica鸢尾花可以很清晰地区分开,而Versicolor鸢尾花和Virginica鸢尾花这两种之间存在重合区域,即存在误判。

由输出结果4-6可以看出,采用Separate-groups协方差矩阵与采用Within-groups协方差矩阵的预测效果没有明显的差别,因此,可以采用Within-groups协方差矩阵来进行判别。2025/12/15中国人民大学六西格玛质量管理研究中心63§4.6判别分析应用的几个例子

联合国开发计划署发表的2016年人类发展报告中公布了世界大部分国家和地区的人类发展指数,并将人类发展水平划分为极高、高、中等和低四个等级,本例分别用1,2,3,4来表示这四个等级。人类发展指数是基于出生时预期寿命(岁)、预期受教育年限(年)、平均受教育年限(年)和人均国民总收入(国际元/人)指标计算得到的。现采用这四个指标作为判别指标,并选取报告中公布了人类发展水平等级的20个国家和地区(未选择人类发展水平低的国家),试图建立判别函数,然后判定中国内地和中国香港分别属于哪个等级。判别指标的原始数据及已有的相应分类如表4-1所示例4-22025/12/15中国人民大学六西格玛质量管理研究中心64§4.6判别分析应用的几个例子

序号国家和地区出生时预期寿命(X1)预期受教育年限(X2)平均受教育年限(X3)人均国民总收入(X4)等级1挪威81.717.712.76761412瑞士83.116.013.45636413美国79.216.513.25324514英国80.816.313.33793115韩国82.116.612.23454116意大利83.316.310.93357317乌拉圭77.415.58.61914828马来西亚74.913.110.12462029巴拿马77.813.09.919470210土耳其75.514.67.918705211墨西哥77.013.38.616383212巴西74.715.27.814145213秘鲁74.813.49.011295214泰国74.613.67.914519215印度尼西亚69.112.97.910053316巴勒斯坦73.112.88.95256317菲律宾68.311.79.38395318南非57.713.010.312087319印度68.311.76.35663320巴基斯坦66.4

8.15.1503131中国香港84.215.711.654265

2中国内地76.013.57.613345

表4-1

2015年人类发展水平数据2025/12/15中国人民大学六西格玛质量管理研究中心65§4.6判别分析应用的几个例子

本例中组数k=3,判别指标p=4,各类中样本量分别为n1=6,n2=8,n3=6,待判样品个数为2。计算总体协方差阵的估计矩阵的逆为

由于SPSS中的判别分析没有距离判别这一方法,因此距离判别法无法在SPSS中直接实现,我们使用R语言编程,分别计算每个样品到G1,G2,G3类的马氏距离,然后2025/12/15中国人民大学六西格玛质量管理研究中心66§4.6判别分析应用的几个例子

比较3个距离的大小并将其归入距离最小的类。20个国家和地区的回判结果以及中国内地和中国香港两个待判样品的判别结果如表4-2所示。由表4-2可知,中国内地被判为第2类,属于高人类发展水平,中国香港被判为第1类,属于极高人类发展水平,与人类发展报告公布的结果一致,而且回判的误判率为0,说明本例使用距离判别法建立的判别函数是有效的。2025/12/15中国人民大学六西格玛质量管理研究中心67§4.6判别分析应用的几个例子

国家和地区原类别最小距离及归类正误判标志(正=0;误=1)挪威17.79710瑞士12.49410美国11.13110英国12.53410韩国12.58110意大利13.48810乌拉圭22.12620马来西亚22.87120巴拿马23.18920土耳其21.29120墨西哥20.47020巴西22.85520秘鲁21.18220泰国20.74520印度尼西亚31.55530巴勒斯坦35.89130菲律宾31.71630南非311.39930印度31.92230巴基斯坦310.76430中国香港待判3.0753091

中国内地待判0.7925182

表4-2所有样品的判别结果这里顺便指出,回判的误判率并不是“误判概率”,而且前者通常要小些,回判情况仅供使用时参考。2025/12/15中国人民大学六西格玛质量管理研究中心68§4.6判别分析应用的几个例子

从系统聚类法的谱系图图3-18、图3-19和图3-20可知,若将2022年全国31个省、自治区、直辖市城镇居民的人均消费支出水平划分为2类,则北京和上海为一类,其余地区为一类。现将广东和西藏作为待判样品,具体分类数据如表4-3所示。

试建立费歇线性判别函数,并将广东和西藏两个待判省区归类。例4-32025/12/15中国人民大学六西格玛质量管理研究中心69§4.6判别分析应用的几个例子

X1食品烟酒支出X2衣着支出X3居住支出X4生活用品及服务支出X5交通通信支出X6教育文化娱乐支出X7医疗保健支出X8其他用品及服务支出地区X1X2X3X4X5X6X7X8Group北京9644.51977.418604.82322.54260.53271.54304.01231.71天津9873.91759.88175.41926.84164.42839.93811.61271.72河北7104.41641.06374.31625.13139.22211.92338.8636.62山西6006.81555.24943.11354.82647.12371.32442.2602.02内蒙古7208.42003.66008.11561.34233.52534.42340.7777.02辽宁8426.51781.25677.41539.03188.52712.32466.4861.02吉林6406.01497.54829.31139.52776.82238.22377.5570.12黑龙江7240.61636.15099.61167.22884.72490.52798.9693.42上海12880.31763.518298.72211.84611.93313.73719.31311.51江苏9967.62022.410983.42198.05281.13284.12839.11220.02浙江12105.62465.511890.12685.26791.14237.72864.51471.42安徽8924.91762.36078.81631.12910.02877.81933.6713.92福建11144.81768.610679.11913.53949.13375.72064.3797.02江西8102.11440.95828.01580.63319.32909.22185.7609.72山东7702.81987.66354.62220.93966.83332.42339.6650.32河南6681.01637.25357.11509.82916.82597.82220.1619.62湖北8783.61771.16586.01628.23834.73265.32538.4713.62湖南8443.51894.66031.61924.54069.34006.02562.0648.62广西7172.3905.34760.41250.43032.72791.12097.0428.82海南9656.8914.46663.71145.83375.12564.01615.0482.82重庆10100.92190.65841.82030.33745.23139.92697.9827.22四川9358.51764.55557.51806.43467.22638.52343.1701.62贵州7572.51673.44352.11513.83786.12906.11876.2549.82云南8090.51469.26029.01478.33258.32699.72610.2604.72陕西6796.51554.55701.01638.43031.02566.02832.4646.12表4-3

2022年31个地区城镇居民人均消费水平划分数据单位:元2025/12/15中国人民大学六西格玛质量管理研究中心70§4.6判别分析应用的几个例子

地区X1X2X3X4X5X6X7X8Group甘肃7530.31759.46006.01523.93334.82470.52005.1577.12青海7187.71532.34457.61253.43028.01527.42156.1557.82宁夏6943.81720.34734.41600.43330.42833.32481.2569.52新疆7811.41615.34438.01407.93137.01947.62773.61011.52广东12129.81381.49925.71905.84888.53747.82019.2937.8

西藏9109.22663.56171.52164.24614.01411.81342.0789.2

续表

在SPSS中进行费歇判别分析是十分快捷的。

首先按照表4-3把数据输入SPSS数据表中,然后依次点击Analyze→Classify→Discriminant,打开DiscriminantAnalysis对话框,将对话框左侧变量列表中的Group选入GroupingVariable框,并点击DefineRange,在弹出的2025/12/15中国人民大学六西格玛质量管理研究中心71§4.6判别分析应用的几个例子

DiscriminantAnalysis:DefineRange对话框中,定义判别原始数据的类别区间,本例为两类,故在Minimum处输入1,在Maximum处输入2,点击Continue返回DiscriminantAnalysis对话框。再从对话框左侧的变量列表中将8个变量选入Independents框,作为判别分析的基础数据变量。点击Statistics,弹出DiscriminantAnalysis:Statistics对话框,在Descriptives栏中选Means项,要求对各组的各变量做均值与标准差的描述;在FunctionCoefficients栏中选Unstandardized项(注意,不是Fisher’s项),要求显示费歇2025/12/15中国人民大学六西格玛质量管理研究中心72§4.6判别分析应用的几个例子

判别法建立的非标准化系数。之后,点击Continue返回DiscriminantAnalysis对话框。点击Save,弹出DiscriminantAnalysis:Save对话框,选Predictedgroupmembership项要求将回判的结果存入原始数据库中。点击Continue返回DiscriminantAnalysis对话框,其他项目不变,点击OK即完成分析。

分析结果如输出结果4-7所示,可以看到各组均值、标准差、协方差阵等描述统计结果以及判别函数。回判结果如表4-4所示,可以看到判别结果已经作为一个新的变量被保存,广东和西藏均被划分为第二类.2025/12/15中国人民大学六西格玛质量管理研究中心73§4.6判别分析应用的几个例子

另外,根据原29个地区的回判结果可知,没有出现误判,回判准确率很高。GroupMeanStd.DeviationValidN(listwise)UnweightedWeighted1X19042.6001374.898422.000X22238.900571.483722.000X312672.000769.332222.000X42189.600454.528222.000X54762.700445.760122.000X64294.100338.562722.000X72734.850148.563122.000X81121.35027.223622.000输出结果4-7

GroupStatistics2025/12/15中国人民大学六西格玛质量管理研究中心74§4.6判别分析应用的几个例子

2X16219.3371161.92612727.000X21705.056367.54292727.000X34265.4851035.99502727.000X41308.322212.29772727.000X52920.152669.68012727.000X62419.000414.39122727.000X71624.448351.98212727.000X8519.670139.21622727.000TotalX16414.0451360.59902929.000X21741.872395.03832929.000X34845.2452391.12022929.000X41369.100317.61392929.000X53047.224805.79722929.000X62548.317630.37352929.000X71701.028444.77782929.000X8561.166205.17892929.0002025/12/15中国人民大学六西格玛质量管理研究中心75§4.6判别分析应用的几个例子

GroupX1X2X3X4X5X6X7X81X11890345.680-785732.0401057753.600-624930.160-612874.880465489.360204259.220-37429.700X2-785732.040326593.620-439660.800259755.480254744.640-193483.080-84901.41015557.850X31057753.600-439660.800591872.000-349683.200-342937.600260467.200114294.400-20944.000X4-624930.160259755.480-349683.200206595.920202610.560-153886.320-67526.14012373.900X5-612874.880254744.640-342937.600202610.560198702.080-150917.760-66223.52012135.200X6465489.360-193483.080260467.200-153886.320-150917.760114624.72050297.940-9216.900X7204259.220-84901.410114294.400-67526.140-66223.52050297.94022071.005-4044.425X8-37429.70015557.850-20944.00012373.90012135.200-9216.900-4044.425741.1252X11350072.16757475.636882691.851118834.795465123.658203424.077-6737.91974307.576X257475.636135087.78078701.83255496.80998760.67266431.36882062.52240168.093X3882691.85178701.8321073285.663108681.785542771.720256115.86518761.12378143.489X4118834.79555496.809108681.78545070.29672511.11347391.94329208.02420927.284X5465123.65898760.672542771.72072511.113448471.480198259.05077587.62863622.064X6203424.07766431.368256115.86547391.943198259.050171720.10539397.23330159.471X7-6737.91982062.52218761.12329208.02477587.62839397.233123891.40029826.198X874307.57640168.09378143.48920927.28463622.06430159.47129826.19819381.161TotalX11851229.534125539.7732435775.633253491.037755957.827557575.820209520.657180630.839X2125539.773156055.241355825.94292096.830166218.451121345.905112590.17459215.394X32435775.633355825.9425717455.923581111.9291521838.3441295406.319642277.517408185.179X4253491.03792096.830581111.929100878.587182554.321148405.11889787.56955137.127X5755957.827166218.4511521838.344182554.321649309.083408471.254205742.499133237.237X6557575.820121345.9051295406.319148405.118408471.254397370.784176845.244102704.757X7209520.657112590.174642277.51789787.569205742.499176845.244197827.28871982.018X8180630.83959215.394408185.17955137.127133237.237102704.75771982.01842098.375CovarianceMatricesa

a.Thetotalcovariancematrixhas28degreesoffreedom.2025/12/15中国人民大学六西格玛质量管理研究中心76§4.6判别分析应用的几个例子

Function

1

X1-.000639X2-.001325X3.001545X4.001959X5-.001496X6.000341X7.001173X8.002039(Constant)-3.212915CanonicalDiscriminantFunctionCoefficientsUnstandardizedcoefficients2025/12/15中国人民大学六西格玛质量管理研究中心77§4.6判别分析应用的几个例子

地区X1X2X3X4X5X6X7X8GroupDis_1北京9644.51977.418604.82322.54260.53271.54304

1231.711天津9873.91759.88175.41926.84164.42839.93811.61271.722河北7104.41641

6374.31625.13139.22211.92338.8636.622山西6006.81555.24943.11354.82647.12371.32442.2602

22内蒙古7208.42003.66008.11561.34233.52534.42340.7777

22辽宁8426.51781.25677.41539

3188.52712.32466.4861

22吉林6406

1497.54829.31139.52776.82238.22377.5570.122黑龙江7240.61636.15099.61167.22884.72490.52798.9693.422上海12880.31763.518298.72211.84611.93313.73719.31311.511江苏9967.62022.410983.42198

5281.13284.12839.11220

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论