多元统计分析6章_第1页
多元统计分析6章_第2页
多元统计分析6章_第3页
多元统计分析6章_第4页
多元统计分析6章_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、PAGE PAGE 99第六章 判别分析6.1 什么是判别分析判别分析是判别样品所属类型的一种统计方法,其应用之广可与加归分析媲美。在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在

2、农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。正因为如此,判别分析和聚类分析往

3、往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别

4、方法即距离判别法、Fisher判别法、Bayes判别法和逐步判别法。6.2 距离判别法基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。距离判别法,对各类(或总体)的分布,并无特定的要求。1 两个总体的距离判别法设有两个总体(或称两类)G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品测量p个指标如下页表。今任取一个样品,实测指标值为,问X应判归为哪一类?首先计算X到G1、G2总体的距离,分别记为和,按距离最近准则判别归类,则可写成:G1总体: G2总体: 变量样品

5、变量样品均值均值记如果距离定义采用欧氏距离,则可计算出然后比较和大小,按距离最近准则判别归类。由于马氏距离在多元统计分析中经常用到,这里斟对马氏距离对上述准则做较详细的讨论。设、,、分别为G1、G2的均值向量和协有效期阵。如果距离定义采用马氏距离即这时判别准则可分以下两种情况给出:(1)当时考察及的差,就有:令则判别准则可写成:当已知时,令则显然,W(X)是的线性函数,称W(X)为线性判别函数,a为判别系数。当未知时,可通过样本来估计。设来自Gi的样本,I=1,2。其中 线性判别函数为:当p=1时,若两个总体的分布分别为和,判别函数,不妨设。这时时,判。我们看到用距离判别所得到的准则是颇为合理

6、的。但从下图又可以看出,用这个判别法有时也会得出错判。如X来自G1,但却落入D2,被判为属G2,错判的概率为图中阴影的面积,记为,类似有,显然=。当两总体靠得很近(即|小),则无论用何种办法,错判概率都很大,这时作判别分析是没有意义的。因此只有当两个总体的均值有显著差异时,作判别分析才有意义。(2)当时按距离最近准则,类似地有:仍然用作为判别函数,它是X的二次函数。2 多个总体的距离判别法类似两个总体的讨论推广到多个总体。设有k个总体G1, , Gk,它们的均值和协差阵分别为,从每个总体Gi中抽取ni个样品,i=1,k,每个样品测p个指标。今任取一个样品,实测指标值为,问X应判归为哪一类?G1

7、总体: Gk总体: 变量样品 变量样品均值均值记向量(1)当时此时判别函数为:相应的判别准则为:当,未知时可用其估计量代替,设从Gi中抽取的样本为,则,的估计分别为其中 为Gi的样本离差阵。(2)当不相等时此时判别函数为:相应的判别准则为:当未知时,可用的估计量代替,即例1 人文发展指数是联合国开发计划署于1990年5月发表的第一份人类发展报告中公布的。该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示指标分别要用出生时的预期寿命、成人识字率和实际人均GDP,将以上三个指示指标的数值合成为一个复合指数,即为人文发展指数。资料来源:UNDP人类发展报告1995年。

8、今从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品,另选四个国家作为待判样品作距离判别分析。数据选自世界经济统计研究1996年第1期类别序号国家名称出生时的予期寿命(岁)x1成人识字率(%)1992x2调正后人均GDP1992x3第一类(高发展水平国家)12345美国日本瑞士阿根廷阿联酋7679.57872.173.899999995.977.753745359537252425370第二类(中等发展水平国家)678910保加利亚古巴巴拉圭格鲁吉亚南非71.275.37072.862.99394.991.29980.6425034123390230

9、03799待判样品11121314中国罗马尼亚希腊哥伦比亚68.569.977.669.379.396.993.890.31950284052335158本例中变量个数p=3,两类总体各有5个样品,即,有4个待判样品,假定两总体协差阵相等。两组线性判别的计算过程如下: (2)计算样本协差阵,从而求出类似地经计算 (3)求线性判别函数W(X)解线性方程组得(4)对已在类别的样品判别分类对已知类别的样品(通常称为训练样品)用线性判别函数进行判别归类,结果如下,全部判对。样品号判别函数W(X)的值原类号判归类别1234510.545112.697211.83236.8118.815311111111

10、11678910-2.4716-7.0898-10.7842-18.3788-11.97422222222222判别分析是假设两组样品取自不同总体,如果两个总体的均值向量在统计上差异不显著,作判别分析意义就不大。所谓判别效果的检验就是检验两个正态总体的均值向量是否相等,根据第三章3.1可知检验的统计量为:其中 将上边计算结果代入统计量后可得:故在检验水平下,两总体间差异显著,即判别函数有效。(6)对待判样品判别归类结果如下表:样品号国 家判别函数W(X)的值判别类别11121314中 国罗马尼亚希 腊哥伦比亚-24.47899-15.5813510.294434.182892211简短分析:回

11、代率为百分之百,这与统计资料的结果相符,而待判的四个样品的判别结果表明:中国、罗马尼亚为中等发展水平国家即第二类,希腊、哥伦比亚为高发展水平国家即第一类,这是符合当时实际的,即与当时世界各国人文发展指数的水平相吻合。例2 对全国30个省市自治区1994年影响各地区经济增长差异的制度变量:x1经济增长率(%)、x2非国有化水平(%)、x3开放度(%)、x4市场化程度(%)作判别分析。资料来源:经济理论与经济管理1998年第1期类别序号地区x1x2x3x4第一组1辽宁11.257.2513.4773.412河北14.967.197.8973.093天津14.364.7419.4172.334北京1

12、3.555.6320.5977.335山东16.275.5111.0672.086上海14.357.6322.5177.357浙江2083.9415.9989.58福建21.868.0339.4271.99广东1978.3183.0380.7510广西1657.1112.5760.9111海南11.949.9730.769.2第二组12黑龙江8.730.7215.4160.2513吉林14.337.6512.9566.4214内蒙古10.134.637.6862.9615山西9.156.3310.366.0116河南13.865.234.6964.2417湖北15.355.626.0654.7

13、418湖南1155.558.0267.4719江西1862.886.458.8320甘肃10.430.014.6160.2621宁夏8.229.286.1150.7122四川11.462.885.3161.4923云南11.628.579.0868.4724贵州8.430.236.0355.5525青海8.215.968.0440.2626新疆10.924.758.3446.0127西藏15.621.4428.6246.01待判样品28江苏16.580.058.8173.0429安徽20.681.245.3760.4330陕西8.642.068.8856.37(1)两类地区各变量的均值(2)计

14、算样本协差阵,从而求出和(3)求线性判别函数解线性方程组得经计算(4)对已知类别的样品回判由于为第一组,为第二组。样品序号W(X) 原类号回归组别10.9801571121.5031031131.8850841141.2728981152.0553511162.6450241176.2970841184.1458541198.4611641110-0.6665912111.0552431112-2.725142213-0.753782214-2.363462215-0.832162216-0.483752217-2.309532218-0.502152219-0.896632220-3.193

15、432221-5.105072222-1.346272223-1.379982224-4.187442225-7.423092226-5.650372227-3.952322上述回判结果表明,第一组中只有第10个样品判组号为2,与原组号不同,其余样品与原分组号相同;第二组中的各样品回判组号都是2,即与原组号完全相同。我们仔细研究第10号样品广西的指标数据,可以看到它有可能是属于原分经且时的错分样品。总的回代判对率达96.3%。(5)对待判样品判别归类,结果如下:样品序号W(X)判归类别282.3278251290.475173130-3.318292待判样品中江苏和安徽被判属第一组,陕西被判属

16、第二组,这与实际情况较吻合。6.3 费歇(Fisher)判别法Fisher判别法是1936年提出来的,该法对总体的分布并未提出什么特定的要求。1 不等协差阵的两总体Fisher判别法(1)基本思想:从两个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想造一个判别函数或称判别式:,其中系数、确定的原则是使两组间的区别最大,而使每个组内部的离差最小。有了判别式后,对于一个新的样品,将它的p个指标值代入判别式中求出y值,然后与判别临界值(或称分界点后面给出)进行比较,就可以判别它应属于哪一个总体。(2)判别函数的导出假设有两个总体G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n

17、2个样品,每个样品观测p个指标,列表如下:G1总体: G2总体: 变量样品 变量样品均值均值假设新建立的判别式为,今将属于不同两总体的样品观测值代入判别式中去,则得:对上边两式分别左右相加,再乘以相应的样品个数,则有: 第一组样品的“重心” 第二组样品的“重心”为了使判别函数能够很好地区别来自不同总体的样品,自然希望:i)来自不同总体的两个平均值相差愈大愈好。ii)对于来自第一个总体的要求它们的离差平方和愈小愈好,同样也要求愈小愈好。综合以上两点,就是要求: 愈大愈好。记为两组间离差。为两组内的离差。则利用微积分求极值的必要条件可求出使I达到最大值的。为此将上式两边取对数:令 则 即 而 其中

18、 而 其中从而即令是常数因子,不依赖于k,它对方程组的解只起到共同扩大倍的作用,不影响它的解之间的相对比例关系。对判别结果来说没有影响,所以取=1,于是方程组:即写成矩阵形式为:所以 值得说明的是:本书有几处利用极值原理求极值时,只给出必要条件的数学推导,而有关充分条件的论证省略了,因为在通常遇到的实际问题中,根据问题本身的性质就能肯定有最大值(或最小值),如果所求的驻点只有一个,这时就不需要根据极值存在的充分条件判定它是极大还是极小而就能肯定这唯一的驻点就是所求的最大值(或最小值),为了避免用到较多的数学知识或数学上的推导,这里不追求数学上的完整性。有了判别函数之后,欲建立判别准则还要确定判

19、别临界值(分界点)y0,在两总体先验概率相等的假设下,一般常取y0为与的加权平均值即如果由原始数据求得与满足,则建立判别准则为:对一个新样品代入判别函数中去所得值记为y,若yy0,则判定(见图一);若yy0,则判定。如果,则建立判别准则为:若yy0,则判定(见图二);若yy0,则判定(注:为直观起见,给出两个正态总体等方差情况下的图形)。(3)计算步骤i)建立判别函数求的最大值点,根据极值原理,需解方程组可得到,写出判别函数。ii)计算判别临界值,然后根据判别准则对新样品判别分类。iii)检验判别效果(当两个总体协差阵相同且总体服从正态分布)。检验统计量:其中给定检验水平a, 查F分布表,确定

20、临界值,若,则被否定,认为判别有效。否则认为判别无效。值得指出的是:参与构造判别式的样品个数不宜太少,否则会影响判别式的优良性;其次判别式选用的指标不宜过多,指标过多不仅使用不方便,而且影响预报的稳定性。所以建立判别式之前应仔细挑选出几个对分类特别有关系的指标,要使两类平均值之间的差异尽量大些。例1 利用距离判别法中例1的人文发展指数的数据作Fisher判别分析。(1)建立判别函数利用前例计算的结果,可得Fisher判别函数的系数、为所以判别函数为(2)计算判别临界值y0由于 所以 (3)判别准则判别准则为(4)对已知类别的样品判别归类序号国 家判别函数y的值原类号判归类别1美 国12.212

21、2112日 本12.4812113瑞 士12.3731114阿根廷11.7450115阿联酋11.9960116保加利亚10.5851227古 巴10.0078228巴拉圭9.5460229格鲁吉亚8.59682210南 非9.397322上述回判结果表明:总的回代判对率为100%,这与统计资料的结果相符,而且与前面用距离判别法的结果也一致。(5)对判别效果作检验由于所以在检验水平下判别有效。(6)待判样品判别结果如下:序号国 家判别函数y的值判属类别11中 国7.8342212罗马尼亚8.9464213希 腊12.1809114哥伦比亚11.41691判别结果与实际情况吻合。例2 用距离判别

22、法中例2的制度变量对30个省市自治区作Fisher判别分析。(1)建立判别式经计算得:判别式为(2)求判别临界值y0,对所给样品判别分类由于,当样品代入判别工后,若,则判为第一组;若,则判为第二组。回判结果如下:样品序号y值原类号回判组别10.7108141120.7317311130.7470111140.7225231150.7538211160.7774081170.9234911180.8374411191.01005411100.64494412110.71381711120.56260222130.64145622140.57706922150.63832122160.652257

23、21170.57922622180.65152122190.636574222200.5438722210.46740522220.61775722230.61640822240.5041122250.37468422260.44559322270.51351522等判样品判别结果样品序号y值判属组号280.764721290.6906141300.5388753上述回判结果表明,第一组的第10号仍被回判为第2组,说明第10号样品确为误分。而第二组的第16号被回判为第一组,仔细研究其指标,发现其数据介于第1组和第2组之间,差别不显著造成的。总的回代判对率为25/27=92.59%。关于待判的三

24、个样品的判别结果与用距离判别法的相同,说明其判别结果是比较好的。2 多总体Fisher判别法类似两总体Fisher判别法可给出多总体Fisher判别法。设有k个总体G1, , Gk,抽取样品数分别为,令。为第i个总体的第a个样品的观测向量。假定所建立的判别函数为其中 记和分别是总体内x的样本均值向量和样本协差阵,根据求随机变量线性组合的均值和方差的性质可知,在上的样本均值和样本方差为记为总的均值向量,则。在多总体情况下,Fisher准则就是要选取系数向量c,使达到最大,其中是人为的正的加权系数,它可以取为先验概率。如果取,并将代入上式可化为:其中E为组内离差阵,A为总体之间样本协差阵,即为求的

25、最大值,根据极值存在的必要条件,令,利用对向量求导的公式:因此 这说明及c恰好是A、E矩阵的广义特征根及其对应的特征向量。由于一般都要求加权协差阵E是正定的,因此由代数知识可知,上式非零特征根个数m不超过min(k-1,p),又因为A为非负定的,所以非零特征根必为正根,记为,于是可构造m个判别函数:定义为:m0个判别函数的判别能力定义为:如果m0达到某个人定的值(比如85%)则就认为m0个判别函数就够了。有了判别函数之后,如何对待判的样品进行分类?Fisher判别法本身并未给出最合适的分类法,在实际工作中可以选用下列分类法之一去作分类。(1)当取m0=1时(即只取一个判别函数),此时有两种可供

26、选用的方法i)不加权法若则判ii)加权法将按大小次序排列,记为,相应判别函数的标准差重排为。令则可作为与之间分界点。如果x使得,则判。(2)当取时,也有类似两种供选用的方法i)不加权法记对待判样品,计算若则判。ii)加权法考虑到每个判别函数的判别能力不同,记其中是由求出的特征根。若则判。6.4 贝叶斯(Bayes)判别法从上节看到Fisher判别法随着总体个数的增加,建立的判别式也增加,因而计算起来还是比较麻烦的。如果对多个总体的判别考虑的不是建立判别式,而是计算新给样品属于各总体的条件概率。比较这k个概率的大小,然后将机关报样品判归为来自概率最大的总体,这种判别法称为Bayes判别法。1 基

27、本思想Bayes判别法的基本思想总是假定对所研究的对象已有一定的认识,常用先验概率来描述这种认识。设有k个总体G1, G2, , Gk,它们的先验概率分别为(它们可以由经验给出也可以估出)。各总体的密度函数分别为:(在离散情形是概率函数),在观测到一个样品x的情况下,可用著名的Bayes公式计算它来自第g总体的后验概率(相对于先验概率来说,将它又称为后验概率):并且当 时,则判X来自第h总体。有时还可以使用错判损失最小的概念作判决函数。这时把x错判归第h总体的平均损失定义为其中称为损失函数。它表示本来是第g总体的样品错判为第h总体的损失。显然上式是对损失函数依概率加权平均或称为错判的平均损失。

28、当h=g时,有;当时,有。建立判别准则为如果则判定x来自第h总体。原则上说,考虑损失函数更为合理,但是在实际应用中不容易确定,因此常常在数学模型中就假设各种错判的损失皆相等,即这样一来,寻找h使后验概率最大和使错判的平均损失最小是等价的,即2 多元正态总体的Bayes判别法在实际问题中遇到的许多总体往往服从正态分布,下面给出p元正态总体的Bayes判别法。(1)判别函数的导出由前面叙述已知,使用Bayes判别法作判别分析,首先需要知道待判总体的先验概率和密度函数(如果是离散情形则是概率函数)。对于先验概率,如果没有更好的办法确定,可用样品频率代替,即令,其中为用于建立判别函数的已知分类数据中来

29、自第g总体样品的数目,且,或者干脆令先检概率相等,即,这时可以认为先验概率不起作用。p元正态分布密度函数为:、式中和分别是第g总体的均值向量(p维)和协差阵(p阶)。把代入的表达式中,因为我们只关心寻找使最大的g,而分式中的分母不论g为何值都是常数,故可改令取对数并去掉与g无关的项,记为则问题化为(2)假设协方差阵相等中含有k个总体的协方差阵(逆阵及行列式值),而且对于x还是二次函数,实际计算时工作量很大。如果进一步假定k个总体协方差阵相同,即,这时中和两项与g无关,求最大时可以去掉,最终得到如下形式的判别函数与判别准则(如果协方差阵不等,则有非线性判别函数);上式判别函数也可以写成多项式形式

30、:此处 (3)计算后验概率作计算分类时,主要根据判别式的大小,而它不是后验概率,但是有了之后,就可以根据下式算出:因为其中是中与g无关的部分。所以 由上式知使y为最大的h,其必为最大,因此我们只须把样品x代入判别式中:分别计算,。若则把样品x归入第h总体。例1 继续用前面距离判别法例1的人文发展指数的数据作Bayes判别分析。这里组数k =2,指标数p =3, n1 = n2 = 5代入判别函数:得两组的判别函数分别为:将原各组样品进行回判结果如下:样品序号原类号判别函数值判别函数值回判类别后验概率11326.2073315.663011.000021345.9698333.273511.00

31、0031337.7240325.892611.000041298.3032291.492910.998951307.7082298.893910.999962258.5374261.009720.922272254.2452261.335820.999282221.8201232.604921.000092202.9712221.350221.0000102191.8280203.802721.0000回判结果表明,总的回代判对率为100%,这与统计资料的结果相符,并与前面的距离判别法、Fisher判别法的结果也相同。样品序号国 家判别函数值判别函数值后验概率判属类号11中 国160.9455

32、185.42521.0000212罗马尼亚202.2739219.59391.0000213希 腊329.3008319.00730.99997114哥伦比亚277.7460273.56380.98501待判样品的结果表明,判属类别与前面的判属类别完全相同,即中国、罗马尼亚属于第二类,希腊、哥伦经亚属于第一类。继续用前面距离判别法例2的制度变量的数据作Bayes判别分析。由前知: 两组的判别函数分别为:判别原则:若样品的,则属于第一组;若,则属于第二组。回判结果如下:样品序号原组号回判组号后验概率146.153845.92303110.646905249.130348.37659110.755

33、545347.1404446.00474110.819119447.4513246.92781110.71058546.9109645.60499110.842992656.4183654.52272110.90639774.6020669.05436110.997328857.4050854.00861110.977493958.3922850.6805110.9996921037.3750338.79102110.7390981142.9994342.69357110.6638611232.5993636.07388220.9568861348.8247550.32792220.75555

34、61437.9665241.07936220.9392411532.6657334.24727220.7697421635.7629136.99605220.7023361728.4881731.54708220.9360891838.4788339.73073220.7061671936.4025338.04855220.780972036.5561940.49901220.9725652119.5386225.39307220.9958472228.4723130.56796220.8482532350.3219152.45129220.8525422426.2965131.2333322

35、0.989668259.55110817.72358220.999592619.2299925.62974220.9975882727.4302932.13198220.986965Bayes法的回判结果与距离判别法的结果是一样的,其判对率为96.3%。待判样品判别结果如下:样品序号判属组号后验概率2847.3285145.7500710.8289832936.8516437.1258520.5681273023.4642927.5319720.983171在Bayes法下,关于待判的三个样品的判别结果:江苏判属于第一组,安徽和陕西判属于第二组。其中,安徽的判属组别与前两种方法不一样,这与方法

36、本身有差异有关,但也与安徽的数据有关,其数据介于一组和二组之间,差别不显著。6.5 逐步判别法前面介绍的判别方法都是用已给的全部变量来建立判别式的,但这些变量在判别式中所起的作用,一般来说是不同的,也就是说各变量在判别式中判别能力不同,有些可能起重要作用,有些可能作用低微,如果将判别能力低微的变量保留在判别式中,不仅会增加计算量,而且会产生干扰影响判别效果,如果将其中重要变量忽略了,这时作出的判别效果也一定不好。如何筛选出具有显著判别能力的变量来建立判别式呢?由于筛选变量的重要性,近三十年来有大量的文章提出很多种方法,这里仅介绍一种常用的逐步判别法。1 基本思想逐步判别法与逐步回归法的基本思想

37、类似,都是采用“有进有出”的算法,即逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,如果其判别能力随新引入变量而变为不显著了(例如其作用被后引入的某几个变量的组合所代替),应及时从判别式中把它剔除去,直到判别式中没有不重要的变量需要剔除,而剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束。这个筛选过程实质就是作假设检验,通过检验找出显著性变量,剔除不显著变量。2 引入剔除变量所用的检验统计量设有k个正态总体,它们有相同的协方差阵。因此如果它们有产左别也只能表现在均值向量上,今从k个总体分别抽取个样品,;,令。今作统计假设如果接受这个假设,说明这k

38、个总体的统计差异不显著,在此基础上建立的判别函数效果肯定不好,除非增加新的变量。如果H0被否定,说明这k个总体可以区分,建立判别函数是有意义的,根据第三章3.1检验H0的似然比统计量为其中 由的定义可知:,而、的大小分别反映了同一总体样本间的差异和k个总体所有样本间的差异。因此,值越小,表明相同总体间的差异越小,相对地,样本间总的差异越大,即各总体间有较大差异,因此对给定的检验水平a,应由分布确定临界值,使当时拒绝H0,否则H0相容。这里标下角标是强调有p个变量。由于Wilks分布的数值表,一般书上没有,所以常用下面的近似公式:Bartlett近似式:Rao近似式这里根据Rao近似式给出引入变

39、量和剔除变量的统计量。为此先复习线性代数的一个定理。设这里A11、A22是方阵且非奇异阵,则另外在筛选变量过程中,要计算许多行列式,在建立判别函数时往往还要算逆矩阵,因此需要有一套方便的计算方法,这就是消去变换法(见后面附录)。(1)引入变量的检验统计量假定计算l步,并且变量已选入(L不一定等于l),今考察第l+1步添加一个新变量x1的的判别能力,此时将变量分成两组,第一组为前L个已选入的变量,第二组仅有一个变量xr,此时L+1个变量的组内离差阵和总离差阵仍分别为E和T。其中 其中 由于 其中(注意:上式行列式里是一个数,所以可去掉行列式符号,又r相当于2。)同理其中于是即所以将上式代入Rao

40、近似式中得到引入变量的检验统计量:若,则x1判别能力显著,我们将判别能力显著的变量中最大的变量(即使Ar为最小的变量)作为入选变量记为。值得强调的是:不管引入变量还是剔除变量,都需要对相应的矩阵E和T作一次消去变换,比如说,不妨设第一个引入的变量是x1,这时就要对E和T同时进行消去第一列的变换得到和,接着考虑引入第二个变量,经过检验认为显著的变量,不妨设是x2,这时就要对和同时进行消去第二列的变换得到和,对剔除变量也如此。(2)剔除变量的检验统计量考察对已入选变量xr的判别能力,可以设想已计算了l步,并引入了包括xr在内的某L个为量(L不一定等于l)。今考察拟在第l+1步剔除变量xr的判别能力

41、,为方便起见,可以假设xr是在第l步引入的,也即前l-1步引进了不包括xr在内的l-1个变量。因此问题转化为考察第l步引入变量xr(在其它l-1个变量已给定时)的判别能力,此时有对相应的、,再作一次消去变换有:于是 从而得到剔除变量的检验统计量:在已入选的所有变量中,找出具有最大(即最小)的一个变量进行检验。若,则认为判别能力不显著,可把它从判别式中剔除。3 具体计算步骤(1)准备工作i)计算各总体中各变量的均值和总均值以及和ii)规定引入变量和剔除变量的临界值F进和F出(取临界值,以保证逐步筛选变量过程必在有限步后停止)在利用电子计算机计算时,通常临界值的确定不是查分布表,而是根据具体问题,

42、事先给定。由于临界值是随着引入变量或剔除变量的个数而变化的,但是当样本容量n很大时,它们的变化甚微,所以一般取,如果想少选入几个变量可取,等等。如果想多选入变量可取,等等,显然如果取则全部变量都被引入。(2)逐步计算假设已计算l步(包括l=0),在判别式中引入了某L个变量,不妨设,则第l+1步计算内容如下:i)计算全部变量的“判别能力”对未选入变量计算对已选入变量计算ii)在已入选变量中考虑剔除可能存在的最不显著变量,取最大的(即最小的)。假设,这里表示属已入选变量。作F检验:剔除变量时统计量为:若,则剔除,然后对和作消去变换。若,则从未入选变量中选出最显著变量,即要找出最小的(即最大的)。假

43、设,这里表示属于未入选变量。作F检验:引入变量时统计量为若,则引入,然后对和作消去变换。在第l+1步计算结束后,再重复上面的i)、ii)直至不能剔除又不能引入新变量时,逐步计算结束。(3)建立判别式,对样品判别分类经过第二步选出重要变量后,可用各种方法建立判别函数和判别准则,这里使用Bayes判别法建立判别式,假设共计算l+1步,最终选出L个变量,设判别式为:将每一个样品(x可以是一个新样品,也可以是原来n个样品之一。)分别代入k个判别式yg中去。若,则第总体。顺便指出两点:(1)在逐步计算中,每步都是选考察剔除,后考虑引入,但开头几步一般都是先引入,而后才开始有剔除,实际问题中引入后又剔除的

44、情况不多,而剔除后再重新引入的情况更少见。(2)由算法中可知用逐步判别选出的L个变量,一般不是所有L个变量组合中最优的组合(因为每次引入都是在保留已引入变量基础上引入新变量)。但在L不大时,往往是最优的组合。例1 再次利用人文发展指数的三项指标作逐步判别分析。(1)计算两类各变量的均值、总均值、组内离差阵、总离差阵如下:x1x2x3分类均值第一类75.8894.085343.4第二类70.4491.743430.2总 均 值73.1692.914386.8组内离差阵为:总离差阵为:(2)逐步计算设引入变量的临界值为F1,剔除变量的临界值为F2,今取F1=F2=2。第一步:(L=0)(最小)本步

45、无剔除,考虑引进,故引进变量x3。对矩阵W、T同时对x3作消去变换得及如下:x1x2x3x1113.6246149.21010.002117244x2149.2101469.17950.005507967x3-0.002117244-0.0055079674.76106E-07x1155.6579206.4252-0.0019174x2206.4252547.0569516464E-05x30.0019174-1.6464E-058.88793E-08第二步:(L=1)(最小)本步无剔除(因只引进一个变量x3),考虑引进变量x1, 故引进变量x1。对矩阵、同时对x1作消去变换得、如下:x1x2

46、x3x10.008011.313181.86337E-05x2-1.31318273.23920.0027276x31.86337E-05-0.00272765.15558E-07x10.0064243451.326146-1.23177E-07x2-1.326146273.30690.002559x3-1.23177E-05-0.0025591.12497E-07第三步,(L=2)对已入选的变量计算:(最大)对未入选的变量计算:考虑x1的剔除:故x1不能剔除。考虑x2的引进:故x2不能剔除。至此既无变量剔除,又无变量引入,故逐步计算结束,这时引入的重要变量为x1(出生时预期寿命)与x3(调整

47、后人均GDP)。(3)计算结果(a)判别函数为(b)检验判别效果对参予选判别函数的已知分类的10个样品进行回判结果如下:序号原分类号判别函数的值判别函数的值计算分类号后验概率11300.0881290.752610.999921319.8506308.363111.000031311.6048300.982211.000041273.0019267.362510.996551287.2086279.343010.99966223.0012237.183120.960172229.2077237.457120.999782197.7588209.693221.000092176.8520196.

48、439821.0000102170.5633183.522121.0000回判结果表明,第一类、第二为的判对率均为100%。对未知分类的4个待判样品的判别结果如下:样品序号国 家值值后验概率判属类号11中 国140.0238165.47171.0000212罗马尼亚176.7088195.21191.0000213希 腊304.5535295.40530.99989114哥伦比亚253.9222250.84250.95601从待判样品结果表明:判属类别与前面的结果完全一致,即中国、罗马尼亚属于第二类;希腊、哥伦比亚属于第一类。总之,从逐步判别法所得的结果可看出,尽管这里没有利用变量(成人识字率

49、),但所得的判别结果与利用全部变量所得的判别结果完全一致,这充分说明了三个变量在判别式中所起的作用不同。例2 再次对全国30个省市自治区1994年的影响各地区经济增长差异的4项制度变量作逐步判别分析。(1)计算两类地区各变量的均值、组内离差阵、总离差阵如下:(2)逐步计算取F1=2.5, F2=2第一步:(L=0)计算 (最小)本步无剔除,考虑引进x4,故引进x4。第二步:(L=1)计算 (最小)本步无剔除(因只引进一个x4),考虑引进x3,故引进x3。第三步:(L=2)对已入选的变量计算(最大)考虑x3的剔除故不能剔除对未入选变量计算(最小)考虑x2的引进,故x2不能引进。至此既无变量剔除又

50、无变量可引入,故逐步计算结束。(3)计算结果(a)判别函数为(b)检验判别效果回判结果如下:样品序号原 组 号回判组号后验概率1110.7547082110.6616633110.7812064110.753595110.6566336110.9347127110.9937738110.9260389110.99947910120.86670211110.78627912220.86231813220.63474114220.84839215220.69601816220.83535517220.97728718220.65476719220.94150220220.92850821220.9

51、9102922220.90271523220.58259824220.97271425220.99911426220.9965227220.986391待判样品的判别结果如下:样品序号判属组号后验概率2810.5857952920.9451783030.972422计算结果表明影响各地区经济增长差异的制度变量主要是:市场化程度(x4)和开放度(x3),其回判的结果与实际是相符的。6.6 附 注这里不加证明的指出以下几个结论:1 判别函数中分界点的选取分界点的选取对判别效果的影响还是很大的,如果选取不当,很可能使一个好的判别函数变得毫无分类的价值。对分界点的取法可以有各种不同的出发点。前边曾给出的分界点为:但也可以人为地从经验或问题的实际背景出发指定y0值,也可以把个值从小到大排队,适当地取其中一点作分界点y0;或者可以取一个区间(),此处,然后规定如果想从数学上来讨论还有平均错判率最小法即使达到最小值的解或最小最大错判率法即使两个错判概率与中最大的一个尽可能地小,它们都是从不同的出发点确定分界点,有举的读者,可查看本书后面列出的参考书。2 判别法则的评价无论用哪一种判别方法,去判断样品的归属问题,均不可能永远作出正确的判断,一般总会发生错判,用错判概率的大小来衡量判别效果是很自然的想法,那么如何来计算错判的概率呢?比如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论