首师多元统计分析_第1页
首师多元统计分析_第2页
首师多元统计分析_第3页
首师多元统计分析_第4页
首师多元统计分析_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章判别分析§3.1§3.2§3.3§3.4引言距离判别贝叶斯判别费希尔判别§3.1判别分析的例子:引言1.有偿付力与无偿付力的责任保险公司。测量变量:总资产,股票与债券价值,股票与债券的市值,损失盈余,签定的保费金额。2.非溃疡胃病组(胃功能紊乱者)与常”者)。,组(“正测量变量:焦虑,依赖性,感,完美的量度3.两种野草。测量变量:萼片与花瓣的长度,花瓣裂缝的深度,苞的长度,花粉直径。4.新的速购者与迟购者。测量变量:教育,收入,家庭大小,过去更换品牌的次数。5.良好信用与不良信用风险。测量变量:收入,家庭规模。,数目,判别分析要解决的问题

2、:在已知历史上用某些方法已把研究对象分成若干组的情况下,来判定新的观测样品应归属的组别。每一组(类¢ 或总体)中所有样品的p维指标值xp )x =了该组的一个p元总体分布,我们试图主要从各组的总体分布或其分布特征出发新样品 x 是来自哪一组。来三种常用的判别分析方法:距离判别、贝叶斯(Bayes)判别、费希尔(Fisher)判别。§3.2距离判别一、两组距离判别二、多组距离判别一、两组距离判别设组1和2的均值分别为1和2,协差阵分别为1和2(1,2>0) ,x是一个新样品(p维),现欲它来自哪一组。1. 1=2=时的判别2. 12时的判别1. 1=2=时的判别x,p

3、2 )ìíî判别规则:)x,p2d 2 ( x,p )2令¢x - )¢ -1 ( x - ()()()-=x - x - -11122= a¢( x - ) = 1 ( () ,)-a = - 1+ 其中。12122上述判别规则可简化为若W ( x ) ³ 0若W ( x ) < 0ì x Îp1,í x Îp,î2称W(x)为两组距离判别的(线性)判别函数,称a为判别系数。误判概率P (2 |1) = P (W ( x ) < 0 | x Îp1 )

4、P (1| 2) = P (W ( x ) ³ 0 | x Îp 2 )设1Np(1,), 2Np(2,),则误判概率P (2 |1) = P (1| 2) = F æ - D öç2 ÷èø¢D =( - )()- - 1其中是两组之间马氏距离。1212(即越大),两个两个正态组越是误判概率就越小,其判别效果也就越佳。当两个正态组很接近时,两个误判概率都将很大。组之间差异的判别界定对假设H0:1 =2,H1:12进行检验,若接受原假设H0 ,则说明两组均值之间无显著差异,此时作判别分析一般是徒劳的;若检

5、验拒绝 H0 ,则两组均值之间虽然存在显著差异,但这种差异对进行有效的判别分析未必足够大(作判别分析未必有实际意义),故还应看误判概率是否超过了一个合理的水平。例3.1设p=1,1和2的分布分别为N(1,2)和N(2,2),1,2,2均已知,12,则判别系数a=(12)/ 20,W ( x) = a ( x - m )判别函数:ì x Îp1,若x £ m若x > m判别规则:íx Îp,î2误判概率:Dm - m2æöæö()()P 2 |1 = P 1| 2 = F-= F1ç

6、;2 ÷ç÷2sèøèø误判概率图示:抽取样本估计有关未知参数x1n是来自组 的样本,设11x2n是来自组 的样本,n +n 2p,2122则1和2的一个无偏估计分别为n1n21å x2 j j=1x2 = nnj=112的一个无偏估计为1( A + A )=Sp12+ n- 2n12其中 ¢ni)= å- xi = 1, 2Ai,ijij=1W ( x ) = a¢( x - x )估计的判别函数为)()-x, a = Sx - x1其中2p12其判别规则为若W ( x ) 

7、9; 0若W ( x ) < 0ïì x Îp ,1íïî x Îp 2 ,若1和2都为正态组,则两个误判概率P(2|1)和P(1|2)可估计为æD öP (2 |1) = P (1| 2) = F ç -è¢÷2 øD =( x - x)()-x - x1其中S。12p12该误判概率估计有偏,但大样本时偏差影响可忽略。误判概率的非参数估计若两组不为正态组,则P(2|1) 和 P(1|2) 通常有三种非参数估计方法:令n(2|1)为样本中来自1而误判

8、为2的个数,n(1|2)为样本中来自2而误判为1的个数,则P(2|1) 和P(1|2) 可估计为(1)P (2 |1) = n (2 |1) ,P (1| 2) = n (1| 2)n1n2简单、直观,且易于计算。但它给出的估计值通常偏低,除非n1和n2都非常大。其是被用来构造判别函数的样本数据又被用于对这个函数进行评估,其结果自然就倾向有利于所构造的判别函数。在误判概率的估计中,构造判别函数中使用过的样本数据在对该函数作出评估时已不能很好地代表总体了。(2)将整个样本一分为二,一部分作为训练样本,用于构造判别函数,另一部分用作验证样本,用于对判别函数进行评估。误判概率用验证样本的被误判比例来

9、估计,得到的估计是无偏的。该方法缺陷:(i)(ii)需要用大样本;在构造判别函数时,只用了部分样本数据,损失了过多有价值的信息。与使用所有的样本数据构造判别函数相比,该方法将使真实的误判概率上升。该缺陷随样本容量的增大而逐渐减弱。(3)交叉验证法或刀切法。从组1中取出 x1j,用该组其余n11个观测值和组2 的 n2 个观测值构造判别函数, 然后对x1j进行判别,j=1,2,n1。同样,从组2中取出x2j,用这一组的其余n21个观测值和组1的n1个观测值构造判别函数,再对x2j作出判别,j=1,2,n2。令 n*(2|1)为样本中来自1而误判为2个数,n*(1|2)为样本中来自2而误判为1个数

10、。则两个误判概率P(2|1)和P(1|2)的估计量为n* (2 |1)n* (1| 2)P (2 |1) =P (1| 2) =,n1n2它们都是接近无偏的估计量。避免了样本数据在构造判别函数的同时又被用来对该判别函数进行评价,造成不合理的信息重复使用;避免了构造判别函数时样本信息的损失。2. 12时的判别判别规则x,p 2 )ìíî)x,p2可采用另一种形式选择判别函数为:()x,p22¢¢()()()()=x - -x - -x - -x - 11111222它是x的二次函数,相应的判别规则为若W ( x ) £ 0若W ( x

11、) > 0ì x Îp1,í x Îp ,î2例3.2.在例3.1中,设1和2这两个组的s 和s222方差不相同,分别为,这时1x - mid ( x,p ) =,i = 1, 2isi当1<x<2时,判别函数可简单地取为) = x - m1 - m2- xW ( x) = d ( x,p ) - d ( x,pss1212= s1 + s 2æs m + s1m2ös+ s 2(x - m* )x -=211ç÷s ss + ss s12èø1212式中s m +

12、s mm*=2112s1 + s 2是1与2判别规则为:平均,称为阈值点,如图3.1。ì x Îp ,若x £ m*若x > m*1íîx Îp,2图3.1方差不同时两组判别的阈值点实际应用中,1和2,1和2一般都是未知的,可由相应的样本值代替。二、多组距离判别设有k个组1,2,k,它们的均值分别是1,2,k,协方差矩阵分别是1(>0),2(>0),k(>0),x到总体i的平方马氏距离:¢()()()x,p-=x - x - ,i = 1, 2,L, k21diiiix,pi )d 2判别规则:1 i

13、k若1=2=k=,则上述判别规则可简化。d2(x,i)=(xi)1(xi)=x1x2(Iix+ci)1¢I = -1 , c= - , i = 1, 2,L, k-1其中。iiiii2判别规则简化为若 Il¢x + cl= max( Ii¢x + ci )x Îpl ,1£i£k其中Iix+ci为线性判别函数。ì x Îp1 ,若I1¢x + c1 ³ I2¢ x + c2当k=2时,í x Îp ,若I ¢x + c < I ¢ x +

14、cî21122实际中1,2,k和1,2,k一般都是未知的,它们的值可由相应的样本估计值代替。xin是从组 中抽取的样本,则 的iii估计:ni1å xijj =1xi = n1(i=1,2,k)。1=2=k=的情形无偏估计为:k= 1å(n -1) SSpiin - ki=1ni1åj =1Si = n其中n=n1+n2+nk,-1ii为第i组样本协方差矩阵。实际应用中使用的判别规则是()x Îpl ,其中¢¢若I x += max I x+ ccllii1£i£k= - 1 x¢S -1x ,

15、 i = 1, 2,L, kI= S -1x , cipiiipi21,2,k不全相等情形i的估计为 Si(i=1,2,k)。实际应用中使用判别规则:x,pi )d21£ £其中)()- x,i = 1, 2,L, k1Sxiii1,2,k是否假定为相等实际应用中需要关心1,2,k之间是否存在着明显的差异。若没有明显差异,则考虑假定1=2=k=,此时判别函数为线性函数。若对是否假定1=2=k=拿不准,则可采用相等和不相等两种情形下的相应判别规则分别进行判别,然后用交叉验证法来比较它们的误判概率来决定。例3.3.对的企业收集它们在前两年的年度财务数据,同时对财务良好的企业也收

16、集同一时期的数据。数据涉及四个变量:x1=现金流量/总债务, x2=净收入/总资产,x3=x4=资产/债务,资产/净销售额。数据列于表3.2.,组为企业。企业,组为非表3.2.状况数据x1x2x3x4x1x2x3x4编号组别编号组别1234567891011121314151617181920212223-0.45-0.560.06-0.07-0.1-0.140.04-0.070.07-0.14-0.230.070.01-0.280.150.37-0.080.050.010.12-0.280.510.08-0.41-0.310.02-0.09-0.09-0.070.01-0.06-0.01-0

17、.14-0.30.020-0.230.050.11-0.080.0300.11-0.270.10.021.091.511.011.451.560.711.51.371.371.420.331.312.151.191.881.991.511.681.261.141.272.492.010.450.160.40.260.670.280.710.40.340.430.180.250.70.660.270.380.420.950.60.170.510.540.5324252627282930313233343536373839404142434445460.380.190.320.310.12-0.0

18、20.220.170.15-0.10.140.140.150.160.290.54-0.330.480.560.20.470.170.580.110.050.070.050.050.020.080.070.05-0.01-0.030.070.060.050.060.11-0.090.090.110.080.140.040.043.272.254.244.452.522.052.351.82.172.50.462.612.232.311.842.333.011.244.291.992.922.455.060.350.330.630.690.690.350.40.520.550.580.260.5

19、20.560.20.380.480.470.180.440.30.450.140.13 æ -0.0690 öç -0.0814 ÷æ 0.2352 öç 0.0556 ÷= ç÷, x2= ç÷x1ç 1.3667 ÷ç 2.5936 ÷ç 0.4268 ÷ç0.4376 ÷èø0.56950.42010.52040.06880.20420.05700.20600.0044&

20、#232;0.68990.52043.28610.65561.79830.206025.12260.7832ø0.0829 öæ 0.8826ç 0.56950.0688 ÷= ç÷0.6556 ÷20S1ç 0.6899ç 0.08290.8916 ÷è1.12920.2042ø-0.1609 öæç0.0044 ÷= ç÷0.7832 ÷24S2ç 1.7983ç -0.1

21、6090.6331 ÷èø的估计为-0.0018öæ 0.04570.01760.01080.01650.00170.05660.01650.64570.0327ç0.0017 ÷0.01761(20S1 + 24S2)= ç÷0.0327 ÷S p =ç0.056644ç -0.00180.0347 ÷è-106.2364 262.20583.6899-21.5137ø-3.8556 3.68991.9020-2.1693æ67.96

22、9212.2182öç -106.2364-21.5137 ÷= ç÷-2.1693 ÷S -1pç-3.855612.2182ç32.5632 ÷èøæöæö4.0355.295ç -18.387 ÷ç -10.020 ÷= ç÷= ç÷3.306÷-1-1I1 = Sx1=, ISx2pç1.616÷2pçç 12

23、.194÷ç÷9.949èøèø于是= - 1 x¢S -1x= - 1 x¢ S -1x= -6.754= -4.382,cc11p122p222I¢x + c = 4.035x +12.194x - 4.3821134I¢ x + c = 5.295x + 9.949x - 6.7542234对某个未判企业x=(0.16, 0.10, 1.45, 0.51),计算得I¢x + c = 5.373,I¢ x + c = 3.2681122按判别规则(5.2.16)

24、,该企业被判为企业。表5.2.3使用(5.2.7)式的判别情况判别为真实组183124在表5.2.3中,估计的误判概率为P (2 |1) = n (2 |1) = 3 = 0.143,P (1| 2) = n (1| 2) = 1 = 0.04n121n225使用(5.2.8)式的交叉验证法,判别情况列于表3.3.。表3.3.使用(5.2.8)式的判别情况判别为真实组182323在表3.3.中,估计的误判概率为3P (2 |1) =P (1| 2) = 0.143,212= 0.0825如果使用判别规则(5.2.15)进行判别,则由(5.2.7)式估算出的误判概率为21P (2 | 1) =P

25、 (1 | 2) = 0.095,= 0.042125由(5.2.8)式估算出的误判概率为41P (2 | 1) =P (1 | 2) = 0.190,= 0.042125例5.2.3中,在过去两年至今后两年企业注所处的将企业的大环境保持稳定的前提下,可值x=(x1,x2,x3,x4)代入例中样本所构造的判别函数来判别该企业两年后是否会。§3.3贝叶斯判别一、最大后验概率准则二、最小平均误判代价准则距离判别不合适的例子1(校组):N1=2000, 1=5002(校本科生组):N2=8000, 2=400组中x500的有1000人,本科生组中x500的有2000人。某学生的x=500,

26、试判别该生归属哪一组。如采用距离判别法则不妥,需利用先验概率:20008000= 0.2,p = 0.8p121000010000一、最大后验概率准则设有k个组1, 2, k,且组i的概率密度为fi (x) ,样品x来自组i的先验概率为pi ,i=1,2,k 满足p1+p2 +pk =1 。则 x 属于i的后验概率为fi ( x )piP (p| x ) =,i = 1, 2,L, kikå pifi ( x )i=1最大后验概率准则是采用如下的判别规则:x1£i£k例5.3.1设有1、2和3三个组,欲判别某样品x0属于何组,已知p1=0.05,f1(x0)=0.

27、10,p2=0.65,f2(x0)=0.63,p3=0.30,f3(x0)=2.4。现计算x0属于各组的后验概率如下:p1 f1 ( x0 )=0.05´ 0.10P (p | x ) =100.05´ 0.10 + 0.65´ 0.63 + 0.30´ 2.43å pi( x0 )fii=10.005= 0.0041.1345p2 f2 ( x0 )= 0.65´ 0.63 = 0.361P (p| x ) =2031.1345å pi( x0 )fii=1p3 f3 ( x0 )= 0.30´ 2.4 = 0.

28、635P (p| x ) =3031.1345å pii=1( x0 )fi所以应将x0判为组3。正态组情形设iNp(i,i),i>0, i=1,2,k。组i的概率密度为fi(x)=(2)p/2|i|1/2exp0.5d2(x,i)其中d2(x,i)=(xi)i 1 (xi)是x到i的平方马氏距离。各情形的后验概率可表达:éùúû12()x,pexp -2DêëiP (pi | x ) =ù ,i = 1, 2,L, kké1åexp ê-D2 ( x,p )úi

29、35;x,p2ûi=1其中,(,)()x,p+ g + h= d22Diiii= ìlni若1, 2 ,L, k 不全相等gí0,i若 = = L = = îì-2lnpi ,12k若p1, p2 ,L, pk 不全相等= ïhí 0,= 1i若p = p= L = pïî12kki = 1, 2,L, k实际应用中,以上各式中的i和i(i=1,2,k)一般都是未知的,需用相应的样本估计值代替。例5.3.2在例5.2.3中,已知企业所占的比例约为10%,即 p1=0.1,p2=0.9,假定两组均为正态,且

30、1=2=,则未判企业x=(0.16, 0.10, 1.45, 0.51)的后验概率为exp (I¢x + c + ln p )P (p1 | x=)111exp I x + c + ln p )+ exp(I¢ x + c()¢+ ln p111222=exp(5.373 + ln0.1)e3.07= 21.542 =45.1830.477exp(5.373 + ln0.1) + exp (3.268 + ln0.9e3.07e3.)+ lnexpx23.64145.183| x )= 0.523P+ ln p2 )+ ln+ expx + c2expx由于P(1

31、|x)<P(2|x),所以该企业被判为非破产企业,这与例5.2.3的结果正好相反,这正是先验概率的作用结果。二、最小平均误判代价准则例子: 1:的药,2 :不的药对于新样品 xP (p1 | x ) = 0.6,P (p 2 | x ) = 0.4两种误判造成的损失一般是明显不同的,根据后验概率的大小进行判别不太合适。1. 两组的情形2. 多组的情形1.两组的情形设组1和2的概率密度函数分别为f1(x)和f2(x), 组1和2的先验概率分别为p1和p2,p1+p2=1。又设将来自i的x判为l的代价为c(l|i), l,i=1,2, 代价矩阵表示为对于给定的判别规则,令R1=x:判别样品x

32、1, R2=x:判别样品x2显然R1R2=,R1R2=xR1判x1,xR2判x2将1中的样品x误判到2的条件概率为P (21) =(x )dx2将2中的样品x误判到1的条件概率为P ( |2) =(x )dx1平均误判代价(expected cost of misclassification),记为ECM,可计算为ECM = E éëc (l | i)ùû = c (1|1) P(i =1,l =1) + c (2 |1) P(i =1,l = 2)+ c (1| 2) P(i = 2,l =1) + c (2 | 2) P(i = 2,l = 2)=

33、c (2 |1)= c (2 |1)x Îp2 , x Î R1 )1 ) + c (1| 2)x Îp2 )px Î= c(2 |1) P(2 |1) p1 + c(1| 2) P(1| 2) p2最小平均误判代价准则是采用使ECM达到最小的判别规则,即为) ³ c (1| 2) p2ì1ï)c (2 |1) pï21íïïî(*)c (1| 2) p 1<2c (2 |1) p12误判代价之比最小ECM准则需要三个比值:密度函数比、误判代价比和先验概率比。误判代价比

34、最富有实际意义,因为直接确定误判代价会有一定定误判代价比却相对容易得多。例1,而确1 :应该做手术,2 :不应该做手术例21 :2 :毕业后应继续攻读博士毕业后应直接找工作(1)当p1=p2=0.5时,(*)式简化为) ³ c (1| 2)ìï)c (2 | 1)c (1 | 2)c (2 | 1)ïíïïî<实际应用中,如果先验概率未知,则取成相等。(2) 当 c(1|2)= c(2|1)时,(*)式简化为ìíî该式等价于组数k=2时的 (5.3.2)式。实践中,若误判代价比无

35、法确定,则取比值1。p = c (1| 2)1(3) 当时,(*)式可简化为c (2 |1)p2x ) x )ìíî判别新样品x0的归属,只需比较在x0处的两个概率密度值 f1(x0) 和 f2(x0)的大小。如将判别规则(3)用于例5.2.2中,则图5.2.2中的阈值点将移至两密度曲线相交点的正下方m处。图5.2.2方差不同时两组判别的阈值点例5.3.3设组1和2的概率密度函数分别为f1(x)和f2(x),又知c(1|2)=12个,c(2|1)=4,根据以往经验给出p1=0.6,p2=0.4,个则最小ECM判别规则:) ³ 12 ´ 0.4

36、= 2ìï)4 ´ 0.6ïíïïî12 ´ 0.4<= 24 ´ 0.6假定在一个新样品x0处算得f1(x0)=0.36,f2(x0)=0.24,于是f1 ( x0 ) = 0.36 = 1.5 < 2f2 ( x0 )0.24因此,判x0来自组2。现假定iNp(i,i), i>0, i=1,2。当1=2=时,(*)式可具体写成若a¢( x - ) ³ ln é c (1| 2) p2ìx Îp ,ùú&#

37、251;ùïê c (2 |1) p1ïë1íé c (1| 2) pï x Îp若a¢( x - )ln êë2,úûïc (2 |1) p2î112() = + 其中 a=1( ),。1212当12时,(*)式可写为ìïé c (2 |1) p1/2 ùp ) £ 2ln ê12úxê c (1| 2) p21/2ïúï&#

38、235;û21íïïïîé c (2 |1) p1/2 ùp ) > 2ln ê12úxê c (1| 2) p21/2úëû21其中d2(x,i)=(xi)i(xi), i=1,2。12.多组的情形设 fi(x)为组i的概率密度函数,i=1,2,k。令pi:组i的先验概率,i=1,2,k。 c(l|i):将来自i的x判为l 的代价, l,i=1,2,k, 对l=i,c(i|i)=0。Rl:所有判为l的x的集合,l=1,2,k。对l,i=1,2,k,

39、将来自i的样品x判为l条件概率P (l i ) = P (x )dxl平均误判代价ECM = E éëc (l | i )ùû= ååc (l | i ) P ( x Îpi , x Î Rl )i=1l =1kkkk= ååc (l)( x Îpi )i ) Pi=1l =1kkkk= ååc (l | i ) P (l | i )pi = å pi åc (l | i ) P (l | i )l =1l ¹ii=1l =1i=1使E

40、CM达到最小的判别规则是kkåj =1 j ¹ix )c (i | j )j1£i£kj =1 j ¹l假定所有的误判代价都是相同的,不失一般性,可令c(l|i)=1, li, l,i=1,2,k,则kkkECM = å pi å P (l | i) = 1- å pi P (i | i)i=1i=1 l ¹ii=1为所有误判概率之和,称之为总的误判概率。故此时的最小平均误判代价准则也可称为最小总误判概率准则,并且上式可简化为x1£i£k故最小总误判概率准则与最大后验概率准则是彼此等价

41、的,即:最大后验概率准则等价于所有误判代价相同时的最小平均误判代价准则。注 令B=误判,Ai=样品来自i,i=1,2,k则利用全概率公式得总的误判概率为kkkP ( B) = å P ( Ai ) P ( B | Ai ) = å pi å P (l | i )i=1i=1i=1 l ¹i总的正确判别概率为kkk()()åi=1åi=1 l ¹i()åi=1()P B= 1- PB = 1-=pPl | ip Pi | iii例5.3.4在例5.3.1中,假定误判代价矩阵为现采用最小ECM准则进行判别。l=1:p2

42、f2(x0)c(1|2)+p3f3(x0)c(1|3)=0.65×0.63×20+0.30×2.4×60=51.39l=2:p1f1(x0)c(2|1)+p3f3(x0)c(2|3)=0.05×0.10×10+0.30×2.4×50=36.05l=3:p1f1(x0)c(3|1)+p2f2(x0)c(3|2)=0.05×0.10×200+0.65×0.63×100=41.95由于l=2时为最小值,故将x0判为2。§3.4费希尔判别费希尔判别(或称典型判别)的基本思想

43、是投影(或降维):用p 维向量 x =的少数几个线性组合(称为判别式或典型变量)y1 = a1¢x, y2 = a2¢ x,L, yr= ar¢ xxp )¢(rp)来代替原始的p 个变量x1,x2, ,xp ,达到降维目的,并根据这r 个判别式y1,y2, ,yr对样品的归属作出判别。降维将使判别更方便有效。一个说明性的二维例子费希尔判别需假定1=2=k=。设来自组i的p维观测值为xij,j=1,2,ni,i=1,2,k,记k¢B = å nix )i=1-1) Si =ni¢kk)E = å(nii=1xii=

44、1j =11S=Epn - k式中ni1nkkåi=1,n = å nii=1=n xiij =1i则B是组间平方和及交叉乘积和,E是组内平方和及交叉乘积和,Sp是的无偏估计。设E1B的全部非零特征值依次为12s>0,其中的非零特征值个数 smin(k1,p),相应的特征向量依次记为t1,t2,ts(标准化为tiSpti=1, i=1,2,s),称y1=t1x为第一判别式, y2=t2x为第二判别式,。一般地,称yi=tix为第i判别式,i=1,2,s。由smin(k1,p)知,组数k=2时只有一个判别式,k=3时最多只有两个判别式。特征值i表明了第 I 判别式yi对

45、区分各组的贡献大小,yi的贡献率:sålilii=1而前r(s)个判别式y1,y2,yr的累计贡献率:rsåliålii=1i=1它表明y1,y2,yr的判别能力。实际应用中,如果前r个判别式的累计贡献率已达到了一个较高的比例(如75%95%), 则可采用这r个判别式做判别。判别规则为x Îpl , 若rr(- ylj ) = min(y - yij )åj =1åj =122yjj1£i£kni= t¢j,i=1,2,k 。也可表达:其中yijijj =1ir若åj =1rå()2(

46、)2x Îp ,¢¢éùéùx - x= mintx - xtëûëûljlji1£i£kj =1有时使用中心化的费希尔判别式,即= ti¢ ( x - x ),i = 1, 2,L, syini1nkååij 为k个组的总均值。仍使用同上式中x=xi=1j =1的判别规则进行判别。对两组判别,费希尔判别等价于协方差矩阵相等的距离判别,也等价于协方差矩阵相等且先验概率和误判代价也均相同的贝叶斯判别。例3.4.2费希尔于1936年的鸢尾花

47、(Iris)数据被广泛地作为判别分析的例子。数据是对3种鸢尾花:刚毛鸢尾花(第组)、变色鸢尾花(第组)和弗吉尼亚鸢尾花(第组)各抽取一个容量为50的样本,测量其花萼长(x1)、花萼宽(x2)、花瓣长(x3)、花瓣宽(x4), 表5.4.1。为mm,数据列于表5.4.1鸢尾花数据x1x2x3x4x1x2x3x4编号组别编号组别12345678910666768697071727374755064656763466962594656585046605757507763332828312834312232363027343229264436303414564656511451454810454116

48、14453515146156222152415323151821510421510422324767778798081828384851411421431441451461471481491505857725452716460634955666854515258676353272930344130313029242330283437352830333751425815155955485633404448171515515060151913164121181818101314142422417252 本题中,n1=n2=n3=50,n=n1+n2+n3=150。经计算æ 50.06 &

49、#246;æ 59.36 öæ 65.88 öç÷ç÷ç 29.74 ÷= ç÷,x÷3ç 55.52 ÷ç 2.46 ÷ç 13.26 ÷ç 20.26 ÷èøèøæ 58.433 öèøç 30.573÷31nåi=1= ç÷37.580x =n xiiç÷ç 11.993 ÷èø3B = å nx )¢-1995.267 1134.493-5723.960-2293.267ii=1æ7127.933 ö6321.21316524.840-5723.960 43710.280186

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论