判别分析专题_第1页
判别分析专题_第2页
判别分析专题_第3页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、判别分析专题5.1引言有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。在科学研究和日常生活中,我们经常会遇到对观测到的样品数据进行判别分类的问题。例如,在经济学中,可根据各国的人均国民收入、人均工农业产值和人均消费水平等多种指标来判定一个国家经济发展程度的所属类型;在人口学中,可根据平均预期寿命、经济水平和婴儿死亡率等因

2、素来判定这个地区人口死亡水平的所属类型;在医学上,经常要根据患者的不同症状和化验结果等多项指标来诊断其患病类型;在气象学中,要根据最近的一些气象资料来判断明天是否会下雨;等等。所有这些问题一般都可以应用统计学中的判别分析方法予以解决。由于判定一个样品的归属一般需要依据样品的多项指标,其统计推断及分析也是按这些指标来进行的,所以将判别分析放在多元分析中讨论是合适的。判别分析要解决的问题是在已知历史上用某些方法已把研究对象分成若干组的情况下,来判定新的观测样品应归属的组别。从概率统计的角度来看,判别分析问题可以归结为:设有k个组(或总体)兀Ek,所有组的样品都测量了相同的p个指标,可表示为一个p维

3、向量,这k个组的分布函数分别是F,x),F2(x),Fk(x),均为p元分布函数,对于给定一个新样品x,要求判断它属于哪一组。本章将介绍距离判别、贝叶斯(Bayes)判别和典型判别等几种常用的判别分析方法。5.2距离判别一、马氏距离的概念通常情况下,我们所说的距离一般是指欧氏距离,即p维欧氏空间RP中两点x=(xi,x2,Xp)和y=(如2,yp)之间的平方距离度量为d2(x,y)=(%-yj2区-y2)(Xp-yp)2()但是在统计学,特别是在多元分析中,有时用欧氏距离显得不太合适,下面我们用一个例子来说明之。22设有两个正态总体,xN(,;),yNC'A二),现有一个样品位于如图5

4、.1所示的A点,距总体x的中心2-远,距总体y的中心远,那么,A点处的样品到底离哪一个总体近呢?若按欧氏距离来度量,A点离总体x要比离总体y“近一些”。但是,从概率论的角度来看,A点位于3右侧的2;亠处,而位于J2左侧1.5y处,应该认为A点离总体y“近一些”。显然,后一种度量更合理些。为此,我们引入一种由印度著名统计学家马哈拉诺比斯(Mahalanobis,1936年)提出的“马氏距离”的概念。图5.1设x,y是从均值为J,协方差矩阵为Z(0)的总体二中抽取的两个样品(p维),则总体二内两点x与y之间的平方马氏距离定义为d2(x,y)=(xy)十(xy)()定义点x到总体二的平方马氏距离为d

5、2(X,二)=(X-)(X-()二、两组距离判别设组兀1和兀2的均值分别为片和卩2,协方差矩阵分别为纭和工2(纭,2=0),x是一个新样品(p维),今欲判断它来自哪一组。1.7J,J3一个直观的想法是计算新样品x到两个组的平方马氏距离d2(x,二1)和d2(x,二2),并按如下的判别规则进行判断22xE",右d(xr1)<d(x,兀2)11、22xWji2,右d(x,眄):>d(x,兀2)为简化上面的表述,考虑d2(x<:1)与d2(x,二2)之间的差,有22d(x,二J-d(x,二2)=(xd)J(x-叫)_(X2)(X2)2x2二亠叫3二叫一Ax-2xLA2-a

6、21Aa2-2x2叫匕二-ZxEb2匕2-2x2叫叫三亠2xEli2-J三八2=:-2xE叫2x22*丁叫一2二422xrLiJ)(叫W,®-4)(已+巴$一2x-亍(已-罷)<2丿一2(x_)打(叫-)-2(x-)a=-2a(x-可备注:3J)打(2)一U二'2-2匕一2匕亠、_叫三亠、三/2-三亠、-"2三亠、=叫匕"一2三2同理(2)f2)- U匕亠打-打匕亠、:;丄二2匕打-二2匕4)2一叫匕亠打_,打lb、.叫匕I、_.二2匕42z4J2备注完毕。其中 二-d"二一2是两个组均值的平均值,a=T.(亠-匕),则22d(x,:)d(

7、x,二2)=-2a(x-')=-2W(x)则判别规则()式可表述为xe眄,若W(x)乏0卄()兀2,若W(x)<0称W(x)为两组距离判别的判别函数,由于它是x的线性函数,故又称为线性判别函数,a称为判别系数。使用判别函数进行判断,难免会发生错判。用©表示x来自二勺,而误判为二2的概率;用e2表示x来自二2,而误判为二i的概率,即G=P(W(x):0|x二J,e2=P(W(x)_0|x二2)a.假定:i和二2皆为正态组若二1和二2皆为正态组,则当x二1,即xNp(d,3)时,W(x)二a(x_JNW(x)二a(x_JNa(S-Ua羽令2=(亠-2)三°(亠2)

8、,于是»-J)-亠2»-J)-亠2(因为a=-T)an丨宀-4)=(气-巴)厂(气-巴)从而有W(x)=a(x_)N所以P(W(x):0)=PW(x)一才2A二ei备注:1 2W(x)2N(0,I)备注完毕。同理e2二P(W(x)_01x二2)若二1和二2皆为正态组,则当X二2,即XNp(2,1)时所以W(x)二a(x-')Na(J-),aEa12丿令厶2S)则W(x)=a(x円N-A2ji2I2丿从而P(W(x)-0)=PP(W(x)-0)=PA>2)JPW(x)一(一2)其中::()表示标准正态分布的分布函数。故而两个误判概率相同,均为07一:-J()2在

9、实际应用中,各组的均值和协方差矩阵一般都是未知的,差矩阵分别估计。设Xi,x21),xj是来自组:!的样本,(5.2.7)可由样本均值和样本协方X1,x22),,xf是来自组二2的(5.2.7)可由样本均值和样本协方X1,x22),,xf是来自组二2的一(1)x丄1x(1)和x(2)门1i1n2'XiiA样本,丄1和丄2的一个无偏估计分别为1的一个联合无偏估计为SpSp1rnr2-2(A1A2)其中A.SxL)(xFiT-C).-x)=1,2此时,两组距离判别的判别函数为(528)v?(x)二a?(x-x)1(1)一1(1)一(2)这里x(xx),自二Sp(x-x)。2其判别规则为x1

10、,若V?(x)色0x兀2,若v?(x)V0b.二1和二2不能假定皆为正态组若二1和二2不能假定为正态组,则可使用相互验证方法(称为比例法或刀切法)对误判率ei和e?作出估计。令T(1)=(x_Xi)S,(Xi_Xi)和Qi(1)=化(1)_X)Sj(Xi(1)_X(2)这里x是xyxj,,X:)中除去Xi之后ni-1个观测向量的平均值,i=1,2,川1。设mi是使Ti(1).Qi(1),i=1,2,,ni成立的个数,则估计为凹。类似地,令T(2)=(才)X)s;(Xi(2)X)和Qi=(Xi二2)s;(Xi(2)X(2)这里X是Xi(2),x22)/-&2)中除去Xi(2)之后n2-1

11、个观测向量的平均值,i=1,2/,n2。设m2是使Qi(2)Ti,i=1,2,,n2成立的个数,则e2估计为m2。n2例设P=1,二1和二2的分布分别为N(r,;2)和N(2,;2),-、1,2,二2均已4_4-知,1八2,则判别系数a=122:0,判别函数为W(x)二a(x-T,判别规则为兀1,若X|x匹2,若X-J下面计算误判概率。由于宀(72)匸(72)_(f2)2CT2所以厶=1,则来自二1的X被误判为二2的概率和来自二2的X被误判为二1的概率均a是O叫G2O叫G2图5.2二i和二2的分布如图5.2所示,ei是右边的面积,e2是丄左边的面积。如果两个组很接近,则两个误判概率都将很大。这

12、时,作判别分析就没有多大的实际意义。2.7-”2,二1=2采用广-H-22",右d(x,“)Ed(X,兀2):、22KE兀2,右d(x,)>d(x,兀2)作为判别规则的形式。另一种方式是,选择判别函数为22_1iW(x)=d(X,6)-d(x,二2)=(xT):(X-S)-(x-T)h(x-T)()它是x的二次函数,相应的判别规则为n1,若W(x)30丿卄()兀2,若W(x)V0在实际应用中,各组的均值和协方差矩阵一般都是未知的,可由样本均值和样本协方差矩阵分别估计。设X1,x2°,,xn1)是来自组二1的样本,X1,x22),,x(是来自组二2的样本,J1和J2的一

13、个无偏估计分别为-(1)X-(1)X和宀丄Jxn1i1n2i1眾和匕2可分别估计为S1=-1A和S21n2-1A2例在例中,设二1和二2这两个组的方差不相同,分别为22匚1禾口二2d2(x-.)二X”2:-=1,2,故d(x,:.)二,-1,2,当:::X:::%,这时J2时,d(x,7)d(x,二2)X_2-Xa1a2二2(X丄1)-;1("2-X)十2;1;2:.:-2丄1二1亠2亠jX:1:2(;二1;2)X(匚21"2)-(G丁2;2.芥2式中它是J1和2的加权平均,其权数分别为常称为阈值点。备注:如图5.3所示,当二1=;2时,丄就化为例中的)。备注完毕。判别规则

14、为x-1,若x4*O叫rJ2O叫rJ2图5.3三、多组距离判别1协方差矩阵相同设有k个组二1,二2,,二k,它们的均值分别为匕,,协方差矩阵均是,则d2(x,二J=(x-亠.)=(x-亠.)皿x-2i.x-2-2皿x-2x”L,=x£x-21/+CJ其中i:.八亠,匚y:-1,2/,k。因此,线性判别函数为F()()严严严是12n-.,是I:.xC.,:=1,2,k相应的判别规则为FFx二i,若IixG=max(IjxCj)当7,T,,匕均未知时,可通过相应的样本值来代替。设从组兀g中抽取的一个样本(口=1,2,k),则怙(。=1,2,,k)和工可估计为其中Xi(:):-=1,2,,

15、k和Spn-k芒:1n=n1n2川卷nk,A(Xi(UxX(12-,k2协方差矩阵不同设有k个组二1,二2,,二k,它们的均值分别为1,2,协方差矩阵分别为二1匸2,tk,且它们不全相同,则计算X到各组的平方马氏距离21d(x,二J=(x-J二(x-,.),:=1,2,k()判别规则为22x二i,若d(xmind(x,二j)()当叫宀,二1上2,匸k未知时,S('=1,2,k)的估计同前,二O=1,2,k)的估计为1SA.,:=1,2,k'n:-1'例对28名一级和25名健将级标枪运动员测试了6个影响标枪成绩的训练项目,这些训练项目(成绩)为:30米跑(x1),投掷小球

16、(x2),挺举重量(x3),抛实心球(x4),前抛铅球(X5),五级跳(X6),全部数据列于表5.1。现有14名未定级的运动员,需根据这六项训练项目成绩(列于表5.4)对它们进行分组。备注:新样品距离判别的计算结果列于表5.5。判别结果:有9名一级,5名健将级运动员。备注完毕。5.3贝叶斯(Bayes判别设有k个组二1,二2,,二k,且二:-Np(:.,匕:.),二0,:二1,2,k。又设样品kX来自组二:.的先验概率为q:.,二=1,2,k,满足q:.=1。x到二:.的平方马氏距离是121备注:这里换了一种记法,原来记为d2(x,二.)。备注完毕。来自二一.的x的概率密度为丄if/x)=0)

17、3工二6乂卩-05d;(x)()利用贝叶斯理论,x属于.的后验概率(即当样品x已知时,它属于二:.的概率)为P(二:.|x)P(二:.|x)qf(x),:=1,2,k(532)、'qf.(x)、'qf.(x)x到二:.的广义平方距离定义为D;(x)二d:(x)g:.h:.,:“2,k(533)其中in滋若纭,龙2,Jk不全相等P,右£=送2=Mk=1,2/,k-2lnq:.,若q1,q2/,qk不全相等h、;h、;0,右qq2:-1,2,k由此可推出x属于二.的后验概率为exp'-0-5D2(x)lexp'-0-5D2(x)lp(.丨X)k'Z

18、expL°.5D:(x)】:-1-=1,2/,k(534)可采用如下的判别规则x二i,若P(6|x)=maxP(:j1刍盘x二i,若P(6|x)=maxP(:j1刍盘|x)(535)它也可以等价地表达为(536)(536)Di2(xH1mjinsD2(x)1,则广义平方距离将退化为上一节的k平方马氏距离,即D.(xHd2(x),=1,2,,k,这时,判别规则()式将等同于(5213)式,即等同于x,,若hxg嘔x5)()实际应用中,以上各式中的和.(:=1,2,k)一般是未知的,需要通过样本(1)-(2)-(k)进行估计,叫厂匕厂、可用x,x,X来估计。三sbLEk的估计可分两种情况

19、:当二二H=沐=三时,可采用联合协方差矩阵Sp进行估计;当匕1二2厂,3不全相等时,可采用组内协方差矩阵S1,S2,,Sk分别进行估计。若对X来自哪一组的先验信息1无所知,则可认为q1=q2二-qkk例在例中使用贝叶斯判别法。设先验概率q二q2=0.5,这时,D:(x)=d2.(x),:=1,2,因此,x属于.的后验概率为P(x),=1,2expLo.5d;(x)】exp_0.5d1(x)Iexp0.5d;(x)备注:将53名定好级和14名未定级的运动员归属各组的后验概率分别列于表5.6和表5.7。判别结果完全等同于例。备注完毕。5.4典型判别k设有n:.个样品来自组一.,-1,2/,k,共有

20、n=n:.个样品,每一个样品都可视1为p维欧氏空间Rp中的一个点,所有n个点由k个不同的集合组成,第个集合(由组:.形成)含有n:.个点。空间中的这些子集越是彼此分开,组之间的差异就越明显,样品来自哪一组也就越容易判断。当p=1或2时,我们可以把所有的n个点都画在坐标轴或坐标平面上,通过观测k个点集合的位置,从直观上就可以直接对各组加以辨别。然而,在实际问题中,一般p大于3,这样也就无法直接从直观的几何图形上区别各组。多元分析中有一个非常重要的思想方法,就是采用降维技术,把Rp中的点通过适当方式投影到低维空间,即用低维向量近似地替代p维向量,然后在低维空间上再进行组的辨别。样品在降维之后难免损

21、失一部分信息,但只要使用的方法得当,我们可以最大限度地减少这种损失,从而保留绝大部分的有用信息,即关于能够反映组之间差异的信息。为便于理解,我们以下用一个简单的二维例子来加以说明。如图5.4所示,两个组的所有个体都测量了两个变量x1和X2,将所有(X1,X2)点画于直角坐标系上,一个组的个体用“X”表示,另一个组的个体用“o”表示。假定我们希望将二维空间的点投影到某个一维空间,即一条直线上,然后再对两组进行判别,则投影到不同的直线上,判别的效果一般是不同的。从图5.4中可见,如果两个组的点都投影到直线z上,则这两组的投影点在该直线上的分布几乎无任何差异,它们完全混合在一起,我们无法将这两个点集

22、合区别开来,这样的降维把反映两组间差异的信息都给损失了,显然是不可取的。事实上,最好的投影是投影到直线y上,因为它把两组的投影点很清楚地区分了开来,这种降维把有关两组差异的信息很好地保留了下来,几乎没有任何损失,如此再作判别分析就显得非常容易。3米米-22101234-4我们现考虑将k组的p维数据投影到某个最佳方向(即一维表达式),为了数学上的方便,使用p个数据分量的线性组合作为一维表达式。设来自组.的p维观测值为x®,i=1,2/,n=1,2/,k,将它们投影到某一共同方向,得到的投影点是线性组合y(:°ax(:),i=1,2,,n-1,2,k,这里a=(ai,a2,ap

23、)为一p为常数向量,表示投影方向。这样,所有的p维观测值就简化为一维观测值。下面我们用y表示组,.中的均值,y表示所有k组Z的总平均值,才二;,了丄nJ,丄"y®nai=1n也n0(4i丄如果我们想度量k个组yi(:)之间的系统差异程度,则一个合适的方法是采用兀方差分析的技术。yi(:)的总离差平方和kn一_SSTH(yFy)2:-4i二kn-.=SS(ax*:-4i二kn-.二a'(x®J.1i4=aTa-ax)2式中kn;_T八L(xF_x)(Xi(:)_x)yi('的处理间离差平方和k%_©2SS(TR)八'(厂_y)2i吕

24、kn(:)-(ax加i吕、k、nC)=a二二(x.-1id二aBa-ax)2o-x)(x-x)a式中-(ci-B=(x_x)(xx):z!i吕kk(:)G)n:.(x-x)(x-x)yi(:)的组内离差平方和k%_(&2SSE八'(y()-y)2:-4Ve(ax®_aX(»)2二a第"(xFX)(x®-x(:)aVi4二aEa式中kn()()(-.)(:)、E八'(为一x)(x-x)、吉1vk八A(:):i并有关系式SST二SS(TR)SSESST、SS仃R)和SSE所含有的自由度分别为n-1、k-1和n-k。假定各组的真实方差相

25、等,则可以对k个组的真实组均值之间是否有显著差异进行检验。原假设是k个真实组均值相等,检验统计量为SS(TR)k-1SSEn-k当F_F:.(k-1,n-k)时,拒绝原假设。F值越大,拒绝原假设的理由就越充分,可以认为各组真实组均值之间的差异也就越大。为各组真实组均值之间的差异也就越大。各组的差异程度尽可能地大,应选择这样的Xa)二SS(TR)SSEaBaaEaF值的大小与a有关,可看成是a的函数,要使a,以使F值达到最大,也就是使(541)达到最大。使c(a)达到最大的a并不唯一,因为若a使得-:(a)达到最大,则ca也使.:(a)达到最大,其中c为任意非零实数。由()式知,.'(a

26、)的最大值就是EB的最大特征值。将E4B的全部非零特征值依次记为r-鼻-0,它们都是特征方程(542)(543)(543)的根,相应的特征向量依次记为a1,a2/,ar,满足方程(B-iE)a0,i=1,2,r备注:因为EBx=./:x,所以Bx二E,x,即Bx二Ex,即(B_,E)x=0备注完毕。因为(ai)二aiBaiaiEaiaQiEa)a%Eq人厲丘耳a"Ea.rii,I=1,2/,raiEaiaiEaiaiEaiaiEai(544)所以,选择投影方向a=a!,能使得处理间离差平方和SS(TR)与组内离差平方和SSE之比达到最大值-(耳)=、。在上述讨论中,我们致力于寻找一个

27、最能反映k个组之间差异的投影方向,即寻找线性判别函数Z1(xa1x。然而,如果组数k是大的,或者原始的数据向量维数p是大的,则仅仅使用一个判别函数是不够的,因为仅在这一个投影方向上组之间的差异可能是模糊的。这时,我们可以考虑建立第二个线性判别函数Z2(x)=a2x;如还不够,可再建立第三个线性判别函数Z3(x)二a3X,依次类推,所有的这些线性判别函数都称为典型判别函数。(a)的大小可以用来衡量判别函数Z(x)二ax的效果,称它为判别效率。我们还可以定义第i个典型判别函数乙(x)二ajx的判别能力为Pi-a'ii1(545)而ro(r°:r)个典型判别函数Z1(xa1x,Z2

28、(x)=a2x,Zro(xarox的累计判别能力定义为r°V打i=1卩1,2,心二迟入i)在实际应用中,通常取较小的r。,并使得累计判别能力达到75%95%。因此,当»,2:.讥达到这个百分比时,可选取前面r0个典型判别函数Z1(x)=a1x,Z2(x)=a?x,Z0(x)二a0x来代替全部r个判别函数Z1(xa1x,Z2(x)二a2x,Zr(x)=arx,表明用心(5:::r)个综合指标进行判别分组已足够了。在确定了需使用的r0个典型判别函数Z1(xa1x,Z2(x)二a2x,Zr°(x)二ar0x之后,一个很自然的问题是如何来制定判别规则。设组二:.在ro个典型判别函数上的样本均值为Z秤(”=丄£x沪,艺2叭刈=丄£2乂皿,Zr$(X)=丄扌arox血,"ai二"ai:=12,k我们以下分ro=1和ro两种情况来进行讨论。当r。=1时,把新样品x=(xix,Xp),代入判别函数Z!(xaix,判别规则为x5,若Zi(x)-Z(i)=minZi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论