多元正态总体均值向量和协差阵的假设检验.0001_第1页
多元正态总体均值向量和协差阵的假设检验.0001_第2页
多元正态总体均值向量和协差阵的假设检验.0001_第3页
多元正态总体均值向量和协差阵的假设检验.0001_第4页
多元正态总体均值向量和协差阵的假设检验.0001_第5页
免费预览已结束,剩余15页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章多元正态总体均值向量和协差阵的假设检验什么是假设检验及基本思想、计算步骤,在初等数理统计中都已做过介绍。多元分析也涉及这方面内容,在后面介绍的常用各种统计方法,有时要对总体的均值向量和协差阵做检验,比如,对两个总体 做判别分析时,事先就需要对两个总体的均值向量做检验,看看是否在统计上有显著差异,否则做判别 分析就毫无意义。本章类似一元统计分析中的各种均值和方差的检验相应给出多元统计分析中的各种均值向量和协差阵的检验。不论做上述任何检验, 其基本步骤均可归纳为四步:第一步,提出待检验的假设 H0和H,。第二步,给出检验的统计量及它服从的分布。第三步,给定检验水平a,查统计量的分布表,确定临

2、界值/a,从而得到否定域。第四步根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待 判假设检验做出决策(拒绝或接受)。由于各种检验的计算步骤类似,关键在于对不同的检验给出不同的统计量,而有关统计量的给出大多用似然比方法得到。本章只侧重于解释选取统计量的合理性,而不给出推导过程,最后给出几个实例。同时为了说明统计量的分布,自然地给出HotellingT 2分布和 Wilks分布的定义,它们分别是一元统计中t分布和F分布的推广。HotellingT 2分布的定义。§ 3.1均值向量的检验为了对多元正态总体均值向量作检验,首先需要给出1 HotellingT2 分布定义 设XNp

3、 (4,g,SW p(n,工)且X与S相互独立,n>p,则称统计量TnXX的分布 为非中心Hotelli ngT2分布,记为T2 T2( p,n,P)。当4 =0时,称T2服从(中心)Hotelli ngT 2分布, 记为T 2( P,n),由于这一统计量的分布首先由Harold Hotelling提出来的,故称为 HotellingT 2分布,值得指出的是,我国著名统计学家许宝 马录先生在1938年用不同方法也导出 T2分布的密度函数,因表达式 很复杂,故略去。在一元统计中,若 Xi,,Xn来自总体N(巴CT2)的样本,则统计量:t Jngt(n_i)分布2其中-X)显然,t2 = n

4、(X 严=n(7 -円 G2) 4(X P) 1宀与上边给出的T2统计量形式类似,且X-卩N0, IoI n丿可见,T2分布是一元统计中t分布的推广。 基本性质:在一元统计中,若统计量 tt( n-1)分布,则t2F(1, n-1)分布,即把t分布的统计量转化为 F统计量来处理,在多元统计分析中T2统计量也具有类似的性质。定理 若XNp (0,Q,SW p(n,M)且X与S相互独立,令T2 = nXSX,则n - P +12这个性质在后面经常用到。2均值向量的检验 设 P 元正态总体T F(p,n p+1) npNp (儿工),从总体中抽取容量为 n 的样本nX(1),X (2),X(n),X

5、 =送 X(i),S=5: (X(i)-X)(X(i)-X)'。n yy(1工已知时均值向量的检验H。:卩=卩0(卩0为已知向量)Hi屮=卩0检验统计量:T02 = n(X-40)1:(X -%) /(p)(在 H0成立时)给出检验水平a,查72分布表使PT02 >zj = a,可确定出临界值 鵡,再用样本值计算出T02,若 T02 >/.a,则否定H0,否则H0相容。这里要对统计量的选取作两点解释,一是说明它为什么取为这种形式。二是说明它为什么服从 72( P)分布。元统计中,当CT2已知时,作均值检验所取的统计量为:X -4。U =N(0,1)b2 2 n( X 

6、9;0)/ V II / 2 1(7 11 U =n=n(X卩0)9) (X%)显然,c2与上边给出的检验统计量T0形式相同。另外根据二次型分布定理:若X N p( 0,!:),则XEX X2(P)。显然,To2 = n( X -卩0门反-卩 o)=石(X-%)宦'妬(X-%)纽土专。其中,Y卩0)N p(0,工),因此,To2 = n(X-%)生(乂-卩0)/2( P)。(2)工未知时均值向量的检验日0:卩=卩0H1 :卩工检验统计量:(n -1) -p +1t2 F (p,n-p)(在 H0 成立时) (n -1)P其中 T2 =(n- 1)VnC-0)'S"7n

7、(X-)给定检验水平a,查F分布表,使P n P T2Fa l = a,可确定出临界值 Fa,再用样本值计算L(nT)pJ出T2,若n P T2 AFa,则否定H0,否则H0相容。(n -1)P这里需要解释的是,当工未知时,自然想到要用样本协差阵 S去代替工,因(n-1)S-1是工的 n-1无偏估计量,而样本离差阵n_S=2 (X(a)-X)(X(a)-X)'Wp(n- 1,工)X#Vn(X 4o)N p(0,!:)/. T2 =(n-1)用(X_»o)S7n(X_Po)LT2(p,n -p)再根据Hotelling T2分布性质,所以(n -1) - P+1t(n -1)P

8、3协差阵相等时,两个正态总体均值向量的检验 设X(a) =(Xai,Xa2,Xa p)'Np (片迄)Y(a) =(Ya1,Ya2,Yap)'N 卩(卩2迄), n2F(p, n p)a =1;" ,n=1,m且两组样本相互独立,X=丄送XqrY-丄送Yq)。n ymy(1)有共同已知协差阵时Ho” 士检验统计量:Hi 屮12 n m _To =(X -Y)'Zn +m(X Y)Z2( p)(在Ho成立时)给出检验水平a,查x2(p)分布表使PS-ZJ-a,可确定出临界值 為,再用样本值计算出To2, 若T(2 >Za,则否定Ho,否则Ho相容。在一元统

9、计中作均值相等检验所给出的统计量:X -Y”N(0,1)J¥ n m显然, _ 2 U2 (X -Y)2 U r 2 JC C7+n m=总2(")2=专(X-Y)22)(X -Y) /2(i)此式恰为上边统计量当 p =1时的情况,不难看出这里给出的检验统计量是一元情况的推广。(2)有共同的未知协差阵 1>0时Ho4i =#2Hi出工込检验统计量:(n +m 2) p +1 2 F =T F(p,n + m- p1)(n +m 2) p(在Ho成立时)其中:2丄r n,m_ ,T 皿一2)肛2Y)riEx Y)_in -mS =5 +S2In _ S1 =5: (X

10、(a)-X)(X(a)-X), X=(X1,X2,X p)a4mS2 = 2 (Y(a) -Y)(Y(a)-Y) , Y =(Y1,Y2,,Y)'a 2给定检验水平 a,查F分布表使Pf :>Fa = a,可确定出 则否定Ho,否则Ho相容。Fa,再用样本值计算出F,若F'Fg所以当两个总体的协差阵未知时,自然想到用每个总体的样本协差阵n S1 =2 (X(a)-X)(x© -X)'Wp(n-1,邑) a4m_Sz (Y(a) Y)(Yg -YrWp(m仁)a 4从而 S =Si +S2 Wp(n +m -2, D11S1和1S2去代替,而n-1 m _

11、1(n+m2) p,n +m p1)(n +m 2)下述假设检验统计量的选取和前边统计量的选取思路是一样的,以下只提出待检验的假设,然后给 出统计量及其分布,为节省篇幅,不做重复的解释。4协差阵不等时,两个正态总体均值向量的检验设X(a) =(Xa1,Xa2,Xa p)' Np (已,爲) a = 1,,nY(a) =(Ya1,Ya2,,Ya p)'N p(鳥疋 2)« = 1,,m且两组样本相互独立,Hi:气北卩2分两种情况(1) n = m令Z(i)= X(i)-Y(i)i 二1,nnZ 二丄无 Z(i)=X Yn i ¥n_S=2 (Z(j)-Z)(Z

12、(j)-Z)'j总n _ _(x(j)-Y(i)-X +Y)(x(j)-Y(i) -X +Y) u检验统计量:F =(n P)n z,s4Z F(p,n p) P(2) nm,不妨假设ncm令(在Ho成立时)z(i)=x(i) jm丫(i)1 n1 m+济 jjj)-m jjj)i =1,n1 n - Z=-2 Z(i)=X -Y n iJnS=w(z(i)-z)(z(i)-Zri 4n r=Z (Xy I(X(i)X)丐丫心汕)检验统计量:F =(n-p)吃5二Z - F(p,n - p)P5多个正态总体均值向量的检验(多元方差分析)多元方差分析是一元方差分析的推广。为此先复习一下一

13、元方差分析,之后为了对多个正态总体均 值向量作检验,自然地先给出Wilks分布的定义。(1)复习一元方差分析(单因素方差分析)设k个正态总体分别为 N(已,CT2),,N(4k,cr2),从k个总体取ni个独立样本如下:Y (1) Y (1)Y (1)X1, X 2, Xn1Y (k) Y (k)Y (k)X1,X2,XnkH0:片二巴二=k Hi:至少存在i Hj使片HPj 检验统计量:F -SSAk 一1 F(k_i,n-k)(在 Ho成立时)SSE n k其中k _SSA=S ni(Xi -X)2组间平方和i rnk ni组内平方和SSE = 2 Z (Xj一Xi)2kt_SST=2 2

14、 (xJ-X)2总平方和i壬jrn一4 niXi =丄2 X(i)ni un = n 1 屮"+nkX 送 Z X(i)In i# j#给定检验水平a ,查F分布表使p年Fa f,可确定出临界值 Fa,再用样本值计算出 F值,若F >Fa则否定Ho,否则Ho相容。(2) Wilks 分布在一元统计中,方差是刻划随机变量分散程度的一个重要特征,而方差概念在多变量情况下变为协差阵。如何用一个数量指标来反映协差阵所体现的分散程度呢?有的用行列式,有的用迹等方法,目前 使用最多的是行列式。1定义1若XNp(AH),则称协差阵的行列式1$为X的广义方差。称 一S为样本广义方差。其 

15、9;'nn_中 S =2 (X(a) X)(X(a)X) a 4定义 2 若 A1 Wp(n 1/E), rh >p ,A2 Wp(n 2)>0,且 A1 和 A2 相互独立,则称 Ai |A|+A2为Wilks统计量,A的分布称为 Wilks分布,简记为 AA(pmn2),其中n 1, n?为自由度。n2 =1时,用n代替ni,可得到它们之间的关系式如下:1在实际应用中,经常把 A统计量化为T2统计量进而化为 F统计量,利用F统计量来解决多元统计 分析中有关检验问题。当A(p,n,1)=I 21+ T2( p,n)nt2 = n 1 -A(p,n,1)A(p,n,1)由前

16、边定理知n p +1 2T F( p,n-p+1) np所以,n _ p+1)PA(P, n,1)门2=2时有如下关系:n P 1Ja (p,n ,2)PJaE F(2 p,2(n 一 p)1p=1时有:nn2匸也SF(n2,n1)A(1, n1, n2)1 1 JA©, n 4, n2 )=F(2n2,2(n1 -1)<A(2, n1,n2 )A统计量可以化为 F统计量,而当 >2,p2时,可用/ 2统p=2时有:门2以上几个关系式说明对一些特殊的 计量或F统计量来近似表示,后面给出。(3)多个正态总体均值向量检验(多元方差分析)设有k个p元正态总体Np (气迄),,N

17、p (4k疋),从每个总体抽取独立样品个数分别为 n1,门2,,nk,n1中+ nk:,每个样品观测 p个指标得观测数据如下:此处 x(1) =(X卜1X11wX12YX1 prV (1)X211丫X221YX2phA,X(1)Y -V (1)Xnp1 ”(1)Y (1) i1 , X i2 Y,X ip ),if',n第一个总体:(1)nXi" x21)第二个总体:X1(12)Y (2)入21Y入12Y入22Y (2) fX1pV (2)X2pX1(2)【x22)Y (2)LXn1此处 X(2(Xi(12)X:?X (2)X (2),X i2 , X1pY (2)Xn2PL

18、X(2)n2),i =1,小2第k个总体:X1(1k)Y (k)X 21Y (k)X12Y (k) 入22X1(P)1 彎X1(k)X2k)xnyxnk)此处 X(k(Xi(1k),Xi()/-,XiPk),全部样品的总均值向量:Y (k)XnkPLXi =1,,nk(k) nkk na,X=n隆心区,乙''几)1X:PI(a)(a)(a)(a)=一无 Xi4(X1 ,X2,X P ), n ay =a =1,,k各总体样品的均值向量: (a)1 naX1邓此处X(a)1 ; X (a)X j =Z Xij na i d:类似一元方差分析办法,将诸平方和变成了离差阵有:k_一(

19、a) . (a) A =£ na(X -X) (X -X)a壬k na (a)(a)(a)(a)E =2 z (Xi -X )'(Xi -X )a i d:Jk J (a) , (a) T =2 送(Xi -X) (Xi -X)a i i=i这里T=A+E欲检验假设H 0 : 12广 k用似然比原则构成的检验统计量为:j =1,P组间离差阵组内离差阵总离差阵H1 :至少存在i H j,使卩1A( P, n k,k 1)E帀|A+E|Wilks分布表时给定检验水平a ,查Wilks分布表,确定临界值,然后作出统计判断。当手头没有 可用如下/ 2分布或F分布来近似。设A人(p,n

20、 ,m)令V =-( n + m( p + m+1)/2)l nAD 1-A匸 tL -2 aR =:i pmt =n +m -(p +m +1)/2/L =-式中22辭p2m2 4 )I(p2 +m2 -5丿-pm 2A =4则V近似服从/ (pm) , R近似服从F(pm,tL -2y ,这里tL -2k不一定为整数,可用与它最近的整数 来作为F的自由度,且 min(p,m) :2。§ 3.2协差阵的检验1 一个正态总体协差阵检验设X(a)=(Xai,Xa2,,Xa p ) ' (口 = 1,,n)来自p元正态总体Np (比工)的样本,E未知,且艺 0。(1)H。:IpH

21、i:"lp检验统计量:k=ex p£ trS 样歸其中(2)H0=l0因为10,所以存在 令丫 (a) =DX(a) 则HI pD(|D|anS (X(a) -X)(X(a)-XTaTH 1 :工 H H I pHO)使 DHoDT p=1,nY(a) N p(D巴 DED'N p(工*)因此,检验 工=Io等价于检验工* =lp检验统计量pHtrs*其中S* =2 (Y(a)-丫)(Y(a) -丫)a给定检验水平Ct ,因为直接由几分布计算临界值Zo很困难,所以通常采用A的近似分布。/2在Ho成立时,一 21 nA极限分布是p(p十)分布。因此当n »

22、P ,由样本值计算出 几值,若-212即几ce"厂,则拒绝Ho,否则Ho相容。2多个协差阵相等检验设k个正态总体分别为Np(卩1,1:1),,N pWk'Ek), >0且未知,i=1,,k。从k个总体分别取 山个样本V (i) _(X (i) . Y (i)-X(a) = (X a1 , Xap )体分别取ni个样本=1,,Np(Pk,工k),L aO且未知,i=1,k。从k个总V/ v (i)V 'X (a) = (X a1 , X ap )k=1,,k;a=1,ni,2 nni4H 0 : E =112 =" =ILkk令 s=2 Sii 二n/、

23、s (X (a) -Xi )(X (a)i 4-X(i)-4niV 1 V V (i)X(i) = Z X(a)ni y检验统计量:np兀k = n 2kni壬在实际应用中,将ni改为ni -1 , n改为/“(l-D),其中Sin-k,f =丄2/ kz十J 二 ni j2p2 +3p-1c 6(p+ 1)(k-1)D 2(2p2 +3p _ 1)(k +1)6( P +1)( n-k)pniTni/ n k|spn得修正的统计量记为 扎k,则-2ln几k近似分布P(P +1)(k1)至少有一对rij H njn1= n2 =nk例1人的出汗多少与人体内钠和钾的含量有一定的关系。今测20名健

24、康成年女性的出汗多少(Xi)、钠的含量(X2)和钾的含量(X3),其数据如下表。试检验H0 : 4 =卩0 = (4,50,10):比:卩H卩0。序号X1X2X313.748.59.325.765.18.033.847.210.943.253.212.053.155.59.764.636.17.972.424.814.087.233.17.696.747.48.5105.454.111.3113.936.912.7124.558.812.3133.527.89.8144.540.28.4151.513.510.1168.556.47.1174.571.68.2186.552.810.9194.

25、144.111.2205.640.99.4经计算X =(4.64,45.4,9.965)-32.374107.16177.593795.98X -P0 =(0.6460.035)' 55.764107.16 I卩0)68.9255177.59L32.374为了计算(X-P0)S 令丫= S(刃-卩0),则SY =(X 卩0),于是得如下方程组,55.764y1 +177.59y2 -32.374y3 =0.64d77.59y1 +3795.98y2 -107.16y3 =*.6 32.374% -107.16y2 +68.9255y3 =0.035 解得: =0.0151, y2 =

26、-0.0015, y3 =.0020 于是区-卩0)S(X 卩0)=(X -卩0厂Y0.0151 1-(0.644.6,0.035) -0.0015L-0.0020=0.016494T2 = n(n - 1)(X-%)SJ(X-%)=20 X19 X 0.016494 = 6.2677217F =x 6.26772 =1.8719X3查 F 表得 F3,17(0.053.2, F3,17(0.01) -5.18 因此在a = 0.05或0.01时接受H。假设。例2为了研究日、美两国在华投资企业对中国经营环境的评价是否存在差异,今从两国在华投资企业中各抽出10家,让其对中国的政治、经济、法律、文

27、化等环境进行打分,其结果如下表:序号12345678910政治环境65756075705560656055经济环境35504540304145405055法律环境25303540303530253035文化环境605565705065606070751155554065125060457013454535751450505070155550307516604045601765554575185060358019404530652045504570110号为美国在华投资企业代号,1020号为日本在华投资企业的代号。数据来源:国务院发展研 究中心APEC在华投资企业情况调查。设两组样本来自正态总体

28、分别记为:X(a) 心已,工)a =1,10Y(a)- N4(42,印 a =1,10且两组样本相互独立,共同未知协差阵1>0H0 :片=比H1屮1检验统计量:(n +m 2) p +12,八F =T F(p,n+m-p 1)(n +m 2) p经计算X =(64,43,30.5剛Y =(50.5,51,40,40.5)10X)(X(a)-XT-170-808 51034223332.58442284510-Y)(Y(a)-Y) 60165-5390140139S =送(X(a)A壬41080-170L 810$2 =送(Y(a) a i(512.560165-5140139475 52

29、.552.5252.5S =$4 +S2 (922.5-110-1109008514356185L 3143561807.531.531.5762.50.00110.0003-0.0002L0.0002代入统计量中得0.00030.0022-0.0004-0.0016-0.0002-0.00040.00130.0002-0.0002-0.00160.00020.0025F =7.6913查F分布表得 显然F0.01(4,5)= 4.89F >F0.0i (4.15)故否定H。,即认为日、美两国在华投资企业对中国经营环境的评价存在显著差异。§ 3.3附注近年来很多人,使用国际上著名的SAS或SPSS软件进行统计分析,为便于和国际接轨,这里简单介绍一下现代国际统计学关于显著性检验的作法,它与国内多数统计教科书及期刊论文的处理方法不 同。为了便于直观说明这种作法的基本思想,下面以一元正态总体U检验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论