多元统计分析第三章假设检验与方差分析_第1页
多元统计分析第三章假设检验与方差分析_第2页
多元统计分析第三章假设检验与方差分析_第3页
多元统计分析第三章假设检验与方差分析_第4页
多元统计分析第三章假设检验与方差分析_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第3章多元正态总体的假设检验与方差分析从本章开始,我们开始转入多元统计方法和统计模型的学习。统计学分析处理的对象是带 有随机性的数据。按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果 形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域 常用的一种研究方法。由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元 正态总体,这是本章理论方法研究的出发点。所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推 测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。统计推断的任务 是“观察现象,提取信息,建

2、立模型,作出推断”。统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。参数估计问题回答诸如“未知参数 二的值有多大?”之类的问题,而假设检验回答诸如“未知参数二的值是“吗?”之类的问题。本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总 体情形作一简单回顾, 然后将介绍单个总体均值的推断,两个总体均值的比较推断, 多个总体均值的比较检验和协方差阵的推断等。3.1 一元正态总体情形的回顾一、假设检验在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为H。和H“。1、显著性检验为便于表述,假定考虑假

3、设检验问题:设X1, X2,,Xn来自总体N(,二2)的样本,我们要检验假设(3.1 )Hi:原假设H。与备择假设Hi应相互排斥,两者有且只有一个正确。备择假设的意思是,一旦 否定原假设H。,我们就选择已准备的假设Hi。当二2已知时,用统计量 zX在原假设Ho成立下,统计量z服从正态分布zn(0,1),通过查表,查得 N(0,1)的上分位点Z 一 2。对于检验问题(3.1.1 ),我们制定这样一个检验规则(简称检验):当z z 2时,拒绝Ho ;当 Z WZa2时,接受 Ho。(3.2)我们称z一很为临界值,是N(0,1)的上分位点,不同的临界值代表不同的检验。称拒绝原假设Ho的统计量z的范围

4、为拒绝域,称接受Ho的统计量z的范围为接受域,因此给出一个检验, 就是给出一个拒绝域。2、两类错误由于样本具有随机性,因此在根据样本进行判断时,有可能犯两种类型的错误。一类错误 是,原假设H。本来正确,但按检验规则却作出了拒绝H。的判断,这类错误称为第一类错误 (弃真错误),其发生的概率 Pzza=称为犯第一类错误的概率; 另一类错误时,原假设Ho 本来不正确,但按检验规则却作出了接收Ho的判断,这类错误称为第二类错误(存伪错误),其发生的概率称为犯第二类错误的概率,记为一:。同时控制这两类错误是困难的,当时在样本容量n固定的条件下,要使:-和同时减小,通常是不可能的。在假设检验的应用中,由奈

5、曼(NEYMAN与皮尔逊(PEARSON提出了一个原则,即在控制犯第一类错误的概率:条件下,尽量使犯第二类错误的概率小,这种检验问题,称为显著性检验问题。根据这一原则,原假设受到保护,不至于被轻易拒绝,一旦检验结果拒绝 了原假设,则表明拒绝的理由是充分的,如果接受了原假设,则只是表明拒绝的理由还不充分, 未必意味着原假设就是正确的。所以,在实际问题中,为了通过样本观测值对某一猜测取得强 有力的支持,通称我们把这一猜测的否定作为原假设,而把猜测本身作为备择假设。3、关于检验的p值下面,我们再介绍进行检验的另一种方式一一p值,我们就以(3.1.1)的检验问题为例来X _ 4 a加以说明,对于样本,

6、我们通过统计量,计算出zo =,是一确定值,这里的 X是CF /样本观测值的均值,再由统计量z服从正态分布zN(o ,1),计算P zo为检验的p值。由于z|等价于P = P z |zo兰Pz,所以检验规则可以表述为:当p FWilks Lambda0.661127742.903170.0649Pillais Trace0.338872262.903170.0649Hotelling-Lawley Trace 0.512566992.903170.0649Roys Greatest Root 0.512566992.903170.0649可见P值为0.0649,所以否定原假设,即在0.10显著

7、水平下拒绝 Ho。在实际工作中,一元检验与多元检验可以联合使用,多元的检验具有概括和全面的优点,而一 元的检验容易发现各指标之间的关系和差异,两者的结合能给统计人员提供更多的统计分析信 息。3.3两总体均值的比较检验例3.2 为了研究日美两国在华企业对中国经营环境的评价是否存在差异,从两国在华企业对中国的政治、经济、法律、文化等环境打分,得表3-2。试分析日美两国在华企业对中国经营环境的评价是否存在差异?表3-2日美两国在华企业对中国经营环境的评价美国企业号政治环境X1经济环境X2法律环境X3文化环境X4美165352560美275502055美360453565美475404070美5703

8、03050美655403565美760453060美865402560美960503070美1055553575日本企业号政治环境Y1经济环境Y2法律环境Y3文化环境Y4日155554065日250604570日345453575日450505070日555503075日660404560日765554575日850653580日940453065日1045504570假设 X =(Xi,X2,X3,X4)服从 Nx匸 x),Y = (丫1,丫2,丫3,丫4)服从 N(S,) 下,且有10对样品,要做复合检验bl1131 1一般情况下,我们考虑 Xi,X2,,Xn为取自P维正态总体Np(叫,三

9、)的一个样本, 丫1,丫2,,Ym为取自P维正态总体Np(2,D的一个样本。假定两组样本相互独立,且_ 1 n - 1 nX = Xi,丫=Yin i amy一、有共同已知的协差阵时对于例3.2提出的问题,可归类为假设检验问题:叫:亠二叮Hi:h其中叫2为已知P维向量。在一维情形下,用了统计量 U = X丫 n m,与前面相似的思路,在 p维时,选用统ct0 T n + m计量nmn mT A(X -Y) Z (X -Y)当H。成立时,2服从2(p)-分布。对给定的显著性水平 ,从P 2 一 2(p :,求出:(p)。当2 一(P)时,拒绝;当 FWilks LambdaPillais Tra

10、ce0.376077346.2240.623922666.224150.0037150.0037Hotelling-Lawley Trace 1.659027526.224150.0037Roys Greatest Root 1.659027526.224150.0037由此可见p值是0.0037,因而日美两国在华企业对中国经营环境的评价存在显著差异。3.4多个总体均值向量的比较检验在研究作物栽培时,要考虑播种期、品种、土质、施肥方式、灌溉方式对产量的影响;在 化学反应中要观察原料成分、剂量、催化剂、温度、压力,搅拌速度等对得率的影响。在很多 应用领域尤其是科学研究中,都遇到过类似的问题,常涉

11、及许多因素,这类问题要分析出影响 最“大”的因素,就是比较各种因素对试验结果所起的作用问题。作为影响试验结果的每一因 素或因素的某一水平或某一方案,且试验结果都形成一个随机总体。这样,比较各种因素对试 验结果所起的作用问题就变成对各种因素的试验结果所形成的总体的比较问题。由于试验指标常为多元指标,故常设试验结果所形成的总体为多元正态总体。此外,我们 按照随机排列、重复、局部控制、正交等原则设计一个试验,除要考察的因素外,其他试验条 件均要求一致,即要考察的试验因素的试验结果都是同协方差阵的且相互独立的多元正态总体。 因而,各因素对试验结果影响的结果的比较,就变成了多个同协方差阵的多元正态总体均

12、值向 量的比较。统计上解决两个以上同协方差阵多元正态总体均值向量比较的方法叫做多元方差分 析。多个总体均值向量的比较检验,特别是多元方差分析正是本节的内容,这类方法在经济管 理,系统控制,生物医药等许多领域有着广泛的应用。这里先看一个具体实例。341提出问题例3.3为了研究某种疾病,对三组人测量:第1组是20至35岁女性、第2组是20至25岁男性、第3组是30至55岁男性。每组取20个人,测量第I组的第J人4个指标是:一:脂蛋白 (X;)、甘油三脂(X;2)、脂蛋白(X(3)、前0脂蛋白(X(4 )。测量结果见表3-3。 问三组人的指标间有没有显著差别?表3-3脂蛋白、甘油三脂、丄脂蛋白、前脂

13、蛋白数据(1)Xj;(1)Xj2(1)Xj3(1)Xj4(2) Xj1j2)Xj2j2)Xj3j2)Xj4j3)Xj1j3)Xj2j3)Xj3j3)Xj4260754018310122302132064391720072341731060351826059371124087451819040271536088282617065391722565341629510036122701103924170653716270653221205130342321082311738011436211906927 1528067 :371824055P 4210200464515210383617260553

14、42025011721202806530232601102920200107282020076401729573332122513036 11120076 3920240114P 3818210125261728094261131010332181706431 11419060 13317330112211127076331329555301634512724201906034 16270125 :242125062P 22162808120182801203218260592119310119251524062 343027057318280692920345120

15、3618250673114370703020360107252326013539292804037172501173616问题中的3组人的测量值X、X、X,每个随机向量有4个指标,即4维随机 向量。例3.3要从每个总体20个样品值出发,检验 E(X)=E(X(2) = E(X(3)是否成立。3.4.2单因素方差分析的数学模型方差分析的目的在于找出自变量与因变量之间的线性关系,或自变量对因变量的实验效果。方差分析是一种处理实验数据的方法,考察一个被称为因变量或相依变量(depe nde nt variable,)的连续响应变量,又称反应变量(Response Variable),其数值则是连续的

16、,它在由分类变量识别的几种试验条件下被测量,这些分类变量被称为自变量,独立变量(independent variable),定性变量(Qualitative Variable )或分类变量(Classification Variable),其数值多半是不连续的。这些分 类变量的水平组合形成试验设计的单元。例如,某个试验要测量男人和女人的重量变化(因变 量),他们采取了三种不同的减肥方法,这个设计的6个单元由性别(男、女)和减肥方法(A、B、C) 6种组合形成。一项试验有多个影响因素,因素也可以看成是一种变量,其取值不是数,而是水平。例如 “产地”是一个变量,它取的值是“北京”、“上海”、“南京

17、”等。这种变量称为属性变量,定性变量或分类变量如果只有一个因素在发生变化,其他因素保持不变,贝U称为单因素试验, 与之对应的方差分析,称为单因素方差分析。我们所考察的影响产品指标的因素(如产地,温度)也称为因子,用大写字母 A,B,C表示。因素所能处的状况,如甲、乙、丙;60, 65, 70, 75,,称为因素的水平,简称为水平。水平常以A, A2, B1, B2,.表示。一般地,假设因素 A有k个水平:A,.,Ak。对第i个水平A进行试验,独立观察 ni次, i=1,2,k,整个试验共作了 n1 n2 nk = n次,且完全随机排列。设A的第j次观察的试验指标为p维向量X(i) =(x(1)

18、,x(2),,X(ip) Np(Ui2) i=1,2,k , j=1,2,ni 假设:(1) 同一个水平Aj下得到的观测值X1(1), x2)xni ;X1(k),X,由于实验过程中各种偶然因素的干扰及测量误差所致,每次实验中这些偶然因素的总和称为实验误差,它们是方差相同的零均值正态随机变量;(2) 所有误差相互独立;(3) 由于水平的不同,可能会给Xj一个定量的确定性的影响,其大小是未知的。假定=1 0讥令:.j =丄n i于是有模型:;ij1 Np(0j)且相互独立i =1,2, ,k , j -1,2,其中卩称为总体均值向量, 为A的主效应向量, 为a的第j次观察的随机误差向量,根 据假

19、设相互独立且均服从 Np(0,匕)。判断这个因素的影响是否显著就是要检验假设:Ho : 1 = 2 八八 k =0 Hi : 1 , 2 ,k 不全为 0( 3.7)1 ni设第I组样本均值X 丄 x(i)ni j41 kni总均值Xx(i)n i 4 j4kni 样本组内差EM二(X; -茹)以- 丁)i 1 j 1k 样本组间差 B = 7 n/X - X)(X - X(i),i 4k niA 八 、(Xj -XHXj - X)= B E,i =1 j 吕对于该检验问题的统计量,取 WILKS统计量上 二 E/A定理3.3若打则上二E / A服从WILKS分布二p, n _k.1,k _2

20、x(2)x,x证明参见朱道元第177页例3.3为了研究某种疾病,对三组人测量:第 1组是20至35岁女性、第2组是20至25岁男 性、第3组是30至55岁男性。每组取 20个人,测量第I组的第J人4个指标是:一:脂蛋白(i)(i)(i)(x(7 )、甘油三脂(X;?)、脂蛋白(x;3 )、前:脂蛋白(Xj4 )。测量结果见表3.3。问三组人的指标间有没有显著差别?x(2)x,xx(2)x,x解这儿有3个总体,建立假设 H 0 : S二笃八1不全相等x(2)x,xx(2)x,x计算三总体样本均值231.0253.5292.7589.672.5590.232.932.4531.75.17.1 一.

21、17.9 一-18.4 一x(2)x,xx(2)x,x计算组内差x(2)x,x305306298-107819515736.8 -796.8 1387.8 Ei =I .95590.2413.8517057021.5-1571.582712288.95 -807.95 321.1 E2 =.364.95-5.1133.843173.759959-1301.2572312441.2-333457.4E3 =.761.5-112476.812504.823278.5-395.75174840466.395 -1937.752166.3E =巳 +E2 + Er=.2082.5-26.9.1024.

22、2计算组间差39065.832307.92-724.08786 14017.23-35.82-26.9B =13.43-14.7J17.2 一计算总方差-164474.5825586.4244484.18-4674.83-1973.572534 12139.4A=B+E=.2095.93-41.61041.4 一计算上统计量一i = |E|/帆二0.6621 ,查得 A p,n4 4k/ (0.01) = 0.7090.6621 ;所以高度显著否定 H。,故三组人身体指标有显著差异。3.5总体协差阵相等的检验本章第三节和第四节中, 总假定不同总体的方差是相同的,这一假定是否合理?在一些问 题中

23、应当加以证明。3.5.1个正态总体协方差阵的检验设Xi,X2,,Xn为取自P维正态总体Np(d2)的一个样本,二未知,且三0。首先,我们考虑假设检验问题:Ho : = I p, HiIp所构造的检验统计量为一 expQtrA A n2(np2其中nTA 八(Xj _X)(Xj _X)i A然后,我们考虑假设检验问题:Ho :二匸0 = I p, H1 : :匸0 = I p因为Zo0,所以存在非奇异矩阵D,使得DoDT = Ip令丫 =DXj, i =1,2,,n则Y NP(D),D3Dt ) =NP(H )因此检验二二70等价于匕=I p此时构造检验统计量为阶沖* A*.苫严其中n*-、TA

24、=v (Yj -Y)(Yj -Y)i A给定检验水平,因为直接有的分布计算临界值很困难,所以通常采用的近似分布。在H 0成立时,- 21n 的极限分布是2 (p( p 1). 2),因此当n p ,由样本值计算出值,若-21 n 2.,即 e_:2,则拒绝Ho,否则不能拒绝 Ho。3.5.2多个协方差阵相等检验刚才讨论的检验、-lo是一个正态总体协方差阵的检验,是检验当前协方差阵与过去是否一样,在一些实际问题中,可能会遇到多个正态总体的协方差阵是否相等的问题。设有k个正态总体分别为 Np(叫,Zi ),,Np(k ,6),匕i - 0且未知,i = 1,2,k从第i个总体中取ni个样本Xj=

25、(x(1),x(2),x(p) Np(Ui Ji ), j这里n1 n2川卷nk =门为总样本容量。=1 ,2, ni我们考虑假设检验问题为H o : 1=匸2=_=k,构造检验统计量为Hi仁i 不全相等np 2i AAn2k p:2丨ni 4山A (Xj(i)_X(i)(X(i)_X(i)T,j 二(i)X1ni二丄V X(i) j ?ni j m按照Bartlett的建议,记 Nj二山kni 二血 = NANi 2NNp2k厂 NiNip2i=1-1, N = n - k得到修正的检验统计量则在Ho成立时,2(f),其中1-2lnr的极限分布是一1 d1f =2 p(p 1)(k T)汁+

26、3p-1眩1 1 I Nk环必相等; d =6(p+1)(k-1) #Ni N!(2p3p-1)(k+1),也厢等I6(p+1)Nk例3.4有甲、乙两品种,取得如表3-4所示的两个二元正态样本,试检验 H。: 1=匕2观察值和Z Xi2工 X1X23002322171002863201455385109甲X23525431017123341726085 (2)200 :150r 333150283383350P 3002149635167乙X1616381* Z v5043834173808610055642044表3-4方差阵检验数据&32271.5-3742.51解:A =-3742.58

27、95.5 一90163.4 8540.0 A 8540.04297.5A =14892822A2 =460883525A =314545504.17 8991 1 2 2 852A I2|1 2 2 852 3 4 0.2In Aj =16.5164In A2 =17.6461In A =19.5666由于 p =2,k =2,-2In 丨 N In A-p I nN 亠 p N k I nN k N k IniTiTN -12,故Ak=175.1614 43.3371 -206.0957 =7.815d =0.18741匕p(p皿仆311 -d0.052(3) = 9.6176由于-2ln

28、6176,故应拒绝H0 :72,即认为11 ,匕2有显著差异。3.6独立性检验X (1) | q一个随机向量 X = | (2),若其中两子向量相互独立,则可化为两个低维随即向量x(2处理,给统计分析带来极大的便利,因此检验一个随机向量的子向量之间是否独立是参数假设检验中的重大课题,而当陟Np隠冒-X 一 I 尸一二 21-12 时,X,x(2)相互独立口 X,x(2)互不相22J关二712 =0(二 二21 =0)。这时,X (1) , X的独立性检验可归结为参数假设检验。般情况下,设 XNp(1) ,3正定,将X分割成k个子向量:X =(x(1),x(2),,x(k) )T,其中X的维数为

29、Pi , ik= 1,2,kPi = p,将与三也作相应的剖分:i =4亠工11V己121 k卩(2)9,龙=21S22a2kmHkl1 1k1Ik2kk _必卩=检验子向量x(1),,X(k)之间的相互独立的假设问题可写成:i , j 2, kH1 : j =0至少有一对i, j也就是说,如果H。成立,则00-22-kk现从总体X Np(丄,0抽取容量为n的样本X1 ,X2,Xn ,将样本的总离差阵nA (x X)(Xi X)T,剖分成i 4a11a12a1 pA11A-m12Aika21a22sa2pa=A21A22A2ka.a p1a p2app 1Ak1A-Mk2Akk _A 二P1P2Pk也可以计算样本相关阵,并作相应剖分112r1 pR11R12R1kr21i1 亠ar2p费R21aR22aR2karp1rp2 1px:pRk1 a SRk2Rkk _PlP2Pk其中rij= aij 、aiiajj检验问题(3.6.1)式的似然比统计量为IA通常取v|AlR 作为统计量n Aiii z!n Riii z1关于在Ho成立

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论