多元统计与分布(普).ppt_第1页
多元统计与分布(普).ppt_第2页
多元统计与分布(普).ppt_第3页
多元统计与分布(普).ppt_第4页
多元统计与分布(普).ppt_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 引言,多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科;是讨论多元随机变量的理论和方法的总称。 一 .发展 1928年,Wishart Fisher,Hotelling,Roy,许宝禄等 70年代初,在我国开始发展,多元统计分析(Multivariate Statistical Analysis),一、多元随机变量,二、内容(研究目标),(1)多元正态总体的统计推断 参数估计;假设检验 非参数统计推断的发展? (2)简化数据结构 主成分分析;因子分析;对应分析 (3)分类与分组 聚类分析;判别分析 (4)变量间的相互关系 回归分析;典型相关分析,三.应用,教育

2、学、医学、气象学、环境科学、地质学、考古学、服装工业、经济学、农业、社会科学、文学等各个自然科学和社会科学领域。,二、雷达图,物理,2多元随机变量的分布,1。多元正态分布 2。Wishart分布 3。Hotelling T平方分布,其中元素,为第i个样本中第j个分量的取值。,多元随机变量,1、概率分布律、密度函数与分布函数,(1) 离散型随机向量在所有可能向量值上的概率为:,其中,时,,的分布遵从随机变量的二项分布,。,2多元随机变量的分布,(2) 连续型随机向量的概率分布,均匀分布 设维随机向量的密度函数在某连续区域内为一常数,在该区域外为零值,则称遵从均匀分布,以,连续区域为长方形为例,密

3、度函数为: (7.2) 可以得出: 均匀分布的密度常数为连续区域体积的倒数。,2多元随机变量的分布,对于维的离散型,或连续型随机向量,均可定义它的联合分布函数(或称维分布函数、累计概率函数)如下: 可由联合分布函数计算概率,例如在时,有a=0;,例如在,时,有,可以证明联合分布函数具有这样一些性质:对于每个单元单调上升;对于每个变元左连续;有,2多元随机变量的分布,二、连续型的维随机向量的联合分布函数,边沿分布与条件分布,P维随机向量,的联合分布函数为,,当它的部分变元(不妨设为后,个)于无穷,且有,,则其极限函数,2多元随机变量的分布,三、 随机向量的独立性,返 回,对于连续型随机变量上(3

4、)式则等价于:,对于离散型随机变量上(3)式等价于,可用,的联合分布函数及它们各自的(边沿)分布函数表为:,设随机变量 、 ,对任意的 和 有 (3) 则称随机变量和相互独立。,(4),四、随机向量的数字特征,四、随机向量的数字特征,随机向量的数字特征主要有数学期望和协方差矩阵。,。,设维随机向量,,它的各随机分量,的数学期望存在,即有,,则,的数学期望存在,它为:,可见它也是,维向量,常称之为均向量,向量方差:,(4),又若各随机分量对,之间的协方差,存在,,,则,的协方差矩阵存在,它为:,显见其对角线元素,为,的方差,而非对角线元素,为,之间的协方差,对它标准化,得到,的相关系数:,均匀分

5、布的数字特征,均值向量和协方差阵的性质,随机向量的数学期望和协方差矩阵性质讲解,这里的,是,各分量的线性组合,(1),(2),(3),(4),(5),(6),(7),五、多元正态分布的密度函数和数字特征 回忆一元,正态分布,其密度函数为:,它还可写成如下形式:,并可推导随机变量,X数学期望为,,方差为,对此进行推广,设随机向量,P元正态分布,则其密度函数为:,多元正态分布的定义与基本性质,多元正态分布的定义与基本性质,二元正态分布,其密度函数为:,取,例子,例2.2 (二元正态密度曲线和等高线) title2 相关系数r=0,a1=a2=1; data normal1; a=1;b=1; r=

6、0; a2=sqrt(a);b2=sqrt(b); p2=2*3.1415926; d=1-r*r;d2=sqrt(d)*a2*b2; do x=-3 to 3 by 0.1; do y=-3 to 3 by 0.1; z1=exp(-x*x/a-y*y/b+2*r*x*y/(a2*b2)/d); z=z1/(p2*d2); output; end; end; keep x y z; run;,proc g3d data=normal1; plot y*x=z / name=GB0309 rotate=-30 /* ctop=black cbottom=black */ xticknum=7

7、yticknum=7; run; proc gcontour data=normal1; plot y*x=z; run;,其中,为常数向量,为一对称正定矩阵,可以证明,为随机向量,的数学期望(均向量),,为它的协方差矩阵。,,,;,,,协方差矩阵,相关矩阵,定义1:若,独立且服从,维中心化正态分布,,则随机矩阵,所服从的分布称为自由度为,的,维中心Wishart分布,记为,,其中,,,中心Wishart分布,定理1:设,i.i.d,,记,,则,(1),与,相互独立,(2),定义2:设,i.i.d,,若,,,,,,,与,独立,则称随机变量,服从第一自由度为P,第二自由度为n的中心分布,记为,分

8、布首先是Hotelling由一元统计推广而来,故,分布又称,Hotelling,分布。,Hotelling分布,推论1 :设 i.i.d,,当,已知时,,推论2 :设 i.i.d,,当,未知,记,,,则,事实上,因,根据定义3,取,,则,,,Hotelling分布,可以证明:,上公式等价于:,上两公式给出了F分布统计量与 的关系。,对于给定的检验水平,Hotelling分布与F分布的关系,3随机向量的估计与检验,1。参数简单估计 2。均值的Hotelling检验 3。多元方差分析,一、用样本统计量对期望与方差作简单估计 例1 用益寿宁治疗五名高血脂病人,治疗结果列于表1,试估计算多元统计量。,

9、二、用样本对协方差矩阵作估计,三、用样本对相关矩阵作估计,简单估计 在科研问题中,常常可以设定其对象遵从多元正态分布。多元正态分布可由其均向量和协方差矩阵完全确定,但实际工作中,这两个参数往往是未知的,需要通过样本来估计。,3 两个均数向量的比较 Hotelling T2检验,由推论1 知 i.i.d,1、当,已知时的均值检验,,检验统计量,对于给定的检验水平,其否定域为,由推论2 知 i.i.d,2、当,未知时的均值检验,,检验统计量,对于给定的检验水平,其否定域为,范例,试讨论益寿宁有否降血脂效果?分析:若无效,意味着u=0,故假设,即,益寿宁有降血脂效果,DATA HOTE; INPUT

10、 X1 X2 ; C=1; 【单一组指标】 CARDS; 16 -4 21 46 57 -40 -20 107 17 86 ; PROC GLM; CLASS C; MODEL X1 X2=C/NOUNI; MANOVA H=INTERCEPT; LSMEANS C/STDERR PDIFF; PROC CORR COV OUTP=A; VAR X1 X2; PROC PRINT;RUN;,C X1 Std Err Pr |T| LSMEAN LSMEAN H0:LSMEAN=0 1 18.2000000 12.2040977 0.2101 C X2 Std Err Pr |T| LSMEAN

11、 LSMEAN H0:LSMEAN=0 1 39.0000000 27.3605555 0.2272,结果3(常用多元统计量):,OBS _TYPE_ _NAME_ X1 X2 1 COV X1 744.70 -1401.25 2 COV X2 -1401.25 3743.00 3 MEAN 18.20 39.00 4 STD 27.29 61.18 5 N 5.00 5.00 6 CORR X1 1.00 -0.84 7 CORR X2 -0.84 1.00,DATA HOTE; INPUT X1 X2 ; X1=x1-20;x2=x2-40; C=1; CARDS; 16 -4 21 46

12、 57 -40 -20 107 17 86 ; PROC GLM; CLASS C; MODEL X1 X2=C/NOUNI; MANOVA H=INTERCEPT; LSMEANS C/STDERR PDIFF; PROC CORR COV OUTP=A; VAR X1 X2; PROC PRINT;RUN,单向试验,The GLM Procedure Multivariate Analysis of Variance Characteristic Roots and Vectors of: E Inverse * H, where H = Type III SSCP Matrix for

13、Intercept E = Error SSCP Matrix Characteristic Characteristic Vector VEV=1 Root Percent X1 X2 0.02718214 100.00 0.03349311 0.01344453 0.00000000 0.00 0.00373545 -0.00672381 MANOVA Test Criteria and Exact F Statistics for the Hypothesis of No Overall Intercept Effect H = Type III SSCP Matrix for Inte

14、rcept E = Error SSCP Matrix S=1 M=0 N=0.5 Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.97353718 0.04 2 3 0.9606 Pillais Trace 0.02646282 0.04 2 3 0.9606 Hotelling-Lawley Trace 0.02718214 0.04 2 3 0.9606 Roys Greatest Root 0.02718214 0.04 2 3 0.9606,一 单向试验,The GLM Procedure Least Squares

15、 Means Standard C X1 LSMEAN Error Pr |t| 1 -1.8000000 12.2040977 0.8899 Standard C X2 LSMEAN Error Pr |t| 1 -1.0000000 27.3605555 0.9726,一 单向试验,计算分析过程,DATA HOTE; INPUT X1 X2 X3 ; x1=x1-90;x2=x2-58;x3=x3-16; C=1; CARDS; 78 60.6 16.5 76 58.1 12.5 92 63.2 14.5 81 59.0 14.0 81 60.8 15.5 84 59.5 14.0 ; P

16、ROC GLM; CLASS C; MODEL X1 X2 x3=C/NOUNI; MANOVA H=INTERCEPT; LSMEANS C/STDERR PDIFF; PROC CORR COV OUTP=A; VAR X1 X2 x3; run;,SAS程序:,The GLM Procedure Class Level Information Class Levels Values C 1 1 Number of observations 6 The SAS System 15:53 Thursday, November 4, 2004 2 The GLM Procedure Multi

17、variate Analysis of Variance Characteristic Roots and Vectors of: E Inverse * H, where H = Type III SSCP Matrix for Intercept E = Error SSCP Matrix Characteristic Characteristic Vector VEV=1 Root Percent X1 X2 X3 84.0889324 100.00 0.18487526 -0.70321560 0.47837409 0.0000000 0.00 -0.03957508 0.047504

18、85 0.28074086 0.0000000 0.00 0.03892251 0.14153640 0.00000000,MANOVA Test Criteria and Exact F Statistics for the Hypothesis of No Overall Intercept Effect H = Type III SSCP Matrix for Intercept E = Error SSCP Matrix S=1 M=0.5 N=0.5 Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.01175241

19、84.09 3 3 0.0022 Pillais Trace 0.98824759 84.09 3 3 0.0022 Hotelling-Lawley Trace 84.08893238 84.09 3 3 0.0022 Roys Greatest Root 84.08893238 84.09 3 3 0.0022,The GLM Procedure Least Squares Means Standard C X1 LSMEAN Error Pr |t| 1 -8.00000000 2.29492193 0.0175 Standard C X2 LSMEAN Error Pr |t| 1 2

20、.20000000 0.72709468 0.0292 Standard C X3 LSMEAN Error Pr |t| 1 -1.50000000 0.56273143 0.0446,The CORR Procedure 3 Variables: X1 X2 X3 Covariance Matrix, DF = 5 X1 X2 X3 X1 31.60000000 8.04000000 0.50000000 X2 8.04000000 3.17200000 1.31000000 X3 0.50000000 1.31000000 1.90000000 Simple Statistics Var

21、iable N Mean Std Dev Sum Minimum Maximum X1 6 -8.00000 5.62139 -48.00000 -14.00000 2.00000 X2 6 2.20000 1.78101 13.20000 0.10000 5.20000 X3 6 -1.50000 1.37840 -9.00000 -3.50000 0.50000,Pearson Correlation Coefficients, N = 6 Prob |r| under H0: Rho=0 X1 X2 X3 X1 1.00000 0.80306 0.06453 0.0544 0.9033

22、X2 0.80306 1.00000 0.53361 0.0544 0.2755 X3 0.06453 0.53361 1.00000 0.9033 0.2755,检验两家实验室污水化学分析结果是否一致,检验例举,令 d1J = X11J - Y11J , d2J = X12J-Y12J,某市为测定其河流污水处理的状况,从河流中抽取11个样品, 送(甲与乙)两家实验室检验指标生化氧(BOD)与悬浮固体(SS)量得数据如下表:,成对数据检验,成对数据检验,以单向试验法作成对检验 data mogo; input x1 x2 y1 y2 ; c=1; d1=x1-y1; d2=x2-y2; car

23、ds; 6 37 25 25 6 23 28 13 18 64 36 22 8 44 35 29 11 36 15 31 34 75 44 64 23 26 42 30 71 124 55 64 43 54 34 56 33 30 29 20 20 14 39 21 ; proc glm; class c; MODEL d1 d2=C/NOUNI; MANOVA H=INTERCEPT; LSMEANS C/STDERR PDIFF; PROC CORR COV ; VAR d1 d2; run; PROC PRINT;RUN;,成对数据检验,H = Type III SSCP Matrix

24、for Intercept E = Error SSCP Matrix S=1 M=0 N=3.5 Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.38592221 7.16 2 9 0.0138 Pillais Trace 0.61407779 7.16 2 9 0.0138 Hotelling-Lawley Trace 1.59119577 7.16 2 9 0.0138 Roys Greatest Root 1.59119577 7.16 2 9 0.0138 The SAS System 16:57 Wednesday

25、, March 31, 2008 3 The GLM Procedure Least Squares Means Standard c d1 LSMEAN Error Pr |t| 1 -9.90909091 4.27350090 0.0429 Standard c d2 LSMEAN Error Pr |t| 1 13.8181818 6.0660279 0.0459,成对数据检验,Covariance Matrix, DF = 10 d1 d2 d1 200.8909091 95.8181818 d2 95.8181818 404.7636364 Simple Statistics Var

26、iable N Mean Std Dev Sum Minimum Maximum d1 11 -9.90909 14.17360 -109.00000 -27.00000 16.00000 d2 11 13.81818 20.11874 152.00000 -7.00000 60.00000 Pearson Correlation Coefficients, N = 11 Prob |r| under H0: Rho=0 d1 d2 d1 1.00000 0.33602 0.3123 d2 0.33602 1.00000,成对数据检验,Obs x1 x2 y1 y2 c d1 d2 1 6 3

27、7 25 25 1 -19 12 2 6 23 28 13 1 -22 10 3 18 64 36 22 1 -18 42 4 8 44 35 29 1 -27 15 5 11 36 15 31 1 -4 5 6 34 75 44 64 1 -10 11 7 23 26 42 30 1 -19 -4 8 71 124 55 64 1 16 60 9 43 54 34 56 1 9 -2 10 33 30 29 20 1 4 10 11 20 14 39 21 1 -19 -7,设,3、当两个正态总体方差已知,时,两均值检验,,检验统计量,对于给定的检验水平,其否定域为,4、当两个正态总体方差未

28、知,但方差相等,时,两均值检验,,检验统计量,对于给定的检验水平,其否定域为,5、当两个正态总体方差不相等 ,但样本容量相等,两均值检验。,检验统计量,对于给定的检验水平,其否定域为,6、当两个正态总体方差不相等 ,但样本容量不相等nm,检验统计量,对于给定的检验水平,其否定域为,检验两家实验室污水化学分析结果是否一致,检验例举,某市为测定其河流污水处理的状况,从河流中抽取11个样品, 送(甲与乙)两家实验室检验指标生化氧(BOD)与悬浮固体(SS)量得数据如下表:,data mogo; input g$ x1 x2 ; cards; a 6 37 b 25 25 a 6 23 b 28 13

29、 a 18 64 b 36 22 a 8 44 b 35 29 a 11 36 b 15 31 a 34 75 b 44 64 a 23 26 b 42 30 a 71 124 b 55 64 a 43 54 b 34 56 a 33 30 b 29 20 a 20 14 b 39 21 ; proc glm; class g; MODEL d1 d2=C/NOUNI; MANOVA H=g/printe printh; LSMEANS g/STDERR PDIFF; Run;,以双向试验法作成对检验,The GLM Procedure Class Level Information Clas

30、s Levels Values g 2 a b Number of observations 22 The SAS System 15:53 Thursday, November 4, 2004 10 The GLM Procedure Multivariate Analysis of Variance E = Error SSCP Matrix x1 x2 x1 5001.8181818 5862.0909091 x2 5862.0909091 13031.818182 Partial Correlation Coefficients from the Error SSCP Matrix /

31、 Prob |r| DF = 20 x1 x2 x1 1.000000 0.726083 0.0002 x2 0.726083 1.000000 0.0002,The GLM Procedure Multivariate Analysis of Variance H = Type III SSCP Matrix for g x1 x2 x1 540.04545455 -753.0909091 x2 -753.0909091 1050.1818182 Characteristic Roots and Vectors of: E Inverse * H, where H = Type III SS

32、CP Matrix for g E = Error SSCP Matrix Characteristic Characteristic Vector VEV=1 Root Percent x1 x2 0.68529770 100.00 -0.01931657 0.01169307 0.00000000 0.00 0.00705157 0.00505672,H = Type III SSCP Matrix for g E = Error SSCP Matrix S=1 M=0 N=8.5 Statistic Value F Value Num DF Den DF Pr F Wilks Lambd

33、a 0.59336697 6.51 2 19 0.0070 Pillais Trace 0.40663303 6.51 2 19 0.0070 Hotelling-Lawley Trace 0.68529770 6.51 2 19 0.0070 Roys Greatest Root 0.68529770 6.51 2 19 0.0070 The SAS System 15:53 Thursday, November 4, 2004 12 The GLM Procedure Least Squares Means H0:LSMean1= Standard H0:LSMEAN=0 LSMean2

34、g x1 LSMEAN Error Pr |t| Pr |t| a 24.8181818 4.7681797 |t| Pr |t| a 47.9090909 7.6964626 .0001 0.2188 b 34.0909091 7.6964626 0.0003,例: 调查某中学16岁男、女若干名,测量其身高、体重和胸围,结果见SAS程序。试检验该中学全体16岁男、女身体发育状况的差别有无统计学意义。,data b; input sex$ h w b; cards; m 171 58.5 81 m 175 65 87 m 159 38 71 m 155.3 45 74 m 152 35 63

35、m 158.3 44.5 75 m 154.8 44.5 74 m 164 51 72 m 165.2 55 79 m 164.5 46 71 m 159.1 48 72.5 m 164.2 46.5 73 f 152 44.8 74 f 153 46.5 80 f 158 48.5 77.5 f 150 50.5 87 f 144 36.3 68 f 160.5 54.7 86 f 158 49 84 f 154 50.8 76 f 153 40 70 f 159.6 52 76 ; proc glm;class sex; model h w b=sex/nouni; manova h=se

36、x/printe printh; lsmeans sex/stderr pdiff; proc sort;by sex; proc corr cov outp=b;var h w b; by sex;proc print;run;,二 双向试验,主要输出结果如下:,结果1(多元方差分析结果): Statistic Value F Num DF Den DF Pr F Wilks Lambda 0.38927219 9.4134 3 18 0.0006 Pillais Trace 0.61072781 9.4134 3 18 0.0006 Hotelling-Lawley Trace 1.568

37、89660 9.4134 3 18 0.0006 Roys Greatest Root 1.56889660 9.4134 3 18 0.0006,二 双向试验,该中学全体16岁男、女身体发育状况的差别有统计学意义。,SEX H Std Err Pr |T| Pr |T| H0: LSMEAN LSMEAN H0:LSMEAN=0 LSMEAN1=LSMEAN2 f 154.210000 1.910649 0.0001 0.0077 m 161.866667 1.744176 0.0001 SEX W Std Err Pr |T| Pr |T| H0: LSMEAN LSMEAN H0:LSM

38、EAN=0 LSMEAN1=LSMEAN2 f 47.3100000 2.2921231 0.0001 0.8058 m 48.0833333 2.0924125 0.0001 SEX B Std Err Pr |T| Pr |T| H0: LSMEAN LSMEAN H0:LSMEAN=0 LSMEAN1=LSMEAN2 f 77.8500000 1.9513937 0.0001 0.2033 m 74.3750000 1.7813706 0.0001,结果2(单变量分析及其两两比较结果,由LSMEANS语句获得):,二 双向试验,7.4 多个均值向量的比较 多元方差分析,现从各个正态总体中抽取的样本如下:,作均值检验:,容易证明:,定义维尔克斯(Wilks)统计量,从各个总体协方差阵相同,记,定义维尔克斯(Wilks)统计量,对于给定的检验水平,其否定域为,由于该分布的重要性,统计学家一直都在研究其与其它分布的关系,并找到许多其极限分布的关系,具体结果如下表,例: 调查某中学16岁男、女若干名,测量其身高、体重和胸围,结果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论