多元统计分析第二章 多元正态分布.doc_第1页
多元统计分析第二章 多元正态分布.doc_第2页
多元统计分析第二章 多元正态分布.doc_第3页
多元统计分析第二章 多元正态分布.doc_第4页
多元统计分析第二章 多元正态分布.doc_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章 多元正态分布多元正态分析是一元正态分布向多元的自然推广。多元正态分布是多元分析的基础,多元分析的许多理论都是建立在多元正态总体基础上的。虽然实际的数据不一定恰好是多元正态的,但是正态分布常常是真实的总体分布的一种有效的近似。所以研究多元正态分布在理论上或实际上都有重大意义。限于篇幅,本章仅简介多元正态简单理论,细节可参看王学民(2004),张尧庭(2002),余锦华(2005),Richard(2003),朱道元(1999)等。现实世界的许多问题都可以纳入正态理论的范围内,正态分布可以作为许多统计量的近似的抽样分布。2.1随机向量2.1.1随机向量定义2.1.1:称每个分量都是随机变量的向量为随机向量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。设是随机向量,其概率分布函数定义为:,为任意实数多元分布函数有如下性质:(1);(2)是每个变量的非降右连续函数;(3);(4)。多元分布和一元分布一样也分为离散型和连续型。连续型随机向量的分布函数可以表示为 : , (2.1)称是的多元联合概率密度,简称多元概率密度或多元密度。多元概率密度有以下性质:(1)非负;(2);(3)2.1.2边缘分布、条件分布和独立性边缘分布设是维连续型随机向量,由其个分量组成的向量(不妨设)的分布称为的边缘分布,其边缘概率密度为: (2.2)条件分布设是维连续型随机向量,,在给定的条件下,的条件概率密度函数为: (2.3)独立性设是连续型随机向量,则相互独立当且仅当对任意成立。例2.1设随机向量的概率密度函数为试证相互独立。证明:同理 由于 所以相互独立。2.1.3随机向量的变换 设随机向量的概率密度函数为,函数组,其逆变换存在,即存在。则的概率密度为: (2.4)其中 2.1.4数字特征数学期望随机矩阵的数学期望定义为 (2.5) 随机向量也可看作随机矩阵,它是只有一列的随机矩阵,其数学期望为:随机矩阵的数学期望有如下的性质:(1),其中为常数;(2)设是常数矩阵,则;(3)设都是同阶的随机矩阵,则。例2.2设,则协方差矩阵设随机向量,则与的协方差定义为: (2.6)简称为与的协差阵特别地,也称为随机向量的协方差矩阵(简称为协差阵)或方差,其中协方差矩阵的性质:(1)随机向量的协方差矩阵是非负定对称矩阵。(2)设是常数矩阵,是常数向量,则。(3)设为常数矩阵,则。相关矩阵设和分别为维和维随机向量,则与的相关矩阵(简称为相关阵)定义为: (2.7)其中 若,表示与不相关。2.1.5特征函数随机向量的特征函数定义为: (2.8)其中是与有相同维数的实向量。随机矩阵的特征函数定义为: (2.9)其中是与有相同阶数的实矩阵。2.2 多元正态分布的定义及其性质多元正态分布是一元正态分布向维的推广。一元正态分布的密度函数是: (2.10)一元标准正态分布的密度为:设是独立同分布,则的联合概率密度为: (2.11)其中,称服从元标准正态分布,记为,其中是阶单位矩阵。定理2.2.1:若,则它的任意线性组合仍服从多元正态分布,且,从而。易见是一个非负定矩阵,记为。因此多元正态随机向量的分布用表示,其中。当时,就是退化的多元正态分布,不存在概率密度。当时,有逆。此时,有概率密度函数,其密度函数为: (2.12)上式就是常见的多元正态概率密度,记为。例2.3设随机向量,则的特征函数为:例2.4设随机向量服从,则的特征函数。证明:由定理2.2.1知,存在随机向量,使得,其中。于是 例2.5设,其中 由于,当时,。此时有,的概率密度为: 当时,上式简化为:当时,此时不存在,是一个退化的二元正态分布,概率密度不存在,与以概率1线性相关。定理2.2.2:设是维随机向量,则的充分必要条件为其任一线性函数,服从分布。(证明参见余锦华等(2005) 特别地,若,取,则,即的任一子向量服从正态分布,所以的任一边缘分布都是正态的。定理2.2.3: 若,常数矩阵,则服从分布。进一步有,服从其中。(证明参见余锦华等(2005)推论:若,将分块为:,与相应分块:,则。定理2.2.4:若,则相互独立的充分必要条件是:。(证明参见王学民(2004) 这个定理告诉我们,要证明联合正态分布的分量是否独立时,只要证明他们的斜方差阵是否为0。例如:由于如果,根据定理2.2.4,就可以判定与是独立的。例2.6设是来自正态总体的样本,证明:与相互独立。证明:记,于是有。,其中,从而与相互独立,因此与的函数相互独立,即相互独立。例2.7设服从分布,其中。问与是否独立?和是否独立?解:因为与的协方差,故他们不是独立的.又,将和划分为: 由于和的协方差矩阵。因此由定理2.2.4, 和相互独立。这意味着与独立,与也独立。定理2.2.5:设服从的分布,且。则给定时,的条件分布是正态的,且, 。(证明参见王学民(2004)该定理说明,的协方差与条件变量的值无关。2.3 多元正态分布的参数估计参数估计是指已知总体分布类型,通过样本对其中的未知参数或数字特征作相应的估计。设多元正态总体,是从总体中抽取的一个简单随机样本,从而相互独立,且均服从正态分布。记称之为观测数据阵,这是一个随机矩阵。其联合概率密度是: (2.13)2.3.1多元正态总体样本的数字特征(1)样本均值向量:, 其中(2)样本离差矩阵:称为样本离差矩阵其中(3)样本协方差矩阵:称作为样本协方差矩阵,简称为样本协差阵。 (4)样本相关矩阵:,其中定理2.3.1:设和分别是总体的样本均值向量和样本离差矩阵,则:(1);(2),其中独立同分布;(3)和相互独立。例2.8 为了弄清楚橡胶的性能,今抽了10个样品,每个测了三项指标:硬度、变形及弹性,其数据如下:No硬度变形弹性No硬度变形弹性1654527.66 674631.32704530.77684737.03704831.88724333.64694632.69664733.15665031.010684834.2试求样本均值向量、样本协方差阵和相关阵。SAS的CORR过程可用于求样本均值向量、样本协方差矩阵和样本相关矩阵。CORR过程主要有两个语句:PROC CORR语句和VAR语句。PROC CORR语句用以调用CORR过程 VAR语句,它以关键词proc corr开头,后跟data=数据集名,用以说明加工的数据集。加选项COV后可以求样本协差阵。VAR语句以关键词var开头后跟随机向量的分量名。编制SAS程序如下:data w;input x1 x2 x3;cards;65 45 27.670 45 30.770 48 31.869 46 32.666 50 3167 46 31.368 47 3772 43 33.666 47 33.168 48 34.2;proc corr data=w cov;run;屏幕输出3张表: Correlation Analysis 3 VAR Variables: X1 X2 X3 Covariance Matrix DF = 9 X1 X2 X3 X1 4.766666667 -1.944444444 1.934444444 X2 -1.944444444 3.833333333 0.616666667 X3 1.934444444 0.616666667 6.189888889上表可见 Correlation Analysis Simple Statistics Variable N Mean Std Dev Sum Minimum Maximum X1 10 68.1000 2.1833 681.0000 65.0000 72.0000 X2 10 46.5000 1.9579 465.0000 43.0000 50.0000 X3 10 32.2900 2.4879 322.9000 27.6000 37.0000 所以 Correlation Analysis Pearson Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 10 X1 X2 X3 X1 1.00000 -0.45488 0.35613 0.0 0.1865 0.3125 X2 -0.45488 1.00000 0.12660 0.1865 0.0 0.7275 X3 0.35613 0.12660 1.00000 0.3125 0.7275 0.0上表可见 。3.3.2的估计(1)矩法估计用样本均值向量和分别作为总体均值和总体协方差的估计量,称为参数的矩法估计。即 , (2)极大似然估计设是从多元正态总体中抽取的一个简单随机样本,未知。的极大似然估计为: , (证明参见王学民(2004)定理2.3.2:(极大似然估计量具有不变性):设是的极大似然估计量,考虑函数,则的极大似然估计为。例2.9 设多元正态总体,是一个简单随机样本,。记, , 将样本均值向量和作相应的分块: , 则有:(1);(2)的相关系数的为:参数估计的方法多种多样,评价估计量优劣的准则也是多种多样。从不同的角度,有无偏性、有效性、相合性等。(1)无偏性设是未知参数的一个估计量,如果对,都有,则称是未知参数的无偏估计。下面考察中的极大似然估计量的无偏性由于,故是的无偏估计。又 故,不是的无偏估计。但是的无偏估计。(2)有效性设和是未知参数的两个无偏估计,如果对成立,则称估计量比有效。如果的某个无偏估计对的任一无偏估计都有 对成立则称是的有效估计。有效估计又称最优无偏估计。 可以证明,对于多元正态总体,和分别是和的有效估计。(3)相合性 如果未知参数的估计量随着样本容量的不断增大,无限地逼近真值,则称是的相合估计。 可以证明,无论总体是否为多元正态,和分别是和的相合估计。2.4抽样分布一、非中心分布、非中心分布和非中心分布定义2.4.1:设,令,则称的分布为具有自由度为、非中心参数为的非中心分布,记为,其中。定义2.4.2:设与相互独立,令,则称的分布为具有自由度为、非中心参数为的非中心分布,记为。定义2.4.3:设与相互独立,令,则称的分布为具有自由度为、非中心参数为的非中心分布,记为。二、分布1. 分布的定义 分布是于1928年首先推导出来的,它在多元统计分析中占有非常重要的位置。定义2.4.4:设相互独立,记,则称随机阵服从自由度为的分布,记为。其概率密度为: (2.14)其中为对称阵,是随机矩阵的观测值矩阵。2.分布的性质:性质1:设总体,则样本离差阵服从自由度为的分布,即 性质2(可加性):设,且相互独立,则。性质3:设,对任意阶常数矩阵,有: 。特别地,。三、分布1.分布的定义定义2.4.5:设,随机阵,且与相互独立,则称统计量服从自由度为的分布,记为。一般地,若,则称统计量的分布为非中心分布,记为。2. 分布的性质性质1:设是总体的随机样本,则统计量。性质2:与分布的关系:设,则。特别,设,则,其中。(证明参见余锦华等(2005)例2.10设是总体的样本,。则。证明:因为,所以 。而 ,且和相互独立,从而四、分布1. 分布的定义定义2.4.6:设,且与独立,则称广义方差之比的分布为分布,记为。 当时,。2. 分布的性质性质1:当时,或 ,。性质2:当时,有。习题二1、设三个随机变量的联合密度函数为:(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论