版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2020/8/1,1,2020/8/1,2,第1章多元正态分布,从头到尾,1.1多元分布的基本概念,1.2统计距离和马氏距离,1.3多元正态分布,1.4平均向量和协方差矩阵的估计,1.5共同分布和抽样分布,2020/8/1同样,多元正态分布在多元统计中起着重要的作用。原因是:许多随机向量确实遵循正态分布,或者近似遵循正态分布;对于多元正态分布,已经有了一套统计推断方法,并获得了许多完整的结果。目录的上一页返回到末尾,2020/8/1,4,第1章多元正态分布,多元正态分布是最常用的多元概率分布。此外,还有多元对数正态分布、多项式分布、多元超几何分布、多元分布、多元分布、多元指数分布等。本章从多维
2、变量和多元正态分布的基本概念入手,重点介绍了多元正态分布的定义和一些重要性质。从上一页到下一页的返回结束,2020/8/1,5,1.1多元分布的基本概念,从上一页到下一页的返回结束,1.1.1随机向量,1.1.2分布函数和密度函数,1.1.3多元变量的独立性,1.1.4随机向量的数字特征,2020/8/4如果观察一个个体,可以获得下面表1-1中的数据,这意味着每个个体的变量是一个样本,所有样本假设我们正在讨论多个变量的总和,并且所研究的数据是通过同时观察两个指标(即变量)并进行二次观察而获得的。这个指标表示为一个公共向量,返回的结尾是从目录的上一页到下一页。查看表1-1,记住它代表第一个样品的
3、观察值。垂直查看表1-1,列中的元素表示变量n次的观测值。以下是表1-1。目录上一页的返回结束,1.1.1随机向量,以及2020/8/1,8,1.1.1随机向量。因此,样本数据矩阵可以用矩阵语言表示为:从目录的上一页到下一页的返回结束。除非另有说明,本书所指的向量是指列向量,定义为2020/8/1,9,1.1.2分布函数和密度函数,描述随机变量最基本的工具是分布函数,描述随机向量最基本的工具是分布函数。目录的首页返回到末尾,这里省略了多元分布函数的相关属性。定义1.2假设它是一个随机向量,并且它的多元分布函数是,其中:2020/8/1,10,1.1.2分布函数和密度函数,目录的上一页返回到末尾
4、,定义1.3:如果有一个非负函数,那么它被称为(,p维变量的函数f()可以用作随机向量的分布密度,如果并且仅当,2020/8/1,11,1.1.3 上一页到下一页的返回结束、定义了1.4:两个随机向量的和是相互独立的,如果、是为所有事物建立的。 如果是的联合分布函数,分别是和的分布函数,那么和是独立的当且仅当(1.4),如果有密度,那么和是独立的当且仅当(1.5),2020/8/1,12,1.1.4随机向量是一个称为均值向量的P维向量。如果存在,我们定义随机向量x的平均值为:2020/8/1,13,1.1.4,随机向量的返回在目录的顶部和底部结束,2,随机向量自协方差矩阵,称为维数随机向量的协
5、方差矩阵,或简称随机向量的协方差矩阵。它被称为广义方差,是协方差矩阵的决定值。,2020/8/1,14,从上一页返回到下一页的末尾,1.1.4随机向量的数字特征,3,随机向量X和y的协方差矩阵,分别让它们是维随机向量,它们之间的协方差矩阵被定义为矩阵,并且其元素是,即,当a和b是常数矩阵时,它由1.1.4随机向量的数字特征决定,(3)让X是维随机向量,并且有期望和协方差的规则。对于任何随机向量,其协方差矩阵是对称的,并且总是非负定的(也称为半正定的)。在大多数情况下是肯定的。2020/8/1/16,从上一页返回到下一页结束,1.1.4随机向量的数字特征,4,随机向量的相关矩阵x如果随机向量的协
6、方差矩阵存在并且每个分量的方差大于零,则x的相关矩阵被定义为:这也称为分量和之间的(线性)相关系数。2020/8/1,17,在数据处理中,为了克服不同维度的指标对统计分析结果的影响,往往需要在使用一定的统计分析方法之前对每个指标进行“标准化”,即进行以下转换,目录的前一页返回到末尾,1.1.4随机向量的数字特征,2020/8/1,11后一页的末尾,欧氏距离,马氏距离,2020/8/1,19,1.2统计距离和大多数多元方法都是基于简单的距离概念。也就是欧几里得距离,或者说直线距离,这是人们平时所熟悉的。例如,几何平面上从点p=(x1,x2)到原点O=(0,0)的欧氏距离,根据毕达哥拉斯定理,上一
7、页到下一页的返回结束,而统计距离和马氏距离在2020年8月1日,20日,1.2,但是就大多数统计问题而言,欧氏距离是不令人满意的。这里,每个坐标对欧氏距离的贡献是相等的。当坐标轴代表测量值时,它们通常具有不同大小的随机波动。在这种情况下,合理的方法是对坐标进行加权,使得变化较大的坐标比变化较小的坐标具有较小的加权系数,从而导致不同的距离。欧氏距离还有另一个缺点,即当每个分量都是一个具有不同性质的量时,“距离”的大小实际上与指数的单位有关。目录的上一页和下一页的返回结束,2020年8月1日的统计距离和马氏距离,1.2,以及目录的上一页和下一页的返回结束,例如,横轴表示重量(以千克为单位),纵轴表
8、示长度(以厘米为单位)。如图1.1所示,有四个点a、b、c和d,它们的坐标如图1.1所示。距离和马哈拉诺比斯距离在2020年8月1日、22日和1.2日计算,返回目录的下一页结束。此时,AB明显比CD长。因此,光盘比AB长!这显然不合理。现在,如果以毫米为单位,单位保持不变,此时,A坐标为(0,50),C坐标为(0,100),则距离和马氏距离将在2020年8月1日,23日,1.2计算,目录的上一页和下一页的返回将结束。因此,有必要建立一个距离,似乎我们选择的距离取决于样本方差和协方差。因此,术语“统计距离”被用来区分欧几里得距离。最常用的统计距离是印度统计学家马哈拉诺比斯在1936年引入的距离,
9、它被称为马哈拉诺比斯距离。2020/8/1,24,1.2统计距离和马氏距离,目录的首页返回到末尾,并使用一维示例来说明欧氏距离和马氏距离之间的概率差异。有两个一维正常人口。如果有一个样本的值为a,那么a更接近哪个种群?从图1-2,图1-2,2020/8/1,25,1.2,统计距离和马氏距离,目录的上一页和下一页的返回结束,从图1-2可以看出,从绝对长度来看,点A更接近左G1整体,也就是说,点A比点A“更接近”(这里使用的是欧几里德距离,显然,后者是从概率的角度考虑的,所以更合理。它将坐标差的平方除以方差(或乘以方差的倒数),然后转化为无量纲数。当它推广到多维时,它将乘以协方差矩阵的逆矩阵。这就
10、是马氏距离的概念,它将在多元分析中发挥非常重要的作用。2020/8/1,26,1.2统计距离和马氏距离,让X和Y从均值向量为且协方差矩阵为的总体G中取两个样本,并将X和Y之间的马氏距离定义为,上一页和下一页的返回结束,2020/8/1,27,1.2统计距离和马氏距离。(3),(4),从上一页返回到下一页的结尾,2020/8/1,28,1.3多元正态分布,多元正态分布是一元正态分布的推广。到目前为止,多元分析的主要理论是基于多元正态总体,多元正态分布是多元分析的基础。另一方面,许多实际问题的分布往往是多元正态分布或近似正态分布,或者虽然不是正态分布,但其样本均值与多元正态分布相似。本节将介绍多元
11、正态分布的定义,并简要给出其基本性质。从上一页返回到下一页的目录结束,多元正态分布于2020年8月1日1.3,从上一页返回到下一页的目录结束,多元正态分布的定义于2020年8月1日1.3.1,| |是协方差矩阵的行列式。从上一页返回到下一页的结尾,定义1.5:如果元随机向量的概率密度函数为:则称其符合元正态分布,x也称为p元正态变量。值得注意的是,2020年8月1日,定理1.1给出了正态分布参数和的显式统计意义。这个定理的证明可以在参考文献3中找到。多元正态分布不仅可以用1.5来定义,还可以用特征函数来定义,还可以用所有线性组合都是正态等性质来定义。关于这些定义的方式,请参见文件3。1.3.1
12、多元正态分布的定义,定理1.1:假设,2020/8/1,32,1.3.2多元正态分布的性质,1。如果正态随机向量的协方差矩阵是对角矩阵,那么X的每个分量都是一个独立的随机变量。有关证明,请参见第33页的参考4。很容易验证,但它显然不是正态分布。多元正态分布随机向量X的任何分量子集的分布(称为X的边分布)仍然服从正态分布。相反,如果随机向量的任何边分布是正态的,就不能推断它是多元正态分布。例如,给定分布密度,2020/8/1,33,1.3.2多元正态分布,4,如果它是一个固定值,它的轨迹是一个随变化的椭球,这是密度函数的等值面。如果给定的话,它就是马哈拉诺比斯距离。多元正态向量的任意线性变换仍然
13、服从多元正态分布。即m维随机向量,它是mp阶的常数矩阵,b是m维的常数向量。m维随机向量z也是正常的。也就是说,z遵循m元状态分布,其平均向量为,协方差矩阵为。2020/8/1,34,1.3.3条件分布和独立性,目录返回到最后的前一页,我们希望找到给定的条件分布,即分布的。下一个定理指出正态分布的条件分布仍然是正态分布。让p2除以x,如下所示:2020/8/1/35,有关证明,请参见参考文献3。1.3.3条件分布和独立性,定理1.2: let,0,然后,2020/8/1,36、(1.28),目录背对背,1.3.3条件分布和独立性,定理1.3: let,0然后有以下条件均值和条件协方差矩阵的递归
14、公式:(1.29)、(1.30)。有关证明,请参见定理1.2中的3,从上一页返回到下一页的结束,1.3.3条件分布和独立性,2020年8月1日,38,当x和和被分解为(1.25)时,我们给出了条件协方差矩阵的表达式及其与非条件协方差矩阵的关系。让所表示的元素将偏相关系数的概念定义如下:定义1.6:给定时,和的偏相关系数为:上一页的返回结束,1.3.3条件分布和独立性,2020。从上一页到下一页的返回结束,1.3.3条件分布和独立性,定理1.4:让x,以相同的方式分成,其中,为了证明,参见参考文献3,2020/8/1,40,1.4中的平均向量和协方差矩阵的估计,多元正态分布的定义和相关性质已在前面的部分给出,从上一页到下一页的返回结束,2020年8月1日的平均向量和协方差矩阵的估计一般情况下,如果样本数据矩阵为:从上一页返回到下一页的结束,则均值向量和协方差矩阵的估计在2020年8月1日42,1.4,即均值向量的估计为样本均值向量。推导过程见参考文献3。返回结束,让样本彼此独立并遵循p元正态分布,此外,如果为0,则总体参数的平均值的估计为,2020/8/1,43,1.4,平均向量和协方差矩阵的估计,协方差矩阵的估计,以及总体参数的协方差矩阵的最大似然估计为,返回结束,2020,1.4平均向量和协方差矩阵的估计,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论