多元正态分布_第1页
多元正态分布_第2页
多元正态分布_第3页
多元正态分布_第4页
多元正态分布_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元正态分布.第一页,共五十八页,编辑于2023年,星期五定义2:独立标准正态变量的有限线性组合

称为m维正态随机变量,记为其中但是的分解一般不是唯一的。定义3:若随机向量X的特征函数为:其中t为实向量,则称X服从p元正态分布。特征函数定义的优点在于可以包含的情况。第二页,共五十八页,编辑于2023年,星期五二元正态分布曲面(11=1,22=1,12=0)

第三页,共五十八页,编辑于2023年,星期五二元正态分布曲面(11=2,22=4,12=0.75)第四页,共五十八页,编辑于2023年,星期五二、多元正态分布的性质性质1:若,是对角矩阵,则相互独立。性质2:若则

性质3:若,将作剖分:则第五页,共五十八页,编辑于2023年,星期五特别地,二元正态分布:

第六页,共五十八页,编辑于2023年,星期五的边缘密度函数为:当时X1与X2不相关,对于正态分布来说不相关和独立等价。因为:为X1和X2的相关系数。第七页,共五十八页,编辑于2023年,星期五三、正态分布数据的变换若一批多元数据不满足正态分布时,一般要对数据进行正态变换。一般来说常采用幂变换,如果想使值变小可以采用变换:如果想使值变大,则采用变换:不管使用哪种幂变换,还应该对变换后的数据的正态性做检验(如Q-Q图方法)第八页,共五十八页,编辑于2023年,星期五§2多元正态分布的参数估计

一、多元样本及其样本数字特征1.多元样本记第九页,共五十八页,编辑于2023年,星期五2、多元样本的数字特征样本均值第十页,共五十八页,编辑于2023年,星期五样本离差阵第十一页,共五十八页,编辑于2023年,星期五样本协方差矩阵

二、多元正态总体的最大似然估计及其性质利用最大似然法求出和的最大似然估计为:第十二页,共五十八页,编辑于2023年,星期五求解过程似然函数为:第十三页,共五十八页,编辑于2023年,星期五对数似然函数为:第十四页,共五十八页,编辑于2023年,星期五(引理:设A为p阶正定矩阵,则当A=I等号成立。第十五页,共五十八页,编辑于2023年,星期五最大似然估计的性质,即是的无偏估计。,即不是的无偏估计。,即是无偏估计。分别是的最小方差无偏估量。3.分别是的一致估计。

第十六页,共五十八页,编辑于2023年,星期五维斯特(Wishart)分布---一元分布的推广定义:

设个随机向量

独立同分布于,则随机矩阵服从自由度为n的非中心维斯特分布,记为

三、正态总体下的抽样分布随机矩阵的分布:将该矩阵的列向量(或行向量)连接起来组成的长向量称为拉直向量,拉直向量的分布定义为该矩阵的分布,如果是对称矩阵则只取其下三角的部分拉直即可。第十七页,共五十八页,编辑于2023年,星期五性质:(1)若W1和W2独立,其分布分别和,则分布为,即维斯特(Wishart)分布有可加性。(2),C为m×p阶的矩阵,则的分布为分布。第十八页,共五十八页,编辑于2023年,星期五定理:设分别是来自正态总体的样本均值和离差阵,则(1)(2)相互独立。

S为正定矩阵的充分必要条件是n>p。11第十九页,共五十八页,编辑于2023年,星期五一元正态总体:为来自一元正态总体的一组样本定理:证明:构造正交矩阵第二十页,共五十八页,编辑于2023年,星期五做变换第二十一页,共五十八页,编辑于2023年,星期五第三章多元正态总体参数的假设检验Hotelling

T2分布—一元t分布的推广定义设,且X与S相互独立,,则称统计量的分布为非中心的Hotelling

T2分布,记为,当时称为中心的Hotelling

T2分布。记为一元t分布:设总体是一组样本,则统计量第二十二页,共五十八页,编辑于2023年,星期五其中与类似并且第二十三页,共五十八页,编辑于2023年,星期五基本性质:定理:设且X与S相互独立,令则第二十四页,共五十八页,编辑于2023年,星期五一、多元正态总体均值向量的假设检验1.单个正态总体(1)协方差矩阵已知时均值向量的检验检验统计量设水平为,查表确定,使得(当H0成立时)拒绝域为:第二十五页,共五十八页,编辑于2023年,星期五当原假设成立时第二十六页,共五十八页,编辑于2023年,星期五(2)协方差矩阵未知时均值向量的检验检验统计量拒绝域为:第二十七页,共五十八页,编辑于2023年,星期五2.协方差阵相等时,两个正态总体均值向量的检验第二十八页,共五十八页,编辑于2023年,星期五3.协方差阵不相等时,两个正态总体均值向量的检验第二十九页,共五十八页,编辑于2023年,星期五第三十页,共五十八页,编辑于2023年,星期五一元方差分析一、方差分析的概念及有关术语

方差分析研究的是分类型自变量对数值型因变量的影响,包括它们之间有没有关系、关系的强度如何等,所采用的方法就是检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。例子:为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业作为样本。每个行业中所抽取的样本在服务对象、服务内容、企业规模等基本上是相同的,统计出消费者对23家企业的投诉次数,现判断几个行业的服务质量是否有差别。投诉次数如下表:4.多个正态总体均值向量的检验(多元方差分析)第三十一页,共五十八页,编辑于2023年,星期五要分析4个行业的服务质量是否有显著差异,实际上就是判断“行业”对投诉次数是否有显著影响,做出这种判断最终归结为检验4个行业被投诉次数的均值是否相等。如果相等则认为行业因素对投诉次数是没有影响的,如果均值不全相等,则意味着行业因素对服务质量有影响。方差分析主要用来对多个总体均值是否相等作出假设检验。第三十二页,共五十八页,编辑于2023年,星期五相关术语因素(因子):在方差分析中,所要检验的对象称为因素或因子。例子中的“行业”水平:因素中的不同表现成为水平。例子中的零售业、旅游业、航空公司、家电制造业是“行业”因素的具体表现,即水平。单因素方差分析:只针对一个因素进行分析;多因素方差分析:同时针对多个因素进行分析。第三十三页,共五十八页,编辑于2023年,星期五(1)每个总体的相应变量(因素的各个水平)服从正态分布。也就是说,对于因素的每个水平,其观测值是来自正态总体的简单随机样本上例中每个行业的投诉次数应服从正态分布。(2)所有总体的方差相等2。也就是说,各组观测数据来自相同方差的正态总体。上例中4个行业被投诉次数的方差相同。(3)不同观察值相互独立。(每个样本点的取值不影响其他样本点的取值)上例中,每个企业被投诉的次数与其他企业被投诉的次数是相互独立的。方差分析的三个基本假定第三十四页,共五十八页,编辑于2023年,星期五问题的一般提法设因素有k个水平,每个水平的均值分别为,要检验k个水平(总体)的均值是否相等,提出如下假设:与原来两两总体的假设检验方法相比,方差分析不仅可以提高检验的效率,同时由于它是将所有的样本信息结合在一起,因此增加了分析的可靠性。,上例中如果用一般的假设检验方法,需要两两组合作6次检验。第三十五页,共五十八页,编辑于2023年,星期五某因素不同水平的影响(系统性影响)其他随机因素的影响(随机性影响)水平间方差(组间方差)某因素不同水平的影响(系统性影响)方差分析的思想:组内离差平方和:衡量因素的同一水平下(同一总体)样本数据的误差。(随机误差)组间离差平方和:衡量因素的不同水平下(不同总体)样本数据的误差。(系统性误差)总的离差平方和:组内+组间水平内误差(组内方差)水平间误差(组间误差)总的误差其他随机因素的影响(随机性影响)某因素不同水平的影响(系统性影响)水平内误差(组内方差)水平间误差(组间误差)总的误差其他随机因素的影响(随机性影响)某因素不同水平的影响(系统性影响)水平内误差(组内方差)水平间误差(组间误差)总的误差其他随机因素的影响(随机性影响)某因素不同水平的影响(系统性影响)水平内误差(组内方差)水平间误差(组间误差)总的误差其他随机因素的影响(随机性影响)某因素不同水平的影响(系统性影响)水平内误差(组内方差)水平间误差(组间误差)总的误差其他随机因素的影响(随机性影响)某因素不同水平的影响(系统性影响)第三十六页,共五十八页,编辑于2023年,星期五如果原假设成立:说明某因素不同水平的影响不显著(无系统性影响),只剩下随机性影响,因此组间方差与组内方差差别不大,它们的比接近于1。如果原假设不成立:说明某因素不同水平的影响显著(存在系统性影响),组间方差与组内方差差别较大,它们的比远超出1构造统计量:第三十七页,共五十八页,编辑于2023年,星期五

一、单因素方差分析

(一)离差平方和的计算

方差分析需考察某因素的影响是否具有系统性,因此,需要将样本总体离差分解为两部分:

(1)反映系统性影响(因素水平影响)的组间离差

(2)反映随机性影响(其他随机因素影响)的组内离差。第三十八页,共五十八页,编辑于2023年,星期五为全体样本合并的大样本的样本均值为第

j个总体的样本均值xij=第j个子样本中第

i个观测值;nj=第j个子样本的样本容量其中,n=n1+n2+…+nkk为总体的个数于是,大样本的总离差平方和(SumofSquaresforTotal,SST)为:设第三十九页,共五十八页,编辑于2023年,星期五

可以证明:

第一项是各子样本均值与合并的大样本的公共均值的离差平方和,它反映了因素(变量)不同水平对总离差平方和的影响(系统性影响),称为组间离差平方和(SumofSquaresforFactorA,SSA);

第二项是各子样本内部离差平方和之和,反映了随机性因素的影响(误差性影响),称为组内离差平方和(SumofSquaresforError,SSE)。第四十页,共五十八页,编辑于2023年,星期五各误差平方和的大小与观测值的多少有关,为了消除观测值多少对误差平方和大小的影响,用各个平方和除以自由度即得到平均平方(MeanSquare):

SST=SSA+SSE

总离差平方和=组间离差平方和+组内离差平方和构造F统计量:原假设成立第四十一页,共五十八页,编辑于2023年,星期五根据给定的显著性水平,查表得到拒绝域:上例中,经计算说明不同行业被投诉次数的均值有显著差异,这意味着行业(自变量)与投诉次数(因变量)之间的关系是显著的。第四十二页,共五十八页,编辑于2023年,星期五关系强度的测量上述F统计量只能表明自变量和因变量之间是否有关系,不能表明关系的强弱,为了度量相关强度定义判定系数:R2越大说明关系越强,越小关系越弱。类似于相关系数。上例中,R2=0.349759。这表明行业对投诉次数的影响效应占总效应的34.9759%,而残差效应则占65.0241%。

第四十三页,共五十八页,编辑于2023年,星期五方差分析中的多重比较上面的分析得出的结论是不同行业被投诉次数的均值是不全相同的,但是究竟哪些均值不相等呢,也就是这种差异究竟出现在哪些行业之间呢?则需要对总体均值进行两两比较。多重比较的方法有很多,我们简单介绍一下由Fisher提出的最小显著差异方法(LSD方法)。检验步骤为:第一步:提出原假设:第二步:计算检验统计量:第三步:计算LSD,公式为:第四步:根据显著性水平做出决策:如果则拒绝原假设,否则接受原假设。第四十四页,共五十八页,编辑于2023年,星期五例:对4个行业的均值作多重比较第一步:提出假设第二步:计算检验统计量第四十五页,共五十八页,编辑于2023年,星期五第三步:计算LSD第四步:做出决策不能拒绝原假设,说明零售业和旅游业之间的投诉次数没有显著差异。......第四十六页,共五十八页,编辑于2023年,星期五双因素方差分析单因素方差分析只是考虑一个分类型自变量对数值型因变量的影响。如果同时需考虑两个因素A与B的影响,则可进行双因素方差分析。例:分析影响彩电销售量的因素,需要考察品牌、销售地区等因素的影响。现有4种品牌的彩电在5各地区进行销售,为分析彩电的“品牌”因素和“地区”因素对销售量是否有影响,调查数据如下:地区因素

地区1地区2地区3地区4地区5品品牌1365350343340323牌品牌2345368363330333因品牌3358323353343308素品牌4288280298260298第四十七页,共五十八页,编辑于2023年,星期五在双因素方差分析中如果两个因素,例如“品牌”和“销售地区”两个因素对销售量的影响是相互独立的,我们分别判断两个因素对销售量的影响,称为无交互作用的双因素方差分析。如果除了两个因素的单独影响外,两个因素的搭配还会对销售量产生新的影响效应,称为有交互作用的双因素方差分析。无交互作用的数据结构第四十八页,共五十八页,编辑于2023年,星期五无交互作用的双因素方差分析为了检验两个因素的影响,需要分别对两个因素提出假设。对行因素提出的假设为:对列因素提出的假设为:地区对销售量没有显著影响品牌对销售量没有显著影响第四十九页,共五十八页,编辑于2023年

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论