




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章多元正态分布及其参数估计,多元正态分布的重要性: (1)多元统计分析中很多重要的理论和方法都是直接或间接 地建立在正态分布 基础上的,许多统计量的极限分布往往和 正态分布有关。 (2)许多实际问题涉及的随机向量服从多元正态分布或近似 服从正态分布。因此多元正态分布是多元统计分析的基础,一、多元正态分布的定义 定义1:若p维随机向量 的密度函数为: 其中, 是p维向量 是p阶正定矩阵,则称x服从p维正态分布,记为,定义2:独立标准正态变量 的有限线性组合,称为m维正态随机变量,记为 其中 但是 的分解一般不是唯一的。 定义3:若随机向量x的特征函数为: 其中t为实向量,则称x服从p元正态分
2、布。特征函数定义的优点在于可以包含 的情况,二元正态分布曲面(11=1,22=1,12=0,二元正态分布曲面(11=2,22=4,12=0.75,二、多元正态分布的性质 性质1:若 , 是对角矩阵,则 相互独立。 性质2:若 则,性质3:若 ,将 作剖分: 则,特别地,二元正态分布,的边缘密度函数为,当 时x1与x2不相关,对于正态分布来说不相关和独立 等价。因为,为x1和x2的相关系数,三、正态分布数据的变换,若一批多元数据不满足正态分布时,一般要对数据进行正态变换。 一般来说常采用幂变换,如果想使值变小可以采用变换,如果想使值变大,则采用变换,不管使用哪种幂变换,还应该对变换后的数据的正态
3、性做检验 (如q-q图方法,2多元正态分布的参数估计 一、多元样本及其样本数字特征 多元样本 记,2、多元样本的数字特征 样本均值,样本离差阵,样本协方差矩阵 或,二、多元正态总体的最大似然估计及其性质 利用最大似然法求出 和 的最大似然估计为,求解过程 似然函数为,对数似然函数为,引理:设a为p阶正定矩阵,则 当a=i 等号成立,最大似然估计的性质 ,即 是 的无偏估计 。 ,即 不是 的无偏估计。 ,即 是无偏估计。 分别是 的最小方差无偏估量。 3. 分别是 的一致估计,维斯特(wishart)分布-一元 分布的推广,定义: 设 个随机向量 独立同分布于 , 则随机矩阵 服从自由度 为n
4、的非中心维斯特分布,记为,三、正态总体下的抽样分布,随机矩阵的分布,将该矩阵的列向量(或行向量)连接起来组成的长向量称为拉直 向量,拉直向量的分布定义为该矩阵的分布,如果是对称矩阵则 只取其下三角的部分拉直即可,性质,1)若w1和w2独立,其分布分别 和 ,则 分布为 ,即维斯特(wishart)分布有可加性,2) ,c为mp阶的矩阵,则 的分布为 分布,定理: 设 分别是来自正态总体 的样本均值和离差阵 ,则 (1) (2) 相互独立。 s为正定矩阵的充分必要条件是 np,11,一元正态总体,为来自一元正态总体的一组样本,定理,证明: 构造正交矩阵,做变换,第三章多元正态总体参数的假设检验,
5、hotellingt2分布 一元t分布的推广,定义 设 ,且x与s相互独立, , 则称统计量 的分布为非中心的hotelling t 分布,记为 ,当 时称为中心 的hotellingt2分布。记为,一元t分布,设总体 是一组样本 ,则统计量,其中,与 类似,并且,基本性质,定理:设 且x与s相互独立, 令,则,一、多元正态总体均值向量的假设检验,1.单个正态总体,1) 协方差矩阵 已知时均值向量的检验,检验统计量,设水平为 ,查表确定 ,使得,当h0成立时,拒绝域为,当原假设成立时,2) 协方差矩阵 未知时均值向量的检验,检验统计量,拒绝域为,2.协方差阵相等时,两个正态总体均值向量的检验,
6、3.协方差阵不相等时,两个正态总体均值向量的检验,一元方差分析,一、方差分析的概念及有关术语 方差分析研究的是分类型自变量对数值型因变量的影响, 包括它们之间有没有关系、关系的强度如何等,所采用的方 法就是检验各个总体的均值是否相等来判断分类型自变量对数 值型因变量是否有显著影响,例子:为了对几个行业的服务质量进行评价,消费者协会在 零售业、旅游业、航空公司、家电制造业分别抽取了不同的 企业作为样本。每个行业中所抽取的样本在服务对象、服务 内容、企业规模等基本上是相同的,统计出消费者对23家企业 的投诉次数,现判断几个行业的服务质量是否有差别。投诉 次数如下表,4.多个正态总体均值向量的检验(
7、多元方差分析,要分析4个行业的服务质量是否有显著差异,实际上就是判断 “行业”对投诉次数是否有显著影响,做出这种判断最终归结 为检验4个行业被投诉次数的均值是否相等。如果相等则认为 行业因素对投诉次数是没有影响的,如果均值不全相等,则意 味着行业因素对服务质量有影响。 方差分析主要用来对多个总体均值是否相等作出假设检验,相关术语,因素(因子):在方差分析中,所要检验的对象称为因素或因子。 例子中的“行业” 水平:因素中的不同表现成为水平。例子中的零售业、旅游业、 航空公司、家电制造业是“行业”因素的具体表现,即水平,单因素方差分析:只针对一个因素进行分析; 多因素方差分析:同时针对多个因素进行
8、分析,1)每个总体的相应变量(因素的各个水平)服从正态分布。也就是说,对于因素的每个水平,其观测值是来自正态总体的简单随机样本上例中每个行业的投诉次数应服从正态分布。 (2)所有总体的方差相等2。也就是说,各组观测数据来自相同方差的正态总体。上例中4个行业被投诉次数的方差相同。 (3)不同观察值相互独立。(每个样本点的取值不影响其他样本点的取值)上例中,每个企业被投诉的次数与其他企业被投诉的次数是相互独立的,方差分析的三个基本假定,问题的一般提法,设因素有k个水平,每个水平的均值分别为 , 要检验k个水平(总体)的均值是否相等,提出如下假设,与原来两两总体的假设检验方法相比,方差分析不仅可以提
9、高 检验的效率,同时由于它是将所有的样本信息结合在一起,因此 增加了分析的可靠性。,上例中如果用一般的假设检验方法, 需要两两组合作6次检验,某因素不同水平的影响 (系统性影响,其他随机因素的影响 (随机性影响,水平间方差 (组间方差,某因素不同水平的影响 (系统性影响,方差分析的思想,组内离差平方和:衡量因素的同一水平下(同一总体)样本数据的 误差。(随机误差) 组间离差平方和:衡量因素的不同水平下(不同总体)样本数据的 误差。(系统性误差) 总的离差平方和:组内+组间,如果原假设成立:说明某因素不同水平的影响不显著(无系统性影响),只剩下随机性影响,因此组间方差与组内方差差别不大,它们的比
10、接近于1。 如果原假设不成立:说明某因素不同水平的影响显著(存在系统性影响),组间方差与组内方差差别较大,它们的比远超出1 构造统计量,一、单因素方差分析 (一)离差平方和的计算 方差分析需考察某因素的影响是否具有系统性,因此,需要将样本总体离差分解为两部分: (1)反映系统性影响(因素水平影响)的组间离差 (2)反映随机性影响(其他随机因素影响)的组内离差,为全体样本合并的大样本的样本均值,为第 j个总体的样本均值,xij=第j 个子样本中第 i 个观测值; nj=第 j个子样本的样本容量,其中,n=n1+n2+nk k为总体的个数,于是,大样本的总离差平方和(sum of squares
11、for total,sst)为,设,可以证明,第一项是各子样本均值与合并的大样本的公共均值的离差平方和,它反映了因素(变量)不同水平对总离差平方和的影响(系统性影响),称为组间离差平方和(sum of squares for factor a, ssa); 第二项是各子样本内部离差平方和之和,反映了随机性因素的影响(误差性影响),称为组内离差平方和(sum of squares for error,sse,各误差平方和的大小与观测值的多少有关,为了消除观测值 多少对误差平方和大小的影响,用各个平方和除以自由度 即得到平均平方(mean square),即 sst=ssa+sse 总离差平方和=
12、组间离差平方和+组内离差平方和,构造f统计量,原假设成立,根据给定的显著性水平,查表得到拒绝域,上例中,经计算,说明不同行业被投诉次数的均值有显著差异,这意味着行业 (自变量)与投诉次数(因变量)之间的关系是显著的,关系强度的测量,上述f统计量只能表明自变量和因变量之间是否有关系,不能 表明关系的强弱,为了度量相关强度定义判定系数,r2越大说明关系越强,越小关系越弱。类似于相关系数,上例中, r2=0.349759。这表明行业对投诉次数的影响效应占 总效应的34.9759%,而残差效应则占65.0241,方差分析中的多重比较,上面的分析得出的结论是不同行业被投诉次数的均值是不全 相同的,但是究
13、竟哪些均值不相等呢,也就是这种差异究竟 出现在哪些行业之间呢?则需要对总体均值进行两两比较。 多重比较的方法有很多,我们简单介绍一下由fisher提出的 最小显著差异方法(lsd方法)。 检验步骤为,第一步:提出原假设,第二步:计算检验统计量,第三步:计算lsd,公式为,第四步:根据显著性水平做出决策:如果 则拒绝原假设,否则接受原假设,例:对4个行业的均值作多重比较,第一步:提出假设,第二步:计算检验统计量,第三步:计算lsd,第四步:做出决策,不能拒绝原假设,说明零售业和 旅游业之间的投诉次数没有显著差异,双因素方差分析,单因素方差分析只是考虑一个分类型自变量对数值型因变量 的影响。如果同
14、时需考虑两个因素a与b的影响,则可进行双因素 方差分析,例:分析影响彩电销售量的因素,需要考察品牌、销售地区等 因素的影响。现有4种品牌的彩电在5各地区进行销售,为分析 彩电的“品牌”因素和“地区”因素对销售量是否有影响,调查 数据如下,在双因素方差分析中如果两个因素,例如“品牌”和“销售地区” 两个因素对销售量的影响是相互独立的,我们分别判断两个因素 对销售量的影响,称为无交互作用的双因素方差分析。 如果除了两个因素的单独影响外,两个因素的搭配还会对销售量 产生新的影响效应,称为有交互作用的双因素方差分析,无交互作用的数据结构,无交互作用的双因素方差分析,为了检验两个因素的影响,需要分别对两个因素提出假设,对行因素提出的假设为,对列因素提出的假设为,地区对销售量没有显著影响,品牌对销售量没有显著影响,离差平方和的分解,其中,可以证明,分别构造统计量,关系强度的测量,有交互作用的方差分析,例:分别在两个路段和高峰期及非高峰期进行驾车实验,得到 20个驾车时间的数据,wilks分布,在一元统计中,方差是刻画随机变量分散程度的一个重要特征, 而在多元情况下方差变为协防差矩阵。如何用一个数量指标来 反映协方差矩阵所体现的分散程度呢?有的用行列式,有的用 迹,目前使用较多的是行列式,定义1:若,定义
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 年度项目的评估与总结计划
- 学校社团的工作和计划
- 2025-2030中国驾驶室及车身总成产业发展模式与投资建议研究报告
- 制定科学的财务政策与制度计划
- 2025至2031年中国热能去毛刺机行业投资前景及策略咨询研究报告
- 如何激励仓库员工的工作热情计划
- 媚学行业职场管理策略计划
- 科学管理与教学效果评估计划
- 改善跨部门协作的实施方案计划
- 科室协作与团队合作总结与计划
- 2025年的共同借款担保合同范本
- 冲压模具制作合同范例
- 学校会计岗位试题及答案
- 上海市金山区2025届高三高考二模地理试卷(含答案)
- 期中测试(范围:第1-4章)(A卷·夯实基础)-北师大版七年级数学下册(解析版)
- 《电气控制技术》课件-反接制动控制
- 木制品幼儿园课程
- 2024年四川宜宾五粮液股份有限公司招聘笔试真题
- 2024年初级会计实务考试真题及答案(5套)
- 垃圾焚烧飞灰处理行业深度调研及发展战略咨询报告
- 2024年高考化学真题完全解读(广东卷)
评论
0/150
提交评论