




已阅读5页,还剩77页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元正态分布及其参数估计 多元正态分布的重要性: (1)多元统计分析中很多重要的理论和方法都是直接或间接 地建立在正态分布 基础上的,许多统计量的极限分布往往和 正态分布有关。 (2)许多实际问题涉及的随机向量服从多元正态分布或近似 服从正态分布。因此多元正态分布是多元统计分析的基础。 一、多元正态分布的定义 定义1:若p维随机向量 的密度函数为: 其中, 是p维向量 是p阶 正定矩阵,则称X服从p维正态分布,记为 1多元正态分布的定义及其性质 定义2:独立标准正态变量 的有限线性组合 称为p维正态随机变量,记为 其中 但是 的分解一般不是唯一的。 定义3:若随机向量X的特征函数为: 其中t为实向量,则称X服从p元正态分布。特征函数定义的 优点在于可以包含 的情况。 特别地,二元正态分布: 二元正态分布曲面( ) 二元正态分布曲面( ) 即 ,两个随机变量独立 而 可以求得 的边缘密度函数为: 当 时X1与X2不相关,对于正态分布来说不相关和独立 等价。因为此时: 为X1和X2的相关系数。 二、多元正态分布的性质 性质1:若 , 是对角矩阵,则 相互独立。 性质2:若 则 性质3:若 ,将 作剖分: 则 性质4:p 元正态分布的条件分布仍服从正态分布。即在某 些变量取固定值时,另外一些变量的分布仍然服从多元正 态分布。 三、正态分布数据的变换 若一批多元数据不满足正态分布时,可以对数据进行正态变换。 一般来说常采用幂变换,如果想使值变小可以采用变换: 如果想使值变大,则采用变换: 不管使用哪种幂变换,还应该对变换后的数据的正态性做检验. 2多元正态分布的参数估计 一、多元样本及其样本数字特征 多元样本阵 记记 2、多元样本的数字特征 样本均值: 样本均值向量可以用样本矩阵表示出来,即 因为: 样本离差阵 样本协方差矩阵 或 样本离差阵用样本资料阵表示为: 因为 二、多元正态总体的最大似然估计及其性质 利用最大似然法求出 和 的最大似然估计为: 求解过程 似然函数为: 对数似然函数为: (引理:设A为p阶正定矩阵,则 当A=I 等号成立。 最大似然估计的性质 1. ,即 是 的无偏估计 。 ,即 不是 的无偏估计。 ,即 是无偏估计。 2. 分别是 的最小方差无偏估量 。 3. 分别是 的一致估计。 三、维斯特(Wishart)分布-一元 分布的推广 定义: 设 个随机向量 独立同分布于 , 则随机矩阵 服从自由度 为n的非中心维斯特分布,记为 随机矩阵的分布: 将该矩阵的列向量(或行向量)连接起来组成的长向量称为拉直 向量,拉直向量的分布定义为该矩阵的分布,如果是对称矩阵则 只取其下三角的部分拉直即可。 性质: (1)若W1和W2独立,其分布分别为 和 ,则 分布为 ,即维斯特(Wishart)分布有可加性。 (2) ,C为mp阶的矩阵,则 的分布为 定理: 设 分别是来自正态总体 的样本均值 和离差阵 ,则 (1) (2) (3) 相互独立。 (4) S为正定矩阵的充分必要条件是 np 。 11 一元正态总体: 为来自一元正态总体的一组样本 定理: 证明: 构造正交矩阵 做变换 第三章多元正态总体参数的假设检验 一、Hotelling T2分布 一元t分布的推广 定义 设 ,且X与S相互独立, , 则称统计量 的分布为非中心的Hotelling T 分布,记为 ,当 时称为中心 的Hotelling T2分布。记为 一元t分布: 设总体 是一组样本 ,则统计量 其中 与 类似 并且 定理:设 且X与S相互独立, 令 基本性质: 则 二、多元正态总体均值向量的假设检验 1.单个正态总体 (1) 协方差矩阵 已知时均值向量的检验 检验统计量 设水平为 ,查表确定 ,使得 (当H0成立时) 拒绝域为: 当原假设成立时 (2) 协方差矩阵 未知时均值向量的检验 检验统计量 拒绝域为: 例:人的出汗多少于人体内钾和钠的含量有一定的关系。测 得20名健康成年女性的出汗多少(X1)、钠的含量(X2)和钾 的含量(X3)的数据,做如下的假设检验: 例:在企业市场结构研究中,起关键作用的指标有市场份额X1 ,企业规模(资产净值总额的对数)X2,资本收益率X3,总收益 增长率X4.为了研究市场结构的变动Shepherd(1972)抽取了 美国231个大型企业,调查了这些企业1960-1969年的资料。 假设以前企业市场结构指标的均值向量为: 而该次调查得到的企业市场结构指标的均值向量和协方差矩阵 为: 试问市场结构是否发生了变化? 带入到T2统计量中得到 临界值 因此拒绝原假设,认为市场结构已经发生了显著的变化。 2.协方差阵相等时,两个正态总体均值向量的检验 设 且两组样本相互独立。 (1 )有共同已知的协方差矩阵 检验统计量为: 拒绝域为: (2)有共同的未知协方差矩阵 检验统计量为: 用 代替即可得到上述统 计量。 例:为了研究日美企业在华投资企业对中国经营环境的评 价是否存在差异,现从两国在华投资企业中各抽出10家, 让其对如下 指标进行打分。假设两组来自正态总体,有共 同的未知协方差矩阵,且两组样本相互独立。 经计算 代入统计量中得: 查F分布表得: 显然有: 故拒绝原假设,认为日、美两国在华投资企业对中国经营环境 的评价存在差别。 3.协方差阵不相等时,两个正态总体均值向量的检验 略 一元方差分析 一、方差分析的概念及有关术语 方差分析是根据实验数据来推断一个或多个因素在其状 态变化时是否会对实验指标产生显著影响的一种数理统计方 法。方差分析可以用来研究分类型自变量(名义测度)对数值 型因变量的影响。包括它们之间有没有关系、关系的强度如 何等,也就是研究一个或多个因素变化时不同总体的某个指 标是否有显著差异,所采用的方法就是检验各个总体的均值 是否相等。方差分析是用于评价实验的最重要的分析方法。 4.多个正态总体均值向量的检验(多元方差分析) 例子:为了对几个行业的服务质量进行评价,消费者协会在零 售业、旅游业、航空公司、家电制造业分别抽取了不同的企业 作为样本。每个行业中所抽取的样本在服务对象、服务内容、 企业规模等基本上是相同的,统计出消费者对23家企业的投诉 次数,现判断几个行业的服务质量是否有差别。投诉次数如下 表: 返回 假定各个行业在服务对象、服务内容、企业规模等基本相同 的前提下,要分析4个行业的服务质量是否有显著差,实际上 就是判断“行业”对投诉次数是否有显著影响,即“行业”为 自变量,投诉次数为因变量。做出这种判断最终归结为检验4 个行业被投诉次数的均值是否相等。如果相等则认为行业因 素对投诉次数是没有影响的,如果均值不全相等,则意味着 行业因素对服务质量有影响。在做假设检验时每个行业看作 是一个总体,因此我们可以简单概括为: 方差分析主要用来对多个总体均值是否相等作出假设检验。 典型的应用实例: 1. 不同影院节目宣传方式(如海报和报纸广告)对票房有何 影响?影院老板为了知道答案,每次仅用一种方式宣传一 段时期,就可以获得样本数据进行方差分析。 2. 两种营销手段单独作用或共同作用分别对目标变量有何影 响?例如,一位果酱生产商认为,商标名称和销售途径有 重要影响,于是他对三个不同的商标名称在两种不同销售 途径下进行测试。 3. 对同一个年级的几个班级用不同的教学方法,调查教学效 果。 相关术语 因素(因子):在方差分析中,所要检验的对象称为因素或因 子。例子中的“行业” 水平:因素中的不同表现称为水平。例子中的零售业、旅游业 、航空公司、家电制造业是“行业”因素的具体表现,即水平 。 单因素方差分析:只针对一个因素进行分析; 多因素方差分析:同时针对多个因素进行分析。 (1)每个总体(因素的各个水平)的相应变量服从正态分布。 也就是说,对于因素的每个水平,其观测值是来自正态总体的简 单随机样本,上例中每个行业的投诉次数应服从正态分布。 (2)所有总体的方差相等2。也就是说,各组观测数据来自相 同方差的正态总体。上例中4个行业被投诉次数的方差相同。 (3)不同观察值相互独立。(每个样本点的取值不影响其他样 本点的取值)上例中,每个企业被投诉的次数与其他企业被投诉 的次数是相互独立的。 方差分析的三个基本假定 问题的一般提法 设因素有r个水平,每个水平的均值分别为 , 要检验r个水平(即为r个总体)的均值是否相等,提出如下假 设: 与原来两两总体的假设检验方法相比,方差分析不仅可以提高 检验的效率,同时由于它是将所有的样本信息结合在一起,因 此增加了分析的可靠性。,上例中如果用一般的假设检验方法 ,需要两两组合作6次检验。 我们画出不同行业投诉次数的散点图 零售业 旅游业 航空 家电制造业 80 60 40 20 0 投诉次数 行业 图中的折线是由投诉次数的均值连接而成的。从图中可以 看出不同行业投诉次数是有显著 差异的,而且即使在同一个 行业,不同企业的投诉次数也明显不同这表明行业与被投诉次 数有关系,因为如果行业与被投诉次数之间如果没有关系,不 同行业被投诉次数的均值应该差不多相同。 但是,仅仅从散点图上还不能提供充分的证据证明不同 行业被投诉次数之间有显著差异,因为也许这种差异是由于抽 样的随机性所造成的。因此需要通过对数据误差来源进行分析 来判断不同总体的均值是否相等,进而分析某一个因素对实验 结果是否有影响。因此进行方差分析时,需要考察数据误差的 来源。 首先,我们注意到同一行业(同一总体)下,样本的观测值 是不同的。因为企业是随机抽取的,因此他们之间的差异可以 看成是由随机因素的影响造成的,或者说是由抽样的随机性造 成的,我们称之为随机误差。 其次,在不同的行业(不同的总体)下,各个观测值也是 不同的。这种差异除了抽样的随机性造成的,也可能是由于行 业因素本身造成的,由不同行业所形成的误差称之为系统误差 。 数据的误差用平方和表示。衡量因素的同一水平下(同一 总体)下样本数据的误差,称为是组内误差。例如,零售业所 抽取的7家企业被投诉次数之间的误差。衡量因素的不同水平( 不同总体)下样本之间的误差,称为组间误差。例如,零售业 、旅游业、航空业、家电制造业之间被投诉次数之间的误差。 显然,组内误差只包含随机误差,组间误差既包含随机误差也 包含系统误差。假如不同行业对投诉次数没有影响,那么在组 间误差中只包含随机误差,而没有系统误差。这时,组内误差 和组间误差经过平均后的数值就应该很接近,它们的比值就接 近于1.反之,如果不同行业对投诉次数有影响,在组间误差中 除了包含随机误差外还包含系统性误差,这时组间误差平均后 的值就会大于组内误差平均后的值,它们的比值就会大于1, 当这个比值大于某个临界值时,我们就可以说因素的不同水平 之间存在显著差异。因此判断行业对投诉次数是否有显著影响 这一问题,实际上就是检验投诉次数的差异主要是由什么原因 引起的。如果这种差异主要是系统误差,我们就说不同行业对 投诉次数有显著影响。 如果原假设成立:说明某因素不同水平的影响不显著(无系统 性影响),只剩下随机性影响,因此组间误差与组内误差差别 不大,它们的比接近于1。 如果原假设不成立:说明某因素不同水平的影响显著(存在系 统性影响),组间误差与组内误差差别较大,它们的比远超出1 构造统计量: 为全体样本合并的大样本的样本均值 为第 j个总体的样本均值 xij=第j 个子样本中第 i 个观测值; nj=第 j个子样本的样本容量 其中,n=n1+n2+nr r为总体的个数 于是,大样本的总误差平方和(Sum of Squares for Total, SST)为: 设 39 误差平方和的计算 可以证明: 第一项是各子样本均值与合并的大样本的公共均值的离差 平方和,它反映了因素不同水平对总离差平方和的影响(系 统性影响),称为组间误差平方和(因素效应误差平方和)( Sum of Squares for Factor A, SSA); 第二项是各子样本内部离差平方和之和,反映了随机性因 素的影响(误差性影响),称为组内误差平方和(Sum of Squares for Error,SSE)。 各误差平方和的大小与观测值的多少有关,为了消除观测值 多少对误差平方和大小的影响,用各个平方和除以自由度 即得到平均平方误差,简称均方误差: 即 SST=SSA+SSE 总误差平方和=组间误差平方和+组内误差平方和 构造F统计量: 当原假设成立时 根据给定的显著性水平,查表得到拒绝域: 上例中,经计算 说明不同行业被投诉次数的均值有显著差异,这意味着行业 (自变量)与投诉次数(因变量)之间的关系是显著的。 关系强度的测量 上述F统计量只能表明自变量和因变量之间是否有关系,不能 表明关系的强弱,为了度量相关强度定义判定系数: R2越大说明关系越强,越小关系越弱。类似于相关系数。 上例中, R2=0.349759。这表明行业对投诉次数的影响效应占 总效应的34.9759%,而残差效应则占65.0241%。 方差分析中的多重比较 上面的分析得出的结论是不同行业被投诉次数的均值是不全 相同的,但是究竟哪些均值不相等呢,也就是这种差异究竟 出现在哪些行业之间呢?则需要对总体均值进行两两比较。 多重比较的方法有很多,我们简单介绍一下由Fisher提出的 最小显著差异方法(LSD方法)。 检验步骤为: 第一步:提出原假设: 第二步:计算检验统计量: 第三步:计算LSD,公式为: 第四步:根据显著性水平做出决策:如果 则拒绝原假设,否则接受原假设。 例:对4个行业的均值作多重比较 第一步:提出假设 第二步:计算检验统计量 第三步:计算LSD 第四步:做出决策 不能拒绝原假设,说明零售业和 旅游业之间的投诉次数没有显著差异 。 双因素方差分析 单因素方差分析只是考虑一个分类型自变量对数值型因变 量的影响。如果同时需考虑两个因素A与B对实验结果的影响 ,则可进行双因素方差分析。 例:分析影响彩电销售量的因素,需要考察品牌、销售地区等 因素的影响。现有4种品牌的彩电在5个地区进行销售,为分析 彩电的“品牌”因素和“地区”因素对销售量是否有影响,调查数 据如下: 地区因素 地区1地区2地区3地区4地区5 品品牌1365350343340323 牌品牌2345368363330333 因品牌3358323353343308 素品牌4288280298260298 双因素方差分析的数据结构 在双因素方差分析中因为有两个因素,例如“品牌”和“销 售地区”两个因素,如果两个因素对销售量的影响是相互独 立,我们分别判断两个因素对销售量的影响,称为无交互作 用的双因素方差分析。如果除了两个因素的单独影响外,两 个因素的搭配还会对销售量产生新的影响效应,例如,某个 地区对某个品牌的彩电有特殊偏好,这就是两个因素结合后 产生的新效应,此时的双因素方差分析称为有交互作用的双 因素方差分析。 无交互作用的双因素方差分析 为了检验两个因素的影响,需要分别对两个因素提出假设。 对行因素提出的假设为: 对列因素提出的假设为: 地区对销售量没有显著影响 品牌对销售量没有显著影响 误差平方和的分解 其中: 可以证明: 分别构造统计量 关系强度的测量 反应了这两个因素联合起来与因变量之间的相关程度。 有交互作用的方差分析 路段1路段2 12619 高22420 峰32723 期4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 发言稿农家乐
- 年会主管发言稿
- 陕西机器学习培训
- 培训管理电子商务
- 二零二五版航空航天设备采购廉洁保障协议
- 2025版儿童房专用刮大白装修工程合同范本
- 二零二五年度智能化建筑劳务分包施工合同
- 二零二五年度抖音短视频整体打包广告创意设计合同
- 二零二五年度农户小额信贷合同范本样本
- 2025版家庭居室装修智能家居系统安全检测与施工合同
- 贸易公司绩效考核分配方案(暂行)1
- 一体机使用培训-课件
- #20kV设备交接和预防性试验规定
- 职工食堂总体经营服务方案
- 教学比武三测单的绘制课件
- 高一研究性课题
- CAAP2008X功能概述PPT课件
- 煤矿膏体充填开采项目建议书范文
- MAG、MIG焊培训教材ppt课件
- 1000以内自然数数数表
- 外科护理学教学胸部疾病病人的护理.PPT
评论
0/150
提交评论