




已阅读5页,还剩78页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章多元正态分布及其参数估计 1 多元正态分布的重要性 1 多元统计分析中很多重要的理论和方法都是直接或间接地建立在正态分布基础上的 许多统计量的极限分布往往和正态分布有关 2 许多实际问题涉及的随机向量服从多元正态分布或近似服从正态分布 因此多元正态分布是多元统计分析的基础 一 多元正态分布的定义定义1 若p维随机向量的密度函数为 其中 是p维向量是p阶正定矩阵 则称X服从p维正态分布 记为 1多元正态分布的定义及其性质 2 定义2 独立标准正态变量的有限线性组合 称为p维正态随机变量 记为其中但是的分解一般不是唯一的 3 定义3 若随机向量X的特征函数为 其中t为实向量 则称X服从p元正态分布 特征函数定义的优点在于可以包含的情况 4 特别地 二元正态分布 5 二元正态分布曲面 6 二元正态分布曲面 7 即 两个随机变量独立 而可以求得的边缘密度函数为 当时X1与X2不相关 对于正态分布来说不相关和独立等价 因为此时 为X1和X2的相关系数 8 二 多元正态分布的性质性质1 若 是对角矩阵 则相互独立 性质2 若则 性质3 若 将作剖分 则 9 性质4 p元正态分布的条件分布仍服从正态分布 即在某些变量取固定值时 另外一些变量的分布仍然服从多元正态分布 10 三 正态分布数据的变换 若一批多元数据不满足正态分布时 可以对数据进行正态变换 一般来说常采用幂变换 如果想使值变小可以采用变换 如果想使值变大 则采用变换 不管使用哪种幂变换 还应该对变换后的数据的正态性做检验 11 2多元正态分布的参数估计一 多元样本及其样本数字特征 多元样本阵记 12 2 多元样本的数字特征样本均值 样本均值向量可以用样本矩阵表示出来 即 13 因为 14 样本离差阵 15 样本协方差矩阵或 样本离差阵用样本资料阵表示为 16 因为 17 二 多元正态总体的最大似然估计及其性质利用最大似然法求出和的最大似然估计为 18 求解过程似然函数为 19 对数似然函数为 20 21 引理 设A为p阶正定矩阵 则当A I等号成立 22 最大似然估计的性质 即是的无偏估计 即不是的无偏估计 即是无偏估计 分别是的最小方差无偏估量 3 分别是的一致估计 23 三 维斯特 Wishart 分布 一元分布的推广 定义 设个随机向量独立同分布于 则随机矩阵服从自由度为n的非中心维斯特分布 记为 随机矩阵的分布 将该矩阵的列向量 或行向量 连接起来组成的长向量称为拉直向量 拉直向量的分布定义为该矩阵的分布 如果是对称矩阵则只取其下三角的部分拉直即可 24 性质 1 若W1和W2独立 其分布分别为和 则分布为 即维斯特 Wishart 分布有可加性 2 C为m p阶的矩阵 则的分布为 25 定理 设分别是来自正态总体的样本均值和离差阵 则 1 2 相互独立 S为正定矩阵的充分必要条件是n p 11 26 一元正态总体 为来自一元正态总体的一组样本 定理 证明 构造正交矩阵 27 做变换 28 第三章多元正态总体参数的假设检验 一 HotellingT2分布 一元t分布的推广 定义设 且X与S相互独立 则称统计量的分布为非中心的HotellingT 分布 记为 当时称为中心的HotellingT2分布 记为 一元t分布 设总体是一组样本 则统计量 29 其中 与类似 并且 30 定理 设且X与S相互独立 令 基本性质 则 31 二 多元正态总体均值向量的假设检验 1 单个正态总体 1 协方差矩阵已知时均值向量的检验 检验统计量 设水平为 查表确定 使得 当H0成立时 拒绝域为 32 当原假设成立时 33 2 协方差矩阵未知时均值向量的检验 检验统计量 拒绝域为 34 例 人的出汗多少于人体内钾和钠的含量有一定的关系 测得20名健康成年女性的出汗多少 X1 钠的含量 X2 和钾的含量 X3 的数据 做如下的假设检验 35 例 在企业市场结构研究中 起关键作用的指标有市场份额X1 企业规模 资产净值总额的对数 X2 资本收益率X3 总收益增长率X4 为了研究市场结构的变动Shepherd 1972 抽取了美国231个大型企业 调查了这些企业1960 1969年的资料 假设以前企业市场结构指标的均值向量为 而该次调查得到的企业市场结构指标的均值向量和协方差矩阵为 36 试问市场结构是否发生了变化 37 带入到T2统计量中得到 临界值 因此拒绝原假设 认为市场结构已经发生了显著的变化 38 2 协方差阵相等时 两个正态总体均值向量的检验 设且两组样本相互独立 1 有共同已知的协方差矩阵 39 检验统计量为 拒绝域为 40 2 有共同的未知协方差矩阵 检验统计量为 41 用代替 即可得到上述统计量 42 例 为了研究日美企业在华投资企业对中国经营环境的评价是否存在差异 现从两国在华投资企业中各抽出10家 让其对如下指标进行打分 假设两组来自正态总体 有共同的未知协方差矩阵 且两组样本相互独立 43 经计算 44 45 代入统计量中得 查F分布表得 显然有 故拒绝原假设 认为日 美两国在华投资企业对中国经营环境的评价存在差别 3 协方差阵不相等时 两个正态总体均值向量的检验略 46 一元方差分析 一 方差分析的概念及有关术语方差分析是根据实验数据来推断一个或多个因素在其状态变化时是否会对实验指标产生显著影响的一种数理统计方法 方差分析可以用来研究分类型自变量 名义测度 对数值型因变量的影响 包括它们之间有没有关系 关系的强度如何等 也就是研究一个或多个因素变化时不同总体的某个指标是否有显著差异 所采用的方法就是检验各个总体的均值是否相等 方差分析是用于评价实验的最重要的分析方法 4 多个正态总体均值向量的检验 多元方差分析 47 例子 为了对几个行业的服务质量进行评价 消费者协会在零售业 旅游业 航空公司 家电制造业分别抽取了不同的企业作为样本 每个行业中所抽取的样本在服务对象 服务内容 企业规模等基本上是相同的 统计出消费者对23家企业的投诉次数 现判断几个行业的服务质量是否有差别 投诉次数如下表 返回 48 假定各个行业在服务对象 服务内容 企业规模等基本相同的前提下 要分析4个行业的服务质量是否有显著差 实际上就是判断 行业 对投诉次数是否有显著影响 即 行业 为自变量 投诉次数为因变量 做出这种判断最终归结为检验4个行业被投诉次数的均值是否相等 如果相等则认为行业因素对投诉次数是没有影响的 如果均值不全相等 则意味着行业因素对服务质量有影响 在做假设检验时每个行业看作是一个总体 因此我们可以简单概括为 方差分析主要用来对多个总体均值是否相等作出假设检验 49 典型的应用实例 不同影院节目宣传方式 如海报和报纸广告 对票房有何影响 影院老板为了知道答案 每次仅用一种方式宣传一段时期 就可以获得样本数据进行方差分析 两种营销手段单独作用或共同作用分别对目标变量有何影响 例如 一位果酱生产商认为 商标名称和销售途径有重要影响 于是他对三个不同的商标名称在两种不同销售途径下进行测试 对同一个年级的几个班级用不同的教学方法 调查教学效果 50 相关术语 因素 因子 在方差分析中 所要检验的对象称为因素或因子 例子中的 行业 水平 因素中的不同表现称为水平 例子中的零售业 旅游业 航空公司 家电制造业是 行业 因素的具体表现 即水平 单因素方差分析 只针对一个因素进行分析 多因素方差分析 同时针对多个因素进行分析 51 1 每个总体 因素的各个水平 的相应变量服从正态分布 也就是说 对于因素的每个水平 其观测值是来自正态总体的简单随机样本 上例中每个行业的投诉次数应服从正态分布 2 所有总体的方差相等 2 也就是说 各组观测数据来自相同方差的正态总体 上例中4个行业被投诉次数的方差相同 3 不同观察值相互独立 每个样本点的取值不影响其他样本点的取值 上例中 每个企业被投诉的次数与其他企业被投诉的次数是相互独立的 方差分析的三个基本假定 52 问题的一般提法 设因素有r个水平 每个水平的均值分别为 要检验r个水平 即为r个总体 的均值是否相等 提出如下假设 与原来两两总体的假设检验方法相比 方差分析不仅可以提高检验的效率 同时由于它是将所有的样本信息结合在一起 因此增加了分析的可靠性 上例中如果用一般的假设检验方法 需要两两组合作6次检验 53 54 图中的折线是由投诉次数的均值连接而成的 从图中可以看出不同行业投诉次数是有显著差异的 而且即使在同一个行业 不同企业的投诉次数也明显不同这表明行业与被投诉次数有关系 因为如果行业与被投诉次数之间如果没有关系 不同行业被投诉次数的均值应该差不多相同 但是 仅仅从散点图上还不能提供充分的证据证明不同行业被投诉次数之间有显著差异 因为也许这种差异是由于抽样的随机性所造成的 因此需要通过对数据误差来源进行分析来判断不同总体的均值是否相等 进而分析某一个因素对实验结果是否有影响 因此进行方差分析时 需要考察数据误差的来源 55 首先 我们注意到同一行业 同一总体 下 样本的观测值是不同的 因为企业是随机抽取的 因此他们之间的差异可以看成是由随机因素的影响造成的 或者说是由抽样的随机性造成的 我们称之为随机误差 其次 在不同的行业 不同的总体 下 各个观测值也是不同的 这种差异除了抽样的随机性造成的 也可能是由于行业因素本身造成的 由不同行业所形成的误差称之为系统误差 数据的误差用平方和表示 衡量因素的同一水平下 同一总体 下样本数据的误差 称为是组内误差 例如 零售业所抽取的7家企业被投诉次数之间的误差 衡量因素的不同水平 不同总体 下样本之间的误差 称为组间误差 例如 零售业 旅游业 航空业 家电制造业之间被投诉次数之间的误差 56 显然 组内误差只包含随机误差 组间误差既包含随机误差也包含系统误差 假如不同行业对投诉次数没有影响 那么在组间误差中只包含随机误差 而没有系统误差 这时 组内误差和组间误差经过平均后的数值就应该很接近 它们的比值就接近于1 反之 如果不同行业对投诉次数有影响 在组间误差中除了包含随机误差外还包含系统性误差 这时组间误差平均后的值就会大于组内误差平均后的值 它们的比值就会大于1 当这个比值大于某个临界值时 我们就可以说因素的不同水平之间存在显著差异 因此判断行业对投诉次数是否有显著影响这一问题 实际上就是检验投诉次数的差异主要是由什么原因引起的 如果这种差异主要是系统误差 我们就说不同行业对投诉次数有显著影响 57 如果原假设成立 说明某因素不同水平的影响不显著 无系统性影响 只剩下随机性影响 因此组间误差与组内误差差别不大 它们的比接近于1 如果原假设不成立 说明某因素不同水平的影响显著 存在系统性影响 组间误差与组内误差差别较大 它们的比远超出1构造统计量 58 为全体样本合并的大样本的样本均值 为第j个总体的样本均值 xij 第j个子样本中第i个观测值 nj 第j个子样本的样本容量 其中 n n1 n2 nrr为总体的个数 于是 大样本的总误差平方和 SumofSquaresforTotal SST 为 设 39 误差平方和的计算 59 可以证明 第一项是各子样本均值与合并的大样本的公共均值的离差平方和 它反映了因素不同水平对总离差平方和的影响 系统性影响 称为组间误差平方和 因素效应误差平方和 SumofSquaresforFactorA SSA 第二项是各子样本内部离差平方和之和 反映了随机性因素的影响 误差性影响 称为组内误差平方和 SumofSquaresforError SSE 60 各误差平方和的大小与观测值的多少有关 为了消除观测值多少对误差平方和大小的影响 用各个平方和除以自由度即得到平均平方误差 简称均方误差 即SST SSA SSE总误差平方和 组间误差平方和 组内误差平方和 构造F统计量 当原假设成立时 61 根据给定的显著性水平 查表得到拒绝域 上例中 经计算 说明不同行业被投诉次数的均值有显著差异 这意味着行业 自变量 与投诉次数 因变量 之间的关系是显著的 62 关系强度的测量 上述F统计量只能表明自变量和因变量之间是否有关系 不能表明关系的强弱 为了度量相关强度定义判定系数 R2越大说明关系越强 越小关系越弱 类似于相关系数 上例中 R2 0 349759 这表明行业对投诉次数的影响效应占总效应的34 9759 而残差效应则占65 0241 63 方差分析中的多重比较 上面的分析得出的结论是不同行业被投诉次数的均值是不全相同的 但是究竟哪些均值不相等呢 也就是这种差异究竟出现在哪些行业之间呢 则需要对总体均值进行两两比较 多重比较的方法有很多 我们简单介绍一下由Fisher提出的最小显著差异方法 LSD方法 检验步骤为 第一步 提出原假设 第二步 计算检验统计量 第三步 计算LSD 公式为 第四步 根据显著性水平做出决策 如果则拒绝原假设 否则接受原假设 64 例 对4个行业的均值作多重比较 第一步 提出假设 第二步 计算检验统计量 65 第三步 计算LSD 第四步 做出决策 不能拒绝原假设 说明零售业和旅游业之间的投诉次数没有显著差异 66 双因素方差分析 单因素方差分析只是考虑一个分类型自变量对数值型因变量的影响 如果同时需考虑两个因素A与B对实验结果的影响 则可进行双因素方差分析 例 分析影响彩电销售量的因素 需要考察品牌 销售地区等因素的影响 现有4种品牌的彩电在5个地区进行销售 为分析彩电的 品牌 因素和 地区 因素对销售量是否有影响 调查数据如下 67 双因素方差分析的数据结构 68 在双因素方差分析中因为有两个因素 例如 品牌 和 销售地区 两个因素 如果两个因素对销售量的影响是相互独立 我们分别判断两个因素对销售量的影响 称为无交互作用的双因素方差分析 如果除了两个因素的单独影响外 两个因素的搭配还会对销售量产生新的影响效应 例如 某个地区对某个品牌的彩电有特殊偏好 这就是两个因素结合后产生的新效应 此时的双因素方差分析称为有交互作用的双因素方差分析 69 无交互作用的双因素方差分析 为了检验两个因素的影响 需要分别对两个因素提出假设 对行因素提出的假设为 对列因素提出的假设为 地区对销售量没有显著影响 品牌对销售量没有显著影响 70 误差平方和的分解 其中 可以证明 71 分别构造统计量 关系强度的测量 反应了这两个因素联合起来与因变量之间的相关程度 72 有交互作用的方差分析 例 分别在两个路段和高峰期及非高峰期进行驾车实验 得到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农业农村部在京单位2025年度公开招聘应届高校毕业生笔试备考题库带答案详解
- 难点解析公务员考试《常识》章节测评试卷(附答案详解)
- 2025年事业单位笔试-浙江-浙江临床医学工程技术(医疗招聘)历年参考题库典型考点含答案解析
- 工业视觉缺陷识别-洞察及研究
- 2025年事业单位笔试-云南-云南皮肤病与性病学(医疗招聘)历年参考题库典型考点含答案解析
- 2026届贵州省六盘山育才中学化学高二上期中复习检测模拟试题含解析
- 2025年新高二英语暑假衔接讲练(人教版)07名词性从句选修二Unit2-1
- 2017-2018学年高中语文鲁人版必修五模块综合测评
- 排泄过程药物的相互作用药师培训专业实践能力44课件
- 机械厂安全知识培训总结课件
- 北京理工大学入党流程
- 缺血性心脏病护理查房
- 中国教育信息化发展报告
- 新工科背景下生物工程专业的核心课程体系建设:多模态教学与多维度评价
- 体育场看台座椅施工方案
- 老年人消毒护理与急救技术
- 2025 年艺术新课程标准试题与答案(2022 版)
- 苗木栽植补植合同范本
- 成人肠内营养支持护理
- 数据中心列头柜基础知识
- 核销贷款培训课件
评论
0/150
提交评论