




已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第第 3 3 章章 多元正态总体的假设检验与方差分析多元正态总体的假设检验与方差分析 从本章开始 我们开始转入多元统计方法和统计模型的学习 统计学分析处理的对象是带 有随机性的数据 按照随机排列 重复 局部控制 正交等原则设计一个试验 通过试验结果 形成样本信息 通常以数据的形式 再根据样本进行统计推断 是自然科学和工程技术领域 常用的一种研究方法 由于试验指标常为多个数量指标 故常设试验结果所形成的总体为多元 正态总体 这是本章理论方法研究的出发点 所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推 测 这种推测必然伴有某种程度的不确定性 需要用概率来表明其可靠程度 统计推断的任务 是 观察现象 提取信息 建立模型 作出推断 统计推断有参数估计和假设检验两大类问题 其统计推断目的不同 参数估计问题回答诸 如 未知参数的值有多大 之类的问题 而假设检验回答诸如 未知参数的值是吗 之类的问题 本章主要讨论多元正态总体的假设检验方法及其实际应用 我们将对一元正态总 体情形作一简单回顾 然后将介绍单个总体均值的推断 两个总体均值的比较推断 多个总 体均值的比较检验和协方差阵的推断等 3 13 1 一元正态总体情形的回顾一元正态总体情形的回顾 一 假设检验 在假设检验问题中通常有两个统计假设 简称假设 一个作为原假设 或称零假设 另一个作为备择假设 或称对立假设 分别记为和 1 显著性检验 为便于表述 假定考虑假设检验问题 设 来自总体的样本 我们要检验假设 3 1 原假设与备择假设应相互排斥 两者有且只有一个正确 备择假设的意思是 一 旦否定原假设 我们就选择已准备的假设 当已知时 用统计量 在原假设成立下 统计量服从正态分布 通过查表 查得的上 分位点 对于检验问题 3 1 1 我们制定这样一个检验规则 简称检验 当时 拒绝 当时 接受 3 2 我们称为临界值 是的上分位点 不同的临界值代表不同的检验 称拒绝原 假设的统计量的范围为拒绝域 称接受的统计量的范围为接受域 因此给出一个 检验 就是给出一个拒绝域 2 两类错误 由于样本具有随机性 因此在根据样本进行判断时 有可能犯两种类型的错误 一类错误 是 原假设本来正确 但按检验规则却作出了拒绝的判断 这类错误称为第一类错误 弃真错误 其发生的概率称为犯第一类错误的概率 另一类错误时 原 假设本来不正确 但按检验规则却作出了接收的判断 这类错误称为第二类错误 存 伪错误 其发生的概率称为犯第二类错误的概率 记为 同时控制这两类错误是困难的 当时在样本容量固定的条件下 要使和同时减小 通常是不可能的 在假设检验的应用中 由奈曼 NEYMAN 与皮尔逊 PEARSON 提出了一个原则 即在控制犯第一类错误的概率条件下 尽量使犯第二类错误的概率小 这种检验问题 称为显著性检验问题 根据这一原则 原假设受到保护 不至于被轻易拒绝 一旦检验结果拒 绝了原假设 则表明拒绝的理由是充分的 如果接受了原假设 则只是表明拒绝的理由还不充 分 未必意味着原假设就是正确的 所以 在实际问题中 为了通过样本观测值对某一猜测取 得强有力的支持 通称我们把这一猜测的否定作为原假设 而把猜测本身作为备择假设 3 关于检验的值 下面 我们再介绍进行检验的另一种方式 值 我们就以 3 1 1 的检验问题为例来 加以说明 对于样本 我们通过统计量 计算出 是一确定值 这里的是 样本观测值的均值 再由统计量服从正态分布 计算为检验的值 由于等价于 所以检验规则可以表述为 当时 拒绝 当时 接受 接受 3 3 上述值的检验规则与 3 1 2 的检验结果相比含有更丰富的信息 值越小 拒绝原 假设的理由就充分 通常 SAS 等软件的计算机输出一般只给出值 由你自己给定的值来 判断检验结果 二 单一变量假设检验的回顾 1 单个正态总体均值的检验 考虑假设检验问题 设 来自总体的样本 我们要检验 假设 1 总体方差已知 构造统计量 在原假设成立下 服从正态分布 可得这样一个检验规则 当时 拒绝 当时 接受 2 总体方差未知 构造统计量 在原假设成立下 服从自由度为的 分布可得这样一个检验规 则 当时 拒绝 当时 接受 3 1 4 2 两个正态总体均值的比较检验 考虑假设检验问题 3 1 5 设是取自总体的容量为的样本 是取自 的容量为的样本 给定显著性水平 1 两个总体方差和已知 构造检验统计量 3 1 6 在原假设成立下 服从正态分布 检验规则为 当时 拒绝 当时 接受 2 两个总体方差和都未知 但 用样本方差代替 构造检验统计量 在原假设成立下 服从正态分布 检验规则为 当时 拒绝 当时 接受 3 多个正态总体均值的比较检验 方差分析 设个正态总体分别为 从个总体取 个独立样本如下 考虑假设检验问题 假设成立条件下 构造检验统计量为 这里称为组间平方和 称为组内平方和 称为总平方和 其中 给定检验水平 查分布表 使 可确定出临界值 再利用样本值计算出值 若 则拒绝 否则不能拒绝 附注 多元假设检验与附注 多元假设检验与 SASSAS 过程过程 本章的主要内容是多元假设检验和方差分析 其中的计算一般都很复杂 可用国际上著名 的专业软件 SAS 软件计算 SAS 中有 GLM ANOVA 和 NESTED 等过程可用方差分析 其中 GLM 过程最常用 SAS 的 GLM 过程采用了一般线性模型 在方差分析问题中 变量 是示性变量 即只取 0 或 1 的变量 GLM 过程对每一因 子的每一水平 通过 CLASS 语句产生 1 个示性变量 也称分类变量 GLM 过程主要有四个语句 PROC GLM CLASS MODEL 和 LSMEANS 语句 PROC GLM 语句语句 用以调用 GLM 过程 有许多选项 一般形式是 Proc glm data 数据集名称 outstat 输出的统计量 order formatted freq data internal CLASS 语句语句 说明哪些变量是分类变量 方差分析中的因素都是分类变量 如 Class V1 V2 V3 此语句指示计算机把因子 V1 V2 V3 作为分类变量 可以是字符型变量或数字型变量 如果是字符型变量 长度限于 10 个字符以内 MODEL 语句语句 语句中等号前是响应变量 如 Model Y A 单因子 ANOVA Model Y A B C 主效应模型 Model Y A B A B 含交互效应的因子模型 Model Y1 Y2 A B 多因子方差模型 MANOVA LSMEANS 语句语句 用以求待估参数的最小二乘估计 Lsmeans A B A B MANOVA 语句语句 用以说明是做多元方差分析 3 23 2 均值等于常数向量的检验均值等于常数向量的检验 在经济生产 管理决策中的很多实际问题 通常要选取多个指标进行考察 根据历史数据 将项指标的历史平均水平记作 考虑新的项指标平均值是否与历史数据记载的平均值 有明显差异 若有差异 进一步分析差异主要在哪些指标上 先看下面的实例 例 3 1 测量 20 名健康女性排汗量 钠含量 钾含量得表 3 1 问健康女性 的均值是不是 4 50 10 表 3 1 20 名健康女性排汗量 钠含量 钾含量数据 排汗量钠含量钾含量 3 748 59 3 5 765 18 0 3 847 210 9 3 253 212 0 3 155 59 7 4 636 17 9 2 424 814 0 7 233 17 6 6 747 48 5 5 454 111 3 3 936 912 7 4 558 812 3 3 527 89 8 4 540 28 4 1 513 510 1 8 556 47 1 4 571 68 2 6 552 810 9 4 144 111 2 5 540 99 4 例 3 1 的数学模型就是 服从要根据 20 个样品做复合检验 一般的 我们考虑维正态分布均值等于常数的检验问题 为取自维 正态总体的一个样本 要检验 3 4 其中为已知维向量 对于这样一个检验问题 分为以下两种情形 一 协方差阵已知条件下 均值的检验 作出假设后 需要构造一个合适的统计量 要检验的假设在形式上同一维情形是一样的 在一维时构造的统计量为且在成立时 服从正态分布 依照一维情形 由于成立时服从维正态分布 若记 为非奇异对称阵 则有 服从但用来确定拒绝域不方便 因此 改选用统计量 3 5 当成立时 服从 分布 对给定的 从 求出 当时 要先求 这需要大量的计算 实际计算时 可以不必求 出 只要令 即 3 6 求解方程组 3 2 3 求出Y后 则 二 协方差阵未知条件下均值的检验 假设检验问题仍然是 其中为已知维向量 在 回顾一元情况 在原假设成立下 服从自由度为的 分布 在维正态情况下 当协方差已知时 选用时统计量为 现用样本协方差代替总体协方差阵 令 统计量的分布是一元统计中 分布的推广 最早由 HOTELLING 导出 在上一章中 我 们已经给出了这个定义 可以直接用它作为检验的统计量 分布已被仔细研究过 1 及 5 的分位点已经列成专表 读者可在 3 中找到这个表 也可以利用 HOTELLING 分布的 性质 证明参见朱道元 P210 当不成立时 有变大的趋势 对给定的 从 求出 当时 拒绝 否则接受 例 3 1 测量 20 名健康女性排汗量 钠含量 钾含量得表 3 1 问健康女性 的均值是不是 4 50 10 解 建立 用 SAS MATEMATICA MATLAB 等软件都可算出 所以否定原假设 即在 0 10 显著水平下拒绝 例 3 1 也可用下列 SAS 程序计算 data hanye input x1 x3 y1 x1 4 y2 x2 50 y3 x3 10 a 1 cards 3 7 48 59 3 5 7 65 18 0 3 8 47 210 9 3 2 53 212 0 3 1 55 59 7 4 6 36 17 9 2 4 24 814 0 7 2 33 17 6 6 7 47 48 5 5 4 54 111 3 3 9 36 912 7 4 5 58 812 3 3 5 27 89 8 4 5 40 28 4 1 5 13 510 1 8 5 56 47 1 4 5 71 68 2 6 5 52 810 9 4 1 44 111 2 5 5 40 99 4 proc glm model y1 y3 a noint manova h a printe printh run 执行此程序后得到的输出中主要的是最后一个表 H Type III SSCP Matrix for a E Error SSCP Matrix S 1 M 0 5 N 7 5 Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0 66112774 2 90 3 17 0 0649 Pillai s Trace 0 33887226 2 90 3 17 0 0649 Hotelling Lawley Trace 0 51256699 2 90 3 17 0 0649 Roy s Greatest Root 0 51256699 2 90 3 17 0 0649 可见 P 值为 0 0649 所以否定原假设 即在 0 10 显著水平下拒绝 在实际工作中 一元检验与多元检验可以联合使用 多元的检验具有概括和全面的优点 而一 元的检验容易发现各指标之间的关系和差异 两者的结合能给统计人员提供更多的统计分析信 息 3 33 3 两总体均值的比较检验两总体均值的比较检验 例 3 2 为了研究日美两国在华企业对中国经营环境的评价是否存在差异 从两国在华企 业对中国的政治 经济 法律 文化等环境打分 得表 3 2 试分析日美两国在华企业对中国 经营环境的评价是否存在差异 表 3 2 日美两国在华企业对中国经营环境的评价 美国企业号政治环境 X1经济环境 X2法律环境 X3文化环境 X4 美 1 65352560 美 2 75502055 美 3 60453565 美 4 75404070 美 5 70303050 美 6 55403565 美 7 60453060 美 8 65402560 美 9 60503070 美 10 55553575 日本企业号政治环境 Y1经济环境 Y2法律环境 Y3文化环境 Y4 日 1 55554065 日 2 50604570 日 3 45453575 日 4 50505070 日 5 55503075 日 6 60404560 日 7 65554575 日 8 50653580 日 9 40453065 日 10 45504570 假设服从 服从 下 且有 10 对样品 要做复合检验 一般情况下 我们考虑为取自维正态总体的一个样本 为取自维正态总体的一个样本 假定两组样本相互独立 且 一 有共同已知的协差阵时 对于例 3 2 提出的问题 可归类为假设检验问题 其中为已知维向量 在一维情形下 用了统计量 与前面相似的思路 在维时 选用 统计量 当成立时 服从 分布 对给定的显著性水平 从 求出 当时 拒绝 当0 但未知 要检验的假设 为 其中为已知维向量 记 采用统计量为 定理 3 2 若 成立 则 证明参见朱道元 P217 定理 3 2 可用于用做两总体复合检验 根据定理 3 2 当成立时 统计量 当不成立时 有变大的趋势 对给定的 从 求出 当时 拒绝 否则接受 以上有关的统计量在成立时所服从的分布的相应证明都比较复杂 这里我们只叙述了 有关结论 没有给出证明 可参看第二章的相关内容 这些统计量同一维相应的统计量均有相 似之处 对比两者的形式有助于理解和应用 例 3 2 的解 作假设 所以日美两国在华企业对中国经营环境的评价存在显著差异 例 3 2 可用如下 SAS 程序实现 data wu1 input no pol ecn leg cul cou cards 美1 65352560 a 美2 75502055 a 美3 60453565 a 美4 75404070 a 美5 70303050 a 美6 55403565 a 美7 60453060 a 美8 65402560 a 美9 60503070 a 美10 55 55 3575 a 日1 55554065 j 日2 50604570 j 日3 45453575 j 日4 50505070 j 日5 55503075 j 日6 60404560 j 日7 65554575 j 日8 50603580 j 日9 40453065 j 日10 45 50 4570 j proc glm class cou model pol ecn leg cul cou ss3 manova h cou printe printh run 执行此程序后得到的输出中主要的是最后一个表 H Type III SSCP Matrix for cou E Error SSCP Matrix S 1 M 1 N 6 5 Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0 37607734 6 22 4 15 0 0037 Pillai s Trace 0 62392266 6 22 4 15 0 0037 Hotelling Lawley Trace 1 65902752 6 22 4 15 0 0037 Roy s Greatest Root 1 65902752 6 22 4 15 0 0037 由此可见 p 值是 0 0037 因而日美两国在华企业对中国经营环境的评价存在显著差异 3 43 4 多个总体均值向量的比较检验多个总体均值向量的比较检验 在研究作物栽培时 要考虑播种期 品种 土质 施肥方式 灌溉方式对产量的影响 在 化学反应中要观察原料成分 剂量 催化剂 温度 压力 搅拌速度等对得率的影响 在很多 应用领域尤其是科学研究中 都遇到过类似的问题 常涉及许多因素 这类问题要分析出影响 最 大 的因素 就是比较各种因素对试验结果所起的作用问题 作为影响试验结果的每一因 素或因素的某一水平或某一方案 且试验结果都形成一个随机总体 这样 比较各种因素对试 验结果所起的作用问题就变成对各种因素的试验结果所形成的总体的比较问题 由于试验指标常为多元指标 故常设试验结果所形成的总体为多元正态总体 此外 我们 按照随机排列 重复 局部控制 正交等原则设计一个试验 除要考察的因素外 其他试验条 件均要求一致 即要考察的试验因素的试验结果都是同协方差阵的且相互独立的多元正态总体 因而 各因素对试验结果影响的结果的比较 就变成了多个同协方差阵的多元正态总体均值向 量的比较 统计上解决两个以上同协方差阵多元正态总体均值向量比较的方法叫做多元方差分 析 多个总体均值向量的比较检验 特别是多元方差分析正是本节的内容 这类方法在经济管 理 系统控制 生物医药等许多领域有着广泛的应用 这里先看一个具体实例 3 4 1 提出问题 例 3 3 为了研究某种疾病 对三组人测量 第 1 组是 20 至 35 岁女性 第 2 组是 20 至 25 岁 男性 第 3 组是 30 至 55 岁男性 每组取 20 个人 测量第 I 组的第 J 人 4 个指标是 脂蛋 白 甘油三脂 脂蛋白 前脂蛋白 测量结果见表 3 3 问三组人的指标间有没有显著差别 表 3 3 脂蛋白 甘油三脂 脂蛋白 前脂蛋白数据 2607540183101223021320643917 200723417310603518260593711 240874518190402715360882826 1706539172256534162951003612 2701103924170653716270653221 20513034232108231173801143621 190692715280673718240554210 200464515210383617260553420 25011721202806530232601102920 2001072820200764017295733321 22513036112007639202401143818 21012526172809426113101033218 1706431141906033173301122111 2707633132955530163451272420 1906034162701252421250622216 2808120182801203218260592119 31011925152406232202251003430 270573182806929203451203618 2506731143707030203601072523 26013539292804037172501173616 问题中的 3 组人的测量值 每个随机向量有 4 个指标 即 4 维随机 向量 例 3 3 要从每个总体 20 个样品值出发 检验是否成立 3 4 2单因素方差分析的数学模型 方差分析的目的在于找出自变量与因变量之间的线性关系 或自变量对因变量的实验效果 方差分析是一种处理实验数据的方法 考察一个被称为因变量或相依变量 dependent variable 的连续响应变量 又称反应变量 Response Variable 其数值则是连续的 它在由分 类变量识别的几种试验条件下被测量 这些分类变量被称为自变量 独立变量 independent variable 定性变量 Qualitative Variable 或分类变量 Classification Variable 其数值多半 是不连续的 这些分类变量的水平组合形成试验设计的单元 例如 某个试验要测量男人和女 人的重量变化 因变量 他们采取了三种不同的减肥方法 这个设计的 6 个单元由性别 男 女 和减肥方法 A B C 6 种组合形成 一项试验有多个影响因素 因素也可以看成是一种变量 其取值不是数 而是水平 例如 产地 是一个变量 它取的值是 北京 上海 南京 等 这种变量称为属性变量 定 性变量或分类变量 如果只有一个因素在发生变化 其他因素保持不变 则称为单因素试验 与之对应的方差分析 称为单因素方差分析 我们所考察的 影响产品指标的因素 如产地 温度 也称为因子 用大写字母 A B C 表示 因素所能处的状况 如甲 乙 丙 60 65 70 75 称为因素的水平 简称为水平 水平常以表示 一般地 假设因素 A 有 k 个水平 对第 个水平进行试验 独立观察次 整个试验共作了次 且完全随机排列 设的第次观察的试验指标为维向量 假设 1 同一个水平下得到的观测值 由于实 验过程中各种偶然因素的干扰及测量误差所致 每次实验中这些偶然因素的总和 称为实验误差 它们是方差相同的零均值正态随机变量 2 所有误差相互独立 3 由于水平的不同 可能会给一个定量的确定性的影响 其大小是未知的 假定 令 于是有模型 其中称为总体均值向量 为的主效应向量 为的第次观察的随机误差向量 根据假设相互独立且均服从 判断这个因素的影响是否显著就是要检验假设 不全为 0 3 7 设第 I 组样本均值 总均值 样本组内差 样本组间差 对于该检验问题的统计量 取 WILKS 统计量 定理 3 3 若 则服从 WILKS 分布 证明参见朱道元第 177 页 例 3 3 为了研究某种疾病 对三组人测量 第 1 组是 20 至 35 岁女性 第 2 组是 20 至 25 岁男 性 第 3 组是 30 至 55 岁男性 每组取 20 个人 测量第 I 组的第 J 人 4 个指标是 脂蛋白 甘油三脂 脂蛋白 前脂蛋白 测量结果见表 3 3 问三组人的指标间有没有显著差别 解 这儿有 3 个总体 建立假设 计算三总体样本均值 计算组内差 计算组间差 计算总方差 计算统计量 查得 0 6621 所以高度显著否定 故三组人身体指标有显著差异 3 53 5 总体协差阵相等的检验总体协差阵相等的检验 本章第三节和第四节中 总假定不同总体的方差是相同的 这一假定是否合理 在一些 问题中应当加以证明 3 5 1 一个正态总体协方差阵的检验 设为取自维正态总体的一个样本 未知 且 首先 我们考虑假设检验问题 所构造的检验统计量为 其中 然后 我们考虑假设检验问题 因为 所以存在非奇异矩阵 使得 令 则 因此检验等价于 此时构造检验统计量为 其中 给定检验水平 因为直接有的分布计算临界值很困难 所以通常采用的近似分布 在成立时 的极限分布是 因此当 由样本值计算出 值 若 即 则拒绝 否则不能拒绝 3 5 2 多个协方差阵相等检验 刚才讨论的检验是一个正态总体协方差阵的检验 是检验当前协方差阵与过去是 否一样 在一些实际问题中 可能会遇到多个正态总体的协方差阵是否相等的问题 设有个正态总体分别为 且未知 从第 个总体中取个样本 这里为总样本容量 我们考虑假设检验问题为 不全相等 构造检验统计量为 其中 按照 Bartlett 的建议 记 得到修正的检验统计量 则在成立时 的极限分布是 其中 例 3 4有甲 乙两品种 取得如表 3 4 所示的两个二元正态样本 试检验 表 3 4 方差阵检验数据 观察值和 甲 300 23 232 5 217 25 100 43 286 10 320 17 1455 123 385109 3417 26085 乙 200 50 150 43 333 83 150 41 283 73 383 80 350 86 300 100 2149 556 635167 42044 161638 解 由于 故 由于 故应拒绝 即认为有显著差异 3 63 6 独立性检验独立性检验 一个随机向量 若其中两子向量相互独立 则可化为两个低维随即向量 处理 给统计分析带来极大的便利 因此检验一个随机向量的子向量之间是否独立是参数假设 检验中的重大课题 而当 时 相互独立 互不 相关 这时 的独立性检验可归结为参数假设检验 一般情况下 设 正定 将分割成个子向量 其中的维数为 将与也作相应的剖分 检验子向量之间的相互独立
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年火电电力职业鉴定试题预测试卷及参考答案详解(综合题)
- 重难点自考专业(行政管理)试题附完整答案【全优】
- 静脉采血知识培训
- 2026届浙江省湖州市南浔区实验学校九上化学期中检测模拟试题含解析
- 库卡机器人进阶培训
- 福建省泉州市第八中学2026届英语九上期末学业水平测试试题含解析
- 2026届江苏省常州市金坛区水北中学英语九上期末教学质量检测试题含解析
- 企业培训师上课
- 2026届山东省滨州市滨城区东城中学化学九年级第一学期期中统考试题含解析
- 2026届四川省成都市石室天府中学九年级化学第一学期期末复习检测试题含解析
- 标准化作业管理制度
- 增值税纳税实务课件
- 2025年油气工程行业研究报告及未来发展趋势预测
- 跨境电商中消费者行为模式分析
- 附睾结核护理查房
- 安全环保教育培训记录
- 眩晕综合征护理常规
- 加强团队协议书范本
- 2025精益生产管理培训
- 公寓开荒保洁方案(3篇)
- 小儿雾化护理说课
评论
0/150
提交评论