




已阅读5页,还剩57页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十三章检验与方差分析 我们前面已经比较系统地讨论了双样本的参数和非参数检验的问题 现在 我们希望利用一般的方法来检验三个以上样本的差异 检验法和方差分析法就是解决这方面问题的 检验法可以对拟合优度和独立性等进行检验 方差分析法则可以对多个总体均值是否相等进行检验 后者由于通过各组样本资料之间的方差和组内方差的比较来建立服从F分布的检验统计量 所以又称F检验 第一节 拟合优度检验第二节 无关联性检验第三节 方差分析第四节 回归方程与相关系数的检验 第一节拟合优度检验 运用Z检验 t检验等讨论假设检验的问题 一般要求总体服从正态分布 或者在大样本条件下可以利用渐近正态分布理论来描述抽样分布 也就是说 我们都要直接或间接地假定对象总体具有已知的分布形式 然后对总体的未知参数进行假设检验 如果不知道总体的分布形式 就无法运用t检验法等对总体参数进行假设检验 于是 这里有一个前面留下来的尚未讨论的问题很重要 就是怎样检定总体是否具有正态或其他分布形式 拟合优度检验正是就这一问题而言的检验方法 第十一章最后一节 我们将累计频数检验用于经验分布与理论分布的比较 实际已经提供了拟合优度检验的一种方法 拟合优度检验与累计频数拟合优度检验相对应 在评估从经验上得到的频数和在一组特定的理论假设下期望得到的频数之间是否存在显著差异时 是一种更普遍的检验方法 现在我们再来看看第七章提到的著名的孟德尔豌豆试验 根据孟德尔提出的分离规律 纯种豌豆杂交后的子二代出现分化 红花植株与白花植株的数目应为3 1 但由于随机性 观察结果与3 1理论值总有些差距 因此有必要去考察某一大小的差距是否已构成否定3 l理论的充分根据 这正是我们所讨论的拟合优度检验的问题 解决这类问题的工具 是卡 皮尔逊在1900年发表的一篇文章中引进的所谓检验法 1 问题的导出 首先把问题表述成一般模式 设一总体包含c种可区别的个体 根据某种理论或纯粹的假设 第i种个体出现的概率应为某个已知的数Pi i 1 2 c 有Pi 0 1 这一组概率 P1 P2 Pc 就构成了我们的理论分布 现在在该总体中随机地抽取一个容量为n的样本 发现其中第i种个体的数目为fi i 1 2 c 并有 n 我们要据此检验理论分布 用概率论的语言可以这样说 设对象总体中随机变量X有c种取值 当X的取值是xi时 按零假设 其总体分布等于理论分布 即P Pi i 1 2 c 例如 就孟德尔的3 1理论来说 c 2 P x1 3 4 P x2 1 4 现在从该总体中随机地抽取一个容量为n的样本 发现其中xi i 1 2 c 出现的次数为fi i 1 2 c 并有 n 知道了频数也就知道了频率 即 出现的频率为 并有 1 现在我们就是要据此经验分布来检验总体分布等于理论分布的零假设 2 拟合优度检验 比率拟合检验 拟合优度检验如何进行 关键是确定合适的检验统计量以及该统计量所服从的概率分布 这里不可避免地要引进某种人为因素 即人们设计出下面这样的综合性可比指标 其中k1 k2 kc是适当选取的常数 仔细观察不难发现 L值大 意味着经验分布与理论分布偏离大 L值小 意味着经验分布与理论分布偏离小 当在某个选定的水平上 经验分布显著偏离理论分布 那么对象总体具有某种分布形式的零假设便被否定 结论 用作为检定Ho成立的检验统计量 理论证明 当n足够大时 该统计量服从分布 它是一种具有已知的并制成表的概率分布 因此对给定的显著性水平 可求得临界值 与比较 进而作出检验结论 显而易见 理论频数fe与观测频数fo越接近 统计值越小 经验分布与理论分布拟合程度越好 反之 fe与fo差距越大 值越大 经验分布与理论分布拟合程度越差 拟合优度检验由此得名 例 孟德尔遗传定律表明 在纯种红花豌豆与白花豌豆杂交后所生的子二代豌豆中 红花对白花之比为3 1 某次种植试验的结果为 红花豌豆176株 白花豌豆48株 试在 0 05的显著性水平上 对孟德尔定律作拟合优度检验 参见下表 应用举例 3 正态拟合检验 例 试对下表所给男青年身高分布的数据作正态拟合检验 选取 0 05 解 检验的另一个重要应用是对交互分类资料的独立性检验 即列联表检验 在上一章 我们曾多次提到过性别与收入高低有无关联的问题 在实际中类似的问题很多 例如受教育程度与投票行为有无关联 吸烟与寿命长短有无关联 家庭小孩多少与收入多少有无关联 受教育时间长短与收入多少有无关联 血型与某种性格上的差异有无关联 等等 把这类问题上升到一般 就是在列联表的基础上考察变量X与Y有无关联 由于列联表一般是按品质标志把两个变量的频数进行交互分类的 所以 检验法用于对交互分类资料的独立性检验 有其它方法无法比拟的优点 如何求得列联表中的理论频数就成了独立性检验的关键 第二节无关联性检验 1 独立性 理论频数及自由度 应用此式 不必计算理论频数 计算与这个检验统计量相联系的自由度 算出统计量之值并定出其自由度后 就可以依前述的方法 在给定了显著性水平之后 来对X Y属性无关联的零假设进行检验了 应用举例 检验也适用于定类变量和定类变量的相关统计 即可以用它检定 和 系数是否显著 就下表所示资料 试以检验检定性别与收入之间的相关程度是否显著 取0 001 解 故拒绝H0 即认为总体上性别与收入高低之间不独立 有显著相关关系 例 在某种流行病流行的时候 共有120个病人进行了治疗 其中40个病人按标准剂量服用某种新药 另有40个病人按标准剂量的2倍服用了这种新药 其余40个病人只按病状治疗 而不是按病因治疗 治疗结果按迅速痊愈 缓慢痊愈 未痊愈分为三类 最后交叉分类的情况列于下表 试问这三种疗法之间有没有差别 取0 05 解 H0 这三种疗法之间没有差别H1 这三种疗法之间有差别由于 0 05 自由度k c l r l 2 2 4 查分布表得临界值 在零假设下 计算检验统计量 计算过程参见后表 因此 故拒绝零假设 即三种疗法之间有显著差别 第三节方差分析 方差分析 是一种很重要的分析方法 它可以检验两个以上样本均值之差 方差分析是均值差检验的推广 一般用于处理自变量是一个 或多个 定类变量和因变量是一个定距变量之间的关系 方差分析所包含的假定与均值差检验所包含的假定差不多 例如正态分布 独立随机样本 等方差性等 但检验本身却很不相同 方差分析直接涉及的是方差而不是均值和标准差 同时 比较也不取两种估计量之差 而是取两种估计量的比率 在两种估计量彼此独立的前提下 两种估计量之比率F具有已知的抽样分布 因而可进行很简单的检验 1 总变差及其分解 总变差 在方差分析中记作SST 它表示对于总均值的偏差之平方和 即 SST 式中 ni是第i个样本的容量 n 为什么会形成总变差这个散布度呢 一是三个样本可能不同 这使全部数据有三个 中心 二是随机抽样误差的影响 使数据在每个中心附近有散布 总变差分解 可以看出 总变差分解成两部分 第一部分是各观测值对其所属类别均值的偏差的平方和 称为组内变差 Within groupsSumofSquares 记作SSW 组内变差反映了数据围绕各 中心 的散布程度 即反映了因随机波动所产生的变异 与自变量因素无关 换言之 SSW是自变量因素所没有解释的的变异 因此 又称之为残差 第二部分是组间平方和 Between groupsSumofSquares 记作SSB 它涉及到诸类别均值对总均值的偏差 反映了前表中数据的c个 中心 的散布程度 弄清了组间变差和组内变差 检验 A1 A2 A3 也就是零假设 1 2 3 的思路也就梳理出来了 关键是比较两种变差是否有显著差异 若第一种变差明显大于第二种变差 则认为家庭因素对孩子图书消费是有影响的 若第一种变差与第二种变差之间无显著区别 则不能认为家庭因素对孩子图书消费有影响 但在统计学上 方差分析不取两者之差而取两者之比来进行这种比较 而且 方差分析不是直接用SSB SSW作为检验统计量 而是用可以解释的方差 不能解释的方差作为检验统计量 即 2 关于自由度 组间平方和代表c个样本均值对总均值的偏差 也就是每个可看作为一个单位 c个可看作为c个单位 有c个自由度 求用去一个自由度 因而 与组间平方和相联系的自由度为c 1 再看组内平方和 计算时每列失去一个自由度 因而 与组内平方和相联系的自由度为n c 最后看总平方和 计算总均值时失去一个自由度 因而 与总平方和相联系的自由度为n l 总的来看有 n l n c c 1 总自由度 组内自由度 组间自由度 上式是在在零假设 H0 1 2 c 之下 检验统计量Fo的计算公式 理论证明 上式服从分子自由度为k1 c 1 分母自由度为k2 n c 的F分布 于是 给定显著性水平 我们就可以很方便地从F分布表中查到临界值F c 1 n c 如果出现Fo F 的情况 我们将在这个显著性水平上拒绝零假设 在实际运用中 方差分析的结果常用一种称为 方差分析表 的标准形式的表格表示出来 其基本形式如表后所示 为了简化检验统计量Fo的计算 有必要将SST SSW SSB这三个定义式展开 其方法与分解总变差的方法相同 于是有 3 关于检验统计量Fo的计算 注意 由于总变差等于另两个变差之和 所以三个变差中仅需求出两个变差 求出组内平方和比求另两个平方和繁琐得多 故通常我们都是从总平方和减去组间平方和来求组内平方和的 例 试对下表中的资料 计算SST SSW SSB 并检验 1 2 3的零假设 取0 05 解 据题意 n1 n2 n3 8 n1 n2 n3 24组内自由度 n c 24 3 21组间自由度 c 1 3 1 2分别计算SST和SSB 计算过程参见下表 由于 0 05 查F分布表得临界值 F c 1 n c F0 05 2 21 3 47 1 19故在0 05显著性水平上不否定零假设 即没有充分根据提出这三类家庭的孩子在图书消费方面有显著不同 例 研究某种商品销量与品牌的关系 得下表资料 其中A1 A2 A3表示不同的品牌 数据表示销量 试以显著性水平10 判断品牌对该种商品的销量有无影响 解 据题意 n1 n1 n2 n3 2 4 3 9组内自由度 n c 9 3 6组间自由度 c 1 3 1 2分别计算SST和SSB 计算过程参见前表13 16 于是得MSB和MSWMSB SSB c 1 6 89 2 3 45MSW SSW n c 30 6 5 00再根据 13 19 式求检验统计量FoFo 0 69 1故在0 10显著性水平上不否定零假设 即不能判断不同品脾对该种商品的销量有显著影响 4 相关比率 当方差分析的检验呈显著性后 进一步讨论两变量间的相关程度是很自然的 方差分析中相关程度的测定仍采用PRE法 当不知因变量Y的取值与自变量X的取值A1 A2 Ac有关时 最好的预测是以总均值作为Y的估计值 此时 估计所犯的错误将等于SSTE1 SST 当已知因变量Y的取值与自变量X的取值A1 A2 Ac有关后 自然用各样本的均值作为各类别的预测值 此时预测所产生的误差将等于SSWE2 SSW 所以消减误差比例可写成PRE 正是因为上式 我们把SSB称为已解释的变差 显然 已解释的变差越大 预测Y所减少的误差就越多 X与Y之间的关系就越密切 据此 方差分析中把已解释的变差对总变差的比值称为相关比率 用符号表示 1 可用于一个定类变量与一个定距变量的相关程度的测定 当然也可以用于定序 定距变量或定距 定距变量的相关程度的测定 例 试以表13 12的资料 分析孩子图书消费与家庭类型的关系 解 据前面例题中已计算的结果 已知SSB 28 SST 276 因而有 1 10 1 可见 就表给资料而言 利用家庭类型预测孩子图书消费量 只能削减10 1 的预测误差 小结 相关比率研究的是定类 定距变量之间的相关程度 由于定类变量不具有数量大小的问题 不存在关系是否线性的问题 因此 当被用于研究定距 定距变量之间的关系时 不仅可以作为线性相关的量度 也可以作为非线性相关的量度 这意味着 对线性相关 相关比率与r2 积差系数之平方 有相同的PRE性质 但如果对非线性相关 用积差系数r来讨论就不行了 对于定距 定距变量 曲线相关既然要用R来测量 那么反过来 同一资料通过相关指数R与积差系数r计算的比较 可以判断确定两定距变量的关系是不是直线 如果同时求出r与R r等于或略大于R 可说明两变量关系是直线的 用r去测量是合适的 如果r R 则说明两变量关系可能是曲线的 首先 MSB和MSW可以分别称为组间方差和组内方差 其中 在等方差的假设下 组内方差总是 2的无偏估计 而组间方差 只有当诸总体 即各样本所代表的子总体 均值实际上相等时 它才是 2的无偏估计 这就是说 如果零假设为真 MSB和MSW之间将没有太大的差别 反之 如果零假设实际不正确 可以期望MSB和MSW的比值大于1 如果这个比值小于1 则不从F分布表中查找临界值F 就可以判断零假设不能被否定 其次 以上两个例题也可以用均值差检验来处理 均值差检验涉及t分布 可以做三组合的比较 即A1与A2 A2与A3 A1与A3 与均值差检验不同 方差分析仅进行一次检验来判定三种类别的家庭 或品牌 在消费 或销售 上彼此是否有显著性差异 方差分析的优点在于 一个检验可以代替多个检验 如果有四个类别 均值差检验需做 4 3 2 6次 如果有六个类别 需做 6 5 2 15次 如果有十个类别 需做 10 9 2 45次 况且 如果做15次均值差检验 其中4次结果具有显著性 这时应当下什么结论 可能很难回答 5 关于方差分析的几点讨论 第三 方差分析中的自变量X如果是二分变量 也可以采用均值差t检验 在这种情况下 F的分子自由度是2 1 1 分母自由度是n 2 这与均值差检验中的t相同 经过计算可知 具有自由度n 2的t2值等于具有分子自由度为1和分母自由度为n 2的F值 比较F表和t表也可以核实这一点 换言之 t是分子自由度为l的F的平方根 这当然意味着 对于样本而言 此时不论采用方差分析或均值差检验 其结果完全相同 第四 本节集中讨论了自变量为一个定类变量而因变量为一个定距变量的情况 如果对因变量Y影响的自变量由一个变为两个以上 我们就将面对多元方差分析了 总变差分解的思想可以直接推广至多因素显著性检验 例如就两个自变量 A和B 独立对因变量Y影响的情况 可以得到下述方差分析表 表13 17 相关与回归 由于其广泛应用 如今在统计学中是高度发展的分支之一 而从实用的观点来看 线性关系是最简单也是最重要的一种关系 本书第十二章已经对积差系数与回归直线作了比较细致的讨论 但有关假设检验的内容 由于要借助于推论统计的知识方能阐明 所以本书将这部分内容集中放到这一节来加以补充 学过推论统计的人要克制自己免受直线的诱惑 对此 讨论回归系数和积差系数之假设检验将具有重要意义 第四节回归方程与相关系数的检验 1 回归系数的检验 检验两个总体变量 定距 定距变量 是否具有线性关系 主要检验总体的回归系数B是否等于零 因此 对于总体线性检验的假设可写成如下形式 H0 B 0H1 B 0 为了寻求检验H0的方法 我们需要对离差平方和进行分解 而这项工作 前面已经完成 我们发现 估计Y 当不知Y和X的关系时 对它的最佳估计值只能是 离差之平方和 总变差 正是不知Y和X的关系时 估计Y的全部误差E0 E0 SST 做了回归预测之后 我们可以用Yc估计Y 参见下图 这时估计Y的误差变为E1 剩余变差 E1 SSW 显然 利用Yc去估计Y比用去估计Y要消减一些误差 消减的误差E0 E1就是被回归直线解释掉的误差 回归变差 从第十二章已经讨论过的回归变差和剩余变差的意义来看 一个回归方程效果的好坏 取决于它们两者之间的比较 已解释的回归变差越大 用Yc去估计Y比用去估计Y消减的误差就越多 回归预测的效果也就越好 依此 并按上一节方差分析的思想 在H0成立的条件下 检验回归直线的统计量可构造为 E0 E1 Fo F 1 n 2 自由度问题 因回归变差中仅含一个自变量X 故自由度为l 而总变差所含自由度为 n 1 从而由总自由度 组内自由度 组间自由度 得剩余变差的自由度为 n 2 对选定显著性水平 可查表得临界值F 若出现Fo F 1 n 2 的情况 则拒绝H0 即认为回归方程中X变量对Y的解释力是显著的 若出现Fo F 1 n 2 的情况 则不能拒绝H0 即认为回归方程中X变量对Y没有的显著的解释力 例 对 例12 5 1 所建立的回归方程进行回归直线的检验 取0 05 解 根据表12 22和 例12 5 1 的计算结果可知 48 252 52 5 299 75 268 5a 0 475 b 0 975 n 12 299 75 0 475 52 5 0 975 268 5 13 02 0 975 2 252 57 04 计算检验统计量Fo 43 81对 0 05 查F表得临界值F 1 n 2 F0 05 1 10 4 96 43 81所以拒绝H0 即可以认为对总体配置回归直线是有意义的 2 积差系数的检验 对于定距 定距变量 上一章讨论的积差系数是就样本而言的 如同样本均值 成数不能完全代表总体均值 成数一样 样本积差系数r也不就是总体积差系数 但在社会研究中 要想确切了解两总体变量 定距 定距变量 间的积差系数是很难的 所以 通常需要通过样本积差系数的统计检验来认识总体的积差系数 设有两变量X和Y 它们的积差系数记为 当 0时 表示X和Y不具有线性相关关系 当 0时 表示X和Y具有线性相关关系 实践证明 样本积差系数r值比较大时 并不等于总体积差系数 也比较大 尤其是样本中所含观测值较少时 更可能出现这种情况 例如 当X与Y各只有两个样本数据时 积差系数总是为1 但显然这不能说明变量间一定完全相关 也就是说 有时即使样本积差系数很大 也并不一定就表明总体积差系数 也一定很大 总体积差系数 的情况 只有在对样本积差系数进行统计显著性检验后 才能得出结论 那么判断线性相关的 显著 与 不显著 的检验统计量如何构造呢 统计理论证明 样本积差系数是总体积差系数的一个无偏估计量 有 而且当 0时 样本容量越大 r 显然为一随机变量 的抽样分布越接近于自由度为n 2的t分布 见前图 因而有检验统计量 to r t n 2 积差系数检验的假设为 H0 0 两总体不具有线性相关关系 H1 0 两总体具有线性相关关系 对选定的显著性水平 查t分布表得临界值t 2 n 2 与统计值to作比较 若 则表明r在统计上是显著的 即总体积差系数显著地不同于零 则说明r在统计上不显著 即X与Y间并不存在线性相关关系 例12 4 1 已对表12 21所示资料求出积差系数 试在0 05显著性水平上作总体相关检验 表12 21 解 建立假设H0 0H1 0已知r 0 902 n 12 于是得to r 0 902 6 608对 0 05 查表得临界值t 2 n 2 t0 025 10 2 228 6 608故拒绝H0 接受H1 即认为员工的工龄和技术考核分之间存在线性相关 但是 为了使用者的方便 上述检验现已简化为使用相关系数r进行直接检验 附表12是以r的抽样分布编制的相关系数表 只要给出显著性水平 和自由度k n 2 便可以在表中直接查出相应的临界值r n 2 解 已知r 0 902 n 12 对 0 05 k 12 2 10 从附表12中查得r n 2 r 10 0 576 0 902故拒绝零假设 即在0 05显著性水平上可以认为员工的工龄和技术考核分之间存在线性相关 例 用附表12直接对上例进行积差系数检验 小结 上一小节 我们讲的是回归系数的检验 实际上那只是线性回归方程的检验 而这一小节讨论积差系数的检验 也是要确认总体线性相关的存在 因而假设H0 B 0与假设H0 0等价 也就是说 如果样本积差系数r通过了检验 t检验 也必然导致回归系数b能通过检验 F检验 实际上F公式与t公式是有对应关系的 Fo t2即具有自由度n 2的t2值等于具有分子自由度1和分母自由度n 2的F值 也正是由于这个原因 有的教科书就是用t统计量来检验回假设的 而如果有了r检验表 附表12 问题就变得更为简单 计算Fo值并进行F检验也都不必要了 估计Y当不知Y和X有关系时 对它的最佳估计值只能是 估计的全部误差是 当知道Y和X有关系时 可以改用Yc来估计Y 此时估计的误差减少为 当知道Y和X有关系后 用Yc来估计Y固然可以消减不少估计误差 这也不过是点估计 而如果我们能在拟合值Yc上下设置一个合适区间 那么Y被估计到的可能性便会大大增加 3 回归方程的区间估计 回归方程区间估计提出的背景 在回归线两侧设置一个估计区间总是容易做到的 但问题是我们需要对估计的信度和效度作通盘考虑 为此 我们必须了解Y在Yc两侧的分布特征以及Y在Yc两侧的分散程度 由于误差为正态分布的原理 即中心极限定理 当样本容量n大于30时 我们可以作如下假定 参见前图 1 Y的实际观测值在对应的每个估计值Yc周围都是正态分布 越靠近Yc的地方 Y值出现的机会越多 反之出现的机会越少 2 所
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电器分销合同协议书范本
- 策划赞助合作协议书范本
- 破坏房屋赔偿协议书范本
- 电梯轿厢清洁协议合同书
- 监控质保与售后合同范本
- 驾校学员培训合同协议书
- 项目工程挂靠协议书范本
- 环保投资股东协议书模板
- 煤矿合同续签协议书模板
- 权利质押反担保合同范本
- 酿酒机器相关项目建议书
- LNG加气站节能减排方案
- 外研版八年级上册英语期末复习:阅读理解 刷题练习题30篇(含答案解析)
- 退休延期留用岗位协议书
- 生物安全记录表
- DB34T 1708-2020 电站堵阀检验规程
- 《幼儿园保育教育质量评估指南》引领下的园本教研转向与新生态
- 四年级数学(小数加减运算)计算题专项练习与答案汇编
- 《老年护理学》考试复习题库(含答案)
- 第1章有理数单元同步练习题 2024-2025学年华东师大版数学七年级上册
- GB/T 29239-2024移动通信设备节能参数和测试方法基站
评论
0/150
提交评论