非参数统计学讲义(第四章)讲稿2_第1页
非参数统计学讲义(第四章)讲稿2_第2页
非参数统计学讲义(第四章)讲稿2_第3页
非参数统计学讲义(第四章)讲稿2_第4页
非参数统计学讲义(第四章)讲稿2_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 页1 非参数统计学讲义非参数统计学讲义 第四章第四章 多样本模型多样本模型 1 k 个相关样本的非参数检验个相关样本的非参数检验 在参数统计中 检验几个样本是否来自完全相同的总体 采用方差分析或 F 检验 运用 F 检验的假定条件是 样本是从正态 分布的总体中独立抽选的 总体具有相同的方差 数据的测量层次至少是定距尺度 当被用来分析的数据不符合这些假定条件 或研究者不希望作这些假设 以便增加结论的普遍性时 不宜采用参数统计的方法 而必须运用非参数方法 如果 k 等于或大于 3 个样本是按某种或某些条件匹配的 那么 k 个样本称为相关的 否则为独立的 k 个相关和独立样本 的差别与两个相关和独立样本之间的差别类似 本节介绍 k 个相关样本的非参数检验 一 一 Cochran Q 检验检验 1 研究背景 Cochran Q 检验也译为科库兰检验 它是用以检验匹配的三组或三组以上的频数或比例之间有无显著差异的方法 这种匹配可 以用不同形式获得 例如 检验三种不同类型的采访形式对被采访者的有效回答是否有影响 可以抽选一些人 分成 n 组 每组 有 3 个匹配的被采访者 要求他们的有关情况相同 每组的 3 名成员被随机地置于 3 种条件之下 即分别接受三种类型的采访 于是 就获得了 3 个匹配的样本 即 k 3 每个样本有 n 个观测结果 k 个相关样本也可以采用同一组人 对不同的 k 个条件的 反应匹配成样本 这类似于两个相关样本中以研究对象作为自身的对照者 例如 检验几种教学手段对学生掌握知识是否有显著 不同 可以随机抽取 n 个学生 让他们先后置于 k 种教学手段之下 再作出评价 这样可以获得 k 个匹配的样本 每个样本有 n 个观测结果 在现实生活中 很多数据是以二元数据的形式出现的 例 4 1 村民对四个候选人的评价得到结果 表 4 1 村民评价结果 处 理 区组 20 个村民对 A B C D 四个候选人的评价 i N A0110011111111111011116 B1100011111011011000011 C011110000100011010109 D000011001000010110006 j L 1321232233122333212142 其中 1 表示同意 0 表示不同意 关心的问题是候选人在村民眼中有无区别 即检验 H0 是否成立 12k 2 基本方法 若有 k 个相关样本 每个样本有 n 个观测结果 检验 k 个样本间是否有显著差异 可以建立双侧备择 假设组为 个样本间无显著差异kH 0 个样本间有显著差异kH 1 由于三个及三个以上样本间差异的方向不便于判定 因而 通常只建立双侧备择进行检验 为对假设作出判定 所分析的数据测量层次为定类尺度即可 获得的数据可排成一个 n 行 k 列的表 如果 H0为真 那么将测 量结果分为 成功 和 失败 的话 成功 与 失败 应随机地分布在表中的各行各列 Cochran Q 检验的统计量定义为 4 1 222 11 22 11 1 1 1 kk ii ii bb ii jj k kNNk kNkN Q kNLkNL 式中 k 为处理数 b 为区组数 为行总和 为列总和 i N j L ij ij NNL 1 i i NN k 由于 Q 统计量的抽样分布近似为自由度 df k 一 1 的分布 所以根据自由度 df k 一 1 给定的显著性水平 能够在附 2 表中查找临界值 若 2 2 Q 则在显著性水平下拒绝 H0 表明样本之间存在着显著差异 相反 则不能拒绝 H0 第 页2 3 使用说明 运用 Cochran Q 检验时应注意 只有当行数 n 不太小时 Q 的抽样分布才近似于 df k 一 1 的分布 但是 n 的最小数 2 值日前并没有明确的说明 使用者采用时视具体问题而定 Cochran Q 检验适用于定类尺度测量的数据 其它测量层次的数据也可以运用 但要象例 4 2 那样 转化为两类 但这样做 可能浪费数据中包含的信息 因此 Cochran Q 检验一般只用于定类尺度的数据 4 应用 续例 4 1 候选人的例子 22222 2 0 05 2222 4 3 161196 3 42 9 357 815 3 4 42 1321 Q 因而 拒绝原假设 认为这 4 位候选人在选民眼中不同 例 4 2 消费者对饮料的爱好是否存在差异 某商店为决定经营饮料的品种 数量 对消费者的爱好进行了一次调查 随机抽取 18 个消费者 请他们对四种饮料 热牛奶 酸奶 果汁 可口可乐的喜好作出评价 凡喜好的记作 1 不喜好记作 0 调查结果如表 4 2 表 4 2 消费者对饮料喜好的调查结果 消费者消费者热牛奶热牛奶酸奶酸奶果汁果汁可口可乐可口可乐合计 合计 i y 1 110012 2 200101 3 300112 4 411002 5 510102 6 601001 7 700011 8 801001 9 901102 101011103 111100101 121200101 131310012 141411002 151511002 161601001 171710012 181800011 合计 合计 j x887629 分析 为检验消费者对四种饮料的爱好是否有差异 建立双侧各择 假设组为 消费者对四种饮料爱好无显著差异 0 H 消费者对四种饮料爱好有显著差异 1 H 由于数据为定类尺度测量 只有 爱好 与 不爱好 两种结果 且是两个以上相关样本 这里是四种饮料 k 4 所以选用 Cochran Q 检验 根据表 4 1 的调查数据 计算 H0成立时的统计量 Q 8 表示喜欢第一种饮料热牛奶的总次数 是喜欢酸奶的总 1 x8 2 x 次数 其它的依此类推 是所有四种饮料中 消费者表示喜欢的总次数 是第 i 个消费者喜欢各种饮料的次数 29 4 1 j j x i y 是各个消费者对四种饮料表示喜欢的总次数 表示按样本数计算的消费者喜欢的总次数 而表示按观察29 4 1 j i y k j j x 1 n i i y 1 对象即消费者或说按样品数计算的对各种饮料喜欢的总次数 这两个总和应相等 即有 统计量 Q 正是用于说明按 n i i k j j yx 11 样本数计算的总次数与按样品数计算的总次数的符合程度 按 4 1 式 可以计算出 第 页3 Q 0 5238 根据给定的显著性水平 0 05 自由度 df 4 l 3 查附表 得到临界值 7 82 显然 2 Q 0 5238 7 82 因而 调查数据在 5 的显著性水平上不能拒绝 H0 即消费者对四种饮料的爱好没有显著差异 2 例 4 3 三种不同教学方法的效果是否有显著差异 三种不同教学方法 电视教学 课堂讲授 课堂讨论 对学生掌 握知识的效果是否有所不同 为检验这一问题 抽选部分 学生分为 18 组 每组 3 名匹配的学生 他们的有关情况类似 各组中 3 名学生被随机地置于 3 种条件下 即随机地指定接受某种 教学方法 实施不同教学方法后进行测验 成绩合格为有效 记作 1 成绩不合格为无效 记作 0 结果如表 4 3 表 4 3 实施不同教学方法的学生成绩 学生组学生组电视教学电视教学课堂讲授课堂讲授课堂讨论课堂讨论合计 合计 i y 1 10000 2 20112 3 30101 4 40000 5 51012 6 60112 7 70112 8 80101 9 91012 10100000 11110112 12120112 13130112 14140112 15150112 16161113 17170011 18180112 合计 合计 j x3121328 分析 学生的考试成绩是定距尺度测量 这里将其转化为合格 不合格两类 则视为定类尺度 合格即教学方法有效为 1 不合格为教学方法无效 记作 0 接受三种不同教学方法的学生在每一组是匹配的 即构成 3 个相关样本 k 3 检验三种教学 方法的效果是否存在差异 建立的假设组为 三种教学方法的效果无显著差异 0 H 三种教学方法的效果有显著差异 1 H 由于是定类尺度测量的数据 相关样本数目大于 2 因此 宜采用 Cochran Q 检验 利用表 4 2 的数据计算检验统计量 Q 13 给定显著性水平 0 05 df 3 1 2 查附表中相应临界值 5 99 显然 Q 13 5 99 在 5 的显著性 2 2 水平上调查数据拒绝 H 表明三种不同教学方法的效果有显著差异 最后的判定 还可以采用这种方法 计算其尾概率 5 软件处理 Cochran Q Test 4 1 sta Number of valid cases 18 Q 5238096 df 3 p 913630 Variable SumPercent 0 s Percent 1 s 乐乐乐 乐乐 乐乐 乐乐乐乐 8 00000055 5555644 44444 8 00000055 5555644 44444 7 00000061 1111138 88889 6 00000066 6666733 33333 Cochran Q Test 4 2 sta Number of valid cases 18 Q 13 00000 df 2 p 001504 Variable SumPercent 0 s Percent 1 s 乐乐乐乐 乐乐乐乐 乐乐乐乐 3 0000083 3333316 66667 12 0000033 3333366 66667 13 0000027 7777872 22222 第 页4 二 二 Friedman 检验检验 Friedman 检验亦称佛利得曼的检验 或佛利得曼双向评秩方差分析 或者 Friedman 秩和检验 它是对 k 个样本是否来自 2 同一总体的检验 k 个样本是匹配的 实现匹配的方法与前面类似 可以是 k 个条件下同一组受试者构成 即受试对象作为自身 的对照者 也可以将受试者分为 n 个组 每组均有 k 个匹配的受试者 随机地将 k 个受试者置于 k 个条件之下形成 在不同受试 者匹配的样本中 应尽量使不同受试者的有关因素匹配即相似 1 基本方法 与 Cochran Q 检验相似 Friedman 检验也是用来检验各个样本所得的结果在整体上是否存在显著差异 因此建立的也是双侧 备择 假设组为 H0 k 个样本间无显著差异 或者 H0 12k H1 k 个样本间有显著差异 H1 不全相等 为对假设作出判定 所分析的数据应是定序尺度测量 获得的数据排成一个 n 行 k 列的表 行代表不同的受试者或匹配的受 试小组 列代表各种条件 由于是定序尺度测量的数据 因此 可以对每一行的观测结果分别评秩 即评等级 等级 1 是最小的 依次排序 秩从 1 到 k 如果 H0为真 那么每一列中秩的分布应该是随机的 即各个秩出现在所有列中的频数应几乎相等 也就 是说各列的秩和应该大致相等 STEP1 在每一个区组中计算各个处理的秩 ij R STEP2 计算秩和 1 1 2 b iij j RRik STEP3 定义 Friedman 检验统计量为 4 2 22 11 12 1 12 3 1 1 2 1 kk ii ii b k QRRb k bk kbk k NOTE Q 越大对 H0越不利 在小样本时 要查临界值表 查表时 要作变换 1 Q W b k 在大样本时 有 Q 的抽样分布在 n k 不太小时 近似于自由度 df k l 的分布 即 因此 2 2 1 Qkkb 乐 在附表中 可以根据给定的显著性水平 自由度 df k 一 1 查得 H0为真时 相应的临界值 若 则在水平上 2 2 r 2 拒绝 H0 否则不能拒绝 H0 某区组中存在结时 Q 应作适当的修正 2 应用 例 4 4 在不同的城市对不同的人群进行血液中铅含量测试 设有 A B C 三个城市 汽车密度不同 代表三种不同的处理 k 3 对试验者按职业分组 b 4 取血 四个区组 他们血液中铅含量及其评秩的结果如下 表 4 4 不同城市居民血液铅含量评秩 职业 区组 城市 处理 i R A80 3 100 3 51 2 65 3 11 B52 2 76 2 52 3 53 2 9 C40 1 52 1 34 1 35 1 4 由此可以计算出6 5 0 8125 QW 例 4 4 三种不同教学方法的效果是否有显著差异 三种不同教学方法同例 4 2 抽选的学生也分为 18 组 每组 3 名匹配的学生 其有关情况类似 各组中 3 名学生被随机地安 排接受某种教学方法 实施不同教学方法后 进行测验 按成绩高低对 3 名匹配学生的成绩排列等级即评秩 结果如表 4 4 表 4 4 实施不同教学方法的学生成绩 学生组学生组电视教学电视教学课堂讲授课堂讲授课堂讨论课堂讨论 1 1132 2 2123 3 3231 4 4321 5 5213 6 6132 第 页5 7 7123 8 8231 9 9213 1010213 1111132 1212132 1313123 1414132 151512 52 5 1616123 1717123 1818123 合计 合计 j R 2540 542 5 分析 这个问题与例 4 3 类似 也是检验三种教学方法的效果 有无差异 因而应建立双侧备择 假设组为 Ho 三种学方法的效果无显著差异 H1 三种教学方法的效果有显著差异 表 4 4 实施不同教学方法的学生成绩等级由于数据的测量已转化为定序尺度 且是两个以上相关样本 故可以来用 Friedman 检验 根据表 4 4 的数据 1 按 4 2 式计算检验统计量 2 r 8 10 2 r 给定显著性水平 0 05 自由度 df k l 2 查附表中 H0成立时相应的临界值 5 99 显然 2 5 99 因此数据在 5 的显著性水平上拒绝 H0 三种教学方法的效果有显著差异 8 10 2 r 2 例 4 5 四部分技术训练的有效性有无差异 某田径队对新入队的学员要进行四个部分的技术训练 以提高学员的身体素质 为检验这四个部分的技术训练计划是否确实 有效 随机抽选了 14 名新学员 分别接受四个部分的训练 每一训练结束后 均进行该部分的测验 成绩以 10 分为最高 检测 结果如表 4 5 表 4 5 学员受训后检测的成绩 学员编号学员编号技术训练技术训练 技术训练技术训练 技术训练技术训练 技术训练技术训练 1 110368 2 22594 3 341038 4 463104 5 534106 6 65467 7 771065 8 861035 9 910576 10108976 11115426 12123547 131345109 141465810 分析 学员的测验成绩是定距尺度测量的 但可以将其转换为定序尺度 将每一学员的 4 个成绩 按由低到高的顺序排列 1 表 4 3 中 第 15 组接受课堂讲授和课堂讨论方法的学生测验成绩相同 因此排序时 取秩 2 和 3 的平均值 均记为 2 5 以 平均秩替代同分 不影响这一检验的有效性 第 页6 给出等级即评秩 得到表 4 一 5 由于是两个以上相关样本 且数据为定序尺度 故可以运用 Friedman 检验 建立的假设组为 Ho 四个部分技术训练的有效性无显著差异 H1 四个部分技术训练的有效性有显著差异 根据表 4 5 的数据 按 4 2 计算得到 7714 0 2 r 在附表中 查找与显著性水平 0 05 自由度 df k 1 3 相对应的临界值 7 82 显然 2 Q 0 7714 7 82 调查结果在 5 的显著性水平上不能拒绝 H0 表明四个技术训练的有效性没有显著差异 2 3 软件处理 Friedman ANOVA and Kendall Coeff of Concordance 4 3 sta ANOVA Chi Sqr N 18 df 2 10 33803 p 00569 Coeff of Concordance 28717 Aver rank r 24524 Variable Average Rank Sum of Ranks MeanStd Dev 乐乐乐乐 乐乐乐乐 乐乐乐乐 1 38888925 000001 3888890 607685 2 25000040 500002 2500000 732642 2 36111142 500002 3611110 763228 Friedman ANOVA and Kendall Coeff of Concordance 4 4 sta ANOVA Chi Sqr N 14 df 3 7714286 p 85629 Coeff of Concordance 01837 Aver rank r 0571 Variable Average Rank Sum of Ranks MeanStd Dev 乐乐乐乐1 乐乐乐乐2 乐乐乐乐3 乐乐乐乐4 2 35714333 000005 6428572 468483 2 35714333 000005 8571432 656115 2 57142936 000006 5000002 738613 2 71428638 000006 5000001 786703 三 三 Cochran Q 检验与检验与 Friedman 检验检验 这两个检验都用于 k 个相关样本是否可能来自同一个总体的检验 但对数据测量层次的要求不同 Cochran Q 检验适用于定类尺度的测量数据 其它测量层次的数据也可以使用 但应转化为两类数据 有时观察值是以 是 或 否 喜欢 或 不喜欢 等二元数据的形式出现 如果用 Friedman 秩和检验将会出现很多打结的现象 即秩相同 Cochran Q 检验就解决了打结的问题 但当数据为定类尺度测量 只能运用 Cochran Q 检验 因为 这一检验对于定类尺度或仅分为两类的定序尺度测量数据是极 为有效的 若数据测量层次至少为定序尺度时 应优先选用 Friedman 检验 因为若将定序尺度转换为定类尺度 而采用 2 r Cochran Q 检验 可能会浪费数据包含的信息 四 四 区组设计的另外两种检验 区组设计的另外两种检验 Page 检验和检验和 Durbin 检验检验 1 完全区组设计的 Page 检验 对于单边检验问题 Page 于 1963 年引入下面统计量 01 k H 11 k H MERGEFORMAT 0 1 1 k i i LiR 式中为秩在第 j 个区组中的秩和 i R ij R 1 b iij j RR NOTE L 值越大对 H0越不利 在时 有正态近似 其中 证明过程详见笔记 b 0 1 L L L ZN 2 1 4 L bk k 32 2 144 1 L b kk k 存在打结时 需要进行修正 续例 4 4 血液中含铅量的例子 这里将城 A 和 C 对调 即检验 0123 H 1123 H 1 4R 2 9R 3 1R 所以 查表 2得 拒绝原假设 认为有显著性影响 4 1 9 2 11 355L 5 0 010 05P L 2 P187 表 3 4kb 第 页7 正态近似计算 5548 2 4751 96 3 3 L L L Z 2 不完全区组设计的 Durbin 检验 考虑平衡的不完全区组设计 检验 不全相等 Durbin 于 1951 年提出检验统计量为 BIBD k b r t 01 k H 1 H MERGEFORMAT 0 2 2 2 1 12 1 1 2 1 k i i kr t DR rk t 可以使用下面的简化计算 MERGEFORMAT 0 3 2 2 1 12 1 3 1 1 1 1 k i i kr kt DR trk t 在原假设成立时 D 统计渐近服从 2 1 k 例 4 6 比较四种材料 在四个部位 的磨损 数据可以记为下面两种形式 4k 4b 表 4 6a 不完全区组设计举例 材料 处理 部位 区组 i R A34 1 28 1 36 1 3 B36 2 30 2 45 1 5 C40 3 48 2 60 3 8 D44 3 54 3 59 2 8 表 4 6b 不完全区组设计举例 部位 区组 34 A 30 B 48 C 59 D 36 B 28 A 54 D 60 C 40 C 44 D 36 A 45 B 解 从右边的表容易看出 BIB 设计的平衡性质 这里 4 4 3 3 2 k b r t 22 0 1 2 1 12 1 3 1 1 6 756 25 3 1 1 k i i kr kt DR trk t 拒绝原假设 认为在 10 的显著性水平下 不同材料的磨损情况存在区别 第 页8 2 k 个独立样本的非参数检验个独立样本的非参数检验 一 一 Kruskal Wallis 检验检验 Kruskal Wallis 检验亦有译为克拉夏尔 瓦里斯检验 或简称为克氏检验 它是两个独立样本 Mann Whitney Wilcoxon 检 验的一种推广 1 问题的提出 例 4 7 在一项健康试验中 有三种生活方式 减肥效果如下表 问 每种生活方式的减肥效果是否相同 表 4 7 减肥效果表 生活方式生活方式 1 12 23 3 3 77 39 0 3 75 24 9 3 05 37 1 3 95 78 7 一个月后 减少的重量 单位 500g 2 76 5 i n 554 更为一般的数据形式为 表 4 8 一般的数据结构 1 12 2 k k 11 x 21 x 1k x 12 x 22 x 2k x 1 1n x 2 2n x k kn x 在数理统计学中 应作单因素方差分析 原假设 k H 210 检验统计量 1 1 2 2 kNkF kNxx kxxn SSE SSA F iij ii 但这是要求不同的样本来自于具有相同方差的正态总体 然而 这种条件在现实中难以满足 2 Kruskal Wallis 检验基本方法 1 基本假定 假定这 k 个样本具有相似的连续分布 所有的观察值在样本内和样本间是相互独立的 2 提出原假设 若有 k 个总体 各自的连续累积分布函数为 那么 Kruskal Wallis 检验的一般零假设为 21 xFxFxF k 对所有的 x 210 xFxFxFH k 如果在研究总体是否相同时 偏重于考察位置参数 并且位置参数采用各个总体的中位数 即么 H0等价于 k 个总体的中位 数相等 若仍以代表 k 个总体的中位数 则 Kruskal Wallis 检验建立的假设组为 k MMM 21 k MMMH 210 中至少有两个不相等 1 1 kjMH j 这里的备择对于 k 2 时不存在单侧备择的配对 因为对于来说 有种不同的有序排列 这不便于进行检验 1 kjM j k 3 基本原理 3 为对假设作出判定 需要的数据是 k 个独立的随机样本 其大小为样本独立地分别从各自总体抽取 总体分别 k nnn 21 具有连续的累积概率分布 数据的测量层次至少在定序尺度上 21 xFxFxF k 记观察值在混合样本中的秩为 则有 ij x ij R 为第 i 个样本的秩和kiRR i n j iji 2 1 1 3 统计量的构造可以仿照两样本的 Wilcoxon 秩和检验 先混合两个样本 然后找出各个观察值在混合样本中的秩 分别按样本求 和 第 页9 为第 i 个样本的平均秩和kinRR iii 2 1 NRR k i i 1 2 1 2 1 21 N N NN N N 当存在较大差别时 有理由怀疑 H0是否为真 i R 由此 仿照方差分析的做法 可以构造检验的统计量 将它定义为 H MERGEFORMAT 0 4 1 1 12 2 1 2 0 kRRn NN H Hk j ii 4 7 式还可以写成下面的形式 MERGEFORMAT 0 5 1 3 1 12 1 2 N n R NN H k j j j 或者可以这样来思考 将所有数据按从小到大的顺序合并成一个单一的样本 其大小 将每一个观察值 k nnnN 21 给出一个等级即评秩 秩为整数 从 1 到 N 对于 N 个观察值来说 平均等级是 2 1 2 1 21 N N NN N N 对于含有个观察值的第 j 个样本来说 等级总和的期望值是 若以表示第 j 个样本的实际等级总和 那么 j n2 1 Nnj j R 就表示 k 个样本中第 j 个样本等级总和与其均值的偏差 如果 H0为真 所有样本数据混合排列成一个单一的随2 1 NnR jj 机样本 等级即秩次应该在 k 个样本之间均匀地分布 也就是说 各样本实际的等级总和即秩次和与期望等级总和 j R 之间的偏差应很小 2 1 Nnj 因此 Kruskal wallis 检验定义的统计量可以建立在实际等级总和与期望等级总和的偏差的基础上 计算公 j R2 1 Nnj 式为 MERGEFORMAT 0 6 k j j jj n NnR NN H 1 2 2 1 1 12 4 9 式也可以写 4 8 式 4 检验统计量 检验统计量为 1 1 3 1 12 2 1 2 kN n R NN H k j j j 5 确定 P 值 小样本时 可以查附表 K W 大样本时 可以查分布表 2 当样本数 k 每个样本包含的观察值数目 不是很小时 检验统计量 H 渐近的抽样分布是自由度 df k 1 的分布 根 j n 2 据给定的显著性水平 自由度 df k 一 1 在附表中可以查找到 H0为真时的临界值 若 H 表明 H 是一个较小的值 2 2 数据支持 H0 k 个样本之间无显著差异 若 H 反映实际的秩次和分布与期望的分布之间不一致 数据拒绝 H0 k 个样本 2 来自不同总体 通常情况下 当 k 3 和各个时 渐近的 P 值无法由卡方分布表得到 而只能查找附表 K W 附表 这个表5 j n 是 Kruskal W H 和 Wallis W A 于 1952 年在其合作的著作中发表的 Note 在大样本时 还可以构造一个 F 统计量来作多个独立样本的检验 MERGEFORMAT 0 7 1 1 2 1 11 2 1 2 kNkF kNRR k N Rn F k i n j iij k i ii i 统计量与 H 之间的关系为 F 1 1 HNkHkNF 3 应用 例 4 8 续前例 分析 将样本观察值进行混合 然后进行评秩 结果见表 4 9 表 4 9 减肥效果评秩表 生活方式生活方式 1 12 23 3 3 7 3 5 7 3 12 9 0 14 一个月后 减少的重量 单位 500g 3 7 3 5 5 2 7 4 9 6 第 页10 3 0 2 5 3 8 7 1 11 3 9 5 5 7 9 8 7 13 2 7 1 6 5 10 秩和 i R 154644 秩平均 i R 39 211 在该题中 5 5 4 N 14 1 n 2 n 3 n 依题意 可以提出如下的假设 3210 MMMH 中至少有两个不相等 3 2 1 1 jMH j 依表中的数据 可以计算检验统计量 H 的统计值为 H 9 4114 查 K W 表 得到在 1 的显著性水平下的临界值为 7 8229 因此拒绝原假设 如果使用卡方分布作近似计算 可以查卡方分布表 得 结论同上 21 9 2 2 01 0 Kruskal Wallis ANOVA by Ranks 乐乐乐乐乐 4 5 sta Independent grouping variable 乐乐乐 Kruskal Wallis test H 2 N 14 9 432159 p 0090 Depend 乐乐乐乐乐 CodeValid N Sum of Ranks Grp 1 Grp 2 Grp 3 1515 00000 2546 00000 3444 00000 例 4 9 四种不同类型治疗的有效性是否有显著不同 对于精神错乱有 4 种不同的手段 电击 心理疗法 电击加心理疗法 无任何治疗 为检验这几种不同手段对精神错乱治疗 的有效性是否不同 选取了 40 个病人 他们在智力 品德 心理等因素方面相差不多 随机地将 40 人分成 4 个组 每组 10 人 4 个组分别接受不同方法的治疗 一个周期后 对每个病人相对改善程度进行测量 依改善高低程度给 40 人分等级 等级 l 是改 善的最高水平 依次排序 直至等级 40 是改善最小的水平 评秩结果如表 4 10 表 4 10 40 名病人改善程度的等级 电击疗法组电击疗法组心理疗法组心理疗法组电击加心理疗法组电击加心理疗法组无治疗组无治疗组 222530 196132 2916434 2411836 377939 27181535 28141240 25212031 23101333 2617338 秩次和 j R 26012290348 分析 对任何一种方法判定其有效的标志是病人分数的中位数 若 4 种方法效果差异不大 则各样本的中位数应相等 为检 验 4 种方法有效性是否有差异 可以建立假设组为 43210 MMMMH 中至少有两个不相等 4 1 1 jMH j 由于数据是定序尺度测量 有两个以上独立样本 因此可以来用 Kruskal Wallis 检验 根据表 4 5 的数据 按 4 4 式计算检验 第 页11 统计量 H 89 31 140 3 10 384 10 90 10 122 10 260 140 40 12 1 3 1 12 2222 1 2 N n R NN H k j j j 在卡方分布表中 与 df k 一 1 3 显著性水平 0 05 相对应的临界值 显然 H 31 89 数 82 7 2 82 7 2 据在 5 的显著性水平上拒绝 H0 表明四种不同治疗方法对精神错乱的有效性存在显著差异 Kruskal Wallis ANOVA by Ranks rank 4 6 sta Independent grouping variable group Kruskal Wallis test H 3 N 40 31 89366 p 0000 Depend rank CodeValid N Sum of Ranks Grp 1 Grp 2 Grp 3 Grp 4 110260 0000 210122 0000 31090 0000 410348 0000 Boxplot by Group Variable rank Median 25 75 Min Max 1234 group 5 0 5 10 15 20 25 30 35 40 45 rank 4 同分的处理 在实际中 往往会出现评分相同的情况 如果在两个或两个以上的评分之间出现同分时 每一个评分的秩都记作这些同分秩 的平均值 由于出现同分会对统计量 H 有影响 因而计算 H 值时 应进行校正 校正系数为 MERGEFORMAT 0 8 NN uu 3 3 1 式中 u 是相同评分的观察值数目 如学员考试成绩有 2 个 62 分 则 u 2 还有 4 个 78 分 则 u 4 等等 计算 H 值时 利用 4 7 式除以 H 得到的是校正的 H 值 经过校正以后 H 值比校正前要大 如果末校正时 计算结果就能拒绝 H0 那么校正后将 在更加苛刻的显著性水平上拒绝 H0 因为与较大的 H 值相对应的概率 P 值将更小 在大多数情况下 这一校正常可忽略 根据 Kruskal 和 Wallis 在 1952 年的著作中证明 当同分的观察值数目占观察值总数目的比例不到 25 时 校正后的概率仅仅改变百分 之十几 一般情况 校正因子的大小取决于 u 值的大小 即同分的数目和同分观察值数目占观察值总数的百分比 例 4 10 三种不同教学方法的有效性是否有显著差异 某大学制定三种不同的教学方法 大班讲授 小组讲授 小组讨论 为检验三种方法对学生掌握知识的有效性是否相同 进 行了一次试验 选取二年级大学生 50 名 随机地分为三组 分别接受三种不同方法教学 由同一教师按不同方法分别讲授同一方 面的知识 规定的内容讲授完后 对学生进行统一考试 成绩如表 4 11 所示 表 4 11 学生考试成绩 大班讲授组 大班讲授组 小组讲授组 小组讲授组 小组讨论组 小组讨论组 6278567384 5679487886 6289649298 8498728672 9092788469 4852846979 4954867386 6484929284 6982989870 7269628190 分析 学生成绩为定距尺度测量 但为了避免作出某些假设 以使结论更具普遍性 所以不准备采用参数检验方法 而选用 非参数检验 由于三种不同教学方法是独立的 故应采用 6 个独立样本的统计检验 对于三组学生成绩集中趋势的一个很好的度 量指标是中位数 成绩可以由小到大排序给出等级 因此能够采用 Kruskal Wallis 检验 建立假设组为 3210 MMMH 中至少有两个不相等 3 2 1 1 jMH j 若用文字描述为 第 页12 H0 接受不同教学方法的学生平均成绩没有显著差异 H1 接受不同教学方法的学生平均成绩不完全相同 为采用 Kruskal Wallis 检验对假设作出判定 将表 4 9 中的所有学生成绩排序 最低分秩评为 1 最高分秩评为 50 由于 50 名学生中有不少是同分 采用相应秩的简单算术平均数作为同分的平均秩 得到表 4 12 表 4 12 学生考试成绩的等级 大班讲授组 大班讲授组 小组讲授组 小组讲授组 小组讨论组 小组讨论组 62 9 78 22 56 6 5 73 22 84 32 5 56 6 5 79 26 5 48 1 5 78 24 5 86 37 5 62 9 89 40 64 11 5 92 44 5 98 48 5 84 32 5 98 48 5 72 19 86 37 5 72 19 90 41 5 92 44 5 78 24 5 84 32 5 69 14 5 48 1 5 52 4 84 32 5 69 14 5 79 26 5 49 3 54 5 86 37 5 73 22 86 37 5 64 11 5 84 32 5 92 44 5 92 44 5 84 32 5 69 14 5 82 29 98 48 5 98 48 5 70 17 72 19 69 14 5 62 9 81 28 90 41 5 合计 Ri 649 5318 5307 用表中数据 按 H 的计算公式计算得到 2626 5 150 3 10 307 10 90 10 5 318 30 5 649 150 50 12 1 3 1 12 2222 1 2 N n R NN H k j j j 附表中 df k 一 1 2 H 5 2626 出现的概率 P 在 0 05 与 0 10 之间 若显著性水平 0 05 则数据不能拒绝 H0 而显著 性水平 0 10 则数据拒绝 H0 由于学生成绩中同分较多 因而应采用校正的 H 计算同分的观察值数目 即和 计算过 u 3 u 程列于表 4 11 中 由于 所以校正因子为55843601 3 uu 9955 0 150 50 558 11 23 3 NN uu 校正后的统计量 H 为 2864 5 9955 0 2626 5 H 这一结果与校正前的 H 值相差不多 对于显著性水平 0 05 df k 一 1 2 H0为真时的临界值为 5 99 H 5 2864 5 99 数据在 5 的显著性水平上不能拒绝 H0 表明接受不同教学方法的学生平均成绩没有显著差 2 2 异 表 4 13 同分的观察值数目计算 同分的观察值同分的观察值 U UU U 3 3 4828 5628 62327 6428 69464 72327 73327 7828 7928 846216 86464 9028 92464 第 页13 98464 合计 43601 Boxplot by Group Variable grade Median 25 75 Min Max 123 group 40 50 60 70 80 90 100 grade 书上的例子 详见笔记 P25 二 二 Jonkheere Terpstra 检验检验 设有 k 个样本 其中为位置参数 K S 检验主要用于双边假设检验 但在 k XXX 21 ii XFX k 21 实践中 有可能需要我们判断样本的位置是否呈现出某种趋势 上升或下降趋势 则可检验 k H 210 我们可以使用 Jonkheere Terpstra 检验 k H 211 记 表示样本 i 中观察值小于样本 j 中观察值的对数 2 1 2 1 jijlikij nlniXXU 则 Jonkheere Terpstra 检验的统计量 4可以定义为 MERGEFORMAT 0 9 ji ij UJ ji jin nJ0 由 J 的定义可知 J 越大对 H0越不利 因而尾概率为 查表可求出临界值 c cJP Note 如果有结出现 则应作修正 检验统计量作相应的变动 笔记 P26 ij U 在大样本时 可以使用正态近似 笔记 P26 例 4 11 续前例 教材 P76 分析 为了适用检验临界值表的需要 应该选择 4 5 5 1 n 2 n 3 n 提出假设 3210 H 3211 H 记 jlikij XXU 根据数据可以得到 14 25 20 12 U 23 U 13 U 则59 ji ij UJ 查表可得 P 值 0 00371 0 05 拒绝 H0 说明位置有下降的趋势 4 由两人分别于 1952 年和 1954 年提出 第 页14 3 k 个样本的卡方检验个样本的卡方检验 两个独立样本的检验可以直接推广到 k 个独立样本 用来检验 k 个样本之间差异的显著性 2 一 一 基本方法基本方法 k 个独立样本检验与两个独立样本的基本方法类似 零假设是 k 个样本来自同一总体 或来自一些相同的总体 样本可以 2 是 k 个频数或 k 个比例 每一样本都可以分成 r 组 因此数据可以排成一个 k r 的表 若以表示第 i 行第 j 列的实际频数或比 ij f 例 表示与其相应的理论频数或比例 那么 检验统计量 Q 为 ij e MERGEFORMAT 0 10 r i k j ij ijij e ef Q 11 2 以表示第 i 行的频数和或比例和 k 个样本观察值的数目分别为 总数目 i f 11 fn kk fn 任一样本观察值数目记作 那么 理论频数可以由下式计算 k nnnN 21 2 1 kjnj ij e MERGEFORMAT 0 11 Nfne ijij 当 H0为真时 Q 统计量的抽样分布近似于自由度 df k 1 r 一 1 的分布 根据给定的显著性水平 查相应的卡方分 2 布表 即可以进行相应的检验 二 二 应用应用 例 4 12 收听体育广播兴趣不同的人 参加体育活动的情况是否也不相同 1990 年秋的 亚运会 调查 在全国范围抽选 12 个省的 2162 人 原抽选 2211 人 其中 49 人未回答 按收听体育广播的兴 趣程度分为 很不喜欢 不喜欢 无所谓 喜欢 非常喜欢五类 各类人员参加体育活动情况如表 4 14 所示 表 4 14 各类人员参加体育活动情况的人数 很不喜欢很不喜欢不喜欢不喜欢无所谓无所谓喜欢喜欢非常喜欢非常喜欢合计合计 不参加不参加 1596644290571102 偶尔参加偶尔参加 31521820449489 经常参加经常参加 41510511332269 天天参加天天参加 31411910858302 合计合计 2514010867151962162 资料来源 柯惠新等 调查研究中的统计分析 P262 北京广播学院出版社 1992 分析 按收听体育广播兴趣划分的五种类型是相互独立的 抽选的 2162 人随机地分为这五类 因此 k 5 是独立样本 应 采用 k 个独立样本的检验 数据是定类尺度测量的 所以适用检验 建立的假设组为 2 H0 收听体育广播兴趣不同不影响参加体育活动的情况 H1 收听体育广播兴趣不同参加体育活动情况也不同 为对假设作出判定 需要计算 Q 统计量 必要的计算过程如表 4 15 表中理论频数由 4 13 式计算得到 利用表中数据 ij e 按 4 12 式可以计算得到 Q 统计量 的计算列于表 4 16

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论