第六章 非参数统计.ppt_第1页
第六章 非参数统计.ppt_第2页
第六章 非参数统计.ppt_第3页
第六章 非参数统计.ppt_第4页
第六章 非参数统计.ppt_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020 1 20 1 第六章 非参数统计 版权所有BY统计学课程组 2020 1 20 2 第一节引言第二节单样本非参数检验第四节两样本的非参数检验第四节秩相关检验 第六章非参数统计 版权所有BY统计学课程组 2020 1 20 3 本章重点与难点 重点 了解和掌握单样本非参数检验 两样本的非参数检验 秩相关检验的基本方法 难点 符号秩检验的基本原理和秩相关检验的基本原理及其计算方法 版权所有BY统计学课程组 2020 1 20 4 第一节引言 一 关于非参数统计二 非参数统计中常用统计量 版权所有BY统计学课程组 2020 1 20 5 一 关于非参数统计 非参数统计方法的共同特征是与总体分布无关 即总体分布未知的情况下的统计推断方法 非参数检验总是比传统检验安全 但是在总体分布形式已知时 非参数检验就不如传统方法效率高 这是因为非参数方法利用的信息要少些 往往在传统方法可以拒绝零假设的情况 非参数检验无法拒绝 版权所有BY统计学课程组 2020 1 20 6 注意 非参数统计的 非参数 nonparametric 意味着其方法不涉及描述总体分布的有关参数 之所以称和总体分布无关 distribution free 是因为其推断方法不涉及到总体分布 不应理解为与所有分布 例如有关秩的分布 无关 版权所有BY统计学课程组 2020 1 20 7 二 非参数统计中常用统计量 一 顺序统计量1 顺序统计量2 基于顺序统计量的统计量3 顺序统计量的分布 版权所有BY统计学课程组 2020 1 20 8 1 顺序统计量 版权所有BY统计学课程组 1 顺序统计量 对于简单随机样本X1 X2 Xn 如果按照升幂排列 得到X 1 X 2 X n 称X K 为k个顺序统计量 称X 1 X 2 X n 为一个顺序样本 2020 1 20 9 2 基于顺序统计量的统计量 版权所有BY统计学课程组 中位数极差P分位数 2020 1 20 10 3 顺序统计量的分布 版权所有BY统计学课程组 分布函数为 2020 1 20 11 版权所有BY统计学课程组 第r个顺序统计量的密度函数为 2020 1 20 12 二 秩统计量 1 秩统计量2 秩统计量的分布和数字特征3 线性符号秩统计量 版权所有BY统计学课程组 2020 1 20 13 1 秩统计量 版权所有BY统计学课程组 设X1 X2 Xn为来自总体X的简单随机样本 其中无重复数据点 记Ri为样本点Xi的秩 即Ri等于或等于Xi的Xj的个数 2020 1 20 14 版权所有BY统计学课程组 例6 1 表6 1原始观测值及相应的秩统计表对于 例6 1 给定的样本 分别给出了他们相应的秩 2020 1 20 15 2 秩统计量的分布和数字特征 版权所有BY统计学课程组 R1 R2 Rn的联合分布为 Ri的概率分布为 Ri的数学期望 Ri的方差 2020 1 20 16 3 线性符号秩统计量 版权所有BY统计学课程组 设Ri 在 X1 X2 Xn 中的秩 定义an 为在整数1 2 n上的非负函数 且满足an 1 an n 不全为0 则称为线性符号秩统计量 2020 1 20 17 版权所有BY统计学课程组 如果X1 X2 Xn为独立同分布的连续随机变量 并有关于0的对称分布 则区别于秩统计量的分布 线性符号统计量的分布要求总体分布连续且对称 2020 1 20 18 第二节单样本非参数检验 一 单样本拟合优度检验二 符号检验三 Cox Stuart趋势检验四 游程检验 版权所有BY统计学课程组 2020 1 20 19 一 单样本拟合优度检验 版权所有BY统计学课程组 1 提出统计假设H0 F X F0 X 2 选择适当统计量 2020 1 20 20 版权所有BY统计学课程组 3 由给定的显著性水平 查卡方概率分布表确定临界值 2 m 1 r 这种检验是右侧检验 4 利用样本值X1 Xn计算实际频数fi 再计算经验概率p 据以计算的值 5 结论 若 则拒绝原假设 即认为总体的分布函数不为F0 X 反之 则接受原假设 即认为总体的分布函数为F0 X 2020 1 20 21 版权所有BY统计学课程组 例6 2 某公路上 交通部门观察每15秒钟内路过的汽车辆数 共观察了50分钟 得如下样本资料 表6 2交通部门观察每15秒内过路的汽车辆数统计表试问通过的汽车辆数可否认为服从泊松分布 显著性水平为 0 05 2020 1 20 22 版权所有BY统计学课程组 解 由泊松分布的概率函数的估计量为 2020 1 20 23 版权所有BY统计学课程组 由题意 要检验的假设为 H1 总体部服从泊松分布将数轴分为6个区间 0 0 1 1 2 2 3 3 4 4 由泊松分布的概率函数分别计算落在这些区间的概率 2020 1 20 24 2020 1 20 25 版权所有BY统计学课程组 由计算表可知当原假设为真时 服从自由度为3 m r 1 5 1 1 3 的 2分布 由 0 05 查 2分布表得临界值 因为 所以接受原假设 认为通过该地段的汽车辆数服从泊松分布 2020 1 20 26 二 符号检验 版权所有BY统计学课程组 假定用总体中位数M来表示中间位置 并且X1 Xn独立同分布 这意味着X1 Xn取大于M的概率应该与取小于M的概率均为1 2 对于我们所研究的问题 可以看作是只有两种可能 成功 或 失败 成功为 即大于中位数 失败为 即小于中位数M 令 S 得正负号的数目S 得负负号的数目 2020 1 20 27 版权所有BY统计学课程组 可以知道S 和S 均服从二项分布B n 0 5 n S S 则S 或S 可以用来做检验的统计量 给定显著性水平 2020 1 20 28 版权所有BY统计学课程组 对于左侧检验H0 M M0 H1 M M0 当零假设为真时 S 应该不大不小 当S 过小 即只有少数的观测值大于M0 则M0可能太大 总体的中位数可能较M0小一些 如果P S s H0 则拒绝原假设 2020 1 20 29 版权所有BY统计学课程组 对于右侧检验H0 M M0 H1 M M0 当零假设为真时 S 应该不大不小 当S 过大 即有多数的观测值大于M0 则M0可能太小 目前总体的中位数可能较M0大 如果P S s H0 则拒绝原假设 2020 1 20 30 二 Wilcoxon符号秩检验 版权所有BY统计学课程组 1 Wilcoxon符号秩检验的统计思想Wilcoxon符号秩检验关于中位数对称的总体的中位数是否否等于某个特定值 检验假设 2020 1 20 31 版权所有BY统计学课程组 为了对假设做出判定 需要从总体中随机抽取n个样本 n个样本记作X1 Xn 它们与M0的差值记为Di Di Xi M0 i 1 2 n 如果H0为真 那么样本围绕M0上下浮动 即Di关于0对称 这时 对于Di来说 正的差值和负的差值应近似地相等 为了 借助秩统计量进行假设检验 先忽略符号 而取绝对值 Di 对n个 Di 按大小顺序进行排序 并找出他们分别对应的n个秩 再按Di本身符号的正 负分别加总它们的秩 得到正秩的综合T 与负秩T 虽然秩本身都是正的 但这里是Di的符号计算秩和 2020 1 20 32 版权所有BY统计学课程组 H0为真时 正秩的总和与负秩的总和应该近似相等 如果正秩的总和远远大于负秩的总和 表明大部分的秩是正的差值 即Di为正的秩大 这时 数据支持备择假设H1 M M0 即实际的中位数比M0大 类似的 如果负秩的总和远远大于正秩的总和 表明大部分大的秩是负的差值 即Di为负的秩大 这时 数据支持备择假设H1 M M0 即实际的中位数比M0小 因为正秩和负秩的总和是个恒定的值 即1 2 n n n 1 2 因此对于双侧备择H1 M M0来说 两个总和中无论哪一个太大 都可以被支持 2020 1 20 33 版权所有BY统计学课程组 检验统计量Wilcoxon符号秩检验所定义的检验统计量为 正秩的总和T 负秩的总和T 2020 1 20 34 版权所有BY统计学课程组 1 计算 Xi M0 它们代表这些样本点到中位数的距离 2 把上面的n个绝对值排序 并找出它们的n个秩 如果有相同的样本点 每个点取平均秩 如1 4 4 5的秩为1 2 5 2 5 4 3 令T 等于Xi M0 0的 Xi M0 的秩和 T 等于Xi M0 0的 Xi M0 的秩和 注意 T T n n 1 2 2020 1 20 35 版权所有BY统计学课程组 4 对双边检验 H0 M M0 H1 M M0 在零假设下 T 与T 应差不多 因而 当其中之一非常小时 应怀疑零假设 在此 取检验统计量T min T T 类似地 对H0 M MO H1 M M0 取T T 对H0 M M0 H1 M M0 取T T 5 根据得到的T值 查wilcoxon符号秩检验的分布表得到在零假设下P一值 如果n很大要用正态近似 得到一个与T有关的正态随机变量Z的值 再查表得P 值 或直接用计算机得到P 值 6 如P 值较小 比如小于或等于给定的显著性水平0 05 则可以拒绝零假设 2020 1 20 36 三 Cox Stuart趋势检验 版权所有BY统计学课程组 例6 4 我国自1985年到1996年出口和进口的差额 balance 以亿美元为单位 149 0119 737 777 5 66 087 480 543 5122 254 0167 0122 2从这个数字 我们能否说这个差额总的趋势是增长 还是减 还是都不明显呢 下图为该数据的趋势图 从图可以看出 总趋势似乎是增长 但1993年有个低谷 这个低谷能否说明总趋势并不是增长的呢 我们希望利用统计方法对其是否具有趋势性进行检验 2020 1 20 37 版权所有BY统计学课程组 2020 1 20 38 版权所有BY统计学课程组 1 H0 无增长趋势H1 有增长趋势2 H0 无减少趋势H1 有减少趋势3 H0 无趋势H1 有增长或减少趋势形式上 该检验问题可以重新叙述为 假定独立观察值X1 Xn分别来自分布为F X i 的总体 这里F 对称于零点 上面第一个单边检验为H0 1 n H1 i不尽相同 2020 1 20 39 版权所有BY统计学课程组 当n为偶数时共有C对 当n为奇数时共有C 1对 在这个例子中n 12 因而C 6 这6个对子为 X1 X7 X2 X8 X3 X9 X4 X10 X5 X11 X6 X12 用每一对的两元素Di Xi Xi c的符号来衡量增减 令S 为Di Xi Xi c大于零的数目 而令S 为Di Xi Xi c小于零的数目 显然当正号太多时 即S 很大时 或S 很小时 有下降趋势 反之 则有增长趋势 在没有趋势的零假设下它们应服从二项分布b n 0 5 这里n 为对子的数目 不包含差为0的对子 该检验在某种意义上是符号检验的一个特例 2020 1 20 40 版权所有BY统计学课程组 类似于符号检验 对于上面三种检验 分别取检验统计量K S K S 和K min S S 在本例中 这6个数据对的符号为5负1正 这表明可能有增长的趋势 因此需要检验 H0 无增长趋势H1 有增长趋势P S 1 0 1094检验结果表明 我们不能拒绝原假设 因此该数据无增长趋势 2020 1 20 41 四 游程检验 1 游程的概念一个可以属性总体 如 按性别区分的人群 按产品是否有毛病区分的总体等等 随机从中抽取一个样本 样本也可以分为两类 类型 和类型 若凡属类型 的记为符号A 类型 的记为符号B 则当样本按某种顺序排列 如按抽取时间先后排列 时 一个或者一个以上相同符号连续出现的段 就被称作游程 也就是说 游程是在一个两种类型的符号的有序排列中 相同符号连续出现的段 版权所有BY统计学课程组 2020 1 20 42 版权所有BY统计学课程组 2 游程检验的基本原理假设随机抽取的一个样本 其观察值按某种顺序排列 如果研究所关心的问题是 有序排列的两类符号是否随机 则可以建立双侧备择假设为H0 序列是随机的H1 序列不是随机的 2020 1 20 43 版权所有BY统计学课程组 如果关心的是序列是否具有某种倾向 则应建立单侧备择假设为 H0 序列是随机的H1 序列具有混合的倾向H0 序列是随机的H1 序列具有成群的倾向 2020 1 20 44 版权所有BY统计学课程组 R 游程的总数目游程R分布的证明是比较麻烦的 现在m n各抽屉里随机选择m个 有Cm nm种方法 如果游程数为奇数R 2K 1 这意味着 1 必定有k 1个由 1 构成的游程和k个由 0 构成的游程 2 或必定有k 1个由 0 构成的游程和k个 1 构成的游程 2020 1 20 45 版权所有BY统计学课程组 这就必须在m 1个位置中插入k个 隔离元 使有 1 有K 1个游程 可以有种 同样可以在n 1个 0 的n 1个空位上插入k 1个 隔离元 有种 共有有利基本事件数 所以 2020 1 20 46 例6 5 从生产线上抽取产品检验瑕疵的产品是否是随机出现的 现随机抽了30件产品 按生产线抽取的顺序排列 000011111111111111000111111111问瑕疵的产品是随机出现的吗 版权所有BY统计学课程组 2020 1 20 47 第三节两样本的非参数检验 一 配对符号检验二 两样本配对Wilcoxon检验三 Brown Mood中位数检验四 Wlicoxon Mann Whitney 秩和检验 版权所有BY统计学课程组 2020 1 20 48 一 配对符号检验 版权所有BY统计学课程组 设X和Y分别具有分布函数F x 和F y 从两个总体得随机配对样本数据 x1 y1 x2 y2 xn yn 研究X和Y是否具有相同的分布 即检验 H0 F x F y 如果两个总体具有相同的分布 则其中位数应该相等 所以等价检验的假设为 2020 1 20 49 版权所有BY统计学课程组 配对资料符号检验的计算步骤为 与单样本的符号检验一样 也定义S 和S 为检验的统计量 表示xi yi的数目 表示ximy 反之 如果S 太小 S 太大 则支持H1 mx my 2020 1 20 50 二 两样本配对Wilcoxon检验 版权所有BY统计学课程组 Wilcoxon符号秩检验的步骤 1 计算各观察值对的差异Di Xi Yi 2 求差异的绝对值 Di Xi Yi 3 按差异绝对值的大小排序 4 考虑各差异的符号 由绝对值差异秩得到符号值 5 分别计算正 负符号秩的和T 与T 6 统计量T min T T 7 结论 2020 1 20 51 三 Brown Mood中位数检验 版权所有BY统计学课程组 例6 10 我国沿海地区和非沿海地区的人均国内生产总值 GDP 的1997年抽样数据如下 单位为元 沿海地区为 y1 y12 1227053457730222758447945581366834951340815500而非沿海地区的为 X1 X18 5163422042593881371540325122413037632093371527323313290137315167人们想要知道沿海和非沿海地区的人均GDP的中位数是否一样 这就是检验两个总体的位置参数是否相等的问题 2020 1 20 52 版权所有BY统计学课程组 表6 15两个样本和Mxy比较之后得到各个样本中大于和小于它的数目2X2列联表在原假设成立的条件下 这个结果有一点象超几何分布 2020 1 20 53 A为样本X中大于Mxy的样本点数 在零假设下A为超几何分布 即有取A为样本X中大于Mxy的样本点数作为检验的统计量 则A应该不大不小 如果A太大或太小 则应该怀疑原假设 检验规则如下表所示 2020 1 20 54 版权所有BY统计学课程组 表6 16Brown Wood中位数检验 2020 1 20 55 版权所有BY统计学课程组 大样本的时候 在零假设下 可以利用超几何分布的正态近似进行检验 小样本时 也可以使用连续修正为 2020 1 20 56 版权所有BY统计学课程组 在上例中有如下结果 总体容量 30总体中成功的次数 15样本容量 12样本中成功的次数 11 2020 1 20 57 四 Wlicoxon Mann Whitney 秩和检验 版权所有BY统计学课程组 设 X1 Xn 和 Y1 Yn 分别为两个连续总体F x 和F y 中随机抽取的样本 我们关心两个总体是否有相同的分布形状 或者他们的中位数是否相等 2020 1 20 58 版权所有BY统计学课程组 为了对假设做出判定 如果H0为真 那么将m个X n个Y的数据 按数值的相对大小升序排列 X Y的值应该期望被很好地混合 这m n N个观察值能够被看作来自于共同总体的一个单一的随机样本 若大部分的Y大于X 或大部分的X大于Y 将不能证实这个有序的序列是一个随机的混合 将拒绝X Y来自一个相同总体的零假设 在X Y混合排列的序列中 X占有的位置是相对于Y的相对位置 因此秩是表示位置的一个极为方便的方法 在X Y的混合排列中 秩1是最小的观测值 秩N是最大的 若X的秩大部分大于Y的秩 那么数据将支持H1 Mx My 而X的秩大部分小于Y的秩 则数据将支持H1 Mx My 2020 1 20 59 版权所有BY统计学课程组 检验统计量 根据上面的基本原理 检验统计量为Wx X的秩和Wy Y的秩和由于X Y的混合序列的秩和为 1 2 N N N 1 2 2020 1 20 60 版权所有BY统计学课程组 所以与Wlicoxon提出统计量相等价的统计量为 该统计量由Mann Whitney提出 其含义为 如有第一个总体的样本 X1 Xm和第二个总体的样本 Y1 Yn N m n 令是把所有的Y样本与X样本做比较后 X大于Y的个数 即表示 Xi Xj i 1 m j 1 n 共mn对中X大于Y的个数 则有 2020 1 20 61 版权所有BY统计学课程组 则当n足够大时 2020 1 20 62 第四节秩相关检验 一 Pearson相关系数二 Spearman秩相关检验三 Kendall 检验 版权所有BY统计学课程组 2020 1 20 63 一 Pearson相关系数 版权所有BY统计学课程组 定义4 1设随机变量X与Y具有有限非零方差 则X与Y之间的线性相关系数为 线性相关系数流行的原因有以下几点 1 容易计算 2 线性变换下容易出来 特别是严格递增线性变换情况下相关系数不变 2020 1 20 64 版权所有BY统计学课程组 然而 Pearson相关系数具有以下几个缺点 1 随机变量X与Y具有有限非零方差 否则线性相关系数无法定义 2 两变量独立意味着他们不相关 但不相关通常并不独立 只有在随机变量X与Y具有正态分布情况下 独立与不相关才是等价的 3 在非线性严格递增变换的情况下相关系数不是不变的 4 对于 检验需假设总体服从正态分布 2020 1 20 65 二 Spearman秩相关检验 版权所有BY统计学课程组 Spearman秩相关检验是对Spearman秩相关系数进行检验的方法 在给定一列数对 X1 Y1 Xn Yn 之后 要检验他们所代表的二元变量X和Y是否相关 我们取零假设为 H0 X与Y不相关而备择假设有三种选择 H1 X与Y正相关H1 X与Y负相关H1 X与Y相关 2020 1 20 66 版权所有BY统计学课程组 首先找出所有Xi在X样本中的秩Ri以及所有Yi在样本Y中的秩Si 我们得到秩统计量对计算R和S的相关系数 我们知道令di Ri Si 这可以看成某种距离的度量 显然 如果这些距离很大 说明两个变量可能负相关 而他们很小则可能正相关 2020 1 20 67 版权所有BY统计学课程组 Spearman秩相关系数为和经典的样本相关系数一样 rs满足 1 rs 1 对于n 100rs在零假设下的分布有表可查 2020 1 20 68 版权所有BY统计学课程组 在大样本的情况下有 2020 1 20 69 三 Kendall 检验 Kendall 检验是从另一个角度来看相关 其检验的假设为 先引进协同的概念 如果乘积 称对子及为协同的 concordant 显然协同意味着他们具有相同的趋势 反之 如果乘积 则称该对子为不协同的 disconcordant 版权所有BY统计学课程组 2020 1 20 70 版权所有BY统计学课程组 定义Kendall 相关系数为为Kendall 相关系数 Nc是X与Y协同的对数 或得 1的对数 Nd是X与Y不协同的对数 或得 1的对数 2020 1 20 71 版权所有BY统计学课程组 上面定义的为概率差的一个估计值 值界于 1 1 之间 因为如果所有对子都是协同的 则 反之 如果所有对子都是不协同的则 显然 对于该检验来说和K是等价的 关于两者的零分布表都有 当严格把你容量足够大时 在零假设的条件下 2020 1 20 72 例6 12 下面用例6 11中10个国家和地区1997年的国际化程度和国际竞争力的资料的关系来说明Kendall 检验 版权所

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论