统计学6.非参数假设检验.ppt_第1页
统计学6.非参数假设检验.ppt_第2页
统计学6.非参数假设检验.ppt_第3页
统计学6.非参数假设检验.ppt_第4页
统计学6.非参数假设检验.ppt_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章 非参数假设检验, 6.1 总体分布的非参数假设检验,非参数假设检验(分布检验)所处理的问题是: (1)两个总体的分布未知,它们是否相同(用两组样本来检验); (2)(由一组样本)猜出总体的分布(假设),然后用(另一组)样本检验它是否正确。 需要注意的问题是,两种分布是否相同,一般包含了参数(均值、方差等)是否相同的问题。如果两个总体的分布函数形式相同,而参数不同,也将被判别为概率分布不同。,1、检验两个总体的分布是否相同:符号检验法(正负号个数检验法),检验两个总体的分布是否相同的符号法又称正负号个数检验法。它所要处理的问题是:假设两个总体的分布F(x)与G(x)相同,用两个总体的容量相同的配对样本 x1,x2,, xn 与y1,y2, , yn 来检验它, 即检验假设H0 : F(x) = G(x)是否成立 . 设两个总体的样本相互独立, 当 H0 : F(x) = G(x) 成立时, 概率PXi Yi相同, i = 1,2, ,n. 也就是说, 对于样本观测值而言, xi - yi 0的个数(记为n+), 应当与xi - yi 0的个数(记为n- ) 基本相同 (从样本观测值角度, 不一定刚好相等). 如果两者相差很远, 我们就有理由, 拒绝假设H0 : F(x) = G(x).,如果我们把xi = yi 的个数记为n0, 并从样本总数 n 中扣除, 则 m = n n0 , 表示了n 个样本中 xi yi的个数。 m 个样本对中, 把xi - yi 0的个数记为n+ , xi - yi 0的个数为n+ ” 的概率:,这是一个二项分布, 记为 U B(m, p), 当 xi - yi 0 时, Ui=1, 当 xi - yi 0 时, Ui = 0. 如果 F(x) = G(x) 成立, 则上式中 p 应与 0.5 没有本质区别. 也就是说, 非参数的假设F(x) = G(x) 的检验问题, 转化成了参数 p = 0.5 是否成立的检验问题. 于是, 可以根据上一章节5.3中关于参数 p 的假设检验方法处理了.,小样本情况下, 正负号个数检验法的处理, 与 5.3.1 小节的处理原理相同, 只不过 5.3.1 节是单尾检验, 我们现在要做双尾检验 (检验两个方向的备择假设). 以计算“xi - yi0的个数为 r ”的概率为例, 对给定的, 在假设p = 0.5 (H0假设)的前提下, 按照B(m, p) 的概率计算公式, 对 r 从小到大, 求累积概率:,(1) 小样本情况下, 正负号个数检验法的处理,确保k1的外侧概率小于等于/2, 从而求出k1. 进而, 在假设p = 0.5 (H0假设) 的前提下, 按照B(m, p) 的概率计算公式, 对 r 从小到大, 求累积概率:,确保 k2 的外侧概率小于等于/2, 从而求出k2 . 如果实际的“xi - yi 0的个数n+ ”在(k1 ,k2)中就接受H0 : p = 0.5 ( 即 F(x) = G(x) ), 否则拒绝H0 ,认为p 0.5,即 F(x) G(x) .,(2) 大样本情况下, 正负号个数检验法的处理,在大样本情况下( 即 mp 10 ), 可以近似地用正态分布来处理. 现在 p =0.5, 所以只要 m 20 即可. 用统计量:,在计算统计量 Z 的值z 时, 在式中要用 u (即n+ /m)代替U. 于是, 我们又假设检验:,H0 : p = 0.5 ( 即 F(x) = G(x) ) H1 : p 0.5 (即 F(x) G(x) . 对于显著性水平, 只要判断 | z |是否大于 z /2 ( 或者z的显著性水平是否小于), 就可以得出拒绝还是接受H0: p = 0.5 ( 即 F(x) = G(x) )了.,是按照问题本身的属性,“天然”配对的。也就是说, 不能各自独立地颠倒顺序。 例:用两套问卷测量 20 个管理人员的素质,两套问卷的满分都是200分,两套问卷测得的结果如表:,配对样本:,正负号检验的一个重要的前提是:样本xi 或 yi 不能各自独立地颠倒顺序。,例:用两套问卷测量 20 个管理人员的素质,两套问卷的满分都是200分,测得结果如上表。问:两套问卷有无显著性差异(本质是两套问卷的结果的分布是否相同)? 解:依据关于正负号的二项分布B(m,p)来检验 p 是否为0.5 , 即 H0 : p = 0.5 ( 即 F(x) = G(x) ) H1 : p 0.5 ( 即 F(x) G(x) ) .,如果接受 p = 0.5 的假设, 就接受F(x) = G(x)的假设, 否则就拒绝F(x) = G(x)的假设. 这种解决问题的思路是: 把非参数检验的问题转化为参数检验问题来处理. 根据上表, 算得正负号如下表:,此时, 正负号的个数 m =19, 所要检验的参数 p =0.5 , mp10,我们这里按大样本类型来处理. 统计出正号的个数 n+ =12 . 设定随机变量 U , 若xi - yi 0出现, 令U = 1 , 若xi - yi 0出现, 令 U = 0 . 于是可以计算出 z 统计量的值如下:,正负号检验法在下面问题中常见到应用: 如,消费者对两种包装的评分, 或对两种产品品牌的评分; 学生对两门不同课程的成绩的反映 ( 评分 ), 企业对两种政策的反映(评分)等等, 都存在两个总体的分布是否相同的检验问题.,若取=0.05, 查表得z /2=1.96, 有-1.96 = - z /2 z =1.1473 z /2 = 1.96, 故接受 H0 : p = 0.5 , 即 接受 F(x) = G(x), 也就是两套问卷的结果的分布是相同的.,但有些问题是不适宜使用正负号检验法-“独立样本”的问题. 如下例子。,例: 用两种激励方法, 分别对同样工种的两个班组(每个班组 7 个人)进行激励, 测得激励后业绩增长 (%), 数据如表:,两种激励法分别实施于不同组工人的效果,问: 两种激励法的效果有无显著性差异(两种激励方法的总体分布是否相同)?,该检验问题可以用参数检验的方法来检验两种激励方法的平均效果有无显著性差异.,2. 检验两个总体的分布是否相同的另一种方法: Wilcoxon 秩和检验法 (序号和检验法) 设有两个总体的样本观测值 x1,x2,xn 与y1,y2 ,,ym , 可能 m n . 两组样本是可以各自独立颠倒顺序的. 不妨设 n m , 把两组样本放在一起, 按样本观测值的大小重新排序, 那么每个观测值就有一个序号, 称为秩. 把样本个数少的这组样本x1,x2,xn的序号(秩) 加总起来, 记为 W . 如果两个总体的分布相同, 那么样本x1,x2,xn与y1,y2 ,,ym 应当是均匀混合的, 也就是说, W 不能太小, 也不能太大. W 太小, 说明样本x1,x2,xn较多地集中在左段. W 太大, 说明样本 x1,x2,xn 较多地集中在右段. 由于n m , W 应当比另一组样本的序号之和小一些. 也就是说, W应当在某两个数字之间: W1 W W2. W1 , W2,是由 n, m, (显著性水平)所决定的. 威尔可逊 ( Wilcoxon ) 给出了 W 的概率分布表, 对于给定的显著性水平 , 可以由威尔可逊概率分布表, 依据n, m, 查出 W1 , W2 . 若W W1 或 W W2 , 则拒绝H0: F(x) = G(x) (认为两个总体分布不同) 反之, 若W1 W W2 , 则接受H0: F(x) = G(x) (认为两个总体分布相同).,3. 检验两个总体的分布是否相同的第三种方法: Mann-Whitney 秩和检验法 ( 序号和检验法 ) 问题: 有两个总体的样本观测值 x1,x2,xn 与y1,y2 ,ym , 可能m n . 两组样本是可以各自独立颠倒顺序的. 检验这两组样本是否来自同一个总体 (或两组样本的总体分布是否相同). 同样, 把两组样本放在一起, 按样本观测值的大小重新排序, 那么每个观测值就有一个序号( 秩 ). 把第一组样本x1,x2,xn的序号(秩) 加总起来, 记为 w1 .把第二组样本y1,y2 ,,ym的序号(秩) 加总起来, 记为 w2 . Mann-Whitney U检验的统计量是: U = min U1, U2 式中:,对给定 , 查U 值表, 得 U. 若U U , 则总体分布相同.,注意: 方法 (1), (2), (3) 是两个总体分布的比较, 与分布的具体形式无关, 所以, 理论上可以用来检验两个任意形式的分布是否相同., 6.2 一个总体分布的非参数假设检验,1、检验总体分布是否与猜想的分布 F(x) 相同: 拟合优度 2 检验法 问题: 假设(猜测)总体的概率密度函数为 f (x) ( 若总体为离散型, 则假设总体的概率分布列为 P X = xi= Pi ), 用一组样本 x1,x2,xn来检验假设是否成立.,作法: (1) 零假设H0 :总体的累积概率分布函数为 F(x) , 备择假设H1 :总体的累积概率分布函数不是 F(x). (2) 在数轴上选取 k-1 个分点 t1,t2, t k-1 , 将数轴上分为 k 个区间(可以是不等区间):,对随机变量取值数轴的分割,t1,t2,tk-1,记 pi为总体在第 i 个区间上的概率值, 则有,p1 = P (X t1) = F(t1) p2 = P (t1 tk-1) =1 - F(tk-1),记 ni 为样本 x1,x2,xn 中落在区间 i 中的个数(频次或频数),那么,频率ni /n (n 至少为50, 最好100 以上)与概率 pi 之差应当很小,否则就应当拒绝假设H0 (总体的累积概率分布函数为 F(x) ). 可以证明 (K. Pearson), 在 H0 成立的条件下, 统计量:,服从 2(k-1-r) 分布, 其中 r 是总体中未知参数的个数. 在计算 2 时, 由于式中的 pi 可用 (如, 极大似然估计量) 代替. 为了计算 , 常常需要用样本估计总体的某些参数, 例如, 假设总体服从正态分布, 就需要用样本估计总体的均值与方差, 有了这两个参数, 就可以计算出各个区间的概率 . 这里估计了总体的 2 个未知参数, 所以 r 为 2 , 相应的 pi 分布的自由度就是 k-3.,Pearson 的2 公式, 也可以理解为,(3) 对于给定的显著性水平 , 可由 2(k-1-r) 分布表, 查出临界值2 . (4) 若有样本计算出来的 2 2 (意味着2的分子大, 即频率ni /n与概率 pi 之差大), 故拒绝H0 , 否则接受H0 .,式中, ni 为样本落在区间i 的频次, ei 为样本落在区间 i 的“理想(预期)”频次, 也就是: 由总体分布的概率计算出来的频次 npi . n为样本总数.,如果理想分布 (总体的分布) 为均匀分布, 可直接算出每个区间(种类)理想的频次 k/n, 由于n是k 个类别(每个类别可以理解为一个变量) 取值之和, 把 n 投入运算, 就要减,少一个自由度, 所以相应的2分布的自由度就是 k-1. 如果理想分布是其他需要估计参数的分布, 在用样本计算总体参数的估计值时, 还要减少自由度, 如果有 r 个参数, 就要再减少 r , 所以, 2 统计量的自由度是 k-1-r .,例: 六个企业生产汽车, (在一次观测中, 观测到)每小时的产量如表所示:,六个汽车厂家每小时的产量,问: 这些企业的生产能力, 有无显著性差异?,解: 记 pi = P( X =i), i =1,2,3,4,5,6. 如果这六个厂的生产能力,都相同, X 就应当服从均匀分布, 即, 所有 pi 的都相等. 于是,我们有如下假设: 零假设H0 : pi = p , (即六个企业的生产能力服从均匀分布) 备择假设H1 :六个企业的生产能力 pi不全相等. 按照零假设, 应有pi =1/6 . 本问题的 n =300 (总样本个数). 于是, 我们可以算出各个企业 ( 1小时内) 生产的汽车的理想数量, 即, 理想的频次 (由总体均匀分布计算出来的频次). 理想频次都等于 300 1/6 = 50 (每个厂家每小时生产的车辆数都相同). 按照公式:,先在表上计算 ni ei (见表), 然后, 再计算2 统计量的值.,可以计算出: 2 = 8.96, 取显著性水平 为0.05 , 查自由度为5 的 2 表, 得 2 = 11.0705, 2 2 , 所以, 接受零假设, 这六个企业生产能力是相同的.,2 统计量的计算,2、检验总体分布是否与猜想的分布 F(x) 相同: 拟合优度 k - s 检验法 k - s 检验法是柯尔莫哥洛夫 (Kolmogorov) 斯米尔诺夫(Smirnov)检验法的简称. 问题是: 用一组样本 x1,x2,xn来检验关于某个总体分布 F(x) 的假设是否成立. 也就是说, 所假设的 F(x) 是一个已知的函数.,零假设H0 :总体的累积概率分布函数为 F(x) , 备择假设H1 :总体的累积概率分布函数不是 F(x). k s 检验法的基本思想是: (1) 把不重复的样本观测值从小到大排列, 依据不重复的样本观测值的频率, 建立一个样本累积频率函数 Fn(x). Fn(x)是一个阶跃函数.,(2) 对于任何确定的 n , 定义 D(n) 统计量:,(3) 对于任何确定的 n , 统计量 D(n)n 的(累积)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论