非参数统计讲义二--单样本模型_第1页
非参数统计讲义二--单样本模型_第2页
非参数统计讲义二--单样本模型_第3页
非参数统计讲义二--单样本模型_第4页
非参数统计讲义二--单样本模型_第5页
已阅读5页,还剩111页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、非参数统计,第二章 单样本模型,符号检验法 符号秩检验 随机游程检验 卡方拟合检验,主要内容,符号检验的现实背 景 现实中很多问题可以化成投掷硬币模型分析,正面(头象heads )为正,反面(币值tails)为负。 例如:用于确定人们驾车是否超限速,抽样车超速用“正号”;不超速用“负号”。 例如:比较两个品牌产品,顾客只需求说出或标出所偏好的品牌用“正号”,否则为“负号”。,符号检验法,Sign test,符号检验是一种在只能得到定类数据时确认两个总体间差异的非参数统计方法。 1、以对定类数据的分析为基础, 2、用于判断两总体间的差异。,检验假设:,如果根据样本得到的正负号数有很大差异 ,就有

2、理由拒绝H0,认为两个样本的数据有显著差异。,在小样本的情况下,n个样本出现K个“+”的概率服从二项分布。,(1)在双侧检验中,假设为,无论出现过多的“+”或过少的“-”号都 能导致拒绝H0。,EXCEL中用binomdist(k,n,p,1)求累计概率,(2)在单侧检验中,假设为,则出现过少的“+”号将 能导致拒绝H0。K这“+”的数目。,(3)在单侧检验中,假设为,则出现过少的“-”号将能导致拒绝H0。些时检验统计量K为“-”号的数目。,例:两种品牌桔汁,让12个人品尝未加标签的样本,在品尝后说出在两个品牌中偏好那一个品牌。研究目的是确定两种品牌中消费者是否偏好某一个。 假设 H0:P1/

3、2, H1:P1/2 若无法拒绝H0,则没有证据表明两种品牌桔汁的偏好有明显差异。 若拒绝H0,则认为消费者对两种品牌存在差异。,如何用符号检验的小样本形式来检验假设。 为了记录参与这项研究的确切个人的偏好数据,若用加号表示偏好A品牌,用减号表示偏好B品牌。 大多数消费者选出的品牌是认为最受欢迎的。 由于数据用加,减号记录所以称符号检验,正号的个数为2, 概率小于0.05。 说明顾客偏好存在差异,B比A好 (要除去相等(相同)的样本。),显著性水平0.05,加号个数大于10的概率(等于小于2的概率)0.003418,小于0.05, 认为有显著差异。,Data exa1; Input x ; D

4、atalines; -1 -1 -1 -1 -1 -1 -1 1 1 -1 -1 -1 ; proc univariate data=exa1; var x; run;,UNIVARIATE 过程 变量: x 矩 N 12 权重总和 12 均值 -0.6666667 观测总和 -8 标准偏差 0.77849894 方差 0.60606061 偏度 2.05523721 峰度 2.64 未校平方和 12 校正平方和 6.66666667 变异系数 -116.77484 标准误差均值 0.22473329 基本统计测度 位置 变异性 均值 -0.66667 标准偏差 0.77850 中位数 -1.

5、00000 方差 0.60606 众数 -1.00000 极差 2.00000 四分位极差 0 位置检验: Mu0=0 检验 -统计量- -P 值- 学生 t t -2.96648 Pr |t| 0.0128 符号 M -4 Pr = |M| 0.0386 符号秩 S -26 Pr = |S| 0.0386,In a sample of 100 butteries, we found 35 males and 65 females. Can we conclude that there are, in general, more males than females? The number o

6、f female butteries in a samples if 100 animals follows a binimial distribution B(100,p) and we want to test the null hypothesis H0: “p=0.5” against the alternative hypothesis H1: “p dierent from 0.5”. binom.test(35, 100, .5),R软件计算二项分布,R语言程序,n次试验,成功小于等于 y次, p=0.5 pbinom(y,n,.5) x1=c(-1, -1, -1, -1,-1

7、, -1, -1 , 1,1 ,-1 ,-1, -1) n=length(x1);m=sum(x1.005) pbinom(m,n,.5) summary(x) binom.test(m, n, .5),正态近似,R程序 N=100,p=0.5,k=45 正态参数U=0.5*100=50,D=0.5*0.5*100=25 y=1-pnorm(45,50,25) y,在比较两个有联系的样本的差异时,如果样本数据的计量水平至少为顺序水平时,可以用符号检验。,设两个有联系的样本(X1,X2,Xn)与(Y1,Y2,Yn),它们的计量水平为顺序水平,因而我们能比较出每一对Xi与Yi的大小,如果 XiYi

8、则记作“+”;如果Xiyi则记作“-”;如果相等则将该对数据删除。这样就得到了一个完全由+、- 符号构成的样本。,如果两个样本没有显著差异,可以预期正负号出现的概率相等。,例:给13名患有DE-JOHNSON综合症的病人服用苯巴比妥药,以研究该药对肝功能的影响,下表给出13名患者服药后有胆红素水平,根据该资料能否认为苯巴比妥可以降低胆红素水平?,解:分析:如果药没有作用,上升与下降的比例近似相同。 H0:P0.5,H1:P0.5,其中有一人不变,n=12,其11个下降,服药前减服药后得11个“+”,1个上升得“-”,,拒绝H0,认为有助于降低胆红素,COMPUTE y = (x2 x1) .

9、EXECUTE .,用T检验分析;,w=read.table(D:/r1.txt,header=T) w x-w1:12,1 y-w13:24,1 t.test(x,y),用T 检验,结果为,在0.01显著性水平下,不能拒绝H0, 将产生极大错误。,N=12, k=1, p=0.5,大样本的情况:一般当n20(n25),可以对二项分布用正态分布近似计算,在计算K值时,当Kn/2时取K-0.5。,期望np=0.5n; 方差=np(1-p)=0.5*0.5*n,EXCEL函数NORMSDIST(Z)得到概率,二项分布SAS程序,二项分布R程序,解:男女比例应该差不多H0:P=0.5,H10.5 n

10、=40,p=0.5,u=np=20,d=0.5*0.5*4010 正态近似计算。,data tj0; x=probbnml(0.5,40,12); put x= x; run;,binom.test(12, 40, .5),例:有一种提高学生某种素质的训练,有人说它是无效的,有人说它是有效的,那么真实情况究竟应该是怎样的呢?随机地选取15名学生作为试验样本,在训练开始前做了一次测验,每个学生的素质按优、良、中、及、差打分,经过三个月训练后,再做一次测试对每个学生打分。数据见下表所示。我们将素质提高用正号表示,反之用负号表示,没有变化用0表示。显著性水平取0.05。,假设检验为: 即H0:p0.

11、5训练之后学生素质有提高。 从表 1中15名学生训练前后的差异分析可得出:有14名学生有差异,其中S+=11,S-=3。 1名学生无差异(学生编号为5),应该从分析中去掉,所以n=151=14。 由于试验的结果只有两种可能,正号或负号,对每一个学生试验出现正号的假定概率为p=0.5,负号为1-p=0.5,这样整个试验的概率是相同的,并且每一个试验是相互独立的。 因此在n=14次独立的试验中,正号出现的次数服从二项分布B(14,0.5),,从表中的累计概率列中我们看到,正号出现的次数大于10的概率为10.9713=0.0287,或者换一种方法计算为0.0001+0.0009+0.0056+0.0

12、222=0.0287,二者的微小差异是因为小数点后舍入问题造成的。 而试验的结果:正号出现的次数为11,大于10,出现的概率不会超过0.0287,我们开始设定的显著性水平为0.05,由于0.02870.05,所以我们拒绝原假设,接受备选假设。,Spss软件,P值小于0.1,拒绝H0,例:美国民意调查200个选民,72人认为民主党的政策好,103人认为共和党的政策好,25人无偏好,检验民众对两党政策观点是否有显著不同。 解: 样本数N=200-25=175 均值U0.5*17587.5 标准差SS(0.25*175)6.6 样本量大于20,认为抽样分布近似正态分布 S=X72 Z=(72-87.

13、5)/6.6=-2.35,=NORMSDIST(-2.35)0.009387,小于0.05,说明两党观点有显著差异,例:生男与生女与属象有无关系?,英国Arbuthnott(1710)收集了80年来的出生记录,并比较每年生男孩与女孩的人数,用“+”表示男多;用”-“表示女多。 H0:P(+)P(-) H0:P(+)P(-) 调查结果是82年全是”+“号;没有减号”-” 表示生男孩多。拒绝生男与生女概率相同,概率相等的可能=BINOMDIST(0,82,0.5,1)2.068E-25,如何研究节食对减肥有作用?,单样本中位数符号检验,中位数将总体分割成为两部分,大于中位数和小于中位数的样本各占5

14、0%。 用符号检验,大于假设的中位数的用加号,小于假设的中位数的用减号。等于中位数的删除。,非参数检验不是把均值 作为集中越势的度量,而是把中位数作为集中趋势的度量。对两个总体,参数检验比较均值,非参数检验比较中位数,中位数推断,假设总体 ,M是总体的中位数,对于假设检验问题: 是待检验的中位数取值,定义, , ,则 , 在零假设情况下 ,在显著性水平为 的拒绝域为 其中k是满足上式最大的k值。,例. 假设某地16座预出售的楼盘均价,单位(百元/平方米)如下表所示:,检验中位是否为37,SPSS,检验数据的正态性 用AnalyzeNonparametric Tests -Binomial Te

15、st,解: H0:Me=37, H1:me 37,不是正态分布,例:高级技师年收入的中位数为40000,某行业的高级技师收入数据如下表,检验该行业收入是否比全市的高,H0:Pme40000=0.5 H1: Pme40000 0.5,SPSS计算,大于40000的人数11人,拒绝原假设,有显著差异,例:假设房价中位数为130000元,调查62所住宅的样本房价,有34所高于130000,有26所低于130000,有两所恰好等于130000元。 解: H0 :ME=130000, h1:ME130000 N=62-2=60 均值U=0.5*N=0.5*60=30 标准差SS(0.25*60)3.87

16、 X=s=34 Z=(x-u)/ss=(34-30)/3.87 SAS计算检验P值 p=0.8493364667 大于0.05, 说明不能拒绝零假设。,例:某汽车质量要求从加速到100公里的秒数不超过8秒,随机抽样10部车, 结果如下表,产品质量是否合格?,检验数据正态性;用T检验和符号检验两种检验,比较结果,数据基本呈正态性,在10%显著性水平下拒绝H0,,习题:在某保险公司的某保险各类中,一次关于1998年的索赔额(单位:元)的随机抽样结果如下表:已知1997年中位数为5064元,是否有变化?,x-c(4632,4728,5052,5064,5484,6972,7596,9480,1476

17、0,15012,18720,21240,22836,52788,6720) n=length(x) n me=median(x) me1=5064 m=sum(xme1) m binom.test(m, n, .5),R-Binomial Test The Binomial Test procedure compares the observed frequencies of the two categories of a dichotomous variable to the frequencies expected under a binomial distribution with a

18、specified probability parameter. By default, the probability parameter for both groups is 0.5. To change the probabilities, you can enter a test proportion for the first group. The probability for the second group will be 1 minus the specified probability for the first group. (二项分布检验过程用于比较两个分类的频数,指定

19、发生概率P,默认为0.5,可以改变,一组概率为P,另一组概率则为1-p Example. When you toss a dime掷硬币, the probability of a head equals 1/2. Based on this hypothesis, a dime is tossed 40 times, and the outcomes are recorded (heads or tails). From the binomial test, you might find that 3/4 of the tosses were heads and that the obser

20、ved significance level is small (0.0027). These results indicate that it is not likely that the probability of a head equals 1/2; the coin is probably biased.,10个观测数,检验假设中位数为9,游程检验runs test,某商场研究顾客是一个一个人来的多,还是一对一对来的多。 如果是一对对来的多则样本应该是 男女男女女男男女,关于随机性的游程检验(run test),游程检验方法是检验一个取两个值的变量的这两个值的出现是否是随机的。 假定

21、下面是由0和1组成的一个这种变量的样本(数据run1.sav): 0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0 其中相同的0(或相同的1)在一起称为一个游程(单独的0或1也算)。 这个数据中有4个由0组成的游程和3个由1组成的游程。一共是R=7个游程。其中0的个数为n0=15,而1的个数为n1=10。,随机游程检验,随机游程问题: 一个由元素0-1构成序列当中,一段全由0或者全由1构成的串成为一个游程。 游程中数据的个数称为游程长度,序列中游程的个数记为R,反映0和1轮换交替的频繁程度。 在序列长度N固定的时候,如果游程过少过者过多,都说明

22、序列的随机性不好。当游程过多或者过少时,就会怀疑序列的随机性。 例:序列1100001110110000111100 共有8个游程 11 0000 111 0 11 0000 1111 00,例:研究顾客是偏爱一般的可乐(1)还是无糖型可乐(0)。 26个样本序列为 011111 01101111010111000111 计算样本游程数 1 2 3 4 5 6 7 8 9 10 11 12 0 11111 0 11 0 1111 0 1 0 111 000 111,12个游程,n0=8, n1=18,H0:样本是随机的,H1:样本不是随机的 a0.05,数据输入SPSS中,游程高于及低于的分界

23、值 K = 0.5 样本数12 观测到的总游程数 = 12 期望的总游程数 = 12.0769 18 个观测值高于 K, 8个低于 P 值 = 1 不能拒绝H0,关于随机性的游程检验(run test),游程检验并不仅仅用于只取两个值的变量,它还可以用于某个连续变量的取值小于某个值及大于该值的个数(类似于0和1的个数)是否随机的问题。看下面例子。 例 (run2.sav): 从某装瓶机出来的30盒化妆品的重量如下(单位克) 71.6 71.0 71.8 70.3 70.5 72.9 71.0 71.0 70.1 71.8 71.9 70.3 70.9 69.3 71.2 67.3 67.6 6

24、7.7 67.6 68.1 68.0 67.5 69.8 67.5 69.7 70.0 69.1 70.4 71.0 69.9 为了看该装瓶机是否工作正常,首先需要验证是否大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。,关于随机性的游程检验(run test),如果把小于中位数的记为0,否则记为1,上面数据变成下面的01序列 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 这就归为上面的问题。当然这里进行这种变换只是为了易于理解。实际计算时,用不着这种变换,计算机会自动处理这个问题的。,SPSS软件

25、使用说明,用run2.sav数据。 选项为AnalyzeNonparametric TestsRuns。 然后把变量(这里是length)选入Variable List。再在下面Cut Point选中位数(Median)。当然,也可以选其他值,如均值(Mean),众数(Mode)或任何你愿意的数目(放在Custom)。注意在对前面的由0和1组成的序列(run1.sav进行随机性检验时,要选均值(为什么?)。 在点Exact时打开的对话框中可以选择精确方法(Exact),Monte Carlo抽样方法(Monte Carlo)或用于大样本的渐近方法(Asymptotic only)。最后OK即可

26、。,直接利用这个数据,通过SPSS,得到下面游程检验结果的输出。,拒绝H0,任为质量不是随机的。 从结果看有15个大于中位数和15个小于中位数。,主要是游程太少,R8 生产设备不正常,检验地方病有无聚集性?,大样本时正态分布近似计算,当n1,n0大于20时,统计量,例:一质检员抽50 件产品,40个合格,10个不合格,游程R13;检验不合格产品是否有随机性。(0.05),H0:样本随机的,H1:样本不是随机的,大样本正态近似,Z=(13-17)/2.213=-1.81,-1.96 Z 1.96,不能拒绝 H0 不能拒绝样本随机性,不合格品是随机的。机器不存在系统性缺陷。另查找问题(人员,工艺等

27、),例:调查问卷题统计分析。 问题:你认为妇女她们获得成功的机会比她们的父母 要多吗? H0:回答是随机的,H1:问答不是随机的 有64份问卷,答是n1=40, 答否n0=24,NPAR TESTS /RUNS(1.5)=X /STATISTICS DESCRIPTIVES /MISSING ANALYSIS /METHOD=EXACT TIMER(5).,检验模型残差是否随机,检验时间序列是否随机,股票价格,Kolmogorov-Smirnov拟合检验,根据样本数据检验是否来自某个已知的分布。如正态、指数、均匀分布,poisson分布,Kolmogorov-Smirnov正态性检验,Kolm

28、ogorov-Smirnov正态性检验根据样本经验分布和理论分布的比较,检验样本是否来自于该理论分布。假设检验问题:,假设样本的经验分布函数为 ,定义 当时 ,拒绝零假设。,经验分布函数 Empirical distribution function,设x1,x2,xn是一组随机样本,经验分布s(x)是它在点X点取值为小于或等于X的XI在样本总数中所占比例。,1,5.2,5.6,6.2,6.4,7.06,例:检验下列数据是否来自均匀分布,NPAR TESTS /K-S(UNIFORM)= X /MISSING ANALYSIS.,例:汽车排放的氮氧化物测量,以前为 N(5.6,1.2)正态分布

29、。 今年测量12辆,问今年汽车排放量与去年是否相同?,SPSS程序命令 K-S Subcommand (One-Sample) NPAR TESTS K-S(NORMAL mean,stddev)=varlist POISSON mean UNIFORM min,max EXPONENTIAL mean ,NPAR TESTS /K-S(NORMAL5.6,1.2)= X /STATISTICS DESCRIPTIVES /MISSING ANALYSIS.,R软件计算 x ks.test( rnorm(5.6,1.2), x ) Two-sample Kolmogorov-Smirnov t

30、est data: rnorm(5.6, 1.2) and x D = 1, p-value = 0.001720 alternative hypothesis: two-sided Warning message: In ks.test(rnorm(5.6, 1.2), x) : 在有连结的情况下无法正确計算p值,对称中心是原点的检验,称号检验只用到了符号是正与负,没有用到样本数值的大小的信息。 需要进行改进,引入了威尔科克斯(WILCOXON)符号秩和检验。 用到了样本数值的大小的信息。,Wilcoxon秩和检验,如果两个样本相关,则不能用U检验,处理相关数据的检验方法是Wilcoxon配对符号秩检验(Wilcoxon matched-pairs signed rank test) 由Frank Wilcoxon于1945年提出,应用于一组数据与另一组数据相关的情况下。,例:同一组人在不同条件下进行的测量研究。,例:对双胞胎的研究,Wilcoxon符号秩检验,基本概念及性质 对称分布的中心一定是中位数,在对称分布情况下,中位数不唯一,研究对称中心比中位数更有意义。,例:下面的数据中,O是对称中心吗?,符号检验时,P0.5,符号数各占一半,但数据值不对称,假设数据为不0,对样本数据取绝对值,设对称中心为原点。如果数据对称,则均值与中位数相等。符号秩和应该

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论