版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章第二章 单样本问题单样本问题2.1 广义符号检验和有关的置信区广义符号检验和有关的置信区间间2.2 Wilcoxon符号秩检验,点估计符号秩检验,点估计和区间估计和区间估计2.3 正态记分检验正态记分检验2.4 Cox-Stuart 趋势检验趋势检验2.5 关于随机性的游程检验关于随机性的游程检验中心位置检验分布检验符号秩检验符号检验普通符号检验游程检验Cox-staut趋势检验正态记分检验分位数检验Lilliefor正态性检验KS正态性检验拟合优度检验Wilcoxon符号秩检验单样本推断 单一总体位置的 点估计,置信区间估计 和 假设检验 是参数统计推断的根本内容 在经典统计中,人们关
2、怀 总体均值位置变量,描画总体的“中心位置; 方差、规范差和极差关于数据散步的参数,描画总体的“尺度的变量 在非参数统计中,我们也关怀数据所包含的关于总体的位置和尺度的信息: a对总体位置参数的推断:均值、中位数、众数、分位数 b数据的走势或走向,或者看一下这些数目能否完全是随机的 在以前我们接触的统计方法中,得到一个样本,很自然的想知道它的“平均程度是多少,这就涉及到统计中对总体的均值、中位数、众数等位置参数的推断。 nsXt 假设总体是均值为正态分布时,一个典型方法就是t-检验,它的检验统计量定义为: 其中,s为样本规范差,为样本均值。 t-检验在大样本或知总体是正态分布是可以得到很好的效
3、果,但t-检验不稳健,在不知道总体分布,特别是小样本时,风险很大。这时就要思索运用非参数方法了。 t统计量在零假设下服从 n-1 个自在度的 t-分布。 t-检验统计量是用样本规范差 s 替代了规范正态分布的总体规范差 之后而产生的。首先来看一个简单的例题: 例1. 假设某地16座预出卖的楼盘均价,单位(百元/平米)如下表所示36 32 31 25 28 36 40 32 41 26 35 35 32 87 33 35问:该地平均楼盘价钱能否与媒体公布的3700 /平米 的说法相符解一: 用 t 检验法假设在统计时楼盘价钱服从正态分布 ),(2N01:37:37HH其中是总体均值236.5,2
4、00.53.163037=0.1412/xSntXTSn根据样本数据计算样本均值样本方差由于,采用 统计量计算检验统计值116 1150.890.89ntp 根据自由度为,得 检验的值为在显著性水平以下都不能拒绝零假设One-sample t-Testdata: build.price - 37 t = -0.1412, df = 15, p-value = 0.8896 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -8.045853 7.045853 sample es
5、timates: mean of x -0.5补充: R中的t检验法的用法t-test(x) X1,X2,XnN(a, 2), H0 : a=a0 , H1: aa0补充: R中的t检验法的用法例如, 某食品厂用自动装罐机装罐头食品,每罐质量为500g, 现从每天消费的罐头中随机抽测9罐,其质量分别为:510, 505, 498, 503, 492, 502, 497, 506, 495(单位:g)欲检验 H0: a=500, H1: a500 t.test(x-500)data: x - 500 t = 0.46, df = 8, p-value = 0.6578 alternative h
6、ypothesis: mean is not equal to 0 95 percent confidence interval: -3.567471 5.345249 sample estimates: mean of x 0.88888892) 配对t检验法 X1,X2,XnN(a1, 12), Y1,Y2,YnN(a2, 22), H0 : a1=a2 , H1: a1a2补充: R中的t检验法的用法例如, 欲比较甲乙两种轮胎的耐磨性, 现抽取数据如下: 甲: 4900,5220,5500,6020,6340,7660,8650,4870 乙: 4930,4900,5140,5700,6
7、110,6880,7930,5010欲检验 H0 : a1=a2 , H1: a1 x y t.test(x,y,alternative=“less,paired=T)补充: R中的t检验法的用法Paired t-Testdata: x and y t = 2.8312, df = 7, p-value = 0.9873 alternative hypothesis: mean of differences is less than 0 95 percent confidence interval: NA 534.7 sample estimates: mean of x - y 320接受H
8、0, 以为两种轮胎无显著性差别. 在上面的逻辑推理中,假设分布构造的正态性能否合理,是 t-检验 运用能否得当的关键 显然 3:13 支持的是3700元/平米 不能作为正态分布对称中心的观念 如今,让我们换一个角度思索位置推断问题:2.1.0 符号检验 符号检验Sign Test是最古老的检验方法,其检验最早可追溯到 Arbuthnott 于1701年一项有关伦敦出生的男婴比例能否超越12的研讨 之所以称为符号检验,是由于该检验只需两类观测值,假设用符号和区分,符号检验就是经过符号和的个数来做统计推断,所以称为符号检验。 符号检验虽然是最简单的非参数检验,但它表达了非参数统计的一些根本思绪。符
9、号检验根本原理符号检验根本原理 根本思想:假定用总体中位数Me 来表示中间位置,那么样本点 取大于Me的值得概率与小于Me的概率应该相等。假设排除样本中等于Me的点,该概率应该为0.5。n1,XX 检验统计量:假设Me确实是有关总体的中位数,那么每个样本点都以0.5的概率小于或大于Me。这显然是一系列伯努利Bernoulli实验。大于Me的样本点的个数 与小于Me的个数 都服从二项分布 b(n,1/2), 与 都可以作为检验统计量。SSSS1inXMeiSI1inXMeiSI令 以例题1楼盘价钱问题为例了解“符号检验的根本原理 假设假设问题的构造是普通延续分布,将 37百元了解为总体的中位数,
10、那么假设检验问题表示为:01:37:37HMeHMe其中 Me 是总体的中位数。 假设零假设为真,即37是总体的中位数,那么数据中应该差不多各有一半在37的两侧 计算每一个数据与37的差,用 表示位于37右边的点的个数, 表示位于37左边的点的个数,数据中没有等于37的数, + =16SSSS 在零假设和独立同分布的随机抽样的条件下,每一个样本等能够地出如今37的左右,这也就是说, 0.5Sb n 从有利于接受备择假设的角度出发, 过大或过小,都表示37不能作为总体的中心,这个思绪就是符号检验的根本原理。S 同样的,在零假设和独立同分布的随机抽样的条件下,也有, 0.5Sb n下面给出规范的符
11、号检验推断过程:假设 Me是总体的中位数,对于假设检验问题:0010:HMeMHMeM其中 M0是待检验的中位数值。n1,XX 1inXMeiSI1inXMeiSI假设 是从总体中产生的简单随机样本,定义+,.SSn nn0min,., 0.51,KSSK b nYbppP XM令则在零假设下,假设检验问题等价于另一个结构问题:,01:0.5:0.5HpHp,0.5Kkb n此时可以按照抽样分布求解得到P Kkkk(1).在显著性水平为 下的检验的拒绝域为2其中是满足上式最大的 =KpKkpP Kkp(2).也可以通过计算统计量的值作决策:如果统计量的值是 ,值 2当时,拒绝零假设符号检验与t
12、检验得到了相反的结论,究竟选择哪一种结果呢?结论:符号检验在总体分布未知的情况下优于结论:符号检验在总体分布未知的情况下优于t 检验!检验!我们可以对例1楼盘价数据问题用符号检验法求解解二: 用符号检验法1601613,216,0.520.02132kikpP Kk npi值在显著性程度0.05下,回绝原假设 H0. 以为这些数据与中心位置37存在显著差别.检验类型:检验类型:需求阐明的零假设普通就取等号。单边检验: 右侧检验 左侧检验0010:HMeMH MeM0010:HMeMH MeM0010:HMeMHMeM双边检验:类似地,给出单边假设检验问题的结果:其中 c 是满足上式的最小值 0
13、010:HMeMHMeM0010:HMeMHMeM,0.5P Sc n p,0.5P Sk n p或其中 k 是满足上式的最大值 单边符号检验问题0010:HMeMHMeM0010:HMeMHMeM,0.5P Sk n p,0.5P Sk n p对于符号检验,运用检验的 p-值 进展检验将会比较简单:单边符号检验问题0010:HMeMHMeM0010:HMeMHMeM,0.5P KsKb n,其中,0.5P KsKb n,其中0010:HMeMHMeM双边符号检验问题2,0.5/ 2=2,0.5/ 2P KsKb nSnpP KsKb nSn,其中当时值,其中当时min,.=KS SKkpP
14、Kk或者写成其中的值是 , 则有值 2 右侧检验思绪:右侧检验思绪: 对于检验假设对于检验假设 ,当,当 很大时很大时(即很多察看值大于即很多察看值大于M0),基于零假设的概率,即,基于零假设的概率,即 p-值,也值,也不大。不大。0010:HMeMHMeMS 因此M0能够太小,而Me应该比目前的M0大,这样,备择假设会更有理一些。假设上述概率小于指定的显著性程度,就可以回绝零假设。这种情况等价于 很小的情况。 S 在显著性程度 下,检验的回绝域为: 其中, Sc*1inf:( )2nni cncci p值还可以经过Excel中的函数Binomdist(S+1,n,p,t/F)计算。本检验可以
15、经过输入Binomdist(S+1,n,0.5,1)计算。 与参数的假设检验一样,也可以计算检验的 p 值,它等于一分布为二项分布 b(n,1/2) 的随机变量大于等于 的概率: sP Ks,0.5Kb n其中 判别规那么为: p 值大于 ,那么不能回绝零假设。 p 值小于 ,那么回绝零假设。 左侧检验思绪:左侧检验思绪: 对于检验假设对于检验假设 ,当,当 很小很小时时(即只需少数察看值大于即只需少数察看值大于M0),基于零假设的概率,即,基于零假设的概率,即 p-值,也不大。值,也不大。0010:HMeMHMeMS 因此M0能够太大,而 M 应该比目前的 M0 小,这样,备择假设会更有理一
16、些。假设上述概率小于指定的显著性程度 ,就可以回绝零假设。这种情况等价于 很大的情况。S 在显著性程度 下,检验的回绝域为: 其中,Sd*11sup:( )2dninddi p 值还可以经过Excel中的函数Binomdist(S+,n,p,t/F)计算。本检验可以经过输入Binomdist(S+,n,0.5,1)计算。 与参数的假设检验一样,也可以计算检验的 p 值,它等于一分布为二项分布 b(n,1/2) 的随机变量 小于等于 的概率:sP Ks,0.5Kb n其中 判别规那么为: p 值大于 ,那么不能回绝零假设。 p 值小于 ,那么回绝零假设。 双侧检验思绪:双侧检验思绪: 对于假设检
17、验对于假设检验 ,当,当 不很大不很大或不很小时,不能回绝零假设。否那么,应该回绝零假设或不很小时,不能回绝零假设。否那么,应该回绝零假设.0010:HMeMHMeMS 检验的回绝域为两个: 或 其中,ScSd*1inf:( )22nni cnccidnc 与参数的假设检验一样,也可以计算检验的 p 值。当 ,它等于二项分布b(n,1/2)的随机变量大于 的概率的2倍:/2SnS2P Ks,0.5Kb n其中 当 ,它等于二项分布b(n,1/2)的随机变量小于 的概率的2倍:S/ 2Sn2P Ks,0.5Kb n其中 判别规那么为: p 值大于 ,那么不能回绝零假设。 p 值小于 ,那么回绝零
18、假设。min,.=KS SKkpP Kk或者写成其中统计量的值是 , 则有值 2特殊情形的处置:特殊情形的处置:在实践问题中恰巧有一些观测值正好等于M0,那么如何处置呢? 方法之一:省去,并减少样本容量。 方法之二:运用更小的计量单位。 方法之三:修正符号检验统计量如下:niiiMXIMXIS100)(21)(niiiMXIMXIS100)(21)(下面先看一个例子,由此来引出符号检验。结合国人员在世界上66个大城市的生活破费指数以纽约市1996年12月为100按资小至大的次序陈列如下北京的指数为99:6675788081818283838383848585868686868787888888
19、8888898989899090919191919293939696969799 100101 102 103 103 104 104 104 105 106 109 109110 110 110111 113 115 116 117 118 155 192 假定这是从世界许多大城市中随机抽样而得到的样本,一切大城市的指数组成了总体。 能够面临的问题是:这个总体的平均程度是多少?北京市在该程度之上还是之下? 通常,在总体是正态分布的假设下,关于总体均值的假设检验和区间估计是与 t-检验有关的方法进展的。 在本例中,总体分布是未知的,我们就想知道,此时的总体是不是正态分布呢?先看一下此组数据的直
20、方图。 从图中很难看出这是什么分布 此概率就是该假设检验的 p-值。假设检验 ,即零假设为北京的生活水准小于世界大城市的生活水准99:99:10MeHMeH在零假设下,二项分布的概率 (其中 =1/2) kininkikiiininiKPkKP000211)()(因此,我们采用符号检验的方法:舍去值为99的样本点,还剩65个数据, SK的实践值为 k = 23,在这个例子中,n=65,k=23, ,p-值为5 . 00124.05 .05 .065)23(23065iiiiSP 即在零假设下,由该样本所代表的事件的发生的概率仅为 0.0124,即 p-值= 0.0124 很小,可以回绝零假设,
21、回绝错了的概率仅为 0.0124。 也就是说,北京的生活指数不能够小于世界大城市的中间水准。注:普通来说,假设 p-值太大,回绝零假设的理由就不充分。也就是通常说的不能回绝零假设。 样本: 世界上71个大城市的破费指数 可以假定这个样本是从世界许多大城市中随机抽样而得的,一切大城市的指数组成了总体两个关于位置参数的不同检验问题: 样本中位数M 能否大于64 等价地说,能否指数小于64的城市的比例少于1/2样本0.25分位点Q0.25 能否小于64 等价地说,能否指数小于64的城市的比例大于0.25这两个问题实践上都是关于分位点的检验问题100 1%Q以及求分位点的置信区间问题2.1.1 广义符
22、号检验:对分位点进展的检验广义符号检验:对分位点进展的检验 根据同样原理,可以将中位数符号检验推行为恣意分位点的符号检验0010:HQqH Qq假设检验0010:HQqH Qq0010:HQqH Qq+00+:+SqSqsSsSnss记样本中小于的点数;样本中大于的点数的实现值;的实现值;记1snsn按照零假设,与 之比应该约为左右,而 与 之比应该约为左右ss如果或与此相差得较远,那么零假设就可能有问题在一切样本点都不等于 q0 时,n 就等于样本量假设有些样本点等于 q0 ,那么这些样本点就不能参与推断,应该把他们从样本中除去,这样 n 就小于样本量了 不过对于延续型变量,样本点等于 q0
23、 的能够性很小00:,HQqSb n在零假设下,应该服从二项分布二项分布中如何计算二项分布中如何计算 p 值值00:HQq对的检验,Kb n变量的分布为0HPKs备择假设10:H Qq左侧检验10:H Qq双侧检验10:H Qq右侧检验p 值011HPKs002min, 11HHPKsPKs或者写成或者写成011 ( , )HPKsKb n,其中备择假设10:H Qq左侧检验10:H Qq双侧检验10:H Qq右侧检验p 值002min, 11HHPKsPKs022 ( ,1)HPKsKb n,其中00.50:eHMQM对的检验0.50.5eQQMM对的特例,这时为中位数,通常记做或min,0
24、.5KS SB n变量的分布为P Kk备择假设10:eH MMp 值10:eH MM10:eH MMP Kk2P Kk,0.25SB n按照零假设下,服从二项分布例2.1 (1). 样本0.25分位点Q0.25 能否小于64的检验 解:方式上,我们的检验是00.2510.25:64:64HQHQ=28=43+ =71ssnss容易算出,00=11 =1270.00515HHpPKsPK值=0.01因此,对于显著性水平,拒绝原假设min,71,0.5KSSB按照零假设下,服从二项分布例2.1 (2). 64能否为样本中位数的检验解:方式上,我们的检验是01:64:64eeHMHM=28=43+
25、=71ssnss同样,00=280.04796HHpPKkPK值=0.05因此,对于显著性水平,拒绝原假设min,28ks s取那么 36 32 31 25 28 36 40 32 41 26 35 35 32 87 33 35 - - - - - - 0 - + - - - - + - -推行例1楼盘均价问题,假设检验0100.7510.75:37:37:40:40HMeHMeHMHM由于 s+=2, s-=13,p-值为 P (minS+,S-binom.test(sum(x40),length(x)-1,0.75)Exact binomial testdata: sum(x 40) ou
26、t of length(x)-1 number of successes = 2, n = 15, p-value = 9.23e-07alternative hypothesis: p is not equal to 0.75 R编程计算:95 percent confidence interval: 0.01657591 0.40460270 sample estimates:probability of success 0.1333333 总结一下: 关于分位数的符号检验,我们用检验的 p-值 方式列出0010:HMeMHMeM0010:HMeMHMeM=,1pP SsSb n值,其中0
27、010:HMeMHMeM=2min,1pP SsP SsSb n值,其中1WSc拒绝域形式=,1pP SsSb n值,其中2WSc拒绝域形式312WScSc拒绝域形式或 由于正态分布是延续的,所以对离散的二项分布的近似中,可以用延续性修正量: 其中当 Kn/2 时取减号。22/5 . 0nnKZ大样本正态近似修正大样本正态近似修正 样本量 n 较大时,二项分布可以用正态分布来近似。在零假设 下,当 n 较大时, 服从正态 N(0,1) 分布。()(1)ZKnn00:HQq 样本量 n 较小时,可以用二项分布的公式或查表来计算p-值。对于单边检验,p-值为: 右侧 左侧 对于双边检验为:()(
28、)P Zzz )(2)(2zzZP)()(zzZP关于延续性修正continuity corrections的注: 在实际中,当用延续分布去近似离散分布时,经常要用延续性修正。运用中最常用于近似的延续性分布是正态分布 1122P XxP xXx这样,就对一个离散分布的点的概率用连续(如正态)分布的相应的区间的概率来近似12P XxP Xx而离散分布的概率则用连续分布的概率来近似 以相邻点间间隔为 1 的离散变量为例,每一个点 x 用区间(x-1/2, x+1/2) 来替代 这种对 x 加或减部分的调整就称为延续性修正。 0.0540122Kn 2C22Z0.791Z1.9640 4n 4例 设
29、某化装品厂商有A和B两个品牌,为了解顾客对A品牌和B品牌在运用上的差别,将A品牌和B品牌同时交给45个顾客运用,一个月后得到如下数据: 喜欢 A品牌的客户人数:22人 喜欢 B品牌的客户人数:18人 不能区分的人数: 5人运用大样本的性质,结论:不能回绝零假设。解:假设检验问题: 01:HP AP BH P AP B由给定的数据知:=22=18+ =40ssnss同样,2.1.2 基于符号检验的中位数及分位点的置信区间用顺序统计量构造分位数置信区间的方法 12121,1nnipjn hhpijh iX XXF xXXXP XMpijnP XMXpph 令样本独立取自同一分布是样本的顺序统计量,对1,1%ijpijX Xm如果能找到合适的 与 使上式大于等于,这样的就构成了置信度为100的置信区间 ,pijP XMXpf x注意到,对的计算只能用到二项分布和没有用到有关,所以这一方法适用于一切连续分布 112njeijh inP XMXh 用顺序统计量构造中位数置信区间的方法1,1%ijeijX XM如果能找到合适的 与 使上式大于等于,这样的就构成了置信度为100的置信区间 011=11=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 托管公司转让合同范本
- 学生劳动实习合同范本
- 建筑工程订金合同范本
- 密封配件买卖合同范本
- 技术开发合作合同范本
- 山西购房网签合同范本
- 六年级语文上册第一单元习作变形记教学新人教版教案
- 苏教版化学选修《化学平衡的移动》教案
- 六年级语文第五单元电子教案
- 趣味标点微课教案(2025-2026学年)
- GA 2113-2023警服女礼服
- 毒理学中的替代测试方法
- DBJ-T 15-30-2022 铝合金门窗工程技术规范
- 2024届广东省高三三校12月联考英语试题及答案
- 城市设计编制标准 DG-TJ08-2402-2022
- 粉煤灰在高速公路基层中的应用
- 教学设计中的学科整合与跨学科学习
- 2024年广东省粤科金融集团有限公司招聘笔试参考题库含答案解析
- 消防设施维保投标方案(技术方案)
- 设备综合效率OEE统计表(使用)
- WATERS公司的UPLCTQD培训资料MS7校正课件
评论
0/150
提交评论