版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1第二章第二章 单样本问题单样本问题2主要内容主要内容 2.1 广义符号检验(广义符号检验(SIGN TEST) 及及 有关的置信区间有关的置信区间 2.2 Wilcoxon符号秩检验,点估计和区间估计符号秩检验,点估计和区间估计 2.3 正态记分检验正态记分检验 2.4 Cox-Stuart 趋势检验趋势检验 2.5 关于随机性的游程检验关于随机性的游程检验3总体总体X,iid样本样本X1 , X2, , Xn,若若XN(. , .), 对于假设检验问题:对于假设检验问题:0010H :H : 中心:中心:EX= ,VarX= 2未知,未知,检验统计量为检验统计量为0HXtnt(n 1)s真
2、前面的学习已知,在正态前提下前面的学习已知,在正态前提下t分布效率最高,分布效率最高,但但t检验并检验并不稳健(改变正态前提时,效率变低,结果不准不稳健(改变正态前提时,效率变低,结果不准确确),在不知总体分布时,特别是小样本时,应用在不知总体分布时,特别是小样本时,应用t检验就可检验就可能有风险。这时就要考虑使用非参数方法。能有风险。这时就要考虑使用非参数方法。说明:说明:如果在基本前提变弱时,还可保持其效率,则为如果在基本前提变弱时,还可保持其效率,则为稳健稳健.有时,有时,EX不存在,但中位数总是存在的,中位数可以作为描述不存在,但中位数总是存在的,中位数可以作为描述中心位置的参数中心位
3、置的参数.即即 中位数中位数中心位置的参数中心位置的参数.本章工作:用非参数方法进行本章工作:用非参数方法进行 1.分布中心位置的参数的检验、估计分布中心位置的参数的检验、估计. 2.样本趋势检验样本趋势检验. 3.样本随机性检验样本随机性检验.非参数方法往往非参数方法往往简单实用,更稳健简单实用,更稳健. 42.1 广义符号检验(广义符号检验(SIGN TEST) 及有关的置信区间及有关的置信区间5定义定义(总体中位数总体中位数):设:设X是一个随机变量,是一个随机变量,M(或或Me)是一个常数是一个常数.满足:满足:11(),()22P XMP XM则称则称M是一个中位数是一个中位数(总体
4、中位数总体中位数)注意注意1:中位数恒存在:中位数恒存在.注意注意2:中位数未必唯一:中位数未必唯一.例例1: X 1 2 3 4 5P 0.2 0.2 0.2 0.2 0.21(3)21(3)2P XP X所以所以3是一个是一个中位数中位数唯一唯一.例例2: X 1 2 3 4 5 6 7P11(),()22P XMP XM 任取任取M 2,31111111 36121212126所以所以M是一个中位数是一个中位数无穷多个无穷多个6注意注意3:对连续分布,使:对连续分布,使1()( )2MF Mf x dx 则称则称M是一个中位数是一个中位数(总体中位数总体中位数)注意注意4:对于对称分布,
5、则:对于对称分布,则M即分布中心即分布中心.位置参数位置参数.的的M即是一个中位点即是一个中位点(中位数中位数)定义定义(总体总体 分分位数位数):设:设X是一个随机变量,是一个随机变量, 是一个常数是一个常数.满足:满足:(),()1P XP X则称则称 是是X的一个的一个 分分位数位数(总体总体 分分位数位数)7一、广义符号检验一、广义符号检验总体连续,总体连续, 分分位数是位数是 , iid样本样本X1 , X2, , Xn 0010H :qH :q 0q 已知1. () , ()1iiP XP X对线性符号秩统计量:对线性符号秩统计量:01() ()nnniiiSaRI Xq 0011
6、 ()(0)nniiiiSI XqI Xq 符符号号统统计计量量=大于大于q0 的个数的个数=正号的个数正号的个数0011 ()(0)nniiiiSI XqI Xq =小于小于q0 的个数的个数=负号的个数负号的个数( )1, nai 时时 记记当当H0为真时,为真时,(1)SSnnSSnn 应应在在 附附近近,即即应应在在附附近近应应在在1-1- 附附近近,即即应应在在附附近近80010H :qH :q 0q 已知当当H0为真时,为真时,(1)SSnnSSnn 应应在在 附附近近,即即应应在在附附近近应应在在1-1- 附附近近,即即应应在在附附近近当当H1为真时,为真时,(1)SSnnSSn
7、n 应应比比 偏偏小小,即即比比偏偏小小应应比比1-1- 偏偏大大,即即应应比比偏偏大大q0 1- (1)HSnSn 0 0故故若若取取值值比比偏偏小小,比比偏偏大大时时,怀怀疑疑() ()sSsS设设的的观观察察值值 或或实实现现值值的的观观察察值值 或或实实现现值值nss + +() () pP SspP SsHp0 0当当 小小时时,拒拒绝绝00() , ()1iiP XqP Xq当当H0为真时,为真时,0:iAXqSnA 成成功功,则则可可视视为为 重重贝贝努努里里试试验验中中 发发生生的的次次数数( , ) , ( ,1)SB nSB n 故故同同理理90010H :qH :q 0q
8、 已知(1)HSnSn 0 0故故若若取取值值比比偏偏小小,比比偏偏大大时时,怀怀疑疑() () pP SspP Ss,Hp0 0当当 小小时时,拒拒绝绝, ( , ), ()KSKB npP Ks 取取则则当当H0为真时,为真时,( , ) , ( ,1)SB nSB n 0()(1)siin inipP SsC 0 () =(1)(1)niin in kn kknni sk n spP SsCkniC 令令0 (1)() sn kkkkn knnnkCCssnCP Ss = =且且Hp0 0当当 过过小小时时,拒拒绝绝100010H :qH :q 0q 已知当当H0为真时,为真时,(1)S
9、SnnSSnn 应应在在 附附近近,即即应应在在附附近近应应在在1-1- 附附近近,即即应应在在附附近近当当H1为真时,为真时,(1)SSnnSSnn 应应比比 偏偏大大,即即比比偏偏大大应应比比1-1- 偏偏小小,即即应应比比偏偏小小q0 1- (1)HSnSn 0 0故故若若取取值值比比偏偏大大,比比偏偏小小时时,怀怀疑疑2. , ( , ), 1(1)KSKB npP Ks 取取则则()1()1(1)pP SsP SsP SsHp0 0当当 过过小小时时,拒拒绝绝()P Ks 110010H :qH :q 0q 已知当当H0为真时,为真时,(1)SSnnSSnn 应应在在 附附近近,即即
10、应应在在附附近近应应在在1-1- 附附近近,即即应应在在附附近近当当H1为真时,为真时,(1)(1)SnSnSnSn 比比偏偏大大时时,比比偏偏小小比比偏偏小小时时,比比偏偏大大3. , ( , )KSKB n 取取则则2min (), 1(1)pP KsP KsHp0 0当当 过过小小时时,拒拒绝绝说明:说明:1.在所有样本点都不等于在所有样本点都不等于q0时,时,n就等于样本容量。就等于样本容量。2.如果有些样本点等于如果有些样本点等于q0,那么这些样本点就不参加统计,那么这些样本点就不参加统计推断(因为它们对判断分位点在哪里不起作用),应该把推断(因为它们对判断分位点在哪里不起作用),应
11、该把它们从样本中除去,这时,它们从样本中除去,这时,n就小于样本量了。就小于样本量了。3.对于连续变量,样本点等于对于连续变量,样本点等于q0的可能很小。的可能很小。23页表格页表格12特别,特别, =0.5时,时, =M e ,这时,这时0M 已知1. 当当H0为真时,为真时,122SSnSSnn、均均应应在在附附近近,即即、均均应应在在附附近近0010:eeHMMHMM 当当H1为真时,为真时,22nnSS比比偏偏小小,比比偏偏大大min, ()ksspP Kk 取取01111 () =( ) ( )=( ) ( )2222nniin ininn knnni si sk n spP SsC
12、CkniC 令令01 ( )2sn kknknnnkCCssnC = =且且Hp0 0当当 过过小小时时,拒拒绝绝00111() =( ) ( )=( )222ssiin ininniiP SsCC 1( , )2KB nM0 Me2121()() P SsP Ssk对称kkkn () = () = ()()s d spP SkP nSnkP SkP Sk 130M 已知2. 当当H0为真时,为真时,122SSnSSnn、均均应应在在附附近近,即即、均均应应在在附附近近0010:eeHMMHMM 当当H1为真时,为真时,SS、总总有有一一个个过过大大,一一个个过过小小 2 ()pP Kk Hp
13、0 0当当 过过小小时时,拒拒绝绝M0 Me2121同上同上.0M 已知3. 0010:eeHMMHMM 23页表格页表格1400.2510.25H :64H :64ss=28,=43=28,=40515H64H64.0101故故时时, ,拒拒绝绝:,认认为为:成成立立P25例例1. 解:解: (71,0.25)KB1(1)1(281)1(27)0.00515pP KsP KP K 01H :M 64H :M 64ss=28,=43=28,=43P25例例1. 解:解: (71,0.5)KB()(28)0.04796pP KkP K 0.04796H64H64.MM 0
14、101故故时时, ,拒拒绝绝:,认认为为:成成立立min ,28ks s n比较小时,可用二项分布的公式计算精确概率,比较小时,可用二项分布的公式计算精确概率,但当但当n较大时,精确计算概率太麻烦,所以在大样本时做近似计算较大时,精确计算概率太麻烦,所以在大样本时做近似计算. =0.01=0.0515H0真即真即 (0,1)(1)nKEKKnZNVarKn 充充分分大大1(2.67)10.99620.0038p 连续性修正:连续性修正: 3. 大样本近似大样本近似. ( , )KB n 时时H0真:真: 0.5(0,1)(1)nKnZNn 充充分分大大( )1( )KnpzKnpz 值值 值值
15、1280.5714P252.12.67137144 例例与精确概率与精确概率0.00515相比,相比,误差较小误差较小.16nn22(0,1)nn /24nKKZN充充分分大大 =0.5时,时, 11( ) ( )1 22nnnninESaiai : , KSS 211var()( ) ( )1 44nnnninSa ia i P17: 1 ( , ), , 224nnKB nEKVarK 或或因为因为N(0,1)为连续分布,为连续分布, B(n,0.5)为离散分布,为离散分布,所以进行连续性修正所以进行连续性修正.n0.52n4KZ 22nKnK 1280.5712P252.11.6671/
16、2 例例( 1.66)1(1.66)10.95150.0485p 与精确概率与精确概率0.04796相比,误差较小,更方便相比,误差较小,更方便.有时,用不用连续性修正,对结果影响不大有时,用不用连续性修正,对结果影响不大.17二、基于符号检验的中位数置信区间二、基于符号检验的中位数置信区间参数中:参数中:T1= T1(X1 , X2, , Xn), T2= T2(X1 , X2, , Xn), 12()1P TT1( ;,)1nP cSXXkS枢轴变量枢轴变量非参数中:非参数中:(1)(2)( )( )( )ijnXXXMXX 1( )2( )( )( ), ijijTXTXP XMX (
17、)1( )P AP A 利利用用计计算算( )( ),ijXXM有有时时,( () )可可能能不不含含. .M ( )( ) iX( ) jX( )( ) iX( ) jXM ( )( )( )( ) 1ijijP XMXP XMP XM 1-P nMiP nMn j 个个观观察察值值中中小小于于 的的少少于于个个个个观观察察值值中中大大于于 的的不不多多于于个个()( ) iX( ) jXM 1- P SiP Sn j 11P SiP Sj SSn 1P iSj ii-1 j-1 j 111111=( ) (1)=222jjjkkn kknnnk ik ik iP SkCC ( ) iX(
18、) jX对对(X(i) ,X(j)而言,前面有而言,前面有i个观察值,后面有个观察值,后面有n-j+1个个观察值,观察值,i n-j+1时,区间时,区间(X(i) ,X(j)关于关于M非对称非对称.18考虑对称区间考虑对称区间(X(k) ,X(n-k+1),k=1,2, , 212nnnn 为为偶偶数数为为奇奇数数(1)X(3)X(2)X(4)X(5)X(6)X偶数个偶数个如如(1)632 k=1,2,3.k=1时时:(X(1) ,X(6)k=2时时:(X(2) ,X(5)k=3时时:(X(3) ,X(4)奇数个奇数个如如(2)7132 k=1,2,3.k=1时时:(X(1) ,X(7)k=2
19、时时:(X(2) ,X(6)k=3时时:(X(3) ,X(5)11max 1 (k=12n 时时)( )(1) kn kP XM X (1)X(3)X(2)X(4)X(5)X(6)X(7)X11100111 2 1 1 2122kkhhnnnnhhP SkCC ,1 111ik jn kP SkP Sn k ( )kX(1)kX ()n kX (1)n kX 01( , )2HSB n 对称 这时置信区间最大,是这时置信区间最大,是(X(1) ,X(n),k=1.P31.例例2.2)19在求置信区间时,人们既希望置信度大,又希望置信区间小在求置信区间时,人们既希望置信度大,又希望置信区间小.对
20、称区间:对称区间:在本例中,可以选择在本例中,可以选择k=6,即即22个企业的纳税额的中个企业的纳税额的中位数的置信度为位数的置信度为98.3%的置信区间为的置信区间为(X(6) ,X(17)=(2.10,6.10).非对称区间:非对称区间: 如果不强求对称性,可能会得到置信度相同的如果不强求对称性,可能会得到置信度相同的宽度更窄的区间宽度更窄的区间.2| 1P ZZ 对对(X(k) ,X(n-k+1)中的中的k,n充分大时充分大时:大样本近似:大样本近似:0n0.52(0,1)n /2HKZN 真真22n0.52 1n/2KP ZZ 22nnnn0.50.5 12222PZKZ 12nn0.
21、522KZ 取取2012nn0.522KZ 取取如在例如在例2.1中,如果中,如果 =0.05,查表得,查表得0.02521.96,ZZ 而而n=71有有171710.5 1.96 26.742622K 取中位数取中位数M的的95%的置信区间在第的置信区间在第26个和第个和第(71-26+1=)46个个顺序统计量之间,即顺序统计量之间,即(X(26) ,X(46)=(60.8,77.9).也就是说:正态近似也就是说:正态近似的世界大城市的花费指数的中心位置的世界大城市的花费指数的中心位置的置信度为的置信度为95%的置信区间为的置信区间为(60.8,77.9).若利用二项分布进行精确计算若利用二
22、项分布进行精确计算,则得到置信度为,则得到置信度为0.9680728的的置信区间为置信区间为(X(27) ,X(45)=(62.7,77.7).作业作业211. 仅使用了仅使用了Xi-M0的符号,未使用的符号,未使用|Xi-M0|的大小的大小2. 当总体分布为连续、对称时,这一信息未被利用,这导致当总体分布为连续、对称时,这一信息未被利用,这导致 符号检验的效率不高符号检验的效率不高.当总体分布为连续、对称时,比符号检验效率更高的检验当总体分布为连续、对称时,比符号检验效率更高的检验Wilcoxon符号秩检验符号秩检验 .Wilcoxon符号秩检验符号秩检验 将各观察值距离中心的远近位置考虑进
23、去了,将各观察值距离中心的远近位置考虑进去了,所以比符号检验更有效所以比符号检验更有效.符号检验的局限性:符号检验的局限性:222.2 Wilcoxon符号秩检验,符号秩检验,点估计和区间估计点估计和区间估计23对称分布对称分布: 设设X是随机变量,其分布函数为是随机变量,其分布函数为F(x),x (- ,+), 若对任意若对任意x (- ,+),F(-x)=1F(x)成立,成立, 则称则称F(x)关于关于0对称对称,也称也称X关于关于0分布对称分布对称. 定义定义:设:设X是随机变量,若是随机变量,若X- 关于关于0分布对称分布对称 则称则称F(x) (或或X)关于关于 对称对称. F(x+
24、 )=1F(x - ).注意:连续、对称的总体分布的对称点是中位数,注意:连续、对称的总体分布的对称点是中位数, 等于均值,只有唯一一个等于均值,只有唯一一个.前提:总体具有连续、对称分布前提:总体具有连续、对称分布0.524一、一、Wilcoxon符号秩检验符号秩检验 0010H :M MH :MM1. Wilcoxon符号秩统计量符号秩统计量01 (0)niiiWR I XM Wilcoxon符号秩统计量符号秩统计量01 (0)niiiWR I XM 若若H0 :M=M0不真,不真,00,MMWWMMWW 假假设设这这时时大大,小小 这这时时小小,大大010200| |iinRXMXMXM
25、XM 在在、 、中中的的秩秩若若H0:M=M0为真,为真,WW与与应应接接近近M0 MMM00WWH、过过大大或或过过小小时时拒拒绝绝(1)(1)012 , 022(1)2n nn nWnWn nWW 0min(,),WWWWH 小小时时拒拒绝绝250010H :M MH :M M当当H1 :MM0为真时,为真时,当当H0:M M0为真时,为真时,W 取取值值较较大大0WH 取取值值很很小小时时拒拒绝绝W 取取值值偏偏小小P34 P34 例例2.32.338页表格页表格26定义定义:设:设X为一为一随机变量,若对某一对称区间随机变量,若对某一对称区间(-h,h)(h0)内的任意内的任意t,et
26、X的数学期望的数学期望E(etX )存在存在(即即E|etX |0),都有,都有M MX X( () )= M MY Y( () ),则,则X,Y具具有相同的分布有相同的分布推论推论:设随机变量:设随机变量X1 ,X2 ,Xn互相互相独立,则独立,则11( )( )nkkknXXkMM 28(1)1 22n nW 可可取取值值0 0, ,, ,(1)20( )()n ntWtkkWkMtE eep 0 (0) iiR I XM iR 0 (0)jDjI XM, ij X jDX X1 X2 X3 X4 1 3 6 2|Xi| 1 3 6 2Ri+ 1 3 4 2001 (0)1 (0)02jj
27、DDP I XMP I XM当当H0为真时为真时12341,4,2,3DDDD 00 (0) 0 1 (0)111( )()(1)222DjDjt jI XMt jt jt jjI XMMtE eeee 1,2,jn 0(0)jDI XM随随机机变变量量1,2,jn 为独立随机变量之和为独立随机变量之和0011 (0) =(0)jnniiDijWR I XMjI XM相互独立相互独立290 (0)11111( )( )(1)(1)22Djnnnt jt jjI XMnWjjjMtMtee (1)2201(1)2(1)(1)(1)n nnn nxxxbb xbx (1)22012(1)2n nt
28、ttn naa ea eae (1)22012(1)21()2n ntttn nnbb eb ebe (1)(1)222012(1)02( )()n nn nttWtkttkn nWkMtE eeppp ep epe kkpa (1)0,1 22n nk , ,(惟一性定理)(惟一性定理):若随机变量:若随机变量X,Y的的矩母函数矩母函数MX(t)和和MY(t)都都存在存在,且对任意,且对任意t(-h,h)(h0),都有,都有MX(t)= MY(t),则则X,Y具有相同的分布具有相同的分布.30P35 P35 例:(从表格上一段开始,例:(从表格上一段开始,表格表格表格下一段)表格下一段)知道
29、了分布就可以相应地求出知道了分布就可以相应地求出p值,从而得到检验的拒绝域值,从而得到检验的拒绝域.当当n很大时,可用正态近似:很大时,可用正态近似:当当H0为真时为真时WW d d= =均为对称分布均为对称分布.01 (0)niiiWR I XM 11111(1)( ) =(12)()2224nnnniin nESaiinEW 2222211111(1)(21)var()( ) = (12)=()44424nnnniin nnSa iinVarW 1() (0)nnniiiSaRI X ( ),naii 则则1(0)niiiR I XW n(n+1)4(0,1)n(n+1)(2n+1)24n
30、WZN 充充分分大大当当H0为真时为真时()pP Ww ()( )pP Zzz P36 P36 例例31Wilcoxon符号秩检验为什么要求总体分布连续、对称呢?符号秩检验为什么要求总体分布连续、对称呢?0 (0) iiR I XM R=(R1 , R2,Rn) ,R分布与总体分布分布与总体分布F(x)无关无关1,2,in 的分布一般与总体分布的分布一般与总体分布F(x)有关有关当当F(x)连续、对称时连续、对称时,此时可证:,此时可证:0(0) iiI XMX与与独独立立 iiRX 而而仅仅依依赖赖于于012, (0) 1,2,inI XMinRRR即即. .与与独独立立0 (0) iiR
31、I XM 所所以以1,2,in 的分布的分布与总体分布与总体分布F(x)无关无关. W 的的分分布布 P()Wk 1( )2nnCk( )1,2, nCkkn其其中中是是和和数数恰恰为为 的的的的子子集集的的个个数数. .32二、基于二、基于Wilcoxon符号秩检验的点估计和置信区间符号秩检验的点估计和置信区间 对样本对样本X1 , X2, , Xn做做walsh平均可以利用更多的样本信息:平均可以利用更多的样本信息:对样本对样本X1 , X2, , Xn做做walsh平均后,样本容量扩大了,成为平均后,样本容量扩大了,成为2ijXXwalshijn 平平均均:,1 12(1)2nn nnC
32、 个个自身平均的个数任取两个做平均的个数0010H :H : , 总体的对称中心为总体的对称中心为 00()#2ijXXWijn ,1 1(1)2n n 可可用用这这个个数数据据做做检检验验:这时统计量为这时统计量为基于样本基于样本X1 , X2, , Xn的的 Wilcoxon符号秩检验统计量符号秩检验统计量下页证明下页证明33 设样本设样本X1 , X2, , Xn iid ,总体分布关于,总体分布关于0 对称对称.即:即:W+是是walsh平均值中符号为正的个数平均值中符号为正的个数.#02ijXXWijn ,1 1说明:如果说明:如果X1 , X2, , Xn iid,总体分布关于总体
33、分布关于 0 对称,这时对称,这时定理定理:Wilcoxon符号秩检验统计量符号秩检验统计量W+可以表示为可以表示为证明证明:记:记Xi1 , Xi2, , Xip 为为p个正的样本点,个正的样本点, 以原点为中心,以原点为中心, Xi1为半径,画闭区间为半径,画闭区间 I1 =Xi1 ,Xi1 , Xi1绝对值的秩绝对值的秩Ri+ 等于在闭区间等于在闭区间 I1中的样本点的个数中的样本点的个数. 注意到:注意到: I1中的样本点和中的样本点和Xi1 构成的平均值都大于构成的平均值都大于0. 将这个过程对每一个样本点重复一遍,就得到了所有的秩和,将这个过程对每一个样本点重复一遍,就得到了所有的
34、秩和, 这些秩和恰好为这些秩和恰好为walsh平均值中大于平均值中大于0的个数的个数.00()#2ijXXWijn ,1 134 X1 X2 X3 X4 1 4 7 5 Xi M0 : 1 6 5 3|Xi M0 | : 1 6 5 3 Ri+ : 1 4 3 2如如M0=2W+ =3+2=5 2walsh平均:平均: 2ijXXij ,:1 4 7 5 4 3 6 32 12324 1 3 4 5 6 7 32 1232升幂排列:升幂排列:5个,个,W+ =500()#2ijXXWMMijn ,1 1M0=22352ijXXmedianijn ,1 1对称中心对称中心 可用可用walsh平均
35、值的平均值的中位数估计,中位数估计,称为称为LH估计估计将将 个个walsh平均值按升幂排列,设为:平均值按升幂排列,设为:点估计点估计区间估计区间估计(1)2n n (1)(2)()(1) , 2Nn nWWWN 则则 的的(1 ) 置信区间为:置信区间为: W( k+1 ) ,W( N-k))(1)()(1)() 1kN kkN kP WWP WP W 111P WkP WkP WkP WNk112 P WkP WkP Wk1 WWN W 对对称称分分布布P40 P40 例例36区间估计区间估计则则 的的(1 )=0.95的的 置信区间为:置信区间为: W( k+1 ) ,W( N-k)
36、)= W( 10 ) ,W( 46) )=8.02,12.73)P40 P40 例例, ,在在P34P34例例2.32.3中,中,n=10walsh平均值平均值(1)2n n = =5 55 5个个1 =0.95 , =0.052 = =0 0. .0 02 25 50.025P Wk 查表得查表得k=9N-k=55-9=46作业作业372.3 正态记分检验正态记分检验38 秩本身在没有结时是有穷个自然数的排列,当秩本身在没有结时是有穷个自然数的排列,当H0为真时为真时它的分布是均匀分布。自然我们会想到用其他分布的样本体现它的分布是均匀分布。自然我们会想到用其他分布的样本体现来代替秩。如用正态
37、分布。来代替秩。如用正态分布。正态记分检验的基本思想就是:首先将升幂排列的秩正态记分检验的基本思想就是:首先将升幂排列的秩Ri 用升幂用升幂排列的正态分位点排列的正态分位点 来替代,来替代,1()1iRn 一、正态记分检验的基本思想一、正态记分检验的基本思想 1(), 1,2,iP Rkknn (均匀分布均匀分布)(), 1,2,ikP Rkknn R, 1,2,kkknn 的的分分位位点点从分位点的角度,从分位点的角度,1,2, ,n是其是其n 个分位点个分位点.线性秩统计量线性秩统计量秩本身的和秩本身的和秩的函数的和秩的函数的和39二、线性符号正态记分秩统计量及正态记分检验二、线性符号正态
38、记分秩统计量及正态记分检验01() (0)nnniiiSaRI XM 1.7P17线性符号秩统计量:线性符号秩统计量:0011( )1,() (0)(0)nnnnniiiiiaiSaRI XMI XMS则则若若若若0011( ),() (0)(0)nnnnniiiiiiaiiSaRI XMR I XMW则则符号统计量符号统计量Wilcoxon符号秩统计量符号秩统计量更一般的更一般的线性秩统计量:线性秩统计量:其中其中( )na 记记分分0() (0)niiaRI XM 符符号号记记分分1()( )nnniniSaR ci 1()(),1iniRaRn 取取( )1,nci 时时11()1nin
39、iRSn 为为正态记分线性秩统计量正态记分线性秩统计量4011()1niniRSn 为为正态记分线性秩统计量正态记分线性秩统计量0(1)( ) , ( )0nnnaanan 约定约定而而112iRn 时时1()01iRn 改进为改进为(1)12(1)2inRn 11()()22ininRaRn 取取计算计算|Xi-M0|, i=1,2, ,n. 由小到大排列后由小到大排列后|Xi-M0|的秩为的秩为Ri+ (取值取值1,2, ,n) .符号函数符号函数0001 0 ()1 0iiiXMsign XMXM 符号秩符号秩000 0 () 0iiiiiiRXMR sign XMRXM 0(1)( )
40、 , ( )0nnnaanan 既既能能保保证证41H0 :M =M0为真时为真时101()()( )()22inininRaRCisign XMn 取取,0001 0 ()1 0iiiXMsign XMXM 符号正态记分符号正态记分101()()22iiinRSsign XMn 线性符号正态记分秩统计量:线性符号正态记分秩统计量:10111()()22nniniiiinRSSsign XMn 011()1( 1)022iEsign XM 220002220 ()()()11()1( 1)122iiiiVar sign XME sign XMEsign XME sign XM 因为样本因为样本
41、X1 , X2, , Xn ,所以,所以sign(Xi-M0), i=1,2, ,n. iid420()0iEsign XM0 ()1iVar sign XM因为样本因为样本X1 , X2, , Xn ,所以,所以sign(Xi-M0), i=1,2, ,n. iid所以所以1011()()022niniinRESEsign XMn 1201122111 () ()221()22niniinniiiinRVar SVar sign XMnnRsn H0 :M =M0为真为真,n很大时,近似有很大时,近似有21(0,1)varnnnnniiSESSTNSs 将将Sn标准化得到标准化得到正态记分检
42、验统计量正态记分检验统计量430M 已知1. 当当H0为真时,为真时,nnSTST、 均均应应在在它它们们的的期期望望附附近近,即即、 均均应应在在0 0附附近近当当H0不真时,不真时,0010:HMMHMM nST、 均均远远离离0 0|HnST0 0当当| | |、| |偏偏大大时时,拒拒绝绝|H ,TT0 0当当| |大大时时,拒拒绝绝的的值值远远离离0 0. . 2 (| | |)21(| |)pP Ttt 0M 已知2. 0010:HMMHMM M0 0M 已知3. 0010:HMMHMM 当当H0为真时,为真时,nST、 取取值值偏偏大大当当H0不真时,不真时, ()( )pP T
43、tt MnST、 取取值值偏偏小小当当H0为真时,为真时,nST、 取取值值偏偏大大当当H0不真时,不真时,nST、 取取值值偏偏小小 ()1()1( )pP TtP Ttt 4401:8:8HMHM 当当H0为真时,为真时,nST、 取取值值偏偏大大当当H0不真时,不真时,nST、 取取值值均均应应在在0 0附附近近 ()1()1( )pP TtP Ttt P43 : P43 : (P34)P34)例例2.32.3的正态记分检验的正态记分检验15.414066nniiSs 211.913559nniiSts 1( )0.02783824pt M0 =8 M01:12.5:12.5HMHM 当
44、当H0不真时,不真时,nST、 取取值值偏偏小小 ()( )pP Ttt 14.934602nniiSs 211.744096nniiSts ( )0.04057115pt MM0 =12.5当当H0为真时,为真时,nST、 取取值值均均应应在在0 0附附近近45 s=function(i,n)si=qnorm(n+1+i)/(2*n+2);list(si) s(1:10,10)1 1 0.1141853 0.2298841 0.3487557 0.4727891 0.6045853 6 0.7478586 0.9084579 1.0968036 1.3351777 1.6906216P43:
45、 (P34)例例2.3的正态记分的正态记分46三、记分函数三、记分函数an ()的选择的选择1()1iRn 11()22inRn 分位点分位点Ri代之以代之以,由于总体不同,所以不能用同一个工具对不同总体由于总体不同,所以不能用同一个工具对不同总体.充分利用已知信息,正确的选择记分函数,检验效果会更好充分利用已知信息,正确的选择记分函数,检验效果会更好.正态分布,用正态记分函数更好正态分布,用正态记分函数更好其它分布,用其它比如基于秩的记分函数其它分布,用其它比如基于秩的记分函数特别:样本量很大时,由大数定律、中心极限定理知道,特别:样本量很大时,由大数定律、中心极限定理知道,可以近似为正态分
46、布,这时用正态记分检验更好可以近似为正态分布,这时用正态记分检验更好.P44上面上面L+2表表作业作业472.4 Cox-Stuart 趋势检验趋势检验48人们经常要人们经常要研究研究某项发展的趋势是递增,递减,还是大致持平。某项发展的趋势是递增,递减,还是大致持平。类似于前面的检验,这里有三种假设:类似于前面的检验,这里有三种假设: 1、 H0 :无增长趋势:无增长趋势 H1 :有增长趋势:有增长趋势 2、 H0 :无减少趋势:无减少趋势 H1 :有减少趋势:有减少趋势 3、 H0 :无趋势:无趋势 H1 :有增长或减少趋势:有增长或减少趋势设独立观测的时间序列数据设独立观测的时间序列数据X
47、1 , X2, , Xn分别来自分布为分别来自分布为F(x i )的总体,而总体分布的总体,而总体分布F(x)关于关于0 对称对称. 其中其中 i 位置参数位置参数=中位数中位数即即012112: nnHH 012112:nnHH 012112:, 不不全全相相等等nnHH 49进行这些检验进行这些检验,可以把每一个观察值和后面的另一个观察值配对比较;可以把每一个观察值和后面的另一个观察值配对比较;即对独立观测的时间序列数据即对独立观测的时间序列数据X1 , X2, , Xn ,合理选择合理选择 c ,得到成对数据得到成对数据(X1 , X1+ c ), ( X2, X2+ c ), , (
48、Xn c , Xn )然后看增长的对子和减少的对子各有多少来判断总的趋势然后看增长的对子和减少的对子各有多少来判断总的趋势因为相邻数据难以区分小的误差,而间隔太大,成对数据又太少,因为相邻数据难以区分小的误差,而间隔太大,成对数据又太少,信息不足,所以一般选信息不足,所以一般选n n2cn1 n2 如如果果 是是偶偶数数如如果果 是是奇奇数数数对个数:数对个数:c nn =c1 n 如如果果 是是偶偶数数如如果果 是是奇奇数数0 ,0 0 ii ciii ciii cii cXXDXXDXXXX令令则则i=1,2, ,n . 500 ,0 0 ii ciii ciii cii cXXDXXDX
49、XXX令令则则i=1,2, ,n . 0#0 iiiDSDsignD0#0() iiiDSDsignD01(,)2 HSB n真真01(,)2 HSB n真真S偏小时偏小时有减少趋势有减少趋势S+偏小时偏小时有增长趋势有增长趋势012:nH 为真时,对为真时,对iid样本样本X1 , X2, , Xn12ijijP XXP XX 1002iiP DP DS+ + S = n 一般不考虑一般不考虑差为零的数对差为零的数对2nESES 0iii ciii cDXXDXX ,即即前项大于后项的数对的个数前项大于后项的数对的个数前项小于后项的数对的个数前项小于后项的数对的个数510121121. :n
50、nHH 即:即: H0 :无增长趋势:无增长趋势 H1 :有增长趋势:有增长趋势当当H0为真时,为真时,2nS 取取值值应应在在附附近近当当H1为真时,为真时,SH 0 0当当很很小小时时,拒拒绝绝 ()pP Sk S 取取值值偏偏小小Sk 的的观观察察值值0121122. :nnHH 即:即: H0 :无减少趋势:无减少趋势 H1 :有减少趋势:有减少趋势当当H0为真时,为真时,2nS 取取值值应应在在附附近近当当H1为真时,为真时,SH 0 0当当很很小小时时,拒拒绝绝 ()pP Sk S 取取值值偏偏小小Sk 的的观观察察值值520121123. :,nnHH 不不全全相相等等即:即:
51、H0 :无趋势:无趋势 H1 :有增长或减少趋势:有增长或减少趋势当当H0为真时,为真时,2nSS 、取取值值应应在在附附近近当当H1为真时,为真时,Kmin, SS 取取HK0 0当当 很很小小时时,拒拒绝绝SS、取取值值总总有有一一个个偏偏大大,另另一一个个偏偏小小kK 的的观观察察值值 2 ()pP Kk 01(,)2HKB n 真真若样本量若样本量n太小,即信息量不足,则太小,即信息量不足,则n会很小,检验效果不佳,会很小,检验效果不佳,所以所以 n不能太小不能太小. 【P47表格表格】53 Hp 0 0故故时时, ,拒拒绝绝P44例例2.4. 天津机场旅客吞吐量天津机场旅客吞吐量 n
52、=108, c=n/2=54, n =545454540 1 0#0()16iiiiiiiDiXXSDsignDsign XX 5454540 10#0()38iiiiiiiDiXXSDsignDsign XX H0 :无增长趋势:无增长趋势 H1 :有增长趋势:有增长趋势01(,)2 HSB n真真SH 0 0当当很很小小时时,拒拒绝绝16545401 (16)( )0.0019191332iipP SC ,认为有增长趋势,认为有增长趋势.作业作业542.5 关于随机性的游程检验关于随机性的游程检验55一个可以属性总体,如按性别区分的人群,按产品是否有毛病一个可以属性总体,如按性别区分的人群
53、,按产品是否有毛病区分的总体等等,随机从中拍取一个样本,样本也可以分为两区分的总体等等,随机从中拍取一个样本,样本也可以分为两类;类型类;类型I和类型和类型E。 数理统计中,总假设样本数理统计中,总假设样本X1 , X2, , Xn iid,但实际中,样本有时,但实际中,样本有时带有系统性的差异,样本的产生是否具有随机性是需要讨论的带有系统性的差异,样本的产生是否具有随机性是需要讨论的.56对二元数据样本对二元数据样本0 0 0 0 1 1 1 0 0 1 1 0 1 0 1 0 0 0 1 1 1 0 1 1 0 0定义定义 游程游程(run): 在一个两种类型的符号在一个两种类型的符号(如
54、如0与与1)的有序排列中,的有序排列中, 相同符号相同符号(0或或1)连续出现的段连续出现的段.游程长度游程长度: 每一个游程所包含的符号的个数每一个游程所包含的符号的个数,称为游程的长度称为游程的长度.游程个数游程个数: 在一个两种类型的符号在一个两种类型的符号(如如0与与1)的有序排列中,的有序排列中, 游程的总个数游程的总个数. 记为记为R .R =13m0的个数的个数记记n1的个数的个数m=14n=12N=m+n数据的总个数数据的总个数 N=2657m0的个数的个数n1的个数的个数N=m+n数据的总个数数据的总个数R游程个数游程个数简单性质:简单性质:1、 2 R 2min(m,n)+
55、1. 2、 0的游程数与的游程数与1的游程数至多相差的游程数至多相差1. 3、 0与与1的不同排列可以有相同的游程数的不同排列可以有相同的游程数.如如0 1 0 1 10 1 1 0 1 说明:若游程为说明:若游程为 0000000111111(游程的长度过长游程的长度过长)、 或或01010101(游程总数过多表明游程长度很短游程总数过多表明游程长度很短)、 周期性或等距等都可能怀疑其随机性周期性或等距等都可能怀疑其随机性.注意:游程的总数注意:游程的总数R过大或过小,都意味样本可能非随机产生过大或过小,都意味样本可能非随机产生. 而是系统性作用而是系统性作用. 58H0 :样本是随机产生的
56、:样本是随机产生的H1 :样本是非随机产生的:样本是非随机产生的选用选用R为统计量,取为统计量,取c 1 、 c 2使使12P(Rc )P(Rc )2 若若R c 1或或R c 2可以拒绝可以拒绝H0 ,认为样本是非随机产生的,认为样本是非随机产生的.反之,若反之,若c 1 R c 2 ,则接受则接受H0 ,认为样本是随机产生的,认为样本是随机产生的.下面,关键是下面,关键是=? c 1 =?,?, c 2 =?两种方法:精确计算两种方法:精确计算(小样本小样本)与近似计算与近似计算(大样本大样本)对给定的显著性水平对给定的显著性水平 ,精确计算:精确计算: 首先,要找首先,要找R的概率分布,
57、并可以将有关的概率求出,的概率分布,并可以将有关的概率求出, 列表表示有关的临界值列表表示有关的临界值c 1 =?,?, c 2 =?59证明:在一个容量为的样本中,个、个排列的总方式为证明:在一个容量为的样本中,个、个排列的总方式为首先,要找首先,要找R的概率分布的概率分布.假设假设m与与n固定,即固定,即 N=m+n 固定固定.1. R为偶数时:为偶数时:1111N2P(2 )kkmnmCCRkC nNNmCC R2k时,时,0的游程数与的游程数与1的游程数均为的游程数均为k,由于一个游程至少由一个由于一个游程至少由一个0或一个或一个1组成,组成, 为为得到得到k个个0的游程的游程,只需在
58、,只需在m个个0之间的之间的m-1个空隙中任意插入个空隙中任意插入k-1个隔板即可,有个隔板即可,有Cm-1k-1种,种, 为为得到得到k个个1的游程的游程,只需在,只需在n个个0之间的之间的n-1个空隙中任意插入个空隙中任意插入k-1个隔板即可,有个隔板即可,有Cn-1k-1种,种, 0游程与游程与1游程的位置可以互换,故游程的位置可以互换,故0、1游程的次数排列方式:游程的次数排列方式:11112kkmnCC种种1111N2P(2 )kkmnmCCRkC 故故60证明:在一个容量为的样本中,个、个排列的总方式为证明:在一个容量为的样本中,个、个排列的总方式为首先,要找首先,要找R的概率分布
59、的概率分布.假设假设m与与n固定,固定,N=m+n固定固定.2. R为奇数时:为奇数时:111111NP(21)kkkkmnmnmCCCCRkC nNNmCC R2k+1时,时,0的游程数与的游程数与1的游程数只能相差的游程数只能相差1,若若0的游程数为的游程数为k,则,则1的游程数为的游程数为k+1, 为为得到得到k个个0的游程的游程,只需在,只需在m个个0之间的之间的m-1个空隙中任意插入个空隙中任意插入k-1个隔板即可,有个隔板即可,有Cm-1k-1种,种, 为为得到得到k+1个个1的游程的游程,只需在,只需在n个个0之间的之间的n-1个空隙中任意插入个空隙中任意插入k个隔板即可,有个隔
60、板即可,有Cn-1k种,种, 排列方式为:排列方式为:111kkmnCC 种种故故111kkmnCC 种种若若0的游程数为的游程数为k+1,则,则1的游程数为的游程数为k,类似有,类似有 111111NP(21)kkkkmnmnmCCCCRkC 最后查分位数表求最后查分位数表求 p 值值.61mnmCkmC111knC111knkmCCmnmknkmknkmCCCCCkRp111111)12(先在先在m+n个抽屉里随机选择个抽屉里随机选择m个,有个,有种方法。种方法。如果游程数为奇数如果游程数为奇数R=2K1,这意味着:,这意味着: 1、必定有、必定有k+1个由个由“1”构成的游程和构成的游程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年初中地理毕业会考全真模拟试卷及答案(共十四套)
- 2026年幼儿园保健介绍
- 2026年幼儿园夏日冰淇淋
- 幼儿园责任书
- 2026年湖南烟草公司校园招聘真题
- 消防安全降级制度
- 职业病防治订单培训
- 商超企业用电安全隐患大排查工作自查报告
- 2026年石油化工操作工考试环保试卷
- 2026年幼儿园爱的导师
- 城市大道路灯箱变配电设计方案
- 2025年测绘专业事业编面试题及答案
- 非遗标识管理办法
- 疼痛科考试题及答案
- CJ/T 124-2016给水用钢骨架聚乙烯塑料复合管件
- 海报色彩搭配课程设计
- 昆虫记蟋蟀的课件
- 口腔黏膜病(口腔组织病理学课件)
- 2023年05月四川天府新区上半年公开招考87名编外聘用人员笔试历年高频考点试题含答案详解
- 物理 高二期中考试质量分析表
- 高中生物2019新人教版必修二旁栏问题及课后练习答案(含所有章节)
评论
0/150
提交评论