版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、本资料来源分布拟和检验分布拟和检验引言引言前面所介绍的各种检验法,前面所介绍的各种检验法,是在总体分布类是在总体分布类型已知的情况下,型已知的情况下, 对其中的未知参数进行检验统称对其中的未知参数进行检验统称为为参数检验参数检验.在实际问题中,在实际问题中, 有时我们并不能确切预有时我们并不能确切预知总体服从何种分布,知总体服从何种分布, 这时就需要根据来自总体的这时就需要根据来自总体的样本对总体分布进行推断,样本对总体分布进行推断,以判断总体服从何种分以判断总体服从何种分这类统计检验称为这类统计检验称为非参数检验非参数检验.布布,解决这类问题的工具是英国统计学家解决这类问题的工具是英国统计学
2、家K.皮尔逊在皮尔逊在1900年发表的一篇文章中引进的所谓年发表的一篇文章中引进的所谓2 检验法检验法不少人把此项工作视为近代统计学的开端不少人把此项工作视为近代统计学的开端.引例引例 从从1500到到1931年的年的432年间年间, 每年爆发战争的每年爆发战争的次数可以看作一个随机变量次数可以看作一个随机变量, 椐统计椐统计, 这这432年间共年间共爆发了爆发了299次战争次战争,具体数据如下:具体数据如下:根据所学知识和经验根据所学知识和经验, 每年爆发战争的次数每年爆发战争的次数,X用一个泊松随机变量来近似描述,用一个泊松随机变量来近似描述, 即可以假设每年即可以假设每年可以可以 4 4
3、 15 3 48 2 142 1 223 0 发生发生 次战争的年数次战争的年数 战争次数战争次数XX一结为结为: 如何利用上述数据检验如何利用上述数据检验X服从泊松分布的假服从泊松分布的假设设.爆发战争次数的分布爆发战争次数的分布X近似泊松分布近似泊松分布. 于是于是问题归问题归又如又如,某工厂制造一批骰子某工厂制造一批骰子,声称它是均匀的声称它是均匀的, 即在即在抛掷试验中抛掷试验中,出现出现1点,点,2点,点,6点的概率都应是点的概率都应是. 6/1为检验骰子是否均匀为检验骰子是否均匀,要重复地进行抛掷骰子的试要重复地进行抛掷骰子的试验验, 并统计各点出现的频率与并统计各点出现的频率与6
4、/1的的差距差距.问题归结为问题归结为:如何利用得到的统计数据对如何利用得到的统计数据对“骰子均骰子均匀匀”的假设进行检验的假设进行检验. 2 检验法的基本思想检验法的基本思想2 检验法是在总体检验法是在总体X的分布未知时的分布未知时, 根据来自总根据来自总体的样本体的样本,检验关于总体分布的假设的一种检验检验关于总体分布的假设的一种检验方法方法. 具体进行检验时,具体进行检验时, 先提出原假设:先提出原假设::0H总体总体X的分布函数为的分布函数为).(xF如果总体分布为如果总体分布为离散型离散型,则假设具体为则假设具体为:0H总体总体X的分布律为的分布律为;, 2 , 1, ipxXPii
5、如果总体分布为如果总体分布为连续型连续型,则假设具体为则假设具体为:0H总体总体X的概率密度函数为的概率密度函数为).(xf二、然后根据样本的经验分布和所假设的理论分布之间然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设的吻合程度来决定是否接受原假设, 这种检验通常这种检验通常称作称作拟合优度检验拟合优度检验, 它是一种它是一种非参数检验非参数检验.一般地,一般地,我们总是根据样本观察值用直方图和经验我们总是根据样本观察值用直方图和经验分布函数,分布函数, 推断出可能服从的分布,推断出可能服从的分布, 然后作检验然后作检验. 2 检验法的基本原理和步骤检验法的基本原理
6、和步骤(1):0H总体总体X的分布函数为的分布函数为).(xF(2)区间,区间,记为记为,21kAAA如可取为如可取为,(,(2110aaaa),(,(112kkkkaaaa 其中其中0a可取可取ka, 可取可取. 区间的划分视具体区间的划分视具体情况而定,情况而定, 使每个小区间所含样本值个数不小于使每个小区间所含样本值个数不小于5,而区间个数而区间个数k不要太大也不要太小不要太大也不要太小. 提出原假设提出原假设X的取值范围分成的取值范围分成k个互不相交的小个互不相交的小将总体将总体(3)i个小区间个小区间iA的样本值的个数记作的样本值的个数记作把落入第把落入第,if称为称为组频数组频数,
7、所有组频数之和所有组频数之和 21ffkf 三等于等于样本容量样本容量.n(4)根据所假设的总体理论分布根据所假设的总体理论分布,算出总体算出总体X的值落入第的值落入第i个小区间个小区间iA的概率的概率,ip于是于是inp就是落入第就是落入第i个小区间个小区间iA的样本值的的样本值的理论理论频数频数.(5)可可0H为真时为真时,当当0H为真时为真时,当当区间区间iA的频率的频率nfi/与概率与概率ip应很接近应很接近,n次试验中样本值落入第次试验中样本值落入第i个小个小当当0H不真不真时时,nfi/与与ip相差较大相差较大. 引入统计量引入统计量,)(122 kiiiinpnpf 皮尔逊证明了
8、下列皮尔逊证明了下列定理:定理:定理定理当当n充分大充分大)50( n时,时,2 近似服从近似服从)1(2 k 分布分布. (6)对给定的显著性水平对给定的显著性水平, 根据定理根据定理,确定确定l值值,使使,2 lP查查2 分布表得分布表得,),1(2 kl 所以拒绝域为所以拒绝域为).1(22 k (7)的实测值落入拒绝域,的实测值落入拒绝域, 则拒绝原假设则拒绝原假设,0H否则就认否则就认为差异不显著而接受原假设为差异不显著而接受原假设.0H2 nxxx,21算得统计量算得统计量若由所给的样本值若由所给的样本值例例1 将一颗骰子掷将一颗骰子掷120次次, , 所得数据见下表所得数据见下表
9、解解则则16点中每点出点中每点出现的可能性相同现的可能性相同, , 都为都为1/6. 如果用如果用iA表示第表示第i点出现点出现),6 , 2 , 1( i则待检假设则待检假设6/1)(:0 iAPH. 6 ,2 , 1 i在在0H成立的条件下成立的条件下, 理论概率理论概率, 6/1)( iiApp151520212623654321ifi出出现现次次数数点点数数问这颗骰子是否均匀、问这颗骰子是否均匀、?)05. 0 对称对称 (取取若这颗骰子是均匀的、若这颗骰子是均匀的、 对称的对称的, ,由由120 n得频率得频率.20 inp计算结果如下表计算结果如下表. .查表得查表得.071.11
10、)5()1(205. 02 k因此分布不含未知参数因此分布不含未知参数, , 又又, 6 k,05. 0 由上表由上表, , 知知iifipinp)/()(2iiinpnpf 123456231/6209/20261/62036/20211/6202020201/61/61/61/20201515025/2025/20合计合计1204.8由上表由上表, , 知知iifipinp)/()(2iiinpnpf 123456231/6209/20261/62036/20211/6202020201/61/61/61/20201515025/2025/20合计合计1204.8,071.118 . 4)
11、(6122 iiiinpnpf 故接受故接受,0H认为这颗骰子是均匀对称的认为这颗骰子是均匀对称的. .四、总体含未知参数的情形四、总体含未知参数的情形在对总体分布的假设检验中,在对总体分布的假设检验中,分布函数的形式分布函数的形式, 但其中还含有未知参数但其中还含有未知参数,数为数为),(21rxF 其中其中r ,21为未知参数为未知参数. 设设nXXX,21自总体自总体X的样本的样本, 现要用此样本函数来检验现要用此样本函数来检验假设:假设::0H总体总体X的分布函数为的分布函数为),(21rxF 有时只知道总体有时只知道总体X的的即分布函即分布函是取是取此类情况可按如下步骤进行检验:此类
12、情况可按如下步骤进行检验:,21nXXX利用样本利用样本求出求出r ,21的最的最(1)大似然估计大似然估计;,21r (2)则则),(21rxF 就变成完全已知的分布函数就变成完全已知的分布函数);,(21rxF (3), 2r),(21rxF 中用中用i 代替代替, 1( ii 在在ip时时,计算计算利用利用),(21rxF 计算计算ip的估的估计值计值);, 2 , 1(kipi (4) 计算要检验的统计量计算要检验的统计量,/)(212iikiipnpnf 当当n充分大时充分大时, 统计量统计量2 近似地服从近似地服从)1(2 rk 分布分布;(5)得拒绝域得拒绝域, 对给定的显著性水
13、平对给定的显著性水平 kiiiirkpnpnf1222).1(/)( 注注:在使用皮尔逊在使用皮尔逊2 检验法时检验法时, 要求要求,50 n每个理论频数每个理论频数), 1(5kinpi 否则应适当地合否则应适当地合并相邻的小区间,并相邻的小区间,使使inp满足要求满足要求.以及以及例例2参数为参数为 的泊松分布的泊松分布. .根据观察结果根据观察结果, , 得参数得参数 的最大似然估计为的最大似然估计为.69. 0 x 按参数为按参数为0.69的泊松分布的泊松分布, ,ip的估计是的估计是, !/69. 069. 0iepii 根据引例所给数表根据引例所给数表, , 将有关计算结果列表如下
14、将有关计算结果列表如下: :检验引例中对战争次数检验引例中对战争次数XH :0提出的假设提出的假设X服从服从计算事件计算事件iX 的概率的概率,ip4 , 3 , 2 , 1 , 0 i战争次数战争次数实测频数实测频数if01234223142481540.50160.34600.1190.02780.05ip ipn216.7149.551.612.02.160.1830.3760.2511.654iiipnpnf/)(2 464. 2x例例2参数为参数为 的泊松分布的泊松分布. .根据引例所给数表根据引例所给数表, , 将有关计算结果列表如下将有关计算结果列表如下: :检验引例中对战争次数
15、检验引例中对战争次数XH :0提出的假设提出的假设X服从服从战争次数战争次数实测频数实测频数if01234223142481540.50160.34600.1190.02780.05ip ipn216.7149.551.612.02.160.1830.3760.2511.654iiipnpnf/)(2 464. 2x将将5 ipn的组予以合并的组予以合并, , 即将以生即将以生3次及次及4次战争的次战争的组归并为一组组归并为一组. . 因因0H所假设的理论分布中有一个未所假设的理论分布中有一个未知参数知参数, , 故自由度为故自由度为. 2114 按按,05. 0 自由度为自由度为2 查查2
16、分布表得分布表得,991. 5)2(205. 0 因统计量因统计量2 的观察值的观察值,991. 5464. 22未落入拒未落入拒绝域绝域. .的泊松分布的泊松分布. .故认为每年发生战争的次数故认为每年发生战争的次数服从参数为服从参数为0.69X例例3投放了四种鱼投放了四种鱼: : 鲑鱼、鲈鱼、竹夹鱼和鲇鱼的鱼苗鲑鱼、鲈鱼、竹夹鱼和鲇鱼的鱼苗.现在在鱼塘里获得一样本如下现在在鱼塘里获得一样本如下: :试取试取05. 0 检验各类鱼的数量的比例较检验各类鱼的数量的比例较10前是否前是否有显著改变有显著改变. .解解按题意需检验假设按题意需检验假设: :XH :0的分布律为的分布律为一农场院一农
17、场院10年前在一鱼塘里按比例年前在一鱼塘里按比例20:15:40:25序号序号种类种类1234鲑鱼鲑鱼鲈鱼鲈鱼 竹夹鱼竹夹鱼 鲇鱼鲇鱼数量数量(条条)132100200168600 以以记鱼种类的序号记鱼种类的序号,XXip12340.20 0.150.40 0.25按题意需检验假设按题意需检验假设: :XH :0的分布律为的分布律为以以记鱼种类的序号记鱼种类的序号,XXip12340.20 0.150.40 0.25所需计算列在下表中所需计算列在下表中. .14.61116.18815025. 016867.16624040. 020011.1119015. 010020.14512020.
18、 0132/43212 AAAApnfpnpfAiiiiii现在现在但但60041 . 1162 , 41 . 11 , 4 k, 0 r, 41 . 11815. 7 故拒绝故拒绝,0H数量之比较数量之比较10年前有显著改变年前有显著改变.认为各鱼类认为各鱼类)1(205. 0 rk ) 3 (205. 0 完完例例4 在一实验中在一实验中, , 每隔一定时间观察一次由某种铀每隔一定时间观察一次由某种铀共观察了共观察了100次次,得结果如下表所示得结果如下表所示: :其中其中if是观察到有是观察到有i个个 粒子的次数粒子的次数. . 从理论上考虑从理论上考虑,!ieiXPi 所放射的到计数器
19、上的所放射的到计数器上的 粒子数粒子数,X应服从泊松分布应服从泊松分布X知知, 2 , 1 , 0 i试在水平试在水平0.05下检验假设下检验假设:0H总体总体服从泊松分布服从泊松分布:X1211109876543210012129911261716511211109876543210AAAAAAAAAAAAAAfiii ,!ieiXPi ., 2 , 1 , 0 i解解给出给出, ,估计估计. 由最由最大似然估计法大似然估计法在在0H假设下假设下, ,松分布的假设松分布的假设能取的值为能取的值为X所有可所有可iipnf2ipnip ifiA0A4A11A3A5A6A7A8A2A1A9A10A
20、12A参数参数 未具体未具体所以先所以先因在因在0H中中. 2 . 4 x 得得即在即在X服从泊服从泊下下, 2 , 1 , 0将其分成如表所示的两两不相交的子集将其分成如表所示的两两不相交的子集解解iipnf2ipnip ifiA0A4A11A3A5A6A7A8A2A1A9A10A12A将其分成如将其分成如表所示的两两表所示的两两不相交的子集不相交的子集则则iXP 有有,!2 . 42 . 4iepii , 1 , 0 i,1210AAA估计估计计算结果如表计算结果如表所示所示,其中有些其中有些5 ipn的组予以适当合并的组予以适当合并, 使得每组均有使得每组均有, 5 ipn1516172
21、61199212100.0150.0630.1320.1850.1940.1630.1140.0690.0360.0170.0070.0030.021.56.313.218.519.416.311.46.93.61.70.70.30.2解解iipnf/2ipnip ifiA0A4A11A3A5A6A7A8A2A1A9A10A12A计算结果如表计算结果如表所示所示,其中有些其中有些5 ipn的组予以的组予以组均有组均有,5ipn15161726119921210660.0150.0630.1320.1850.1940.1630.1140.0690.0360.0170.0070.0030.021.
22、56.313.218.519.416.311.46.93.61.70.70.30.20.0780.0657.86.54.61519.39415.62234.8457.4237.10511.7395.538128.061 适当合并适当合并,使得每使得每如表中第四列花如表中第四列花括号所示括号所示. 此处此处, ,并组后并组后, 8 k因在计算概率时因在计算概率时,估计了一个参数估计了一个参数, 故故, 1 r2 的自由度为的自由度为. 6118 但但查表得查表得,592.12281. 6100281.1062 现在现在592.12)6()118(205. 0205. 0 故在水平故在水平0.05
23、下接受下接受,0H即认为样本来自泊松布总体即认为样本来自泊松布总体.例例5分布分布, ,从一批棉纱中随机抽取从一批棉纱中随机抽取300条进行拉力试验条进行拉力试验,果列在下表中果列在下表中, , 我们的问题是检验假设我们的问题是检验假设),(:20 NXH解解 可按以下四步来检验可按以下四步来检验: :(1)ix分成分成13组组: :将观测值将观测值为检验棉纱的拉力强度为检验棉纱的拉力强度(单位单位: :公斤公斤)X服从正态服从正态结结,13 a, 81 . 212 a,0 a,78. 02 a,64. 01 a5648. 134. 17138. 218. 2135334. 120. 1631
24、8. 204. 2123720. 106. 151604. 290. 1112506. 192. 041990. 176. 110992. 078. 032576. 162. 19278. 064. 025362. 148. 18164. 05 . 01iifxifxi).01. 0( 但是这样分组后但是这样分组后, , 前两组和最后两组的前两组和最后两组的inp比较小比较小,故故(2)这里这里)(xF就是正态就是正态计算每个区间上的理论频数计算每个区间上的理论频数. .把它们合并成为一个组把它们合并成为一个组(见分组数据表见分组数据表)棉纱拉力数据的分组表棉纱拉力数据的分组表31. 969.
25、 60223. 01604. 290. 11048. 152.170584. 01990. 176. 1915.1115.361205. 02576. 162. 1838. 238.551846. 05362. 148. 1784. 784.632128. 05648. 134. 1638. 238.551846. 05334. 120. 1585. 015.361205. 03720. 106. 1448. 752.170584. 02506. 192. 0331. 269. 60223. 0992. 078. 0232. 268. 40156. 0704. 278. 01 或或区区间间区区
26、间间序序号号iiiiipnfpnpf解解 可按以下四步来检验可按以下四步来检验: :(1)ix分成组分成组将观测值将观测值(2)这里这里)(xF就是正态就是正态计算每个区间上的理论频数计算每个区间上的理论频数. .分别用它们的最大似然估计分别用它们的最大似然估计分布分布),(2 N的分布函数的分布函数, , 含有两个未知数含有两个未知数 和和,2 来代替来代替. . 关于关于X的计算作如下说明的计算作如下说明: :因拉力数据表中因拉力数据表中的每个区间都很狭窄的每个区间都很狭窄, ,然后将每个区间的中点值乘以该然后将每个区间的中点值乘以该取这个区间的中点取这个区间的中点, ,区间的样本数区间的
27、样本数, , 将这些值相加再除以总样本数就得将这些值相加再除以总样本数就得我们可认为每个区间内我们可认为每个区间内iX都都X 和和 niinXX122/)( 具体样本均值具体样本均值,X计算得到计算得到: :,41. 1 .26. 022 解解(2) 计算每个区间上的理论频数计算每个区间上的理论频数. .分别用它们的最大似然估计分别用它们的最大似然估计两个未知数两个未知数 和和,2 来代替来代替. ., 14 . 1 2226. 0 计算它在上面计算它在上面对于服从对于服从)26. 0 ,41. 1(2N的随机变量的随机变量,Yi个区间上的概率个区间上的概率.ip第第(3)如分组表中所列如分组
28、表中所列. . 30021,xxx中落在每个区间的实际频数中落在每个区间的实际频数,if计算计算(4),07.22)(10122 kiiipnpnf 计算统计量值计算统计量值:因为因为, 2,100 rk故故2 的自由度为的自由度为, 71210 解解(4),07.22)(10122 kiiipnpnf 计算统计量值计算统计量值:因为因为, 2,10rk故故2 的自由度为的自由度为, 71210 查表得查表得,07.2248.18)7(2201. 0 故拒绝原假设故拒绝原假设,即认为棉纱拉力强度不服从正态分布即认为棉纱拉力强度不服从正态分布. .内容小结内容小结在实际问题中在实际问题中, 有时
29、我们并不能确切预知总体服从有时我们并不能确切预知总体服从何种分布何种分布, 这时就需要根据来自总体的样本对总体这时就需要根据来自总体的样本对总体的分布进行推断的分布进行推断,以判断总体服从何种分布以判断总体服从何种分布,这类统这类统计检验称为计检验称为非参数检验非参数检验. 本节介绍了一类非参数检本节介绍了一类非参数检验方法验方法:2 检验法检验法2 检验法的基本思想检验法的基本思想2 检验法的基本原理和步骤检验法的基本原理和步骤2 检验法总体含未知参数的情形检验法总体含未知参数的情形2 检验法是在总体检验法是在总体X的分布未知时的分布未知时, 根据来自总根据来自总体的样本检验关于总体分布的假设的一种试验方体的样本检验关于总体分布的假设的一种试验方法法.具体进行检验时具体进行检验时, 先提出原假设先提出原假设:0H总体总体X的分布函数为的分布函数为).(xF如果总体分布为如果总体分布为离散型离散型,则假设具体为则假设具体为:0H总体总体X的分布律为的分布律为 ;, 2 , 1, ipxXPii如果总体分布为如果总体分布为连续型连续型, 则假设具体为则假设具体为:0H总体总体X的概率密度函数为的概率密度函数为).(xf检验法的基本思想检验法的基本思想2 检验法的基本思想检验法的基本思想2 然后根据样本的经验
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年公务员考试《常识》题库检测试题打印附完整答案详解(各地真题)
- 2024-2025学年医疗器械类高分题库及参考答案详解【研优卷】
- 2024-2025学年度周口理工职业学院单招《语文》试卷附答案详解(B卷)
- 2024-2025学年度咨询工程师考试历年机考真题集(夺冠系列)附答案详解
- 2024-2025学年度机械设备制造修理人员模拟试题【考点提分】附答案详解
- 2024-2025学年度无人机资格证考前冲刺练习试题附答案详解(黄金题型)
- 2026中国人寿校招真题及答案
- 行政人员工作效率提升工具箱
- 2026中国农业发展校招试题及答案
- 2024-2025学年度中医执业医师检测卷及答案详解【典优】
- 2026年南阳科技职业学院单招职业技能测试题库及答案详解(真题汇编)
- 【新教材】统编版(2024)小学三年级语文下册第6课《会摇尾巴的狼》教案(教学设计)
- 2025至20303D打印行业市场发展分析及前景趋势与投融资发展机会研究报告
- 企业知识管理系统功能需求分析
- 青岛华通集团招聘笔试题
- 护士分层培训考核制度
- 贵州大桥介绍
- 潜水泵维修培训课件
- 大学生就业指导(第4版 实践版)课件全套 陈叙龙 第1-10章 剖析就业形势与政策 -大学生就业与创业案例分析
- 冷却塔水泵机组更换施工方案
- 昏迷恢复量表CRS-R使用指南
评论
0/150
提交评论