第三节---非参数假设检验推荐课件_第1页
第三节---非参数假设检验推荐课件_第2页
第三节---非参数假设检验推荐课件_第3页
第三节---非参数假设检验推荐课件_第4页
第三节---非参数假设检验推荐课件_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、12021/8/22我们已讨论的假设检验是建立在假定样本来自的总体是正态分布的。当没有这个假定或不成立时,这些检验的结论就可能被质疑。为了解决该问题,统计学家发展了无需上述假定的非参数检验。22021/8/221.定义:它泛指参数假设检验以外的各种检验。2.特点:(1)非参数检验不依赖于总体分布。(2)非参数假设检验适用于较低的计量水平,如等级、顺序的计量等。 (3)常常用于参数以外的检验,如随机变量是否服从某种规律、某种分布的拟合优度检验,数据是否随机的游程检验等。32021/8/221.如何探讨数据规律(一)分类(一)分类数据数据的拟合优度检验的拟合优度检验2二、检验 显示数据规律性的方法

2、:频数分布表,能否了解数据来自某一分布或与某一理论分布相一致的程度如何?2-检 验 直方图和统计量的检测可能给出了一些探索性的假设。然而,这些应该用一些较为正规的方式来加以论证。拟合优度检验给出了统计意义上的证据来检验有关分布的假设。最为通用的拟合优度检验是卡方卡方检验检验。42021/8/22拟合优度的卡方检验的假设为:抽样数据来自于一个特殊的分布(如正态分布)0H:抽样数据不是来自于这个特殊的分布1H52021/8/222.利用 进行拟合优度检验的步骤:2,(1,2,)iuim第一步:先将观测到的数据分类,假设分成m类, 每类中的频数为第二步:根据观测结果似乎服从某一理论分布的 规律,需要

3、进一步检验。按照理论分布, 各类的频数应为(1,2,)iienP im:根据理论分布,观测发生在第i类的概率。iP第三步:计算统计量221()miiiiuee62021/8/22 如果理论分布的参数是预先给定的(已知的),则 统计量服从自由度为m-1的 分布。若理论分布的参数是未知的,需要用样本观测值来估计时, 统计量服从自由度为m-r-1的 分布,其中r为需要估计的参数的个数。222272021/8/2222a第四步:根据显著性水平a查 分布表求相应的 临界值 22a 时,拒绝原假设,说明样本观测并非来自该理论分布。82021/8/22【例6.10】某百货公司的电器部下半年各月洗衣机 的销售

4、数量如下: 该电器部经理想了解洗衣机的销售数量是否在各月是均匀分布的,也就是说各月中销售数量的差别可以归结为随机原因,这样可以为以后的进货提供依据。要求以a=0.05 的显著性水平进行检验。92021/8/22解:本例中的观测值以月为组,共分为m=6组,每 月的销售台数即为观测的频数 ,观测的总次数为n=150。现欲检验是否服从(离散的)均匀分布,即每月的销售量是否为iv15025(),6iienP台1,1,66iPi为此,设0H1H:洗衣机销售量服从均匀分布;:并不服从均匀分布;102021/8/22计算 统计量的值:22621222222()(2725)(1825)(1525)(2425)

5、25252525(3625)(3025)122525iiiiuee ,说明下半年各月销售量与均匀分布有差别,这些差别尚不能完全归结为随机原因。0H所以拒绝 在本例的情况下, 统计量的自由度为m-1=6-1=5。查表得知,20.05(5)11.072,1211.07由于2112021/8/22【例6.11】在高速公路收费站100分钟内观测到通过 收费站的汽车共190辆,每分钟通过的汽车辆 数分布如下表:用显著性水平a=0.05检验这些数据是否来自泊松分布。解:设 :汽车通过收费站的辆数服从泊松分布; :不服从泊松分布。0H1H观测值分为5组,且有012410,26,35,5uuuu122021/

6、8/22回忆泊松分布,0,1,2,!xeP Xxxx 其中 为泊松分布的期望值,是未知的,需要用样本观测值来估计。由于100分钟内观测到190辆汽车,所以平均每分钟观测到190/100=1.9辆汽车,故取 。据此,我们可以用参数 的泊松分布来计算每分钟内通过收费站的汽车为0辆、1辆、2辆、3辆、4辆或更多的概率。1.91.9132021/8/22ie计算 统计量的值:2222222(14.96 10)(28.4226)(27.035)14.9614.9614.96(17.124)(12.525)11.5214.9614.96自由度为m-1-1=5-1-1=3,临界值20.05(3)7.185

7、,说明每分钟通过收费站的汽车辆数不服从泊松分布。0H所以拒绝各概率乘以观测总数n=100,便得到理论频数 ,具体结果见下表:ie142021/8/22 在应用 分布拟合优度检验时,应注意每一类中理论频数不宜过小,通常应不小于5。如果出现理论频数太低,就应当与邻近的类进行合并。2152021/8/22(二(二) 分布分布的独立性检验的独立性检验2 拟合优度检验是根据样本观测值与一个理论值进行比较来检验的,但是有些数值并不知道服从何种理论分布。因此在双边量的分布中,有时想了解两个变量是相依的还是独立的。卡方检验可用于这样的检验,称作卡方的独立性检验。 这种情况下可以使用列连表进行分析,并用卡方进行

8、独立性检验。列连表是一个表示两个分类变量的r行c列的矩阵。162021/8/221.如何探讨两个变量是相依的还是独立的 的 独立性检验2.检验的基础列联表列联表的构成理论频数的计算独立性检验的统计量2172021/8/22P187表6.2 表6.2是最简单的2行2列的列联表,它可以扩展到rc列联表。 代表行的第1类和列的第1类所出现的实际频数,依次类推。那么相应于 理论值如何计算呢?因为 位于第1行,整个样本量为n,落入第1行的概率根据样本估计应该是 , 又同时位于第1列,落入第1列的概率根据样本计算应该是11f11f11f1(/ )rn11f1(/ )cn182021/8/22根据概率论的原

9、理,如果行和列的变量是独立的,那么落入第1行和第1列的概率应该是 , 由于样本量为n,则落入第1行第1列的理论频数应该是11(/ )(/ )rn cn111 111( )()rcrcennnn( )()jijiijcrcrennnn由此可以推广到在独立性检验中的 统计量为22211()rcijijijijfee192021/8/22【例6.12】某副食品商店欲研究顾客的性别与购物金额大小之间 是有关系,还是没有关系(意味着相互独立)。在该商店内 随机调查了548位顾客,按金额大小和性别进行分类,取得 如下数据(见表6.3):表6.3顾客的性别与购买金额列联表(括号内是理论频数 )ije要求用a

10、=0.05的显著性水平检验顾客的性别和购买金额是否独立。解: :购物的金额大小与性别无关(独立); :购物的金额大小与性别有关。0H1H202021/8/22计算列联表各格的理论值:111213212223(106)(260)(210)(260)50.2999.46548548(232)(260)(106)(288)110.0755.71548548(210)(288)(232)(288)110.36121.93548548ijijrceneeeeee212021/8/222222222(40 50.29)(90 99.64)(130 110.07)50.2999.64110.07(66 55

11、.71)(120 110.36)(102 121.93)55.71110.3650.292.105 0.933 3.609 1.901 0.842 3.25812.648并列入列联表各格的括号内。计算 值2222021/8/2223列联表的自由度为(r-1)(c-1)=2,当a=0.05时,20.055.991220.05 ,拒绝 ,接受 ,即购物的金额大小与性别有关。0H1H22列联表的2值计算还可以简化,为了说明方便,将列联表每格的数字用字母表示22()()()()()n adbcac bd ab cd232021/8/22【例6.13】某市场调研机构,调查某种光盘的购买者和性别 之间是否

12、有关系取得如下数据:令a=0.05,用 独立性检验推断购买某种光盘与性别是否有关?2解: :购买与性别无关, :购买与性别有关。 现采用两种方法计算 值。0H1H2222222()(3226)(118124)26124(2026)(130125)261241.38460.29031.38460.29033.3498fee242021/8/22222()()()()()300(32)(130)(118)(20)(52)(248)(150)(150)3.3498n adbcac bd ab cd两种方法的计算结果相同当a=0.05, ,接受 ,说明买该光盘与性别的关系不显著。220.05(1)3.

13、841,3,8410H252021/8/22三、秩和检验(等级和检验)三、秩和检验(等级和检验) 参数中均值检验在小样本时是如何处理的要求总体服从正态分布,当总体不符合正态分布时如何处理?转换成等级,然后检验,这一类的检验统称为秩和检验。(一)曼(一)曼- -惠特尼惠特尼U U检验检验1.什么是曼-惠特尼U检验。它假设两个样本分别来自两个总 体,目的是检验这两个总体的均值是否有显著的差别。2.具体步骤。第一步:把两组数据混和在一起,按照大小顺序编排等级。 最小的为1,其次为2等等,两个数据和三个数据相等如 何处理?262021/8/22 若有两个数据相等,且它们在按大小顺序编排好的数列里是第m

14、和第m+1个数据,则它们的等级(也称作秩)都是m+(m+1)/2=2m+1/2。同理,若有3个数据相等,且它们在按大小顺序编排好的数据列里第m,第m+1和第m+2位数据,则它们的等级都是3m+3/3=m+1。第二步:分别求两个样本的等级和。设第一个样本的等级和 为 ,第二个样本的等级和为 ,则有 1W2W12(1)/ 2WWn n第三步:计算曼-惠特尼U检验统计量111121222122(1)2(1)2n nUn nWn nUn nW从 和 中选择较小者并称其为 。1U2UU272021/8/22第四步:作出判断 对于 都比较小的情形,可以查附表6得到临界值 ,在 时,拒绝 。在原假设为真的情

15、况下,可以证明随机变量U的均值和方差分别为12,n naUU012:HaU121212()2(1)()12n nE Un nnnD U并且当 和 都不小于10时,随机变量1n2n( )( )UE UZD U近似地服从标准正态分布。282021/8/22012112001211200121120:,:,:,HHZZHHHZZHHHZZH 如果则拒绝;对于如果则拒绝;对于如果则拒绝 设第一个总体的均值为 ,第二总体的均值为 ,则对于12292021/8/22【例6.14】为了比较两个小学贯彻素质教育的情况,现从甲学 校抽15名学生,乙学校抽25名学生,按素质教育的要求进 行测试并评分,按评分高低顺

16、序排队并编上等级,其结果 如下:要求以显著性水平a=0.05检验两学校的素质教育有没有差别。解:解:我们假设两个学校的素质教育除了平均水平以外在 其他方面没有差异。我们需要检验 :两校素质教育水平无差异。 :两校素质教育水平有差异。0H1H302021/8/22计算U值:(15)(16)15 253331622U U的均值和标准差分别为121212( )187.52(1)( )35.812( )162 187.50.7135.8( )n nE Un n nnD UUE UZD U 因此,0.052=0.711.96ZZ因为 ,所以我们不能拒绝 ,说明两个学校素质教育的水平没有显著性的差异。0H

17、312021/8/22(二)威尔科克森带符号的秩检验(二)威尔科克森带符号的秩检验1.什么是威尔科克森带符号的秩检验?它只要求数据之差所 服从的分布是对称分布。目的是检验成对观测的数据之差 是否来自均值为0的总体,或产生数据的两个总体是否具 有相同的均值。2.具体步骤。第一步:求出成对观测数据的差 ,并将其绝对值按 照大小顺序编排等级。最小的为1,其次为2等等。 两个数据和三个数据相等如何处理?同曼-惠特 尼U检验。id322021/8/22第三步:作出判断对于小样本,根据显著性水平a查数表7,得到临界值 ,若 则拒绝 ;对于大样本(观测不少于20对),可以证明统计量T的均值和方差分别为aTa

18、TT0H(1)( )4(1)(21)( )24n nE Tn nnD T其中n为成对观测的个数,并且( )( )TE TZD T近似地服从标准正态分布 因此,对于单侧检验,若 ,则拒绝 ;对于双侧检验,若 ,则拒绝 。aZZ 0H0H/2aZZ 第二步:编码等级后再恢复其正负号,并将正号的等级与负号的 等级分别相加,分别用 表示。取较小的一个为威尔科 克森检验统计量。TT和332021/8/22【例6.15】为比较两种轮胎的平均使用里程,在6辆汽车的后轮分 别用两种不同的牌号的轮胎,直到用坏后加以记录里程, 取得的数据如表6.5。要求a=0.05,检验两种轮胎的平均行驶里程是否有显著差别。34

19、2021/8/22解:解: :两种轮胎的平均行驶里程无显著差别, :两种轮胎的平均使用里程有差别。0H1H将成对的差列于表6.5的第4列( ),根据 的绝对值由小到大顺序编号,然后恢复正负号,再将不同符号的等级分别相加,见表6.5最后一列。计算得到正负号的等级和, ,用较小的T与临界值Ta相比较,由附表7得到:对于a=0.05的双侧检验,n=6时, ,T已超过临界值,因此不能推翻 ,可认为两种轮胎的行驶里程无显著差别。idid9,12TT0.0251T0H352021/8/22【例6.16】某饮料商用两种不同的配料方法推出了两种新的饮料, 现抽取了20个消费者,让其分别品尝两种饮料并加以评分,

20、 从不喜欢到喜欢,评分由110,其评分结果如下:要求以a=0.05的显著性水平检验对两种饮料的评分是否有显著差别。解:应用威尔科克森带符号的成对检验,将评分之差变换为等级, 再恢复正负号,其计算过程见计算表6.6。将评分相同的样本 加以剔除,因此样本量就由20变为18。362021/8/22最后得到 ,取其中较小的 来检验,在大样本的情况下T近似正态分布表6.6154,17TT17T372021/8/22(1)(18)(19)( )85.544(1)(21)(18)(19)(37)( )527.252424( )1785.52.98( )527.25n nE Tn nnV TTE TZV T 当a=0.05时双侧检验,因此拒绝 接受 ,说明两种饮料的评分有差别。0H1H382021/8/22四、等级相关系数及其检验四、等级相关系数及其检验主要用于测量两组变量之间是否存在相关以及相关程度数值型和非数值型:(一)测定两组等级变量之间的相关系数1.斯皮尔曼等级相关系数2261(1)iS

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论