第五章 假设检验_第1页
第五章 假设检验_第2页
第五章 假设检验_第3页
第五章 假设检验_第4页
第五章 假设检验_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、假设检验 在数据分析中,经常要对数据进行一定的假设,例如,数据的算术平均值,或者数据的方差等等,数据是否满足这些假设,需要检验。(一)假设检验中的几个重要概念(1)原假设(零假设)、备选假设 在显著水平下检验原假设 备选假设 (2)双边检验、单边检验双边检验在显著水平下检验原假设 备选假设 其中,备选假设中可能发生,也可能发生单边检验在显著水平下检验原假设 备选假设 或者在显著水平下检验原假设 备选假设 (3)拒绝域、临界点当检验统计量取某个区域中的值时,拒绝原假设,则称该区域为拒绝域。拒绝域的边界点叫做临界点。(4)第1类错误、第2类错误当原假设实际上为真,却拒绝原假设,此类错误成为“弃真”

2、错误,或叫做第1类错误。当原假设实际上不真,却接受原假设,此类错误成为“取伪”错误,或叫做第2类错误。(二)假设检验(1)单个样本的t检验 在总体样本的方差未知的情况下,检验样本的平均数?,用下面的统计量来检验其平均数的显著性当原假设成立时,上面的统计量应该服从自由度为n-1的t分布。 在Matlab软件包中,使用函数即行此种检验,主要格式有:,表示在显著水平时进行t检验,在样本数据X的方差未知的情况下,确定样本数据X是否满足正态分布,并且数据的均值是否满足?如果h = 1,则在的显著水平下拒绝原假设;若h = 0,则不能在的显著水平下拒绝原假设(即,可以考虑接受原假设)。,表示由人工自选显著

3、水平,其中选项tail的取值可以有3种:tail 0(默认设置),表示进行双边检验;tail 1,表示进行单边检验,备选假设是;tail -1,表示进行单边检验,备选假设是;另外,如果h = 1,则在的显著水平下拒绝原假设;若h = 0,则不能在的显著水平下拒绝原假设(即,可以考虑接受原假设)。Sig表示原假设为时,统计量的概率值。ci表示样本X的理论均值所在的区间。例1 有100个数据如下:x = -0.4326,-1.6656,0.1253,0.2877,-1.1465,1.1909,1.1892,-0.0376,0.3273,0.1746, -0.1867,0.7258,-0.5883,

4、2.1832,-0.1364,0.1139,1.0668,0.0593,-0.0956,-0.8323,0.2944, -1.3362,0.7143,1.6236,-0.6918,0.8580,1.2540,-1.5937,-1.4410,0.5711,-0.3999,0.6900, 0.8156,0.7119,1.2902,0.6686,1.1908,-1.2025,-0.0198,-0.1567,-1.6041,0.2573,-1.0565, 1.4151,-0.8051,0.5287,0.2193,-0.9219,-2.1707,-0.0592,-1.0106,0.6145,0.5077

5、,1.6924, 0.5913,-0.6436,0.3803,-1.0091,-0.0195,-0.0482,0.0000,-0.3179,1.0950,-1.8740,0.4282, 0.8956,0.7310,0.5779,0.0403,0.6771,0.5689,-0.2556,-0.3775,-0.2959,-1.4751, -0.2340,0.1184,0.3148,1.4435,-0.3510,0.6232,0.7990,0.9409,-0.9921,0.2120,0.2379, -1.0078,-0.7420,1.0823,-0.1315,0.3899,0.0880,-0.635

6、5,-0.5596,0.4437,-0.9499,0.7812,0.5690,-0.8217,-0.2656;第1步 求其平均值x = -0.4326,-1.6656,0.1253,0.2877,-1.1465,1.1909,1.1892,-0.0376,0.3273,0.1746, -0.1867,0.7258,-0.5883,2.1832,-0.1364,0.1139,1.0668,0.0593,-0.0956,-0.8323,0.2944, -1.3362,0.7143,1.6236,-0.6918,0.8580,1.2540,-1.5937,-1.4410,0.5711,-0.3999

7、,0.6900, 0.8156,0.7119,1.2902,0.6686,1.1908,-1.2025,-0.0198,-0.1567,-1.6041,0.2573,-1.0565, 1.4151,-0.8051,0.5287,0.2193,-0.9219,-2.1707,-0.0592,-1.0106,0.6145,0.5077,1.6924, 0.5913,-0.6436,0.3803,-1.0091,-0.0195,-0.0482,0.0000,-0.3179,1.0950,-1.8740,0.4282, 0.8956,0.7310,0.5779,0.0403,0.6771,0.5689

8、,-0.2556,-0.3775,-0.2959,-1.4751, -0.2340,0.1184,0.3148,1.4435,-0.3510,0.6232,0.7990,0.9409,-0.9921,0.2120,0.2379, -1.0078,-0.7420,1.0823,-0.1315,0.3899,0.0880,-0.6355,-0.5596,0.4437,-0.9499,0. 7812,0.5690,-0.8217,-0.2656;mean(x)得到结果:第2步 进行检验 在Matlab软件包中写一个名字为opt_ttest_1的M文件:x =-0.4326,-1.6656,0.125

9、3,0.2877,-1.1465,1.1909,1.1892,-0.0376,0.3273,0.1746,-0.1867,0.7258,-0.5883,2.1832,-0.1364,0.1139,1.0668,0.0593,-0.0956,-0.8323,0.2944,-1.3362,0.7143,1.6236,-0.6918,0.8580,1.2540,-1.5937,-1.4410,0.5711,-0.3999,0.6900,0.8156,0.7119,1.2902,0.6686,1.1908,-1.2025,-0.0198,-0.1567,-1.6041,0.2573,-1.0565,1

10、.4151,-0.8051,0.5287,0.2193,-0.9219,-2.1707,-0.0592,-1.0106,0.6145,0.5077,1.6924, 0.5913,-0.6436,0.3803,-1.0091,-0.0195,-0.0482,0.0000,-0.3179,1.0950,-1.8740,0.4282,0.8956,0.7310,0.5779,0.0403,0.6771,0.5689,-0.2556,-0.3775,-0.2959,-1.4751,-0.2340,0.1184,0.3148,1.4435,-0.3510,0.6232,0.7990,0.9409,-0.

11、9921,0.2120,0.2379,-1.0078,-0.7420,1.0823,-0.1315,0.3899,0.0880,-0.6355,-0.5596,0.4437,-0.9499,0.7812,0.5690,-0.8217,-0.2656;h,sig,ci=ttest(x,0.0479)存盘后按F5键执行,得到结果如下:h = 0sig = 0.9998ci = -0.1244 0.2203解释结果如下:“h = 0” 说明不能在的显著水平下拒绝原假设(即,可以考虑接受原假设)。“sig = 0.9998”说明有99.98的可能统计量,表明可以考虑接受原假设。“ci = -0.124

12、4 0.2203”说明样本X的理论均值所在的区间是,可信度为95。 以上3条都指示我们接受原假设:。 在Matlab软件包中写一个名字为opt_ttest_2的M文件进行单边检验:x =-0.4326,-1.6656,0.1253,0.2877,-1.1465,1.1909,1.1892,-0.0376,0.3273,0.1746,-0.1867,0.7258,-0.5883,2.1832,-0.1364,0.1139,1.0668,0.0593,-0.0956,-0.8323,0.2944,-1.3362,0.7143,1.6236,-0.6918,0.8580,1.2540,-1.5937

13、,-1.4410,0.5711,-0.3999,0.6900,0.8156,0.7119,1.2902,0.6686,1.1908,-1.2025,-0.0198,-0.1567,-1.6041,0.2573,-1.0565,1.4151,-0.8051,0.5287,0.2193,-0.9219,-2.1707,-0.0592,-1.0106,0.6145,0.5077,1.6924, 0.5913,-0.6436,0.3803,-1.0091,-0.0195,-0.0482,0.0000,-0.3179,1.0950,-1.8740,0.4282,0.8956,0.7310,0.5779,

14、0.0403,0.6771,0.5689,-0.2556,-0.3775,-0.2959,-1.4751,-0.2340,0.1184,0.3148,1.4435,-0.3510,0.6232,0.7990,0.9409,-0.9921,0.2120,0.2379,-1.0078,-0.7420,1.0823,-0.1315,0.3899,0.0880,-0.6355,-0.5596,0.4437,-0.9499,0.7812,0.5690,-0.8217,-0.2656;h,sig,ci=ttest(x,0.0479,0.02,-1)存盘后按F5键执行,得到结果如下:h = 0sig = 0

15、.5001ci =-Inf 0.2287解释结果如下:“h = 0” 说明不能在的显著水平下拒绝原假设(即,可以考虑接受原假设)。“sig = 0.5001”说明有50.01的可能统计量,表明不能考虑接受备选假设。“ci = -Inf 0.2287”说明样本X的理论均值所在的区间是,可信度为98。 以上3条中有2条指示我们接受原假设:。(2)两个样本的T检验 假设有两个样本数据X、Y,检验它们的均值是否相同。当两个样本数据X和Y的方差不相等时,使用下面的统计量:其中,m样本X的数据个数,n样本Y的数据个数,表示样本X的方差,表示样本Y的方差。当两个样本数据X和Y的方差相等时,使用下面的统计量:

16、其中,m样本X的数据个数,n样本Y的数据个数,表示样本X和Y的标准差,且当两个样本的均值差异不大时,统计量T应该服从自由度为m+n-2的t分布。 在Matlab软件包中,使用函数即行此种检验,主要格式有:,表示在显著水平时进行t检验,在样本数据X和Y的方差未知但相等的情况下,确定它们的均值是否相等。如果h = 1,则在的显著水平下拒绝原假设;若h = 0,则不能在的显著水平下拒绝原假设(即,可以考虑接受原假设)。,表示由人工自选显著水平,其中选项tail的取值可以有3种:tail 0(默认设置),表示进行双边检验;tail 1,表示进行单边检验,备选假设是;tail -1,表示进行单边检验,备

17、选假设是;另外,如果h = 1,则在的显著水平下拒绝原假设;若h = 0,则不能在的显著水平下拒绝原假设(即,可以考虑接受原假设)。Sig表示原假设为时,统计量的概率值。ci表示的理论均值所在的区间。例2 对两种不同的西瓜品种分别统计了8个地区的单位面积产量(Kg)品种18687569384937579品种28079589177827666问:两个不同品种的平均产量是否有显著差异? 在Matlab软件包中写一个名字为opt_ttest2_1的M文件:x=86,87,56,93,84,93,75,79;y=80,79,58,91,77,82,76,66;mu1=mean(x)mu2=mean(y

18、)存盘后按F5键执行,得到:,以及。 在Matlab软件包中写一个名字为opt_ttest2_2的M文件:x=86,87,56,93,84,93,75,79;y=80,79,58,91,77,82,76,66;h,sig,ci=ttest2(x,y)存盘后按F5键执行,得到:h = 0sig = 0.3393ci = -6.4236 17.4236解释结果如下:“h = 0” 说明不能在的显著水平下拒绝原假设(即,可以考虑接受原假设)。“sig = 0.3393”说明只有33.93的可能统计量,表明不能考虑接受原假设。“ci = -6.4236 17.4236”说明的理论值所在的区间是,可信度

19、为95。这个区间不对称,偏向大于0的方向。以上3条中有2条指示我们不能接受原假设:,应该考虑接受备选假设。 在Matlab软件包中写一个名字为opt_ttest2_3的M文件进行单边检验:x=86,87,56,93,84,93,75,79;y=80,79,58,91,77,82,76,66;h,sig,ci=ttest2(x,y,0.02,1)存盘后按F5键执行,得到:h = 0sig = 0.3393ci = -9.0905 20.0905解释结果如下:“h = 0” 说明不能在的显著水平下拒绝原假设(即,可以考虑接受原假设)。“sig = 0.3393”说明只有33.93的可能统计量,表明

20、应该考虑接受备选假设。“ci = -9.0905 20.0905”说明的理论值所在的区间是,可信度为98。这个区间不对称,偏向大于0的方向。 以上3条中有2条指示我们不能接受原假设:,应该考虑接受备选假设。(三)分布检验 在进行数据分析时,许多情况下首先要假设数据服从一定形式的分布,然后进行检验。(1)检验数据是否服从正态分布 样本量大时,使用Jarque-Bera检验; Jarque-Bera检验测试数据对正态分布的拟合程度。在Matlab软件包中,使用函数h = jbtest(x)进行Jarque-Bera检验。基本使用格式有:,表示在的显著水平下进行Jarque-Bera检验。,拒绝X服

21、从正态分布的原假设;,接受X服从正态分布的原假设。,表示自选显著水平进行Jarque-Bera检验。,拒绝X服从正态分布的原假设;,接受X服从正态分布的原假设。P为原假设成立的概率,jb是检验的统计量,cv是否拒绝原假设的临界值。若考虑接受X服从正态分布的原假设;考虑拒绝X服从正态分布的原假设。例3 在考古学中得到84个伊特拉斯坎(Etruscan)人男子头颅的最大宽度(mm)如下,试检验这些数据是否来自正态分布?x=141,148,132,138,154,142,150,146,155,158,150,140,147,148,144,150,149,145,149,158,143,141,1

22、44,126,140,144,142,141,140,145,135,147,146,141,136,140,146,142,137,148,154,137,139,143,140,131,143,141,149,148,135,148,152,143,144,141,143,147,146,150,132,142,142,143,153,149,146,149,138,142,149,142,137,134,144,146,147,140,142,140,137,152,145; 在Matlab软件包中写一个名字为opt_jbtest_1的M文件进行Jarque-Bera检验:x=141,1

23、48,132,138,154,142,150,146,155,158,150,140,147,148,144,150,149,145,149,158,143,141,144,126,140,144,142,141,140,145,135,147,146,141,136,140,146,142,137,148,154,137,139,143,140,131,143,141,149,148,135,148,152,143,144,141,143,147,146,150,132,142,142,143,153,149,146,149,138,142,149,142,137,134,144,146,1

24、47,140,142,140,137,152,145;h,p,jb,cv=jbtest(x)存盘后按F5键执行,得到:h = 0p = 0.7960jb = 0.4563cv = 5.9915解释结果如下:“h = 0” 说明在的显著水平下,应该考虑接受X服从正态分布的原假设。“p = 0.7960”说明有79.6的可能X服从正态分布。“cv = 5.9915”说明拒绝X服从正态分布的临界值为5.9915。检验值jb = 0.4563 cv = 5.9915说明在的显著水平下,应该考虑接受X服从正态分布的原假设。 样本量小时,使用Lilliefors检验。Lillie检验测试小样本数据X对正态

25、分布的拟合程度。在Matlab软件包中,使用函数h = lillietest(x)进行Lilliefors检验。基本使用格式有:,表示在的显著水平下进行Lilliefors检验。,拒绝X服从正态分布的原假设;,接受X服从正态分布的原假设。,表示自选显著水平进行Lilliefors检验。,拒绝X服从正态分布的原假设;,接受X服从正态分布的原假设。P为原假设成立的概率,lt是检验的统计量,cv是否拒绝原假设的临界值。若考虑接受X服从正态分布的原假设;考虑拒绝X服从正态分布的原假设。例4 考察样本数据x = -2,-1,0,1,2,3,4是否服从正态分布。 在Matlab软件包中写一个名字为opt_

26、lillietest_1的M文件进行Lilliefors检验:x=-2,-1,0,1,2,3,4;h,p,lt,cv=lillietest(x)存盘后按F5键执行,得到:h = 0p = NaNlt = 0.1084cv = 0.3000解释结果如下:“h = 0” 说明在的显著水平下,应该考虑接受X服从正态分布的原假设。“p = NaN”说明此例概率不存在。“cv = 0.3000”说明拒绝X服从正态分布的临界值为0.3000。检验值jb = 0.1084 cv = 0.3000说明在的显著水平下,应该考虑接受X服从正态分布的原假设。 以上3项指标有2项表示应该考虑接受X服从正态分布的原假设

27、。(2)检验数据是否服从指定的其它分布 单样本的检验;假设是一个指定的分布函数。是待求的未知分布函数的一个较优的估计。原假设:取检验统计量 。D的值较小,接受原假设,D的值较大,拒绝原假设。在Matlab软件包中,使用函数h =kstest(x)进行检验。基本使用格式有:,表示在的显著水平下进行检验(此时默认分布为正态分布)。,拒绝X服从正态分布的原假设;,接受X服从正态分布的原假设。,表示自选显著水平、自选分布函数cdf,进行检验。,拒绝X服从指定的cdf分布的原假设;,接受X服从指定的cdf分布的原假设。P为原假设成立的概率,ks是检验的统计量,cv是否拒绝原假设的临界值。若考虑接受X服从

28、指定的cdf分布的原假设;考虑拒绝X服从指定的cdf分布的原假设。的取值有3种:(默认选项),则进行双边检验;,则进行单边检验;,则进行单边检验。例5 考察样本数据x = -2,-1,0,1,2,3,4是否服从正态分布。 在Matlab软件包中写一个名字为opt_kstest_1的M文件进行检验:x=-2,-1,0,1,2,3,4;h,p,ks,cv=kstest(x)存盘后按F5键执行,得到:h = 0p = 0.1363ks = 0.4128cv = 0.4834解释结果如下:“h = 0” 说明在的显著水平下,应该考虑接受X服从正态分布的原假设。“p = 0.1363”说明有13.63

29、的可能X服从正态分布。“cv = 0.4834”说明拒绝X服从正态分布的临界值为0.4834。检验值ks = 0.4128 cv = 0.1340说明在的显著水平下,应该考虑拒绝X服从指数分布的原假设。(b)检验样本数据X是否服从Weibull分布在Matlab软件包中写一个名字为opt_kstest_3的M文件进行检验:x=0.2262;1.2103;0.7067;0.8495;0.3392;0.5212;0.8856;1.9974;0.4435;0.9002;0.6967;0.4830;0.2853;0.5509;1.3175;0.9498;0.2583;0.2945;0.9439;0.3

30、353;1.6880;1.0206;0.4548;2.1492;1.4050;1.2632;1.2712;0.7103;1.1407;1.2710;2.0449;0.5403;0.8997;0.2657;0.8738;0.9331;0.4086;0.8025;1.2634;0.6303;0.4202;1.9825;0.6195;0.9844;0.4291;0.8292;0.5859;0.9201;1.0903;1.2894;1.2817;0.6184;1.0931;0.7830;1.3753;0.5997;0.9858;0.3883;0.3978;0.7222;0.8367;0.3250;0.

31、4432;0.6623;0.4482;0.6443;1.0359;1.1130;1.0370;0.7920;0.5645;1.0833;0.4197;0.7520;0.9966;0.5939;0.7772;0.9000;0.6037;0.6899;0.4792;0.2100;0.8056;0.3573;1.3247;0.1430;1.1419;1.1735;0.3643;0.5520;1.4111;2.1079;0.3349;1.2703;1.0992;0.6429;1.1213;0.8699;1.6543;0.1083;h,p,ks,cv=kstest(x, x,weibcdf(x, 1, 2)存盘后按F5键执行,得到:h = 0p = 0.6458ks = 0.0729cv = 0.1340解释结果如下:“h = 0” 说明在的显著水平下,应该考虑接受X服从Weibull分布的原假设。“p = 0.6458”说明有64.58 的可能X服从Weibull分布。“cv = 0.1340”说明拒绝X服从Weibull

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论