数据分析方法2(2假设检验)ppt课件

上传人：闯*** IP属地：广东上传时间：2020-04-24 格式：PPT 页数：46 大小：130.50KB 积分：25 举报 版权申诉

已阅读5页，还剩41页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

假设检验在假设检验中一般要设立一个原假设而设立该假设的动机主要是企图利用人们掌握的反映现实世界的数据来找出假设和现实的矛盾从而否定这个假设假设检验在多数统计教科书中除了理论探讨之外假设检验都是以否定原假设为目标如否定不了那就说明证据不足无法否定原假设但这不能说明原假设正确假设检验的过程和逻辑首先要提出一个原假设比如某正态总体的均值等于5 m 5 这种原假设也称为零假设 nullhypothesis 记为H0与此同时必须提出对立假设比如总体均值大于5 m 5 对立假设又称为备选假设或备择假设 alternativehypothesis 记为记为H1或Ha 假设检验的过程和逻辑根据零假设不是备选假设我们可以得到该检验统计量的分布然后再看这个统计量的数据实现值 realization 属不属于小概率事件也就是说把数据代入检验统计量看其值是否落入零假设下的小概率范畴如果的确是小概率事件那么我们就有可能拒绝零假设否则我们说没有足够证据拒绝零假设假设检验的过程和逻辑注意零假设和备选假设在我们涉及的假设检验中并不对称检验统计量的分布是从零假设导出的因此如果有矛盾当然就不利于零假设了不发生矛盾也不说明备选假有问题假设检验的过程和逻辑检验统计量在零假设下这个样本的数据实现值的概率称为p 值 p value 显然得到很小p 值意味着小概率事件发生了如果小概率事件发生是相信零假设还是相信数据呢当然是相信数据于是就拒绝零假设但事件概率小并不意味着不会发生仅仅发生的概率很小罢了拒绝正确零假设的错误常被称为第一类错误 typeIerror 假设检验的过程和逻辑不仅有第一类错误还有第二类错误那是备选零假设正确时反而说零假设正确的错误称为第二类错误 typeIIerror 如要接受零假设就必须给出第二类错误的概率但对于目前面对的问题无法计算它假设检验的过程和逻辑零假设和备选假设哪一个正确这是确定性的没有概率可言而可能犯错误的是人涉及假设检验的犯错误的概率就是犯第一类错误的概率和犯第二类错误的概率负责的态度是无论做出什么决策都应该给出犯错误的概率假设检验的过程和逻辑到底p 值是多小才能够拒绝零假设呢也就是说需要有什么是小概率的标准这要看具体应用的需要但在一般的统计书和软件中使用最多的标准是在零假设下或零假设正确时抽样所得的数据拒绝零假设的概率应小于0 05 也可能是0 01 0 005 0 001等等假设检验的过程和逻辑这种事先规定的概率称为显著性水平 significantlevel 用字母a来表示当p 值小于或等于a时就拒绝零假设所以 a是所允许的犯第一类错误概率的最大值当p 值小于或等于a时我们说这个检验是显著的 significant 假设检验的过程和逻辑归纳起来假设检验的逻辑步骤为第一写出零假设和备选假设第二确定检验统计量第三确定显著性水平a 第四根据数据计算检验统计量的实现值第五根据这个实现值计算p 值第六进行判断如果p 值小于或等于a 就拒绝零假设这时犯错误的概率最多为a 如果p 值大于a 就不拒绝零假设因为证据不足假设检验的过程和逻辑实际上计算机软件仅仅给出p 值而不给出a 这有很多方便之处比如a 0 05 而假定我们得到的p 值等于0 001 这时我们如果如果采用p 值作为新的显著性水平即a 0 001 于是可以说我们拒绝零假设显著性水平为0 001 拒绝零假设时犯错误的概率实际只是千分之一而不是百分之五在这个意义上 p 值又称为观测的显著性水平 observedsignificantlevel 在统计软件输出p 值的位置有的用 p value 有的用significant的缩写 Sig 就是这个道理假设检验的过程和逻辑关于临界值的注作为概率的显著性水平a实际上相应于一个检验统计量取值范围的一个临界值 criticalvalue 它定义为统计量取该值或更极端的值的概率等于a 也就是说统计量的实现值比临界值更极端等价于 p 值小于a 使用临界值的概念进行的检验不计算p 值只比较统计量的取值和临界值的大小假设检验的过程和逻辑使用临界值而不是p 值来判断拒绝与否是前计算机时代的产物当时计算p 值不易只有采用临界值的概念但从给定的a求临界值同样也不容易好在习惯上仅仅在教科书中列出相应于特定分布的几个有限的a临界值比如a 0 05 a 0 025 a 0 01 a 0 005 a 0 001等等或者根据分布表反过来查临界值很不方便也很粗糙现在计算机软件都不给出a和临界值但都给出p 值和统计量实现值让用户自己决定显著性水平是多少假设检验的例子例6 1 数据 sugar txt sugar sav sugar sas7bdat 一个顾客买了一包标有500g重的一包红糖觉得份量不足于是找到监督部门当然他们会觉得一包份量不够可能是随机的于是监督部门就去商店称了50包红糖得到均值平均重量是498 35g 这的确比500g少但这是否能够说明厂家生产的这批红糖平均起来不够份量呢首先可以画出这些重量的直方图图6 1 这个直方图看上去象是正态分布的样本于是不妨假定这一批袋装红糖呈正态分布 su scan D booktj1 data sugar txt hist su 假设检验的例子检验统计量为为什么用这个这次我们的假设检验问题就是 t test su m 500 alt less OneSamplet testdata sut 2 6962 df 49 p value 0 004793alternativehypothesis truemeanislessthan50095percentconfidenceinterval Inf499 3749sampleestimates meanofx498 3472 SPSS p value 0 004793 0 009586 2 假设检验的例子例汽车厂商声称其发动机排放标准的一个指标平均低于20个单位在抽查了10台发动机之后得到下面的排放数据 17 0 21 7 17 9 22 9 20 7 22 4 17 3 21 8 24 2 25 4 该样本均值为21 13 究竟能否由此认为该指标均值超过20 这次我们的假设检验问题就是假设检验的例子检验统计量为我们可以发现p 值为0 1243 因此我们没有证据否定零假设如果显著性水平小于它为什么不能接受零假设其实可以比如下面两种情况 1 备选假设也是单点分布这时可以负责地算出犯第二类错误的概率 2 贝叶斯检验情况这是一种决策观点但在经典统计中的绝大多数情况都不可以从一个例子看接受零假设数据rice sav 一个大米加工厂卖给一个超市一批标明10kg重的大米而该超市怀疑该厂家缺斤短两对10包大米进行了称重得到下面结果单位千克 9 939 839 769 9510 079 8910 039 979 899 87这里假定打包的大米重量服从正态分布由于发生分歧于是各方同意用这个数据进行关于大米重量均值m的t检验以厂家所说的平均重量为10kg作为零假设而以超市怀疑的份量不足10kg作为备选假设 1 超市的检验于是超市加工厂老板和该老板的律师都进行了检验结果是超市用全部数据进行t检验得到拒绝零假设的结论他们根据计算得到样本均值为9 92kg 而p 值为0 0106 因此超市认为对于显著性水平a 0 05 应该拒绝零假设 2 加工厂老板的检验大米加工厂老板只用2个数据得到接受零假设的结论大米加工厂老板也懂些统计他只取了上面样本的头两个个数目9 93和9 83进行同样的t检验通过对这两个数进行计算得到样本均值为9 88kg 而p 值为0 1257 虽然样本均值不如超市检验的大但p 值大大增加加工厂老板于是下了结论对于水平a 0 05 接受零假设即加工厂的大米平均重量的确为10kg 3 加工厂老板律师的检验大米加工厂老板的律师用了全部数据但不同的检验方法得到接受零假设的结论大米加工厂老板的律师说可以用全部数据他利用对于连续变量比例的检验也就是关于中位数的符号检验注意对于正态分布对中位数的检验等价于对均值的检验根据计算得到该检验的p 值为0 0547 所以这个律师说在显著性水平a 0 05时应该接受零假设还说既然三个检验中有两个都接受零假设就应该接受如何评价加工厂老板实际上减少了作为证据的数据因此只得到证据不足无法拒绝零假设的结论但加工厂老板把证据不足以拒绝零假设改成接受零假设了而且从样本中仅选择某些数目等于销毁证据违背统计道德律师虽然用了全部数据但用了不同的方法他也只能够说在这个检验方法下证据不足以拒绝零假设而不能说接受零假设另外律师对超市用更有效的检验方法得到的拒绝零假设的结论视而不见这也违背了统计原理对于同一个检验问题可能有多种检验方法但只要有一个拒绝就应该拒绝那些不能拒绝的检验方法是能力不足用统计术语来说是势 power 不足或者效率 efficiency 低关于例6 7的总结 1 在已经得到样本的情况下随意舍取一些数目是违背统计原理和统计道德的这相当于篡改或毁灭证据 2 由于证据不足而不能拒绝零假设绝对不能说成接受零假设如果一定要说请给出你接受零假设所可能犯第二类错误的概率这是无法算出的这是加工厂老板和律师所犯的错误 3 例中律师的检验和超市所做的检验都针对同样的检验问题但由于超市的检验方法比律师的检验更强大或更强势 morepowerful 更有效率 moreefficient 所以超市拒绝了零假设而律师的检验则不能拒绝如果有针对同一检验问题的许多检验方法那么只要有一个拒绝就必须拒绝绝对不能少数服从多数也不能视而不见以关于均值的t检验为例实际上只要零假设的均值和样本均值的确不一样那么根据检验统计量的公式可以看出如果样本量不断增大就必然会拒绝零假设当然对于效率较低的检验要拒绝零假设所需要的样本量较大关于正态性的检验 1 Shapiro正态性检验原假设数据来自正态性总体x scan sugar txt Shapiro test x 关于正态性的检验 2 正态QQ图用样本分位数与正态分位数做散点图 qqnorm x qqline x 双正态总体均值差的检验关于两个独立总体均值的差异的假设检验双正态总体均值差的检验例数据drug txt 为检测某种药物对攻击性情绪的影响对处理组的100名服药者和对照组的150名非服药者进行心理测试得到相应的某指标人们要检验处理组指标的均值是否大于对照组的均值双正态总体均值差的检验 t test x y alt greater WelchTwoSamplet testdata xandyt 0 94456 df 231 72 p value 0 1729alternativehypothesis truedifferenceinmeansisgreaterthan095percentconfidenceinterval 0 3742108Infsampleestimates meanofxmeanofy8 602028 10200 成对样本的问题例数据diet txt 有两列50对减肥数据分别是减肥前后的重量数据人们希望比较50个人在减肥前后的重量这样的两个样本不能用前面的独立样本均值差的检验因为每一个人减肥后的重量都和自己减肥前的重量有关所以不独立但不同人之间却是独立的令所有个体减肥前后重量差的均值为成对样本的问题 t test xx yy alt greater pair T Pairedt testdata xxandyyt 3 355 df 49 p value 0 0007694alternativehypothesis truedifferenceinmeansisgreaterthan095percentconfidenceinterval 0 9405451Infsampleestimates meanofthedifferences1 88 总体比例的检验例对于电视节目收视率是个重要的指标一个对1500人的电话调查表明在某一节目播出的时候被访的正在观看电视的人中有23 的正在观看这个节目现在想知道这是否和该节目的制作人所期望的25 的收视率有显著不足总体比例的检验 binom test 0 23 1500 1500 0 25 alt less Exactbinomialtestdata 0 23 1500and1500numberofsuccesses 345 numberoftrials 1500 p value 0 03837alternativehypothesis trueprobabilityofsuccessislessthan0 2595percentconfidenceinterval 0 00000000 2485905sampleestimates probabilityofsuccess0 23 两个总体比例差的检验例如果节目甲的样本收视率为20 样本量为1200 节目乙的收视率为21 样本量为1300 是不是节目甲的收视率就真的低于节目乙两个总体比例差的检验 binom test c 0 2 1200 0 21 1300 c 1200 1300 alt less Exactbinomialtestdata c 0 2 1200 0 21 1300 numberofsuccesses 240 numberoftrials 513 p value 0 07882alternativ

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据分析方法2(2假设检验)ppt课件

文档简介

温馨提示

最新文档

评论

数据分析方法2(2假设检验)ppt课件

文档简介

温馨提示

最新文档

评论

相关文档