




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第八章 2检验 孙海龙内容 一、2检验概述 二、总体分布的假设检验 三 、独立性检验引言推断统计参数检验正态分布和方差同质非参数检验对分布较少有要求,也叫用于名义/顺序型数据均值检验方差分析2检验其他非参数检验参数统计和非参数统计优缺点 参数统计优点: 对资料的分析利用充分 统计分析的效率高缺点: 对资料的要求高 适用范围有限 非参数统计优点:对资料的没有特殊要求 不受分布的影响(偏态、分布不明的资料) 不受方差齐性的限制 不受变量类型的影响 不受样本量的影响缺点: 检验效率低(易犯型错误) 对信息的利用不充分。因此在二者都可用时,总是用参数检验因此在二者都可用时,总是用参数检验引言 实际应用
2、情况:调查、问卷、访谈等方法中,按性质划分类别,然后将结果按类计点人数或个数,得到计数数据。 类别变量(1)只能划分为类别,如性别、民族;(2)人为划分类别,如学习成绩(连续数据)分成优、良、中、差。 这些计数数据不能使用前几章所讲的统计方法,需要用到计数数据专用的统计方法,这些分析方法主要是根据2(卡方)分布进行的,故称为卡方检验。这类数据大都以表格形式表示,所以又称列联表分析。一、2检验概述1.单变量的卡方检验:同时检验一个因素两项或多项分类的实际观察数与某理论次数分布是否相一致的问题,或说有无显著差异的问题。这种检验又称为拟合度检验。理论次数是指根据概率原理、某种理论、某种理论次数分布或
3、经验次数分布所计算出来的次数。3独立类别的卡方检验:用于检验两个或两个以上因素(变量)各有多项分类之间是否有关联或是否具有独立性的问题。如不同性别的人在态度上是否有差异。这类检验又称独立性检验。一、2检验概述卡方检验的基本公式实际观察次数与某理论次数之差的平方再除以理论次数,即 f0:观察次数 f e :期望次数其中,f e 期望次数越大(大于5),分布越接近卡方分布。 keefff20一、2检验概述 指用样本数据检验总体分布的形状或比率,以确定与假设的总体性质的匹配度,是对次数分布的检验。(一)研究情境主要用于实际观察次数(f0)与某理论次数(fe)是否有差别的分析。例如,在医生职业中,男的
4、多还是女的多?在三种咖啡中,哪种被国人最喜欢?在北京大学中,各国留学生的比例有代表性吗?二、总体分布的拟合检验(一)定义(二)统计假设及相关计算 H0: f0 = fe H1: f0 fe 运用基本公式计算出卡方值查表,比较其与临界卡方值的大小,如果注意注意:卡方值分布全部为正值,但f0-f e可能是负值,因此,卡方检验是双侧检验,0.05和0.01是指双侧概率而言。拟合度检验需要先计算理论次数,这是计算卡方值的关键性步骤。(一般根据某种理论或经验)二、总体分布的拟合检验实际观察次数与某理论次数之差的平方再除以理论次数,即 f0:观察次数 f e :期望次数其中,f e 期望次数(大于5)。
5、keefff20二、总体分布的拟合检验(三)拟合检验公式例1 某项民意测验,答案有同意、不置可否和不同意三种,调查结果如下表:同意不置可否不同意Nfi24121248问:三种意见的人数是否有显著不同?有显著差异。即此项民意测验的态度所以,推翻原假设,)(查表理论次数所以各类别概率皆为分类数是各分类的概率相等该题为检验无差假设解 ,02. 0p , 99. 52 , 213df, 6161612161612161624,163148e , 1/3, 3,:H ,:205. 02205. 02222i0二、总体分布的拟合检验例2 某班学生50人,体检结果按一定标准划分为甲、乙、丙三类,各类人数分别
6、为:甲类16人,乙类24人,丙类10人,问该班学生的身体状况是否符合正态分布?正态分布。不符合,该班学生的身体状态推翻,查表,各类别的理论次数为:。曲线下的面积应为:之间,丙类:为:之间,曲线下的面积应乙类:,曲线下的面积应为:之间,甲类:为故各类人数应占的比例。应该相同,即且各类别所占的横坐标全体数据,包括了在正态分布中可以认为算。理论次数按正态分布计合正态分布该班学生的身体状况符解丙乙甲02005. 022005. 031i222i2ii20H ,005. 0p , 6 .10 , 21-3df,44.1188103434248816ee-f 8500.1587e 34,500.6826e
7、 8,500.1587e0.15870.3413-0.50 -3-1- 6826. 023413. 0 11 1587. 03413. 050. 0 13 236 3 :H :例3 下表所列资料是552名中学生的身高次数分布,问这些学生的身高分布是否符合正态分布。身高分组组中值 Xc实际次数fiXc-X=xZ=x/S查正态分布表求yPi=y(组距) Sei=yN169-166-163-160-157-154-151-148-145-142-139-17016716416115815515214914614314027225711012411280258415.3812.389.386.383.
8、380.38-2.62-5.62-8.62-11.62-14.623.032.441.851.260.670.07-0.52-1.11-1.70-2.29-2.880.00400.00200.07200.18400.31870.39790.34840.21540.09400.02890.00670.002370.012010.042600.108880.188580.235440.206150.127460.055620.017100.003961724601041301147031920.1250.1670.1500.4710.2770.0351.4291.1610.090N=552, X=
9、154.62, S=5.072=3.905iiieef2ccciiiii29ii2i 1i:(1) XXx, xX -X;X -Xx(2) Z;SS(3) Zy(4) py;S(5) epN5 9f -e3.905,e解 计算理论次数的步骤求各组组中值与平均数 的离差即求各离差的标准分数根据各 分数查正态分布表求相应的值;组距求 各分组的概率求各组的理论次数由于第一组和最后一组的理论次数, 所以第一、二组合并,最后一组和前一组合并,总组数为 。20.05220.05 df9-36 (6)12.6, p0.05, 552在计算理论次数的过程中共用到平均数,标准差和总数三个统计量,故本题的自由度为
10、 ,查卡方分布表,故差异不显著,即名中学生的身高分布符合正态分布。二、总体分布的拟合检验三、独立性检验 主要用于两个或两个以上因素多项分类的计数资料分析。如果要研究的两个自变量之间是否具有独立性或有无关联或有无“交互作用”的存在,就要应用卡方独立性检验。 如果两个子变量是独立的,无关联的,就意味着对其中一个自变量来说,另一个自变量的多项分类次数上的变化是在取样误差的范围之内。假如两个因素是非独立,则称两变量有交互作用。(一)适用材料虚无假设:两变量(或多变量)之间是独立的或无关联的备择假设:两变量之间有关联或差异显著,一般用文字叙述,不用统计符号。例4:某学校对学生的课外活动内容进行调查,结果
11、整理成下表: 三、独立性检验(二)统计假设 虚无假设:体重自我知觉与性别无关自我知觉总和过轻过重女性419(786.78)1995 (1627.22)2414男性959 (591.22)855 (1222.78)1814总和137828504228(二)统计假设三、独立性检验计算自我知觉过轻过重女性(419-786.78)2/786.78=171.92( 1995 -1627.22) 2 /1672.22=83.12男性228.78110.622 2 (1)=594.44 df=1 a= 0.05 临界值临界值3.84 因素Y因 素 X分类1分类2分类1aba+b分类2cdc+da+cb+dn
12、 1222dbcadcbabcadn(三) 22 列联表 检验 三、独立性检验2 观察频数观察频数a a对应的理论频数为:对应的理论频数为: 式中TRC为第R(row)行、第C(column)列的理论频数,nR为相应行的合计,nc为相应列的合计,n为总例数.ncabaBAnPT)()(1111nnnTCRRC.三、独立性检验(三) 22 列联表 检验 2 检验的自由度取决于可以自由取值的格子数目,而不是样本含量n。四格表资料只有两行两列,自由度(df)=1,即在周边合计数固定的情况下,4个基本数据当中只有一个可以自由取值. 自由度=(行数-1)(列数-1) 自由度自由度三、独立性检验(三) 2
13、2 列联表 检验 2(三) 22 列联表 检验 1 、 当n40, Tij 5的条件下 可用下列简化公式21f ,)(22ddbcadcbabcadn三、独立性检验 例例5 工农业高血压患病率的比较(50岁以上男性),首钢调查50-59岁男性工人1281人、高血压患者386人,患病率为30.13%。石景山区农民387人,血压血患者65人,患病率为16.80%,从事工农业生产的男性患病率有无差别。(三) 22 列联表 检验 三、独立性检验2患病未患病小计工人3868951281农民65322387小计45112171668解: 建立检验假设 H0:1 =2 (工人与农民的总体患病率相同) =0.
14、05 估计总体某现象的发生或存在的概率,假定高血压的发生和这两种工种众彼此独立无关,因此,这两组资料是一总体中的两个随机样本,估计 总体患病率= 451/1668 =0.2704 未患率= 1217/1668=0.7296三、独立性检验(三) 22 列联表 检验 2 50-59 岁男性工人与农民高血压患病比较岁男性工人与农民高血压患病比较患高血压人数患高血压人数 合 计观察数理论数观察数理论数首钢工人386346.4895934.61281石景山区农民65104.6322282.4387合计451451121712171668(三) 22 列联表 检验 三、独立性检验2 计算检验统计量 2 值
15、 查 2 分布界值表,作出统计结论。 df = (r-1)(c-1)=1; 故按 p0.01 水平拒绝Ho 接受H1 。 结合具体问题作出专业结论:不同职业的高血压患病率极显著意义,工人的高血压患病率显著高于农民。26.7505.55314.9921.6784.5274 .2824 .2823226 .1046 .104656 .9346 .9348954 .3464 .34638622222 843 21050 6.63 21010(三)(三) 22 列联表列联表 检验检验 三、独立性检验(三) 22 列联表 检验 2应用简化公式计算:75.2612174513871281)65895322386(1668)(222dbcadcbabcadn(三) 22 列联表 检验 三、独立性检验2 2 n 40, 但有但有1 Tij 5时,时,需对上述公式进行校正。需对上述公式进行校正。dbcadcbanbcadn25 . 02(三) 22 列联表 检验 三、独立性检验2(四) 与 r系数(phi coeffi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商业合同协议书
- 车辆贴膜合同协议书模板
- 货物采购简易合同协议书
- 扶梯拆除合同协议书
- 结婚协议合同协议书
- 学生禁毒教育心得体会模版
- 辅警刑法笔试题及答案
- 猪场出租合同协议书
- 完成合同协议书
- 合同约定协议书打印
- 危重患者风险评估与安全护理体系
- 车务调车合同协议
- (四调)武汉市2025届高中毕业生四月调研考试 历史试卷(含答案)
- 俗世奇人试题及答案
- 儿童肺血栓栓塞症诊断与治疗专家共识(2025)解读课件
- 《2025急性冠脉综合征患者管理指南》解读
- 苏霍姆林斯基的教育思想
- 2025年内蒙古自治区中考一模语文试题(原卷版+解析版)
- 电厂粉煤灰购销合同
- 《码垛机器人机械手的结构设计》9400字【论文】
- 梁柱加固施工方案
评论
0/150
提交评论