第九讲 卡方检验.ppt_第1页
第九讲 卡方检验.ppt_第2页
第九讲 卡方检验.ppt_第3页
第九讲 卡方检验.ppt_第4页
第九讲 卡方检验.ppt_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九讲卡方检验,1,一、检验的功能,1、适用资料计数数据计数数据的统计分析,测量数据的统计方法并不适用,卡方检验是较为常用的一种方法。,2,拟合优度检验例即通过实际调查与观察所得到的一批数据,其次数分布是否服从理论上所假定的某一概率分布;,2、卡方检验的功能,3,例,某广播电视台为了了解广大儿童对其提供的6种儿童节目的偏好(态度),随机抽取了300名儿童,问他们最喜欢哪一种节目(每人只能选一种),得到的数据如下表:,问:就调查的300人而言,他们对6个节目的偏好(体现在人数)是否存在显著的差异?,4,5,变量间的独立性检验,在对一批观察数据进行双向多项分类之后,这两个分类特征是独立无关的还是具有连带相关的关系?,6,例,某师范大学为了了解广大师生对实行“中期选拨”制度的态度。曾以问卷调查的形式对977名低年级学生、790名高年级学生和764名教师进行随机调查,调查结果:,7,主要用于检验不同人群母总体在某一个变量上的反应是否有显著差异。例从四所幼儿园分别随机抽出6岁儿童若干,各自组成一个实验组,进行识记测验。测验材料是红、绿、蓝三种颜色书写的字母,以单位时间内的识记数量为指标,结果如下。问四组数据是否可以合并分析。,同质性检验,8,分组红色字母绿色字母蓝色字母,124171921512932020144102528,9,理论基础是1899年皮尔逊的工作:在分布拟合优度检验中,实际观察次数与理论次数之差的平方除以理论次数近似服从分布,即:,二、检验的基本原理,10,-如果实际观察次数与理论次数的差异越大,卡方检验的结果就越可能拒绝无差虚无)假设接受备择假设。-理论次数越大()拟合效果越好。,注,11,注K为类别的数目;是实际观察值;是理论(期待)次数;是约束条件数或利用观察数据时使用的样本统计量的数目;,1、卡方检验基本公式,12,分类相互排斥,互不包容;观察值相互独立;期望次数的大小应大于或等于5(较好趋近卡方分布的前提);,2、卡方检验的假设,13,自由度小时,必须,否则利用卡方检验需要进行较正或用精确的分布进行检验;自由度大时,可以有少许类别的理论次数少于5;应用卡方检验时,应注意取样设计,保证取样的代表性,否则依据卡方检验的结果难以保证结论的科学性;,注,14,由于检验内容仅涉及一个变量多项分类的计数资料,也称one-waytest)1、配合度检验的一般问题即检验实际观察数据的分布与某理论分布是否有显著的差别。,三、卡方检验应用一总体分布的拟合检验(goodnessoffittest配合度检验),15,统计假设,2、检验过程,即:实际观察次数与某分布理论次数之间无差异;,16,依统计检验公式,计算实得卡方值,数理基础,作出统计决断,N:总数Pe:具体类别理论概率,17,例某项民意测验,答案有同意、不置可否、不同意3种。调查了48人,结果同意的24人,不置可否的人12人,不同意的12人,问持这3种意见的人数是否存在显著差异?,3、离散型分布的拟合检验,18,对于连续随机变量的测量数据,有时不知道其总体分布,需要根据样本的次数分布的信息判断其是否服从某种确定的连续性分布。检验方法将连续性的测量数据整理成次数分布表画出相应的次数分布曲线;选择恰当的理论分布;进行拟合检验;,4、连续型分布拟合检验(例),19,例:下表是552名学生的身高次数分布,问这些学生的身高分布是否符合正态分布?,20,169170215.383.030.002371166167712.382.440.012017163164229.381.850.04260240.167160161576.381.260.10888600.1501571581103.380.670.188581040.4711541551240.380.070.235441300.277151152112-2.62-0.520.206151140.03514814980-5.62-1.110.12746701.42914514625-8.62-1.700.05562311.1611421438-11.62-2.290.0171091391404-14.62-2.880.003962,身高组中值次数离均差Z分数P理论次数,0.125,0.09,21,其一、分组数据第1组理论次数的计算注:=组上限的Z值-组下限的Z值其二、拟合指标卡方值的计算,分析,22,5、二项分类的配合度检验与比率显著检验,设总体比率为,且时,23,结论:Z检验与卡方检验一致(样本比率p的真正分布是二项分布),24,男生女生,某班有100名学生,男生的有42人,问男生的比率是否与0.5有显著差异?比率显著性检验,42585050,例,用卡方检验(配合度),25,当且时卡方检验公式,26,当期望次数小于5时,卡方检验需要校正,Yates建议的校正公式为:注:校正后的结果与二项分布的结果一致,的连续性校正(二项分类数据或比率),27,1、功能(例)主要通过对两个或两个以上因素多项分类的计数资料的分析,以研究两变量或多个变量之间的关联性与依存性。,四、独立性检验(testofindependence),28,独立性检验一般多采用表格的形式记录观察结果的计数资料,这种表格即列联表。RK型列联表(二个因素:一个因素有R个分类,另一有K个分类),2、一个术语-列联表,29,RK型列联表一般数据结构示意图,因素A,因素B,A1A2.AjAR,B1B2BiBk,30,统计假设二因素或多因素之间是独立;(数据)理论次数的计算,3、独立性检验的一般问题与步骤,自由度的确定,31,卡方检验,(公式1),统计推断,拒绝假设,接受假设,32,RC的卡方检验,允许有的格内的实计数为0,最小的理论次数为0.5;RC的卡方检验中最小的理论次数小于0.5或1(2C列联表),一般采用合并项目的方法,而不用连续性校正公式;,注,33,检验公式(各单元格理论次数5)自由度,因素A,分类1分类2,因素B,分类1分类2,4、独立样本四格表检验(列联表特例),34,注:独立样本四格表检验相当于独立样本比率差异的显著性检验。,35,随机抽取90名学生,将学生按性别与学习成绩进行分类,结果如下表,问男女大学生在学业成绩上是否有关联?或男女学生在成绩中等以上的比率是否存在显著差异?,学业水平,中等以上中等以下,性别,男女,例,36,Fisher精确概率检验(略)检验校正公式,5、四格表中若有单元格理论次数5,37,适用范围分类变量数目多于2个例:讨论性别(男、女)、婚姻(未婚、已婚)及生活满意状况(刺激、规律、无聊)之间的关系。,6、多重列联表分析,38,确定控制变量(分层变量)例性别分别对在控制变量的每一水平下的另两个变量形成的列联表进行分析;例*男性婚姻状况与生活满意状态关联分析*女性婚姻状况与生活满意状态关联分析,多重列联表的分析,39,对于控制变量的不同水平所进行的单个列联表分析、如果值不显著,此时可以将各个水平下的值相加,以推测列联表中两个变量总的值,并进行关联性检定。,40,、当控制变量各水平不一致时,必须单独就个别关联表进行分析。,41,例,某通讯公司想了解大学生最喜欢的手机品牌,随机抽取了72名大学生,调查性别、家庭经济水平以及最喜欢的手机品牌,来探讨这三个变量之间的关系,调查结果如下表。,42,甲乙丙,经济水平,低,高,甲乙丙,手机品牌,性男别女,13234124937852,43,1、同质性检验(testforhomogeneity)几个不同的因素之间是否有实质差异判断几次重复实验的结果是否同质单因素分类数据的同质性检验样例,四、同质性检验与数据的合并,44,、计算各个样本组的值和自由度;、累加各样本组值,计算其总和及自由度的总和;、将各个样本组原始数据按相应类合并,产生一个总的数据表,并计算这个总数据表的值和自由度;,检验过程,45,iv、计算各样本组的累计值与总测试次数合并获得的值之差(异质性值),其自由度是各样本组累计自由度与合并后总数据的自由度之差。异质性值大于临界值,样本组间数据异质;不显著,则同质;,46,124171921512932020144102528,例,从四所幼儿园分别随机抽出6岁儿童若干,各自组成一个实验组,进行识记测验。测验材料是红、绿、蓝三种颜色书写的字母,以单位时间内的识记数量为指标,结果:,问四组数据是否可以合并分析?,分组红色字母绿色字母蓝色字母,47,例对四所幼儿圆的幼儿颜色命名能力进行了调查,调查材料是15种颜色的彩色铅笔。凡能正确命名8种及8种以上颜色者为达标,低于8种颜色则未达标。调查对象分4岁组、6岁组。四所幼儿园调查的数据见下表。问这四所幼儿园儿童颜色命名能力调查结果是否同质?颜色命名与年龄是否有关联?,列联表形式的同质性检验,48,4岁组49701106岁组6439103,小计113109222,达标未达标,年龄组,A幼儿园,B幼儿园,C幼儿园,D幼儿园,达标未达标,达标未达标,达标未达标,达标未达标,4岁组11181015152013176岁组14917101691711,年龄组,颜色命名能力,小计,合并数据表,变异原因,自由P,合并9.7051.05,总计9.8094,(值分析结果),49,注,合并检验总表中儿童颜色命名能力与年龄是否有密切关联时,因自由度为1,值需进行连续性校正。,50,两格表与四格表数据合并方法(例)简单合并法将所有数据合并成一个两格表或四格表。适用条件:各分表同一分类特征比率接近;分表小样本齐性(值不显著),2、计数数据合并的方法,51,值相加法,男175220.773女65110.545231033,、例(四格表简单合并法),不同研究者的取样年龄,性别,某年龄特征,A非A,A特征比率,34岁,56岁,男123150.800女75120.583231033,1.7931.339,1.5011.225,78岁,男113140.786女119200.550221234,2.0041.416,52,A非,男女,51,43,64,30,94,53,相加法,、各分表值相加;、df=分表的数目(各分表自由度之和)缺点:不太灵敏,分辨力较差,没有考虑各分表的方向。例,54,值相加法,、适用条件样本容量相差不超过2倍表中各相应比率的取值在0.2-0.8之间、检验公式(例),分表数目;,各分表值的开方;,55,、适用条件多个四格表中各相应的比率不在0.2-0.5间;各样本容量相差较大(超过2倍),样本差异方向(即变化趋势)相同;,加权法,56,、显著性检验公式(例),分表数目;,第i个四格表的比率,第i个四格表边际次数,57,例加权法计算及各符号含义,样本组A非AA的比率,男女59,1357700.1857323260.11541680960.16670.070318.960.8333,男女1012,2656820.31711129400.275037851220.30330.042126.890.6967,男女1315,1556710.2113227290.069017831000.17000.142320.590.8300,58,合并的条件各分表同一分类特征比率接近;分表小样本齐性(值不显著)无关因素控制相同,各分表相应比率变化相同;,RC表数据合并,59,、适用条件各分表比率接近且各样本齐性,年龄组AC合计计算结果,男女1519,121373218172358,合计303030,男女2025,151794126233179,合计404040,(0.3750),(0.4063),(0.2187),(0.3659),(0.4146),(0.2195),合并后结果,简单合并法,、例,60,合并后结果,性别ABC合计男27301673女434054137合计707070210,61,、具体操作先计算各分表中单元格的理论次数,将各分表理论次数相加作为总表对应格理论次数;然后将各分表的实计数合并,作为总表的实计数;进行卡方检验df=(R-1)(K-1),分表理论次数合并法,62,、例,不同年级对学方法的评价,样本评价教法1教法2教法3合计计算结果,初一年级,很好9(10.5)6(7.0)6(3.5)21一般5(6.5)6(4.3)2(2.2)13不好16(13.0)8(8.7)2(4.3)26合计30201060,初二年级,很好14(15.5)9(10.3)(5.2)31一般16(5.5)4(3.7)1(1.8)11不好10(9.0)7(6.0)1(3.0)18合计30201060,初三年级,很好5(9.7)8(6.2)6(3.1)19一般3(3.1)2(2.0)1(1.0)6不好20(15.2)8(9.8)2(4.9)30合计2818955,63,教法1教法2教法3,很好一般不好,(35.7),(23.5),(11.8),(15.1),(10),(5.0),(37.2),(24.5),(12.2),71,30,74,88,58,29,64,1、内涵RC列联表经检验后A、B因素有关联,表明:A因素的多项分类中有一项分类在B因素多项分类中有关联;或B因素多项分类中至少有一项分类在A因素多项分类中有关联。这种关联是体现在全体还是局部?对这个问题的进一步分析即相关源的分析。,五、相关源的分析,65,将2C分解成独立的22表进行分析,2、2C表的离析,离析过程、首先将2C表分解为C-1个四格表,分解方法:据专业知识作直观分析,先将估计关联不明显的四格表分解出来;,66,不显著,、逐项进行卡方检验,若关联不显著则合并,不显著,分解示意图,T1,T2,Tt,67,分解的22表计算公式,注t=1,2,.,C;N为总表中的总次数;为总表中边缘次数-横行;为总表中边缘次数-纵列;为总表中各格的实计数;,68,有一项调查结果如下,问二因素是否有关联,并进一步分析相关源,即究竟在哪种态度上有显著差异?,拥护不置可否反对,男女,303030,3060,N=90,例,69,解:分析思路,整体分析(23)结果:(关联不显著)是否在局部存在关联?开始离析,拥护不置可否,男女,T1,结果显示:在拥护与不置可否上并不存在性别差异,70,不反对反对,男女,T2,T1,结果显示:在反对与不反对上存在性别明显的差异,71,总体上不存在关联,72,将2C列联表分解为非独立22表进行分析,主要应用领域研究涉及几个对照组与控制组的比较例,评价原方法(对照组)新法1新法2新法3新法4,好不好,812211519221891511,四格表,73,评价原方法新法1,好不好,8122218,评价原方法新法2,好不好,821229,评价原方法新法3,好不好,8152215,评价原方法新法4,好不好,8192211,74,注:因为每一实验组都要与控制组比较,故此时各四格表间并不独立。,在保证总检验显著性水平为时,各分解四格表显著性水平的确定:,75,问题上例各分解四

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论