第十章 卡方检验_第1页
第十章 卡方检验_第2页
第十章 卡方检验_第3页
第十章 卡方检验_第4页
第十章 卡方检验_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章 卡方检验李金德思考:n例例1:随机抽取:随机抽取60名学生,询问他们在高中名学生,询问他们在高中是否需要文理分科,赞成分科的是否需要文理分科,赞成分科的39人,反人,反对分科的对分科的21人,问他们对分科的意见是否人,问他们对分科的意见是否有显著差异?有显著差异?n39大于大于21,所以学校决定不要分科。这样,所以学校决定不要分科。这样做可以吗?做可以吗?例例2:例某企业生产三种类型的手机:例某企业生产三种类型的手机:A类型、类型、B类类型、型、C类型。在一次市场调查中,公司市场研究小类型。在一次市场调查中,公司市场研究小组提出了男女使用者对于三种手机类型偏好是否组提出了男女使用者对于

2、三种手机类型偏好是否有差异的问题。有差异的问题。有的人因此用有的人因此用t检验检验两者的差异,这样做行吗?检验检验两者的差异,这样做行吗? A B C 男 20 40 20 女 30 30 10第一节 检验的原理一、一、 检验的假设检验的假设(一)(一)分类分类相互排斥,互不包容相互排斥,互不包容 检验中的分类必须相互排斥,这样每一个观测值就会被划分到一个类别或另一个类别之中。此外,分类必须互不包容,这样,就不会出现某一观测值同时划分到更多的类别当中去的情况。222(二)(二)观测值观测值相互独立相互独立 各个被试的观测值之间彼此独立,这是最基本的一个假定,如一个被试对某一品牌的选择对另一个被

3、试的选择没有影响。当同一被试被划分到一个以上的类别中时,常常会违反这个假定。 注意:当讨论列联表时,独立性假定是指变量之间的相互独立。这种情况下,这种变量的独立性正在被检测。而观测值的独立性则是预先的一个假定。(三)(三)期望次数期望次数的大小有规定的大小有规定 为了努力使 分布成为 值合理准确的近似估计,每一个单元格中的期望次数应该至少在5以上。一些更加谨慎的统计学家提出了更严格的标准,当自由度等于1时,在进行 检验时,每一个单元格的期望次数至少不应低于10,这样才能保证检验的准确性。222 另外,在许多分类研究中会存在这样一种情况,如自由度很大自由度很大,有几个类别的理论次数虽然很小,理论

4、次数虽然很小,但在给以接受的标准范围内,只有一个类别的理但在给以接受的标准范围内,只有一个类别的理论次数低于论次数低于1。此时,一个简单的处理原则是设法使每一个类别的理论次数都不要低于1,分类中不超过20%的类别的理论次数可以小于5。 在理论次数较小的特殊的四格表理论次数较小的特殊的四格表中,应运用一个精确的多项检验来避免使用近似的 检验。2 二、 检验的类别(一)配合度检验(一)配合度检验 配合度检验主要用来检验一个因素多项分类一个因素多项分类的实际观察数与某理论次数是否接近的实际观察数与某理论次数是否接近。 这种 检验方法有时也称为无差假说检验无差假说检验。当对连续数据的正态性进行检验时,

5、这种检验又可称为正态吻合性检验。22 (二)独立性检验(二)独立性检验 独立性检验是用来检验两个或两个以上因素两个或两个以上因素各种分类之间是否有关联或是否具有独立性各种分类之间是否有关联或是否具有独立性的问题。这种类型的 检验适用于探讨两个变量之间是否具有关联(非独立)或无关(独立),如果再加入另一个变量的影响,即探讨三个变量之间关系时,就必须使用多维列联表分析方法。2 (三)同质性检验(三)同质性检验 同质性检验的主要目的在于检定不同人群母不同人群母总体在某一个变量的反应是否具有显著差异总体在某一个变量的反应是否具有显著差异。 当用同质性检验检测双样本在单一变量的分布情 形,如果两样本没有

6、差异,就可以说两个母总体是同质的,反之,则说这两个母总体是异质的。 三、 检验的基本公式 检验的统计原理,是比较观察值与理论值的差别: 1.如果两者的差异越小,检验的结果越不容易达到显著性水平; 2.两者的差异越大,检验的结果越可能达到显著性水平,就可以下结论拒绝虚无假设而接受备择假设。22 基本公式如下: 其中 表示实际观察次数, 表示某理论次数。 要求: 5eefff2020fefef 四、小期望次数的连续性校正 运用 检验时,有一个特殊的要求,单元格的理论次数不得小于5,小于5时可能违反统计基本假设,导致统计检验高估的情形出现。通常需要有80%以上的单元格理论值要大于5,否则 检验的结果

7、偏差非常明显。22n当单元格的人数过少时,处理的方法有四种:1.单元格合并法2.增加样本数3.去除样本法4.使用校正公式第二节 配合度检验 配合度检验(goodness of fit test)主要用于检验单一变量的实际观察次数分布与某理论次数检验单一变量的实际观察次数分布与某理论次数是否有差别是否有差别。由于它检验的内容仅涉及一个因素多项分类的计数资料,故可以说是一种单因素检验(One-way test)。 一、配合度检验的一般问题(一)统计假设(一)统计假设 统计假设如下统计假设如下:ffffHffffHeeoee010000:0:或或fffee202)(基本公式:基本公式: (二)自由度

8、的确定(二)自由度的确定 自由度确定的一般原则是:以相互独立的类别数k(或C)减去所受的限制数,即Mkdf在各种适合性检验中,如果理论次数只受到总和的限制,即受 的限制,则自由度为 eff01 kdf在正态分布的适合性检验,受到三个条件的限制,其自由度为 3 kdf (三)理论次数的计算规则(三)理论次数的计算规则 数据分布以其理论概率为依据,这时的理论次数等于总次数乘以某种属性出现的概率,即 理论次数的计算,一般是根据某种理论,按一定的概率通过样本即实际观察次数计算。某种理论有经验概率,也有理论概率,如二项分布、正态分布等。Npfe 二、配合度检验的应用(一)检验无差假说(一)检验无差假说

9、无差假说,是指各项分类的实计数之间没有差异,也就是假设各项分类之间的机会相等,或概率相等,因此理论次数完全按概率相等的条件计算。即: 理论次数=总数分类项数1 例10-1:随机抽取60名学生,询问他们在高中是否需要文理分科,赞成分科的39人,反对分科的21人,问他们对分科的意见是否有显著差异?(p298) n解:此题只有两项分类。假设两项分类的实计数相等或无差别,其各项实计数的概率应相同,即p=q=0.5。因此,检验的问题“对分科的意见是否有显著差异”实际上是指每种态度的实计数与理论次数差异是否显著,因各项的理论次数项数相同,故可理解为对分科的态度是否一样或是否有差异。故:1122604 .5

10、30)9(930)3021(30)3039()(2)3022222020100dfffffffHffHeeeee所以为一个统计量,分类项数时用到总数因为计算计算统计量:1)建立假设302160ef3)统计决策之间。至论犯错误的概率在有显著差异,做这一结度们对高中文理分科的态答:可以推论说,学生或值在两者之间,所以,算得,时,值表,当查01. 005. 005. 001. 063. 684. 31201. 02205. 02201. 0205. 02pdf 例10-2:某项民意测验,答案有同意、不置可否、不同意三种。调查了48人,结果同意的24人,不置可否的12人,不同意的12人。问持这三种意见

11、的人数是否有显著不同?(p299) 解:解:此题为检验无差假说,已知分类的项数为三,故各此题为检验无差假说,已知分类的项数为三,故各项分类假设实计数相等。所以项分类假设实计数相等。所以 1)建立假设)建立假设 2)计算统计量)计算统计量 3)进行统计决策)进行统计决策 查表,当 时 , 因为 ,所以 。达到显著性水平,拒绝原假设。说明三种态度有显著差异。163148,48,31feNpffHe00:ffHe01:616)1612(16)1612(16)1624(2222213df99. 5205. 0205. 02605. 0p (二)检验假设分布的概率(二)检验假设分布的概率 假设某因素各项

12、分类的次数分布为正态,检验实计数与理论上期望的结果之间是否有差异。因为已假定所观察的资料是按正态分布的,故其理论次数的计算应按正态分布概率,分别计算各项分类的理论次数。 具体方法是先按正态分布理论计算各项分类应先按正态分布理论计算各项分类应有的概率再乘以总数有的概率再乘以总数,便得到各项分类的理论次理论次数数。 如果不是事先假定所观察的资料为正态分布如果不是事先假定所观察的资料为正态分布而是其他分布,如二项分布、泊松分布等,其概而是其他分布,如二项分布、泊松分布等,其概率应按各所假定的分布计算。率应按各所假定的分布计算。事先假定的分布不事先假定的分布不是理论分布而是经验分布,是理论分布而是经验

13、分布,亦可按此经验分布计亦可按此经验分布计算概率,在乘以总数便可得到理论次数,从而进算概率,在乘以总数便可得到理论次数,从而进一步检验假设分布与实计数的分布之间,亦即实一步检验假设分布与实计数的分布之间,亦即实计数与理论次数之间差异是否显著。计数与理论次数之间差异是否显著。 例10-3:某班有学生50人,体检结果按一定标准划分为甲乙丙三类,其中甲类16人,乙类24人,丙类10人,问该班学生的身体状况是否符合正态分布?(299) 解:该题中的理论次数应按假设的正态分布概率计算。按正态分布,就可以认为 包括了全体,各等级所占的横坐标应该相同( ),故各类人数应占的比率为:1587. 03413.

14、050. 0316826. 023413. 0111587. 03413. 050. 013之间,曲线下的面积为丙级:之间,曲线下的面积为乙级:之间,曲线下的面积为甲级:3236为多个值)因建立假设以总人数。各部分理论上的概率乘各等级的理论次数应为丙乙甲ffffHffeeiieeef,(:)18501587. 034506826. 08501587. 0000ffHeii01: 答:可以说该班学生的身体状态不符合正态分布,或者说该班学生身体状况甲乙丙三类的人数分布与正态分布有显著差异。,差异显著表得查)统计决策)()()(值用基本公式计算205. 02205. 02222226 .102133

15、44.1188103434248816df2)计算统计量 例10-4:根据以往的经验,某校长认为高中生升学的男女比例为2 :1,今年的升学情况是男生85人,女生35人,问今年升学的男女比例是否符合该校长的经验?(p300) 解:此题是假设男女生升学的人数分布与校长的经验分布相同,故理论次数应按经验分布的概率计算。 理论次数为:1)建立假设 H0:男女升学比例符合校长经验 H1:男女升学比例不符合校长经验403135858032)3585()(女男ffee的经验没有显著差异。生人数分布与某校长答:实际升学的男女学差异不显著故表得的查)统计决策)()()计算统计量,84. 312394. 0404

16、0-358080-852205. 02205. 02222df 三、连续变量分布的吻合性检验三、连续变量分布的吻合性检验(自学自学)复习n1、什么是、什么是 检验检验n2、 检验的步骤检验的步骤n3、 检验的类别(第二节)检验的类别(第二节)222 目的目的: 实际观察实际观察频数频数分布与理论分布与理论频数频数分布是否相分布是否相一致,或者说有无显著差异问题。包括:一致,或者说有无显著差异问题。包括: 一个因素的多个分类一个因素的多个分类 多个因素的多个分类多个因素的多个分类 检验统计量检验统计量:2 应用应用:计数数据:计数数据返回步骤(1) 建立检验假设建立检验假设 H0:fe-f0=0

17、 H1 :fe-f00(2)求检验统计量值)求检验统计量值(4)确定临界值,进行统计决策)确定临界值,进行统计决策返回202eefff(3) 确定自由度,显著性水平确定自由度,显著性水平=0.05 2如果如果20.05(df),则拒绝,则拒绝H0 配合度检验:配合度检验:n拟合优度检验,重点考察一个观测次数分布(实拟合优度检验,重点考察一个观测次数分布(实际频数)与理论预测次数分布(理论频数)之间际频数)与理论预测次数分布(理论频数)之间的差异。的差异。n适用于研究某总体的分布是否与某种分布相符合。适用于研究某总体的分布是否与某种分布相符合。n如:如:课堂练习课堂练习例例 某企业生产三种类型的

18、手机某企业生产三种类型的手机:A类型、类型、B类型、类型、C类型。在一次市场调查中,公司市场研究小组提类型。在一次市场调查中,公司市场研究小组提出了男女使用者对于三种手机类型偏好是否有差出了男女使用者对于三种手机类型偏好是否有差异的问题。异的问题。 A B C 男 20 40 20 女 30 30 10n问题:问题: 手机偏好与使用者性别是否有关联?手机偏好与使用者性别是否有关联?两个因素两个因素是否关联是否关联第三节第三节 独立性检验 教学内容n一、独立性检验的一般问题与步骤一、独立性检验的一般问题与步骤n1、几个重要概念、几个重要概念n2、独立性检验的内涵、独立性检验的内涵n3、独立性检验

19、的步骤、独立性检验的步骤n四、独立性检验的两种类别四、独立性检验的两种类别四格表独立性检验四格表独立性检验列联表独立性检验列联表独立性检验n五、五、列联表独立性检验列联表独立性检验一、几个重要概念一、几个重要概念n1、列联表、列联表定义:呈现两个变量之间关系的表格定义:呈现两个变量之间关系的表格记录两个变量不同水平的各种组合的被试频数记录两个变量不同水平的各种组合的被试频数n2、观测频数、观测频数实际观测到的频次实际观测到的频次n3、期望频数、期望频数假设两个变量之间没有任何联系的情况下,我假设两个变量之间没有任何联系的情况下,我们所预期的各种变量组合应有的频次们所预期的各种变量组合应有的频次

20、n4、边缘值、边缘值列联表中每一行和每一列的观测频数的总和列联表中每一行和每一列的观测频数的总和返回返回横标目横标目纵标目纵标目表示变量表示变量X的的r种水种水平平表示变量表示变量Y的的c种水平种水平3 2列联表列联表单元单元有有20名被试在性别变量名被试在性别变量上是上是“男性男性”,在偏爱的,在偏爱的手机上是手机上是“A类型类型”返回返回 A B C 男 20 40 20 女 30 30 10计算期望次数计算期望次数如果性别与偏好无如果性别与偏好无关关,说明表中说明表中150个个被试被试,8/15是男是男性性,7/15是女性是女性,则则喜爱喜爱A类型的类型的50人人中中,有有8/15是男是

21、男性性,7/15是女性是女性边缘值边缘值边缘值边缘值Nffjifyixie样本容量列之和第行之和第nfe1=(5080)/150= 26.67nfe2 =(7080)/150= 37.3nfe3 =(3080)/150= 16nfe4 =(5070)/150= 23.33nfe5=(7070)/150= 32.7nfe6 =(3070)/150= 14 返回返回二、独立性检验的内涵二、独立性检验的内涵n独立性检验表示独立性检验表示对于对于x的每个值的每个值,y值的次值的次数分布是否有差异。数分布是否有差异。n如果对于如果对于x的的 每个值,每个值,y值的次数分布一样,值的次数分布一样,则表示:

22、则表示:x变量和变量和y变量毫无关系。变量毫无关系。n如果对于如果对于x的的 每个值,每个值,y值的次数分布有差异,值的次数分布有差异,则表示:则表示:x变量和变量和y变量有关联,或说两变量变量有关联,或说两变量存在相关。存在相关。n所以,独立性检验也是对两个变量之间相关程所以,独立性检验也是对两个变量之间相关程度的一种检验。度的一种检验。n如果性别与手机类型偏好之间无联系,则表示如果性别与手机类型偏好之间无联系,则表示不论男女,对这些手机都具有一致的偏好。不论男女,对这些手机都具有一致的偏好。那那么,每个观测频次就应该与相应的期望频次相么,每个观测频次就应该与相应的期望频次相同,这时卡方值为

23、同,这时卡方值为0。n如果性别与手机类型偏好之间联系越紧密,则如果性别与手机类型偏好之间联系越紧密,则表示较多的男性喜欢某种类型,而较多的女性表示较多的男性喜欢某种类型,而较多的女性喜欢其他类别的手机。则观测频次与相应的期喜欢其他类别的手机。则观测频次与相应的期望频次的差异越大。望频次的差异越大。n两个变量之间联系越紧密,观测频次与相应期两个变量之间联系越紧密,观测频次与相应期望频次的差异就越大,这时卡方值就越大。望频次的差异就越大,这时卡方值就越大。返回返回例例 某企业生产三种类型的手机某企业生产三种类型的手机:A类型、类型、B类型、类型、C类型。在一次市场调查中,公司市场研究小组提类型。在

24、一次市场调查中,公司市场研究小组提出了男女使用者对于三种手机类型偏好是否有差出了男女使用者对于三种手机类型偏好是否有差异的问题。异的问题。 A B C 男 20 40 20 女 30 30 10三、独立性检验的步骤三、独立性检验的步骤1、假设、假设H0:因素一与因素二无关联因素一与因素二无关联H1:因素一与因素二有关联因素一与因素二有关联2、计算、计算3、确定自由度,、确定自由度,显著性水平显著性水平 df=(R-1)()(C-1)4、确定临界值,进行决策、确定临界值,进行决策2返回返回202eefff,则拒绝,则拒绝H0如果如果22(df) 1(22fffyixioiN或四、四格表独立性检验

25、四、四格表独立性检验 2 2表表 检验检验2(一)两独立样本四格表卡方检验(一)两独立样本四格表卡方检验(二)两相关样本四格表卡方检验(二)两相关样本四格表卡方检验n1、四格表、四格表n2、检验步骤、检验步骤n3、卡方的连续性矫正、卡方的连续性矫正 四格表资料的基本形式四格表资料的基本形式 边缘值边缘值单元单元四格表资料检验的专用公式四格表资料检验的专用公式返回DBCADCBABCADN22例例10-7:随机抽取:随机抽取90人,按不同性别分类,将学人,按不同性别分类,将学生成绩分为中等以上及中等以下两类。问男女生成绩分为中等以上及中等以下两类。问男女在学业水平上是否有关联?在学业水平上是否有

26、关联?(p312) 23(A) 17(B) 28(C) 22(D)学业水平学业水平中等以上中等以上中等以下中等以下性别性别男男女女n解:解:1)建立假设 H0 :性别与学业成绩无关:性别与学业成绩无关 H1 :性别与学业成绩有关:性别与学业成绩有关 2) 计算统计量020. 090395150402817222322当df=1时,84. 3205. 0205. 02所以,性别与学业成绩无关。所以,性别与学业成绩无关。3)比较与决策 异。学业成绩上没有显著差同在关,或说男女生性别不答:性别与学业成绩无时,表,当查论次数。基本公式计算各格的理用05. 0101996. 067.2133.2833.

27、1767.2267.2133.173933.1767.224033.2867.225167.22905140222222224321267.212233.282833.171767.2223dfffffeeee3 3 四格表资料检验的校正公式四格表资料检验的校正公式 n当四格表任一格的理论次数小于5时,要采用卡方值连续校正公式DBCADCBANBCADN222 练习练习:今对一广告的态度调查,随机抽20名被试对该广告进行评价。试问对广告的偏好与性别有无关联? 好不好男718女931215520 显然,有两格的实际次数小于5,其理论次数有可能小于5,故需用校正公式。 说明对广告的偏好与性别没有关联。01. 07200805151282201937202201. 02 484. 3205. 013) 与 的关系 在22列联表的独立样本 检验中,不仅可以检验两种变量的相倚关系,而且还可以对“二分变量”的相关系数进行显著性检验。只要 检验结果是显著的,就可以检验 是否与零相关的虚无假设有显著的差别,这是因为二者之存在着以下关系: 2r22r22NrNr2(二)相关样本四格表检验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论