


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、卡方检验应用第八章记数数据统计法一卡方检验法知识引入在各个研究领域中,有些研究问题只能划分为不 同性质的类别,各类别没有量的联系。例如,性 别分男女,职业分为公务员、教师、工人、,教师职称又分为教授、副教授、。有时虽有 量的关系,因研究需要将其按一定的标准分为不 同的类别,例如,学习成绩、能力水平、态度等 都是连续数据,只是研究者依一定标准将其划分 为优良中差,喜欢与不喜欢等少数几个等级。对 这些非连续等距性数据,要判别这些分类间的差 异或者多个变量间的相关性方法称为计数数据 统计方法。卡方检验是专用于解决计数数据统计分析 的假设检验法。本章主要介绍卡方检验的两个应 用:拟合性检验和独立性检验
2、。拟合性检验是用 于分析实际次数与理论次数是否相同,适用于单 个因素分类的计数数据。独立性检验用于分析各 有多项分类的两个或两个以上的因素之间是否 有关联或是否独立的问题。在计数数据进行统计分析时要特别注意取 样的代表性。我们知道,统计分析就是依据样本 所提供的信息,正确推论总体的情况。在这一过 程中,最根本的一环是确保样本的代表性及对实 验的良好控制。在心理与教育研究中,所搜集到 的有些数据属于定性资料,它们常常是通过调 查、访问或问卷获得,除了少数实验可以事先计 划外,大部分收集数据的过程是难于控制的。 例 如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,
3、或 对问卷本身有偏见,根本就不填写问卷。这样该 研究所能收回的问卷只能代表一部分观点, 所以 它是一个有偏样本,若据此对总体进行推论,就 会产生一定的偏差,势必不能真实地反映出教师 与学生对这项教育措施的意见。因此应用计数资 料进行统计推断时,要特别小心谨慎,防止样本 的偏倚性,只有具有代表性的样本才能作出正确 的推论。第一节卡方拟合性检验一、卡方检验的一般问题卡方检验应用于计数数据的分析,对于总体 的分布不作任何假设,因此它又是非参数检验法 中的一种。它由统计学家皮尔逊推导。理论证明, 实际观察次数(f。)与理论次数(fe),又称期 望次数)之差的平方再除以理论次数所得的统计 量,近似服从卡
4、方分布,可表示为:这是卡方检验的原始公式,其中当fe越大 (fe>5,近似得越好。显然fo与fe相差越大,卡 方值就越大;fo与fe相差越小,卡方值就越小; 因此它能够用来表示fo与fe相差的程度。根据这 个公式,可认为卡方检验的一般问题是要检验名 义型变量的实际观测次数和理论次数分布之间 是否存在显著差异。它主要应用于两种情况:卡方检验能检验单个多项分类名义型变量 各分类间的实际观测次数与理论次数之间是否 一致的问题,这里的观测次数是根据样本数据得 多的实计数,理论次数则是根据理论或经验得到 的期望次数。这一类检验称为拟合性检验。拟合性检验的零假设是观测次数与理论次 数之间无差异。其中
5、理论次数的计算一般是根据 某种理论,按一定的概率通过样本即实际观测次 数来计算。这里所说的某种理论,可能是经验规 律,也可能是理论分布。确定理论次数是卡方检 验的关键。拟合性检验自由度的确定与两个因素有关: 一是分类的项数,二是在计算理论次数时,所用 统计量或约束条件的个数,这两者之差即为自由 度。由于一般情况下,计算理论次数时只用到总 数”这一统计量,所以自由度一般是分类的项数 减1。但在对连续数据分布的配合度检验中,常 常会用数据个数、平均数、标准差等统计量来计 算理论次数,所以此时的自由度应从总分类项中 减去更多的个数。按照检验中理论次数的定义不 同,拟合性检验有以下集中应用。二、检验无
6、差假设所谓无差假设,是指各项分类的实计数之间 没有差异,也就是说各项分类之间的概率相等(均匀分布),因此理论次数完全按概率相等的 条件来计算。即任一项的理论次数都等于总数 / 分类项数。因此自由度也就等于分类项数减1。【例1】 随机地将麻将色子抛掷300次, 检验该色子的六个面是否均匀。 结果1-6点向上 的次数依次是,43,49,56,45,66,41。解:每个类的理论次数是 300/6 = 50,代入 公式:2 7氐血 _ (43f T (49 5抄(56-50)2_ 乙505050(45- 50)2 丄(66冗尸 (41-50)2 505050因此,在0.05的显著性水平下,可以说这 个
7、色子的六面是均匀的。【例2】随机抽取60名高一学生,问他们 文理要不要分科,回答赞成的39人,反对的21 人,问对分科的意见是否有显著的差异。解:如果没有显著的差异,则赞成与反对的 各占一半,因此是一个无差假设的检验,于是理 论次数为60/2=30,代入公式:所以对于文理分科,学生们的态度是有显著 的差异的。三、检验假设分布的概率这里的假设分布可以是经验性的, 也可以是 某理论分布。公式中所需的理论次数则按照这里 假设的分布进行计算。【例3】 国际色觉障碍讨论会宣布,每 12 个男子中,有一个是先天性色盲。从某校抽取的 132名男生中有4人是色盲,问该校男子色盲比 率与上述比例是否有显著差异?
8、解:按国际色觉障碍讨论会的统计结果,132 人应该有132/12=11人是色盲,剩下的121人非 色盲,代入公式有:宀刀穿=晋+卑尹=4,6施(哄轴因此,在0.05和显著性水平下,该校男子 色盲比率与国际色觉障碍讨论会的统计结果有 显著差异,显然根据比例可知该校的色盲率小于 国际色觉障碍讨论会的统计结果。【例4】在英语四级考试中,某学生做对 了 80个四择一选择题中的28题,现在要判断该 生是否是完全凭猜测做题。解:假如该生完全凭猜测做题,那么平均而 言每道题做对的可能性是1/4,因此80个题中平 均而能做对80/4=20题,代入公式有:/ =另比型=辔旦+逻应=427谥(1) = 3.84厶
9、 /2060因此,该生可能会做一些题。四、连续变量分布的拟合性检验对于一组连续数据,经常需要对其次数分布 究竟服从哪种理论分布进行探讨, 这一方面的主要应用就是在前面经常所提到的总体正态性检 验。首先要将测量数据整理成次数分布表和画出 次分布图,并据此选择恰当的理论分布。 这些理 论分布是多种多样的,例如有正态分布、均匀分 布等。然后根据选择的理论分布计算出理论次 数,就可以计算卡方统计量并进行显著性检验 了。若差异显著,说明所选择的理论分布不合适, 可以再选一个理论分布进行检验,直至完全拟 合。当然有时也只需检验是否与某确定的理论分 布相符,如正态性检验(参见教材有关内容)。对连续随机变量分
10、布的吻合性检验, 关键的 步骤是计算理论次数与确定自由度。理论次数的 计算是按所选理论分布规律,并利用观测数据的 有关统计量来计算各分组(次数分布表中)理论 次数。自由度则是用分组数减去计算理论次数时 所用统计量的数目。这种拟合性检验计算较为繁琐,不做要求。五、小理论次数时的连续性校正卡方检验中,当某分类理论次数小于 5时, 卡方统计量不能很好地满足卡方分布,此时需要 对卡方统计量进行校正,称为卡方的连续性校 正,其公式如下:2昭為-£|0少Z尽管采用此方法校正后,卡方统计量能较为 接近卡方分布,不过我们仍然建议在实际中最好 增大样本的容量,尽量减少出现这种不大服从理 论分布的情况。
11、第二节独立性检验卡方检验还可以用于检验两个或两个以上因 素(各有两项或以上的分类)之间是否相互影响 的问题,这种检验称为独立性检验。例如要讨论 血型与性格的关系,血型有A、B、AB、O四类, 性格采用心理学上的A型性格来划分,即有A 型和B型两种,每个人可能是它们之间交叉所形 成的8种类型中的一种,那么倒底它们之间有不 有关系,就可以用卡方独立性检验。卡方独立性检验用于检验两个或两个以上 因素(各有两项或以上的分类)之间是否相互影 响的问题。所谓独立,即无关联,互不影响,就 意味着一个因素各个分类之间的比例关系, 在另 一个因素的各项分类下都是相同的, 比如在血型 与性格关系中,如果 A型性格
12、人群中各血型的 比例关系,与B型性格人群中各血型的比例关系 相同,就可能说血型与性格相互独立,当然这里 的 两者比例相同”在统计的意义下,应表述为 两比例差异不超过误差范围”,因为就算总体之 间相互独立,收集到两个比例完全相同的样本的 可能是很小很小的,甚至是不可能的。相反,若 一个因素各个分类之间的比例关系,在另一个因 素的各项分类下是不同的,则它们之间相关。假 如A型性格中A型血的比例高于B型性格中A 型血的比例,而且达到显著水平,那么就可以说 血型与性格之间相关,不相互独立。卡方独立性检验的零假设是各因素之间相 互独立。因此理论次数的计算也是基于这一假 设,具体计算时,采用列联表的方式,
13、后面将举 例说明。【例1】某校对学生课外活动内容进行调 查,结果整理成下表,表中彩色格子里的数是原 始数据的汇总数,括号内的数是理论次数(是按 下面将要介绍的原理计算得来的),此外的是原 始数据。性别個素2)课外活动内容(因素1)小计和(fx)体育文娱阅读男生21(15.3)11(10.2)23(29.5)55女生6(11.7)7(7.8)29(22.5)42小计和(fy)27185297由于所有学生参加三项活动的比例是 27:18:52,因此如果课外活动的选择与性别没有 关系的话,男女生参加这三项活动的比例也应是 这同一比例,而男女各自的人数可以计算,所以 每格内的理论次数的计算方法如下:男
14、生中参加体育活动的理论人数:55怎7/97=15.3 参加文娱活动的理论人数:55 X18/97=10.2参加阅读活动的理论人数:5502/97=29.5女生中参加体育活动的理论人数:4227/97=11.7参加文娱活动的理论人数:42X18/97= 7.8参加阅读活动的理论人数:4252/97=22.5我们将行列的小计和分别用 fx和fy来表 示,总人数用N来表示时,上述计算理论次数 的方法可以表示为:fej = fxi Xfyj/N所以,卡方独立性检验的公式可以表示如 下,其中最后一个式子比较便于计算,fxy表示 每格的原始数据。2vu-/f)2 pGrMjM4 卄由于在计算理论次数时,用
15、了按每个因素分 类的小计和(fx和fy,其个数分别记为 R个 和C个),和总和N,而总和又可由按每个 因素分类的小计和计算得来,因此若从总分类个数RXC中减去R+C ,则将总和重复减去了,因 此要补1个自由度回来,所以最终独立性检验 的自由度表示为:# = xC-A-C+l=(-O-l)上述例题最终计算得:2 _ (21-15.3)3(11-10.2)2 (23-29.5)aJ 153102293(6-11.7)2(7-7.8)2(29-22牙1L7 '78 223=8.3552或者:(2f 1?2字H1h(55x27 5眾18 55x52 42x27 48x18 42x52 丿这两个
16、公式的计算结果有一点点差异,这完 全是计算误差即四舍五入引起的。df = (3-1)(2-1) = 2,而 Xo.o5(2) = 5.99,所以 在0.05的显著性水平下,拒绝零假设,即可以 认为性别与课外活动内容有关联,或者说男女生 在选择课外活动上存在显著的差异。四格表独立性检验对于两个都只作两项分类的因素,它们的数 据整理成的是一个2怎的表格,一般称为四格 表,对于四格表教材里给出了一个更简洁的公 式:2_ N(ad-bcf" (a + b)(c +c)(i> + d)公式中,a、b、c、d的规定要求是a和d 必须呈对角线。该公式的含义非常明确,即当对 角线单元格中的次数
17、差异越大时,卡方检验越容 易显著,自然也就意味着两变量间的关联越密 切。掌握了一般的R*C表计算后,四格表计算 相对简单地多。这里不再展开。注意,在独立性检验中,同样存在某格的理 论次数小于等于5的问题,如同拟合性检验中 一样,我们仍然建议在实际中最好增大样本的容 量,尽量减少出现这种不大服从理论分布的情 况。此外,在独立性检验中,若拒绝了零假设, 即各因素之间有关联,则如同方差分析中仅判定 了存在交互作用一样,只是一个总体的结果,并 不能回答具体关联的形式的问题。如果各因素之 间独立,则到此为止,若各因素间有关联,还应 该作进一步的分析,具体搞清楚各变量的次数间 是如何关联的。对此卡方检验有
18、一些办法,但不 如参数检验中那样严格。卡方独立性检验一般也 仅限于两变量间的关联考察,对于多个名义型变 量,往往采用分拆一个变量分别进行独立性检验 的办法,然后试图整合多次检验的结果。这种做 法就显得更牵强一些。品质相关卡方检验既然是用来解决变量间关联性的,则也 可以构造和积差相关或等级相关系数一样的相 关程度的度量,称为品质相关。常用的品质相关 有以下几种:1、相关系数相关只适用于四格表,它要求两变量是不 同性质的。相关的公式实际上是根据四格表的 卡方值变换而来的,通过变换使得其取值大约在正负1之间,这样便于联系一般的相关系数的含 义进行解释。在卡方检验一节,我们曾讲到卡方 值的大小反映了实际次数与理论次数之间差异 的大小,而独立性检验中的理论次数是根据两变 量独立的假设计算出来的,因此卡方值的大小也 就反映了两变量距独立有多远,离独立越远
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 糖尿病酮症酸中毒护理诊断与措施
- 陈与义《临江仙夜登小阁忆洛中旧游》古诗词鉴赏试题及答案解析
- 2026届中卫市重点中学英语九上期末监测模拟试题含解析
- 2026届北京市部分区化学九年级第一学期期末学业质量监测模拟试题含解析
- 2026届安徽省六安市天堂寨初级中学化学九上期末联考模拟试题含解析
- 现场检修知识培训
- 广东省广州天河区七校联考2026届九年级化学第一学期期中教学质量检测模拟试题含解析
- 作业标准书培训
- 金融贷款公司培训
- 江苏省庙头中学2026届九年级英语第一学期期末联考试题含解析
- 教科版小学科学一年级上册全册教案【全套】
- 成人肠造口护理
- 安徽省宣城市宣州区宣城市第六中学2024-2025学年九年级上学期开学物理试题
- 2024届重庆巴川量子中学毕业升学考试模拟卷数学卷含解析
- 家庭经济困难学生认定申请表
- 世界科学技术史全册配套完整课件
- 金川集团社招考试题
- 合规和法律合规管理制度
- NB-T10315-2019风电机组一次调频技术要求与测试规程
- 选择性必修二《Unit 1 Science and Scientists》单元教学设计
- 新手会计上岗实操100问
评论
0/150
提交评论