10 第十章 卡方检验.ppt_第1页
10 第十章 卡方检验.ppt_第2页
10 第十章 卡方检验.ppt_第3页
10 第十章 卡方检验.ppt_第4页
10 第十章 卡方检验.ppt_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章 卡方检验,2检验及其特点 单向表的2检验(配合度检验) 频数分布正态性的2检验 双向表的2检验 四格表的2检验,一. 2检验及其特点,12检验的特点 2检验(chi-square test)是专门用于计数数据的统计方法。 数据所来自的总体分布是未知的。 2检验在多数情况下不是对总体参数的检验,而是对总体分布的假设检验。,一. 2检验及其特点,12检验的特点 由于这类数据在整理时,常常以列联表(contingency table)或交叉表(cross tabulation)呈现,因此这种分析方法又被称为列联表分析或交叉表分析。,一. 2检验及其特点,22分布及2值 2分布是统计学中应用较

2、多的一种抽样分布。 2值是从同一总体中随机抽取的无限多个容量为 n 的样本数据的平方和或标准分数的平方和,即,或,此时2分布的自由度为df n。,如果正态总体的平均数未知,需要用样本平均数作为总体平均数的估计值,这时公式变为:,此时,2分布的自由度为df n1。,2分布曲线,相 对 频 数,图151 几种不同自由度的2分布曲线(0.05),n=1,n=4,n=10,n=20,2,显而易见,2检验主要应用的是右侧概率。,32分布的特点,2分布呈正偏态,曲线的右侧无限延伸,但不与基线相交。 2值都是正值。 2分布的和也是2分布。 2分布随自由度的变化而不同。自由度越小,曲线偏斜度越大;自由度越大,

3、分布形态越趋于对称。,42检验,2检验用于对点计而来的离散型数据资料进行假设检验,对总体的分布不做要求,也不对总体参数进行推论。2检验主要是对总体的数据分布进行假设检验,因此属于自由分布的非参数检验。,2检验是对由样本得来的实际频数与理论频数的分布是否有显著性差异所进行的检验。其计算公式为:,这一公式是根据1899年统计学家皮尔逊推导的配合适度的理论公式而来。这是与前述2分布非常近似的次数分布。当 fe 越大时,其接近的越好。,2值的特点,2值具有可加性; 2永远是正值; 2的大小随实际频数与理论频数差的大小而变化。两者之差越小,说明样本分布与假设的理论分布越一致;两者之差越大,说明样本分布与

4、假设的理论分布越不一致。,理论频数也称为期望次数。,二单向表的2检验(配合度检验),把实际所得的点计数据只按一种分类标准编制成统计表就是单向表。对单向表的数据所进行的2检验,称为单向表的2检验,也称为配合度检验(goodness of fit test)。,1单向表2检验的计算公式,单向表中只有一个变量,被按一定标准分为k 组。单向表2检验中,2值的计算公式可采用下面的公式,自由度为dfk1。,2单向表2检验中理论频数的计算,两种情形: 各类别理论频数相等 各类别理论频数符合一定的比例,计算要点,将总频数平均分到几个类别,将总频数按已知比例分到几个类别,32检验的计算,表15-1 单向表2检验

5、计算表,例1:随机抽取60名学生,询问他们在高中是否需要文理分科,赞成分科的39人,反对分科的21人,问他们对分科的意见是否有显著差异?,解: 1.提出假设 H0:学生对分科的意见没有显著差异 H1:学生对分科的意见有显著差异 2.选择检验统计量并计算 对点计数据进行差异检验,可选择2检验,计 算,表15-2 学生对分科意见的2检验计算表,自由度为: df = k -1=1,3.统计决断,查2值表,当 df =1 时,计算结果为: 2=5.4*,3.84 2= 5.4 6.63,则 0.05 P 0.01,结论:学生对高中文理分科的态度有显著差异。,表153 2检验统计决断规则,例2:大学某系

6、54位老年教师中,健康状况属于好的有15人,中等的有23人,差的有16人。问该校老年教师健康状况好、中、差的人数比例是否为1:2:1?,1.提出假设 H0:健康状况好、中、差的人数比例是1:2:1 H1:健康状况好、中、差的人数比例不是1:2:1 2.选择检验统计量并计算 对点计数据进行差异检验,可选择2检验,2. 计 算,表15-4 老年教师健康状况的2检验计算表,3.结 论,查2值表,当 df =k -1=2 时,计算结果为: 2=1.22,2= 1.22 5.99,则 P 0.05,结论:理论频数与实际频数差异不显著,表明该校老年教师健康状况的人数比例是1:2:1。,42的连续性校正,当

7、df1时,其中只要有一个组的理论频数小于5,就要运用亚茨(Yates)连续性校正法,计算公式为:,之所以要进行连续性校正,是因为由点计数据求得的2值是间断数列,当df1,fe5时,其间断性尤其明显。而2值表上的理论值是用连续量表表示的,其2分布是一条连续的光滑曲线。 为了对连续的2曲线作较好的估计,需要在每个小于理论频数的实际频数上加0.5,而在大于理论频数的实际频数上减去0.5。,例3:历年优秀学生干部中男女比例为2:8,今年优秀学生干部中有3个男生,7个女生。问今年优秀学生干部的性别比例与往年是否有显著差异?,1.提出假设 H0:今年优秀学生干部的性别比例与往年没有显著差异 H1:今年优秀

8、学生干部的性别比例与往年有显著差异 2.选择检验统计量并计算 对点计数据进行差异检验,可选择2检验,2. 计 算,表15-5 学生干部性别比例的2检验计算表,自由度为: df = k -1 =1,3.统计决断,查2值表,当 df =1 时,计算结果为: 2=0.156,2= 0.156 3.84,则 P 0.05,结论:优秀学生干部中的性别比例与往年一样。,思考:为什么只有 df = 1 时需要校正?,三频数分布正态性的2检验,实际应用中,常常需要对一组数据的分布是否符合正态的情况进行检验。除了用累积分布曲线的形状和皮尔逊的经验公式进行大致判断之外,对实际频数分布与理论频数的分布是否一致的2检

9、验是对数据分布形态进行检验的比较精确和可靠的方法。,1 频数分布正态性检验的基本思路,将待检验的一组数据列成次数分布表。 根据次数分布表的分组界限,计算出该组数据正态分布情况下的理论频数。 对实际频数与理论频数是否一致进行2检验。,思考:如何计算各组的理论频数?,2 频数分布正态性检验的计算要点,1 将次数分布表中各分组区间的上、下限转换成标准分数Z值; 2 根据各组上、下限Z值查表,寻找Z0至各组上、下限Z值之间的面积; 3 求各组的面积(即概率)。 计算中应注意Z值的正、负号。,4 将各组的面积与总频数相乘,求出各组的理论频数。 计算理论频数时,两端若有任何一组的理论频数小于5,需要将这组

10、的理论频数与相邻组的理论频数合并。如果合并后仍然小于5,可再合并,直至大于5为止。,5 根据计算出的理论频数与表中的实际频数,计算各组的2值,并将各组2值相加,得到最终的2值。(注意:自由度为 df = k -3 ),练习与思考,认真复习2检验的方法,掌握单向表2检验的计算公式。 思考:什么样的数据属于点计数据,适合做2检验? 本章第2、5、6、9题。,练习: 某高校按 1:4:7:3 的比例规定了各级教师岗位职称人数,该校现有各级教师人数为:教授 45人,副教授255人,讲师360人,助教435人,问该校现有教师的人数比例是否符合规定?,四. 双向表的2检验,把实得的点计数据按两种分类标准编

11、制成的表就是双向表。对双向表的数据所进行的2检验,叫作双向表的2检验,即双因素的2检验。 假如把双向表中横行所分的组数用r表示,把纵列所分的组数用c表示,那么,双向表的2检验也称为rc表的2检验。,在双向表的2检验中,如果要判断两种分类特征,即两个因素之间是否有依从关系,这种2检验称为独立性检验。如果是判断几次重复实验的结果是否相同,这种2检验称为同质性检验。,家庭经济状况属于上、中、下的高三毕业生,对于是否愿意报考师范大学有三种不同的态度(愿意、不愿意、未定),其人数分布如表16-1。问学生是否愿意报考师范大学与家庭经济状况是否有关系? 从甲、乙、丙3个学校的平行班,中随机抽取3组学生,测得

12、他们的语文成绩如表16-2括号外面的数据。问甲、乙、丙3个学校此次语文测验成绩是否相同?,2双向表2检验的计算,理论频数的计算 双向表2检验中,理论频数的计算公式为,公式中,fxi表示横行各组实际频数的总和 fyi表示纵列各组实际频数的总和 N表示样本容量的总和,(公式1),例1:家庭经济状况属于上、中、下的高三毕业生,对于是否愿意报考师范大学有三种不同的态度(愿意、不愿意、未定),其人数分布如表16-1。问学生是否愿意报考师范大学与家庭经济状况是否有关系?,表16-1 不同家庭经济状况学生报考师范大学的不同态度,解: 1.提出假设 H0:学生是否愿意报考师范大学与家庭经济状况无关 H1:学生

13、是否愿意报考师范大学与家庭经济状况有关 2.选择检验统计量并计算 对点计数据进行差异检验,可选择2检验,表16-3 学生报考师范大学的态度与家庭经济状况的2检验计算表,3.统计决断,双向表的自由度: df=(r -1)(c -1) 查2值表,当 df =(3-1)(3-1)=4 时,计算结果为: 2=10.48*,9.49 2= 10.48 13.3,则 0.05 P 0.01,结论:学生是否愿意报考师范大学与家庭经济状况有显著关系。,双向表的2值除用理论频数方法计算外,还可以用下式由实际频数直接求得:,公式中,foi 表示双向表中每格的实际频数,(公式2),将例1中的数据用上面的公式计算:,

14、表16-1 不同家庭经济状况学生报考师范大学的不同态度,例2:从甲、乙、丙3个学校的平行班,中随机抽取3组学生,测得他们的语文成绩如表16-2括号外面的数据。问甲、乙、丙3个学校此次语文测验成绩是否相同?,表16-1 3个学校语文成绩的双向表,解: 1.提出假设 H0:甲、乙、丙3个学校语文测验成绩相同 H1:甲、乙、丙3个学校语文测验成绩不相同 2.选择检验统计量并计算 对点计数据进行差异检验,可选择2检验,双向表的2值还可以用下式由实际频数直接求得:,公式中,foi 表示双向表中每格的实际频数,3.统计决断,双向表的自由度: df=(r -1)(c -1) 查2值表,当 df =(3-1)

15、(2-1)=2 时,计算结果为: 2=7.14*,5.99 2= 7.14 9.21,则 0.05 P 0.01,结论:甲、乙、丙3个学校语文测验成绩有显著差异。,双向表的独立性2检验和同质性2检验,只是检验的意义不同,而方法完全相同。 对于同一组数据所进行的2检验,有时既可以理解为独立性2检验,又可以理解为同质性检验,两者无根本区别。,五四格表的2检验,如果rc表的2检验所作的结论为差异显著,这并不意味着各组之间的差异都显著。如果需要进一步知道哪些组差异显著,哪些组差异不显著,还需进行四格表的2检验。,1四格表,四格表是只有两行、两列的双向表。也就是 有两个变量,每一个变量各被分为两类的双向

16、表。,2独立样本四格表2检验,缩减公式,独立样本四格表的计算也可以采用公式1计算理论频数,并用 计算2值。,校正公式,当 df =1,样本容量总和N30或N50时,应对2 值进行连续性校正。,若以求理论频数的方法计算2值,由于df=1,那么有一组理论频数小于5时,应进行连续性校正。,例2:从甲、乙两个学校的平行班中,各随机抽取一组学生,测得他们的语文成绩如表16-4,问甲、乙两个学校这次语文测验成绩是否相同?,表164 两个学校语文测验成绩样本数据,计 算:,可用四格表缩减公式计算,也可用双向表的公式计算:,表165 两个学校语文测验成绩2检验计算表,由理论频数计算:,由实际频数直接计算:,例

17、3:高二40个学生数学测验成绩见下表。问男生和女生的数学成绩有无本质差异?,表166 40个学生数学测验成绩,本例中=40,3050,如果对检验结果要求严格,就需要采用校正公式进行连续性校正。,思 考:,为什么双向表2检验没有校正的问题 而只有四格表才要进行连续性校正?,3相关样本四格表的2检验,相关样本四格表中,和是实际上没有发生变化的数据,而和是实际上发生变化的数据。 例如,100名学生先后测验两次的结果,缩减公式,相关样本四格表2检验的计算中,只需要用到和。,同样可以用求理论频数的方法计算 2值。,校正公式,当 df =1 时,两个相关样本数据的四格表中,(AD)30或者(AD)50时(根据对检验结果要求的严格程度决定),应对2 值进行连续性校正。,应用校正公式计算2 值时,允许四格中有一格的实际频数出现零的情况。,例4:124个学生进行1000米长跑训练,训练一个月前后两次测验达标情况见表16-7。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论