版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
卡方检验的原理综述目录TOC\o"1-3"\h\u23431卡方检验的原理综述 1164551.1适用条件 1284841.2检验的步骤 236521.1.1齐性检验 387771.1.2独立性检验 4297831.1.3齐性与独立性检验的区别与联系 5287441.3统计量的解释 643091.4统计量的修正 71.1适用条件在实际应用过程中,常出现不明确所检验的资料是否满足卡方检验的条件,而直接采用Pearson卡方检验方法,于是导致在卡方检验的具体应用中存在一定的问题。在进行列联表的独立性检验时若用到分布,要求样本量必须足够大,尤其是每个单元中的期望频数不能过小,否则应用分布可能会得出错误的结论。通常对数据有以下的要求:“数据总数不少于40;数据80%以上的理论次数大于5;每个单元所有的理论次数不能小于1。”[2]1.2检验的步骤在检验过程中卡方检验有较为规范的基本步骤。我们把该检验的流程大致梳理成如图2-1的几个步骤:图2-SEQ图\*ARABIC\s21卡方检验的基本步骤一般地,假设总体中的个体可分为和两个属性,有个水平,有个水平。将变量和的各种情况的组合排列成一张行列的二维列联表,称为列联表,如表2-1所示,其中表示属于水平和水平的观测频数,,这里,,,表示各行之和;,,表示各列之和;.表2-SEQ表\*ARABIC\s11二维列联表...总和总和...1.1.1齐性检验由于行变量与列联量都是无序的,因而它的结果与各行或各列的顺序无关。当行表示不同的区组,列表示研究者感兴趣的问题,探究列变量的比例分布在各个区组之间是否一致,这类问题称齐性检验。齐性检验的具体步骤如下:[4]步骤1:建立检验假设:对所有行,(给定行的)条件列概率相等,即,。:零假设中的等式至少有一个不成立。显然,若原假设为真,则列变量比例分布在各个区组之间一致。步骤2:构造和计算检验统计量卡方检验的统计量为(2-1)其中,表示观测值,表示第个格子的期望值,,在条件下,与无关,把记为,于是,因此,,在条件下,,于是有(2-2)(2-3)步骤3:做出推断,得出结论在情况下,统计量在条件下近似服从自由度为的分布。根据给定的显著水平和自由度,查找临界值,检验的拒绝域为。当计算出来的统计量的值满足时,不拒绝;反之若计算出来的检验统计量的值满足,则拒绝。1.1.2独立性检验检验的另一种检验方式便是独立性检验,它用来检验两个变量间是否存在联系,如果独立,那么可以认为两个变量独立,也就是两个变量间没有关系。具体的检验步骤如下:步骤1:建立检验假设:,,:零假设中的等式不成立。显然,若原假设为真,则与独立。步骤2:构造检验统计量在零假设下,的估计值为,第个格子的期望值为(2-4)与检验齐性时的零假设下的期望值一致,因此可以推导出同样的检验统计量,这样推导出来的显然也同样服从渐进分布。于是接下来的步骤与齐性检验一致,以下不再赘述。1.1.3齐性与独立性检验的区别与联系根据列联表内容的不同,可以进行齐性检验和独立性检验。从外在形式上看,这两种检验在列联表的形式上,以及在统计量的计算公式上都相同,所以往往被笼统地称为检验。然而,二者还是存在差异的。以下具体分析两者的差异:[5]第一,表的结构不同:齐性检验是几个样本按一种特征分类;独立性检验是对单一样本按两种特征分类。第二,抽取样本的程序不同:从不同总体中分别随机抽取样本,对每个样本按各类别计算其比例,则属于齐性检验,这样得到的整个列联表的分布为乘积多项分布模型;抽样时没有事先分类,抽样后根据研究目的将数据按两种水平进行分类,则属于独立性检验,这样得到的整个列联表的分布为整体多项分布模型。第三,检验假设不同:齐性检验的原假设通常是不同类别的比例都等于某一期望概率;独立性检验的原假设一般是两个变量之间独立。第四,期望频数的计算。1.1.1节与1.1.2节中可以见得。在两种不同的抽样方式下,齐性与独立性检验的检验统计量结果却是相同的,这并非巧合。以下两个定理可以得到证明这一结果。[6]定理一:齐性问题与独立性问题等价。证明:若各行齐性成立,即,有又则.定理二:在整体多项分布中,若固定各行总频数的条件概率,则得乘积多项分布。证明:整体多项分布为(2-5),的分布也是多项分布为(2-6)(2-7)得到的结果为乘积多项分布。1.3统计量的解释在列联表中,Pearson卡方统计量是用来检验变量间齐性和独立性,同时也可以用来计算两个分类变量之间的关联程度。它的计算公式为(2-1)其中,、分别表示列联表中第行第列格的观测值和期望值。值的大小与的大小有关,也就是说,与观测值与期望值的配对数有关。在分布不会发生变化的情况下,越大,值也就越大。因此,统计量的分布与自由度有关。由于列联表包含个类别,且需要对和进行估计,因此其自由度为。从公式(2-1)可以看出,统计量能够反映观测数与期望数的差异。如果观测数与期望数的差异越小,计算出的值就越小,反之就越大。检验正是利用值与其临界值作比较,当值大于临界值,拒绝原假设,当值小于临界值,接受原假设;或者利用检验的值作判断,值是指当原假设为真时错误拒绝原假设的概率,给定显著性水平,如果,拒绝原假设,如果,不拒绝原假设。统计量的分布分为精确分布和渐近分布。统计量的精确分布并不是分布,精确分布是指通过精确计算得到的取得各个值的概率,但是Pearson通过证明验证了统计量的渐进分布是分布。1.4统计量的修正在实际观测数目过小的情况下,使用卡方检验将造成较大的偏差,Wilk在1995年提出改用有偏的卡方值公式:(2-8)称为似然比卡方值。在零假设下,与卡方统计量分布相同,近似服从自由度为的卡方分布。当超过20%的期望频数小于5时,应使用似然比卡方统计量。在备择假设下,和的值可能会有所不同,但当样本量足够大,二者的结果差不多,下面进行验证。首先引入似然比检验。似然比检验的基本思想为:设个随机样本来自密度函数为的总体,其观测值为,为未知参数。似然比函数是用一般的最大似然函数与在零假设下的最大似然的比。::似然比函数为(2-9)联合分布为(2-10)(2-11)关于,求导,可得最大似然估计(2-12)(2-13)因此(2-1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东韶关市新丰县医共体招聘专业技术人员公30人告及参考答案详解(精练)
- 2026江苏南京林业大学教学科研岗招聘211人备考题库带答案详解(综合卷)
- 员工激励机制创新与方案设计
- 初中数学八年级下册《图形变换视角下的平行四边形再探究》教学设计
- 小学科学四年级下册《探秘土壤微观世界》创新教学设计
- 核心素养导向下人教版七年级英语上册Reading Plus全册整体教学设计(2024新版)
- 弦歌不辍语用生辉-初中英语九年级Unit 9“音乐与影视赏析”大观念统摄下的跨学科单元整体教学设计(人教版)
- 小学三年级英语下册 Unit 5 How old are you (Fun time Extended) 教学设计
- 初中音乐八年级下册《基于核心素养的“我们是冠军”单元学历案》教学设计
- 小学五年级英语下册Unit5 Whose dog is it 读写与故事整合教学设计
- 《干部履历表》1999版电子版
- 中国历代古钱币价格表参考
- 人教版数学三年级下册100道口算题大全(全册完整)
- 《批判性思维 原书第10版 》读书笔记PPT模板思维导图下载
- 静力切割拆除施工方案
- GB/T 26542-2011陶瓷砖防滑性试验方法
- 团队领导力课件
- 丰收罗鼓民乐合奏乐谱
- 主体分部工程验收方案
- 工业机器人第六章操作臂动力学课件
- 贵州理工《中国近现代史纲要》教案第3章 辛亥革命与君主专制制度的终结
评论
0/150
提交评论