语言统计第十二章卡方检验.ppt_第1页
语言统计第十二章卡方检验.ppt_第2页
语言统计第十二章卡方检验.ppt_第3页
语言统计第十二章卡方检验.ppt_第4页
语言统计第十二章卡方检验.ppt_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十二章 卡方检验,第一节 卡方分布 第二节 卡方检验 第三节 卡方检验的用途 一 、适合性检验 二、 正态性检验 三、 独立性检验 第四节 亚茨校正法,在语言研究中,除了等距变量、顺序变量等变量之外,我们还会经常与称名变量打交道。这类变量是范畴型的或“是一非”型的,无法用某种单位进行测量。比如,英语中的词汇可以分为“动词”与“非动词”,名词可以分为“可数”与“不可数”,学生可以分为“男生”与“女生”等,这些都无法像测量学生的成绩那样进行测量。 但是,我们可以对这类变量的次数或频率进行计数,比如冠词the、介词of、连接词and等在某文本中出现的次数,并比较次数的分布是否存在显著差异等。这就要用到卡方检验,因此,卡方检验是语言研究中最常用的非参数检验之一。,第一节 卡方分布,在讨论卡方检验之前,我们先简要讨论一下卡方分布。卡方分布是一个正偏态分布。它的形状取决于自由度的大小:自由度越小,偏斜度越大,随着自由度的增大,它逐渐接近正态分布,当自由度趋于无限大时,它就与正态分布相同。因此,卡方分布属一族分布,正态分布是它的一个特殊分布。,第二节 卡方检验,卡方检验的用途是比较称名变量的次数,具体来讲,就是比较实际次数与期望次数(或理论次数)之间是否有显著差异。期望次数是指根据某种理论模式,或根据对某种特征的分布所作的假设而期望得到或应该得为希腊字母,到的次数。实际次数与期望次数差别越大,卡方值(2 ,为希腊字母,读作chi)就越大。,计算卡方值的基本公式为,(12.1),式中 O实际次数或观测次数; E期望次数或理论次数。 需要注意的是,在计算2时,只能用次数,而不能用比例。 比如,在一个100个词长的文本中,有20 个定冠词,占总词数的20%但在计算2值时,只能用20作为实际次数,而不能用20%或0.2。,卡方检验的零假设是:实际次数与期望次数之间没有差异,但是对于不同的用途(见下面的讨论),零假设的陈述方法略有不同。卡方检验一般是双尾检验,即其备择假设为:实际次数与期望次数之间有差异(不指出差异的方向)。当然,如果需要,也是能进行单尾检验的,只要把双尾检的显著水平减半即可。附表10 中给出了对应于不同显著水平和自由度的2的临界值,如果计算出的 2值(检验统计值)大于或等于临界值,就推翻零假设。,第三节 卡方检验的用途,卡方检验主要有三个用途:适合性检验、正态性检验以及独立性检验。 一、适合性检验 适合性检验为单样本卡方检验,它只涉及一个变量,但数据要分成若干相互排斥的组或范畴。其目的是检验实际次数与期望次数是否吻合。如果值很大,就说明两者差异大,不吻合,反之就说明两者差异小,较为一致。通过检验,就可以知道两者之差异是否有显著意义,即是否可以推翻零假设。,例如,在一个关于高考标准化试验的问卷调查中,有这样一个问题: 大量采用客观选择题不利于考察学生的创造思维能力,我对这种观点: A.同意 B.一般 C.反对 在所调查的500人中,有250人选在所A,150人选B,100人选C(实际次数),那么选择三个答案的人数有没有显著差异呢? 假如它们之间没有差异,那么500个被调查者在三个答案上的次数分布就应是一样的,即500/3=166.7, 这是期望次数。实际观察到的次数与根据假设所期望的次数是否吻合呢?,这里只涉及一个变量,即对问题的回答情况,分成三个范畴或三组。我们将有关数据整理成表12.1,在该例中,各组期望次数相等。对于这种情况,我们可以把公式(12.1)稍加改变,得出一个简便计算公式 。,这与用公式(12.1)所计算出的2值基本上是一样的(少量误差是由小数点进位所致)。 适合性检验的2值的自由度是组数 , 本例中的数据被分为三组,所以自由度,设显著水平为0.05,查卡方分布表 (附表10),得临界值 5.99。由于检验统计值2大于临界值,所以应推翻零假设,说明三种选择的实际次数与期望次数有显著差异,因而说明被调查者对此问题的态度是有倾向性的(从表中数据可以看出,被调查者更倾向于赞成问卷题中所提出的观点)。,二、 正态性检验,在语言研究中,由于许多参数检验都要求样本所来自的总体呈正态(如t检验)因此在进行这些检验之前, 经常需要先检验一下样本是否真正来自正态分布总体。除了在第五章里介绍的方法之外,我们还可以用卡方检验。但是使用卡方检验进行正态性检验要求样本比较大。,用卡方检验进行的正态性检验其实也是一种适合性检验,即检验实际次数分布与期望次数分布是否有显著差异。这里实际次数是指样本各组数据的实际次数分布,期望次数是指在假设样本来自正态总体的情况下各组数据所应该具有的次数。如果实际次数与期望次数没有差异或差异很小,就说明样本碗实来自正态总体;如果两者的差异显著,就说明样本所来自的总体分布不是正态。,在进行正态检验之前,首先要把样本数据整理成分组次数分布表,其中第一列为数据的分组,第二列为每组的实际次数O。然后, 假设样本来自的总体呈正态分布,计算每组的期望次数,这是正态检验的关键。期望次数的计算步骤如下: 第一步:计算样本的平均值与标准差。 第二步:把每组的上限转换成标准分Z(即上限离开平均值的标准差单位数),并从正态分布表中查出对应的正态曲线下的面积A。 第三步:求每组的面积,该面积就是每组的期望次数的比例P。,第四步: 用每组期望次数的比例乘以样本容量(即PN),即得每组的期望次数E。需要特别注意的是,如果某组的期望次数低于5,就要与邻组的期望次数合并,直到合并后的期望次数等于或大于5,否则,就会影响卡方检验的可靠性。 求出期望次数之后,就可用公式(12.1)计算2 值。最后,根据设定的显著水平和自由度,查卡方分布表,以确定检验是否有显著意义。这类正态性检验的自由度为组数减3。,三、 独立性检验,独立性检验就是检验两个特征或两个分类标准是互相独立的还是互有联系的。用于独立性检验的数据一般整理成“列联表”的形式,即一个分类标准把数据分为若干列,另一个分类标准把数据分为若干行,行列交叉形成一个个的方格。每一行和每一列都有一个总计,书写在一行或一列的末尾,称为“边际总和”。所有边际总和加起来就是全部数据的个数或样本容量 ( N) 。,列联表的行的数目一般用 r表示,列的数目用k表示,因此一个列联表就可表示为r k个。根据行和列的多少,列联表可以有22,23,33等多种形式。例如一个23的列联表是这样的:,独立性检验的步骤如下: 第一步: 陈述零假设: 两个分类标准完全独立。 第二步: 设显著水平。 第三步:假定零假设成立,计算每一个格里的期望次数E,方法是: 用一个格所在的行总计乘以其所在的列总计,然后除以样本容量。公式为,(12.3),例如上表中的第一格A的期望次数为(A+B+C)(A+D)/N;第二格B的期望次数为(A+B+C)(B+E) /N;第四格的期望次数为(D+E+F)(A+D) /N,等等。按惯例,期望次数一般放在括号内,置于实际次数之后。 第四步:用公式 (12.1)计算2 ,即先计算每一格的 ,然后再把各格的结果累加。 第五步:确定自由度: 即行的数目减1乘以列的数目减1。 第六步:在卡方分布表中查对应于和df的临界值。如果2 大于临界值,就推翻零假设。,第四节 亚茨校正法,在独立性假设成立时, 2 接近卡方分布,如果期望次数较大,而且列联表大于22 ,2就十分接近卡方分布,卡方检验就比较可靠。否则,如果期望次数过小(低于 5),列联表为 22 (自由度为 1) 2就会偏大,其分布就会偏离卡方分布,卡方检验也就不太可靠。在这种情况下,最好使用 “连续性校正” , 即通常所说的 “亚茨校正法” 。 其实, 对于22列联表,当期望次数不是很大时,最好都进行校正。,具休校正方法是将公式(12.1)中的改为,即从O与E之差的绝对值减去0.5之后再平方,(12.5),其实际效果是:如果 OE,从O减去 0.5,如果OE,则在O上增加0.5,这样就缩小了O与E之间的差别,从而也就缩小了 2 的值。式(12.5)中期望次数的计算方法同上。,对应于公式(12.4), 也有一个校正公式,我们仍用上例加以说明。从表中可以看出,期望次数普遍偏低,尤其是第一和第二两格,所以最好用校正公式计算2值。用公式(12.5)计算如下,用公式(12.6)计算如下,可以看出,这两个结果几乎完全一样,同时它们都小于校正前的2值。这时如仍设显著水平为0.01,则检验没有意义,不能推翻两个分类标准互相独立的假设。但在0.05的水平上检验仍有意义, 因为此时临界值为3.84。,小 结,作为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论