第 章 计数数据的统计分析:二项式检验及卡方分析要点_第1页
第 章 计数数据的统计分析:二项式检验及卡方分析要点_第2页
第 章 计数数据的统计分析:二项式检验及卡方分析要点_第3页
第 章 计数数据的统计分析:二项式检验及卡方分析要点_第4页
第 章 计数数据的统计分析:二项式检验及卡方分析要点_第5页
已阅读5页,还剩9页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第章计数数据的统计分析:二项式检验及分析

第一节二项实验与二项分布

一二项实验

二项实验的任务是,让被试根据某种原则把两类事物分开,或者把事物分为两种类别。

例如,呈现给被试两条长度相差不多的线段,让被试选相较长的一条;呈现两个强度相差不

大的声音,让被试分辨哪个声音强一些。在这样的实验中,研究者想明确被试的正确判断是

反映出他真的具有某种辨别能力,还是反映出猜测的结果。二项实验通常需要进行多次,每

次实验结果只有两种可能,即正确与错误或者是某种情况与非某种情况。当多次实验结果的

正确次数超过一定数量,即仅凭机遇得到这种结果的概率很小的时候,我们就有理由相信被

试具备某种判断力。

假定某人声称自己有“千里眼”功能,可以看到封闭容器里的东西。心理学家要对此进

行验证,可以使用二项实验方法,每次向被试呈现两个i模一样的密封盒子,其中•只盒子

里有东西,让被试判断东西在哪只盒子里。如果被试没有其声称的“千里眼”功能,他仅凭

机遇一次判断正确的概率为1/2,二次实验都判断正确的概率为1/2*1/2,n次实验都正确的

概率为(1/2)%假设我们做了5次这样的实验,仅凭机遇,5次判断都正确的概率已经小

于0.()5。如果被试5次都正确的话,我们就可以相信他有“千里眼”功能了。

对上述二项实验,我们可以改变设计方法,用多个密封盒子,比如用3个,其中有一只

盒子里放东西,让被试判断东西在哪只盒子里。这时:仅凭机遇,被试一次判断正确的概率

变为1/3,n次都正确的概率为(1/3)%另外,我们也可以用多个密封盒子,比如5个,在其

中两个盒子里放东西,让被试选择出一只放有东西的盒子。这时,仅凭机遇,被试一次选择

正确的概率为2/5,n次选择都正确的概率为(2/5V。

二二项实验的基本条件

二项实验每次呈现的实验刺激并非一定要求是两个,可以是一个,二个或者多个,被试

任何一次的反应只能有两种结果,即成功与失败,或者A与非A。上述是二项实验的基本

条件之一。

二项实验第二个基本条件是,要有n次实验,n是预先给定的任一正整数。心理学家要

通过二项实验及二项分布知识进行假设检验工作,通常需要将设计好的二项实验进行反复多

次的实验,然后根据二项实验结果随机分布的概率模型,计算被试反应结果凭机遇可能性的

大小,从而推测被试是否具有某种判断能力。

二项实验第三个基本条件是,各次实验之间要相互独立,也就是说各次实验之间不能相

互产生影响。如果实验假设某此实验被试选择了刺激1或对刺激1做出了反应,那么接下来

的实验就不能再选择刺激1或对刺激1做出反应。这样的设定造成实验之间的相互影响,不

符合二项实验的基本条件,

二项实验第四个基本条件是,每次实验其成功或失败概率恒定,即n次实验的成功概率

或失败概率相同,并且每次实验成功与失败概率和为I。这个条件很重要,如果每次实验成

功概率不等,那么实验结果就无法用二项分布公式来解释。例如在“千里眼”问题的实验中,

如果我们设计了5只盒子,只在其中一只里放东西,并让被试做判断,那么在接下来的各项

试验中,就不能再做变化,保证各次实验成功概率都为"5。

根据二项实验的条件,能力测验或知识测试的选择题通常也可以设计为二项实验,用二

项分布知识回答被试是否具有某项能力或者某方面的知识。例如有10道单选题,每题都有

相同数量的选项,假如5项仅有一个选项正确,仅凭机遇选对一题的概率都为"5,这10

道单选题测验可以看成一个n二10的二项实验。再例如,有10道多选题,每题都有相同数

最的选项,假定有5个选项,每项只有一种正确选择,仅凭机遇选对一题的概率都为

1+(C+C+C+C;+C;)=1/31,这10道多选题测验也可以看成一个n=10的二项实验。

三二项实验各种成功次数的概率分布

二项分布是用来描述二项实验各种成功次数的概率分布情况的,例如有一个重更n次的

二项实验,仅凭机遇对。次至n次的概率所形成的分布为二项分布。由于二项分布描述自然

数的概率,因此属于离散型数据概率分布。二项分布有何规律性?让我们首先看看n=2和

n=3的二项实验情形。

设定p为二项实验每次仅凭机遇判断正确的概率,q为失败概率,当p=q=\/2并且n=2

时,凭机遇该二项实验有下述各种可能结果:对对(第一次对、第二次也对)、对错、错对、

错错。因此,仅凭机遇两次都对的概率为1/2X1/2E/4,对一次的概率为1/2X1/2+1/2X

1/2=1/2,对。次的概率为(即两次皆错的概率)l/2Xl/2=l/4。对2次、1次、0次的概率

正好分别是二项式(1/2+1/2)2展开的三项值,即(1/2+1/2)41/4+1/2+1/4。

当p=q=l/2并且n=3时,凭机遇此二项实验有卜.述各种可能结果:对对对、对对错、对

错对、错对对、错错对、错对错、对错错、错错错8种情况,3次实验对3次的概率为1/2

Xl/2Xl/2=l/8,对2次的概率为l/2x"2xl/2+l/2xl/2xl/2+l/2xl/2xl/2=3xl/8,

对I次的概率也为3X1/8,对0次的概率为1/8,对3次、2次、1次和0次的概率正好分

别是二项式(1/2+1/2)3展开的四项值,即:

(p+q)3=C;p3+C;g3=:+3x:+3xg+:o

oooo

对于任何二项实验,设定〃和生以及实验的次数n,仅凭机遇对n次至0次的概率正

好是二项式(p+q)〃展开式对应的各项值,即:

(〃十"=十C,"p十…十严+C:pW=力(x=0,L..n)>

x=0

四二项分布的应用

以“千里眼”问题为例,为明确某人是否有“千里眼”功能,心理学家设计4只密封盒

子,在1只盒子里放东西,让被试判断东西在哪只盒子里,实验共做10次,凭机遇每次判

断正确的概率为1/4,即p=l/4,q=3/4o根据二项分知识,10次皆对的概率为:

CM%"=(1/4严=0.00(X)0095,9次对的概率为0.0()0029,8次对的概率为0.00039,7次对

的概率为0.0031,6次对■的概率为0.016,5次对的概率为0.058。被试判断正确6次及以上

的概率为0.016+0.003l+00()039+().()00029+().00(X)()095=0.0195,即被试仅凭机遇能够判断6

次及以上正确的概率仅为0.0195,低于0.05显著水平。通过实验,如果被试判断正确次数

为6次或者超过6次,我们就可以做出统计结论:被试具有“千里眼”功能。当然,被试也

有可能凭机遇碰巧猜对6次或6次以上,但这样可能性很小,概率低于5%。如果被试真的

是碰巧猜对6次或6次以上,那么我们就犯卜统计错误,但犯卜这种错误的概率很低,小于

5%o

第二节用正态分布模型求解二项分布概率

一二项实验数据符合正态分布的条件

二项实验数据可以用二项分布知识解释,二项分布先离散型数据分布,其概率直方图是

跃阶式的。当p二q时,图形对称,当p/q时,直方图呈偏态。

如果二项分布满足p<q,且叩25(或者p>q,且欣>5)时,二项分布接近正态分布,

可以用正态分布知识求解二项分布的概率。这时”•变量(即n次二项实验仅凭机遇正碓判断

的次数)具有如下性质:无数被试参与该二项实验,总为正确判断次数的平均值〃二斗,标

准差5=JR,且x变量的分布于〃=np,5=标的正态分布接近。在此需要提示注意

的是,接近的概念不是说x变量的分布与对应〃=叩,8=J薪的正态分布相似。x变量的

分布属于离散分布,而正态分布属于连续分布。“接近”意指,此时,x变量的相对概率密

度与对应正态分布计算的概率密度接近。也就是说通过二项分布计算出的超过某工值(是自

然数)的概率,与通过对应正态分布计算出的超过同样戈值的概率十分接近。有了上述二项

分布的性质,我们可以借助正态分布求解二项分布的概座,这样可以避免二项分布的繁琐计

算。

二利用正态分布求二项分布概率

以“千里眼”问题为例,设计2只盒子,其中一只盒子放有东西,让被试判断东西放

在哪只盒子里,实验共做10次,每次凭机遇猜对的概率为l/2o通过实验解释二项判断的结

果是基于随机的猜测,还是基于真实的判断力。

此题p=q=l/2,np>5,所以二项分布接近正态分布,对•应正态分布的〃=np=10x1/2=5,

=0=1.58。依据正态分布概率(查表可知)Z=1.645时,该点一下包含了全体的95%,该

点的原始分值x=〃+1.64)=7.6。这意味,在此正态分布中,大于7.6分值的概率小于5%。

由于二项分布为离散分布,不可能有7.6次正确判断次数,取x值为8时,在此二项分布中,

大于8分值的概率同样小于5%(取x值为7时,大于7分的概率大于5%,因此不能取x

值为7)。通过正态分布计算,被试猜对8次及以上的概率小于5%,因此,可以推测说,猜

对8次及以上者,仅凭机遇的可能性小于5%,此概率很小,我们有理由相信这样的人有“千

里眼”功能。

利用正态分布求解二项分布概率,只有在满足相关条件的时候才可以这么做。如果条件

不满足,我们只能老老实实通过二项分布求解概率。例如在二项分布应用的题目中,p=l/4,

n-10,np=2.5<5,此时二项分布与正态分布相差甚远,不能再用正态分布求解概率了.

第三节百分比及百分比差值检验

二项实验的数据,有时是用比例来表示的。另外,在二分变量的调查研究中,属于定义

情况的个案数量通常也是用比例来反映的。上述比例表示的变量都是只有两种类别的分类变

量,本节内容主要介绍此类型数据的推论分析。

一百分比检验

百分比检验适用于处理单一样本或一种条件下二分变量比例的研究结果。例如,有人声

称大白鼠有右转弯的偏好,动物心理学家用T型迷津做研究,发现一只大白鼠64次实验中,

有42次向右转,右转百分比为65.6%。根据这个二项实验结果,能不能说大白鼠有右转弯

偏好(注:实验控制好了其他额外变量)。再例如,某糖果厂为孩子试制了两种图案不同的

糖果包装纸去征求孩子的意见,在一个包含200个孩子的样本中,有140个孩子喜欢甲种包

装纸,喜欢甲种包装纸的人数占调杳总人数的70%o根据这个调查结果,是否可以说孩子

对甲种包装纸有所偏爱呢?上述两个例子就涉及到百分比分析问题。

(一)样本百分比分布

比例和频数是可以互换的,比例分布实际上属于二项分布。当样本容量较小时,可以

用频数进行二项式检验,比例进行的检验通常用于处理大样木情况。在大样木情况下,常川

正态分布表示二项分布的近似值。

假设总体具有某种属性的比例为P,不具有某种属性的概率为力从该总体随机推取容

量为n的样本,可以计算出样本具有某种属性的个案比例,用p,表示容量为n的样本中具

有某种属性的个案所占比例,当nPN5(p<q)或1妈25(p>q)时,样本比率p'的分布接近一个

正态分布,该正态分布的平均数和标准差的计算方法见公式(6』)和(6.2)o公式(6.1)

和(6.2)同频数表示的二项分布接近的正态分布参数计算公式有联系,是在原公式的右边

分别除以n,完成将频数转换为比率。

"P(6.1)

SEP或册=(6.2)

(二)总体比例的区间估计

对于一个无限总体或非常大的总体,要想了解其总体具有某特征的比例,我们通常采取

随机抽样的方法抽取一个样本并计算出样本比例,然后根据样本比例符合的统计模型来说明

总体比例的置信区间,这点很像平均数的区间估计。前面我们刚刚介绍了,当样本量足够大

时,nPN5时,样本比例分布可以借助正态分布模型来说明。根据正态分布的知识,总体比

例的置信区间可由公式(6.3)计算。

〃=P=P'±Ze(6.3)

具体计算时,由于总体的〃和q不知,此时可以用和夕'代换〃和仅下面是一个具

体的例子。

为了知道某大学男女生的比例,我们按照随机抽样原则,在该大学学生管理处随机抽取

50个同学,结果显示男生30人,女生20人,问该大学男生比率95%的置信区间。

根据已知条件,可得〃'='3=00.6(男生的样本比例),/=2上0=0.4(女生的样本比例)。

5050

由于np'>5,可以借用正态分布模型,即公式(6.3)推论置信区间。

()6x()4

由Z%=196»%==0.0693,P的0.95置信区间为:

50

P=0.6±1.96x0.0693=0.46-0.74o

由此可以推知该大学男生比例在0.46~0.74之间,作此推论错误概率为0.05,为小概率。

(三)比例的假设检验

比例的假设检验FI的在于,通过运用样本比例分布模型,推测样本是否来自已知总体,

即研究的样本与已知总体是否有显著差异性。根据样本比例分布知识,在已知总体的〃和q

确定后,当叩之5或〃q25时,从该总体随机抽取样本,其p'的分布可借用前面所讲的正

态模型来说明。如果我们所研究的某个样本属于该总体的一个随机样本,那么该样本统计量

p'在该总体属性比例0.95或0.99置信区间内属正常,而超出这个区间属异常。当与己

知总体的P相差较大,处于小概率的极端位置,我们便推论该样木不属于已知总体,做此

推论犯错误的概率很小,仅为().05或0.01。

比例假设检验的一般步骤是,首先提出虚无假设“研究样本属于已知总体的一个随机样

本”;然后根据已知总体其样本分布符合的正态分布模型,考察样本的比例是否超出095或

0.99置信区间,如果超出置信区间,就做出不属于该总体的结论,即接受备选假设“研究样

本不属于已知总体的一个随机样本”。

下面以大白鼠转弯偏好问题为例,来说明比例的假设检验过程。干扰因素被控制之后,

大白鼠在T型迷津里行走,如果没有转弯的偏好,总体上看其左右转弯的概率是相同的,

都为50%o假设我们对一只大白鼠的64次实验为总体的一个随机样本,该假设为虚无佞设,

即“大白鼠无右转弯偏好”。根据前面所讲的正态分布模型,可以计算出4p和%,0

〃/,=p=0.5,P'=0.656

由实验得到统计量P'=0.656,用该正态分布表示二项分布的近似值,计算出P在样本

分布中的Z值,Z值的计算方法是:

P-P_0.656-0.5

Zp==2.496

0.0625

查正态分布表,Z=2.5O时,较小部分的面积为0.0062o由于现在要检验的是大白鼠偏

好右转弯,而不是有向左或向右转弯偏好,因此要选择单侧检验。通过假设检验分析,我们

可以在0.01水平上推翻虚无假设,认为大白鼠有很显著的右转弯偏好。

上例正好遇到总体的p=q=0.5()的情况,实践上p可以不等于q,这同样可以按上述的过

程进行假设检验,只要注意把相应的p,q及n值代入公式计算相关指标就行了。

二两个样本比例差异的显著性检验

比例差异的显著性检验适用于处理两个样本比例的实验结果,通过两个样本比例差异的

分析来推论两个样本是否来自同一个总体。心理学研究时常遇到两个样本比例之间的比较,

例如将一群被试随机分成两组,分别包含nl和n2个被试,其中一组被试接受态度转变培训I,

另一组被试接受与某种态度转变无关的其它培训。培训结束后对每名被试进行态度调杳,实

验的目的在于分析两组被试肯定态度的比例是否有显著的差异性。如果经检验差异显著,那

就说明态度转变培训起到了改变被试态度的作用。分析上述实验结果,需要用到两个样本比

例差异的抽样分布模型,有了这个模型就可以解释差异是否达到显著水平。

(-)两个样本比例差异的抽样分布模型

从总体比例分别为p/np2的两个总体中,随机抽取样本容量为nl和n2的两个样本,

得到两个样本比例P:和P?',当np|N5且np2N5时,统计量p「-p?'=只,的分布近似正

态分布,该正态分布的参数分别为公式(6.4)和(6.5)o

ADP=Pi-P2<6.4)

如果总体小和P2不知,可分别用两个样本的P「和P2'代替”和P2,公式(6.5)可

写为公式(6.6)。

?-(6.6)

pVnini

在比例差异的假设检验中,虚无假设通常是P|=P2,即两个样本来自同一总体。如果

p,=p2,这时两个样本比例差值分布的平均值为0:其分布的标准差计算不再单独用

P/和P'2,而是用加权比例平均数(Pc)。

与「际1

将公式(6.8)代入公式(6.7)得公式(6.9)。

DpN、叫⑸+%)(6.9)

如果%=%公式(6.9)变为公式(6.10)。

与瓜屋五支I(6.10)

Vni+n2

在此需要指出,上述关于两个样本比例差值分布的知识是针对两个独立样本来说的,也

就是讲两个样本没有相关关系。

(二)两个独立样本比例差异的显著性检验

两个独立样本比例差异的显著性检验一般步骤是:提出虚无假设,P1=P2或P「P2

=Dp(设定值),即两个样木代表的总体比例相同或相差一个之前设定的值;根据前面所讲

的两个独立样本比例差值抽样分布知识,求出b*;计算出实验样本比例差值的标准分数,

计算公式为(6.11);最后查正态分布表,看Z值是否达到显著水平,并做出推论。

他上)-0(或者Dp)

乙-VU.11/

比例差异的检验也有单侧和双侧检验的区别。双侧检验的虚无假设是P1=P2或

P「p2=Dp,备选假设是%WP2或P「P2MD。;单侧检验的虚尢假设是口MP2或P-P?

<Dp,备选假设是P)P2或P1-P2〉Dp。双侧检验时,需查Z值对应的双侧面积;单侧检

验时,需查Z值对应的单侧面积。下面两个例题具体说明此类检验的过程.

例题一:以态度转变培训问题为例,80名受试者被随机分为两组,50人接受态度转变

培训,另30人接受其它培训。培训结束后进行态度调查,调查结果显示,态度转变培训组

受试者持肯定态度比例为84%;其它培训组受试者持肯定态度比率为60%。问态度转变培

训是否起到转变态度的效果?

此例具体分析是:设%和P2分别为态度转变培训组和其它内容培训组总体持肯定态

度的比例,虚无假设是P1〈P2,即态度转变培训没有显著提高持肯定态度的比例,推论属

于单侧检验。将、二50,p「=84%,n2=30,1%'=60%代入公式(6.8),得

50x0.84+30x0.60

Pe==0.75,qc=l-pc=0.25

50+30

再将Pc、q。和\、四值代入公式(6.7),得

J0.75x0.25x(—+—)=0.01

V5030

最后把P:=0.84,p2'=0.60和bD「0•°l代入公式(6.ll),得

(0.84-0.60)-0

Z==24.00

0.01

查正态分布表可知,Z=24.00时,Z对应的单侧面积远远小于0.01,因此在0.01水平上,两

个组比例差异达到显著。统计的结论是,态度转变培训起到了显著效果。

例题二:将上例做一改变,假定一公司提出要求,态度转变培训要达到接受态度转变培

训后总体上积极态度的比率高出没有接受态度转变培训总体5个百分点以上。已知n1和

p「(接受态度转变培训组)为100和80%,叫和P2‘为150和60%,问结果是否达到公司

要求?

例题二的具体分析:虚无假设为p「p?W0.Q5,即态度转变培训没有达到总体上提高

积极态度5个百分点的要求,检验也属于单侧检验。与例题一不同,例题二计算的公

式用公式(6.6),不要求加权值。

0.80x0.200.60x0.40…乙

-------------+--------------=0.0566

最后把P「=0.80,p2=0.60,。|)广°・01和口「=0.05代入公式(6.11),得

r(0.80-0.60)-0.05“u

Z=------------------------=2.65

0.0566

杳正态分布表可知,Z=2.65时,Z对应的单侧面积0.01,因此在0.01水平上显著,统

计结论是,态度转变培训显著提高总体积极态度比例5个百分点以上。

(三)两个相关样本比率差异的显著性检验

前述两个样本比例差值分布的知识,是针对两个独立样本来讲的,它不符合两个相关样

本比例差异的显著性检验。因此,相关样本的检验还需要寻找其它方法。

在心理学研究中,有时会考虑安排同一组被试在不同条件下做实验,这时实验结果的数

据之间就有了相关关系。对于分类变量的研究也存在该种情况,例如在前面的例子中,我们

为研究态度转变培训是否有提高肯定态度比例的效果,可以在培训前后对同一组受试者进行

态度测查,看看前后两次调查结果中持肯定态度的比例是否有变化。这样的实验结果就需要

进行两个相关样本比例差异的显著性检验。

上述相关样本的实验结果可以整理成2x2的表格,表格一般形式如下:

实验条件一实验条件二

是某种情况非某种情况

是某种情况

非某种情况

A表示同一组被试中,第一条件是某种情况而第二条件下却为非某种情况的人数;B表

示同一组被试中,第一条件下是某种情况且第二条件下也是某种情况的人数;C和D表示

的意义类推。

根据上表,两次调查得到的是某种情况的比例分别为(A+B)/n和(B+D)/n。那么就有

两次调查比例差值的计算形式:

,A+BB+DA-D

D.—f=-------------=-----

从差值计算公式可以看出,两次调查比例的差值只与A和D有关。因此在这种比例差

异的显著性检验中只需要考虑A和D的数值。从总体上看,如果A=D,那么总体比例就无

差异。根据2x2表,A和D分别表示两种条件下两种不一致个体的数量:A反映第一种条

件为肯定而第二种条件转为否定的个案数量;D反映第一张条件为否定而第二种条件转为肯

定的个案数量。当总体上有A=D时,样本观察到的A和D的分布符合二项分布,该二项分

布的p二q=;,A+D=k为二项实验的次数,A与D是否有显著差异可以借助二次分布的知识

解释。当kp25即(A+D)>10M,二项分布接近正态分布,A与D的显著性推论分析就

转变成正态分布模型解释,样木分布的Z计算公式:

A+D

Z|A・kp|二.2二A・D

=(6.12)

/kpq-L11-JA+D

、AJ(A+D)-x-

公式(6.12)实际是二项分布近似正态分布条件下Z检验公式的具体化,下面以态度转

变培训问题为例来说明具体分析过程,假设研究的数据如下:

培训前培训后

肯定人数否定人数

肯定人数55(B)5(A)

否定人数15(D)25(C)

将A和D代入公式(6.12),得

15-5

Z=「'=2.24

715+5

Z>1.96,因此可以推论培训有显著的效果。上述分析过程只适合kN10的情况,当kvlO

时,二项分布与相应的正态分布差别较大,此时应采用二项展开式具体计算。

第四节一个变量多种分类数据及两个分类变量的推论分析:/检验。

一/检验概述

(一)/检验的数据特征

二项式检验以及与二项式检验相关的比例检验,主要用来分析只有两种分类的单个分类

变量实验或调查的结果。当两种分类结果以频数表示时,分析采用二项式检验;当两种分类

结果以比例表示时,分析采用比例检验方法。在心理学实际研究中,我们常遇到•些分类变

量,它有两种以上的分类,并且在一项具体研究中分类变量也不仅仅只有一个。这样的单变

量多种分类的结果,以及多个分类变量的实验结果,其分析不能再用上述的二项式检验和比

例检验方法。在介绍概率分布知识时,我们提到一些计数数据的分布也符合好分布,好检

验将借助/分布模型处理多种分类以及多个分类变量的实验结果。例如:某学院有5个专

业,也就是说该学院专业变量有5个分类,这5个专业在校学生数可以调查出来,假设从全

国来看类似学院5个专业学生人数基本一致,问该学院情况是否和全国类似学院一样?(即

5个专业学生人数基本一致)。再例如,从某学院随机抽取n名学生,调查他们的性别和专

业两个方面的属性(即两个变量),性别和专业属于分类变量,性别有两个分类,专业有5

个分类,调查结果为男女人数分布和5个专业人数分布,问5个专业的人数分布是否有男女

差别?上述两个例题的数据分析就会用到好检验法。

(二)婷检验的内容

好检验的内容主要有配合度卡方检验(goodness-of-fit户est)和独立性卡方检验(/test

ofindependence)两个方面。配合度检验用于分析单个分类变量实际观察到的不同类另!频数

分布,是否与假设或期望息体的频数分布一致。独立性检验用于分析两个分类变量的实验结

果,回答一个变量不同类别的频数分布是否与另一个分类变量不同类别有关系这个问题。这

两种好检验分别对应于前面所举的两个例子的数据分析。

二、配合度检验

(-)配合度检验需要满足的基本假设条件

配合度检验适用于分析单个多类变量的实验结果,这种实验数据应满足三个条件:(1)

不同分类之间要相互排除;(2)观察是独立的;(3)样本要足够大。只有同时满足上面3

个条件,炉配合度检验的结果才可以说明问题。

不同分类之间要相互排除,是说在归类时每个被试或调查对象只能归为n个分类中的某

一类,而不能同时属于两类甚至更多的类别。就某些分类变量来说,例如性别、婚姻状态等,

每个受试对象客观上只能属于某个类别。而对「另外一些分类变量来说,例如在校大学生所

属专业变量,每个受试对象实际上可能同时属于两个专业,在这种情况,也应当保证每个受

试者只属于某个专业的学生,只有这样才符合短检验的条件。因此,在短检验过程中,各

种类别频数之和与被试人数正好相等。

观察要是独立的,意指判断各类别的标准要一致,也就是说每个受试对象除了要研究的

原因外不能有其他的限制性因素影响其所属类别。例如,在研究大学生专业人数的分布问题

时,我们想知道大学生专业选择是否有偏好,此时,每个受试对象应能够在n个专业中自由

选择,而不能特别设定某个专业只有达到某一标准时才能选择。

/检验还要求样本的容量要足够大,足够大的一般原则是,样本大小满足每种分类的期

望频数不少于5。如果期望频数过小,妙值计算易产生过大的误差。

(二)配合度检验过程

让我们以一个简单的例子来说明好配合度检验任务。某大学要求每个学生第一学年结

束之后,必须在5个体育项目中选择一项作为体育课程的学习内容。某个学院的辅导员对该

学院同学选择不同体育项目的人数感兴趣,想知道本院学生选择情况与学校总体情况是否一

致。假设学校限定每个同学只能选择一项,并且选择是自由的;该假设保证不同项目群体之

间是排斥的,并且选择不受特殊限制的。表6.1是该学院同学选择的结果。

表6.1某学院300名同学选修体育项目人数

体育项目观测频数

网球Oi=3

羽毛球O>=45

乒乓球0E7

篮球04=90

足球05=85

TotalT=300

从上表可以看出,篮球是同学们选择最多的项目,用网球最少。这种情况是否与全校的

情况一致?换句话说,该学院的调查数据分布于全校的模式是否匹配呢?

表6.2同时反映出观测频数和期望频数。表中全校的比率R表示全校所有选修体育项目

的同学中各项目选择人数占总人数的比率,例如全校中有25%的人选择了篮球,表中期望

频数表示按照全校的比率情•况计算出来的频数,例如,按照全校25%的比率,该学院300

人中应有75人选择篮球项目。

表6.2某学院300名同学选修体育项目观测频数与期望频数

体育项目观测频数全校选修比率期望频数(RXT)

网球01=3pi=0.05E尸0.05x300=15

羽毛球

02=45P2=0.30E2=0.30X300=90

乒乓球03=77

P3=0.25E3=0.25X300=75

篮球04=90p4=0.25E4=0.25X300=75

足球O5=85P5=0.15E5=0.15x300=45

Total3001IX)3(X)

从表6.2可以看出,观测频数与期望频数有一些差别。例如,该学院同学中选修网球和

羽毛球的人数比期望人数少,而选修乒乓球、篮球和足球的人数比期望人数多。现在我们可

以提出这个问题:上述观测频数与期望评述之间的差别是因为随机抽样误差造成,还是确实

存在着统计上的显著性?回答这个问题,就需要借助%2配合度检验了。

公式(6.13)定义了炉值,O:表示各类别观测频数,E表示各类别期望频数。根据公

式如果观测频数与期望频数之间的差别仅反映出随机误差,那么好值将相对较小;如果观

测频数期望频数之间的差别不足以用随机误差原因来解释,那么好值将会相对较大。

/二二(。一瓦)2

(6.13)

尤值大到什么程度才可以说不是随机误差原因能解释的?也就是说好值大到什么程度

才可以拒绝虚无假设“观测频数与某个总体定义的期望频数相匹配”?这个问题的回答需要

用到炉分布模型。£分布是一系列分布,其具体形态由自由度决定,公式(6.14)是严配

合度检验的自由度计算公式,自由度比分类数少一,即:

df=k-\(6.14)

在上述例题里,总共有5个项目分类,因此自由度为d尸4尸5-1)。有了自由度就可

以通过查犬分布表(附表)确定才检验的临界值,当观测才值等于或大于临界才值,

我们将拒绝虚无假设。好检验与我们后面将要讲到的方差分析一样,是一个没有方向的,公

共性质的检验,因此,检验时要查妙表的单侧临界值。炉检验的结果不能指明观测数与期

望数差异的具体位置,也就是说在哪个具体类别上观测数与期望数有显著差异。

将表6.2的数据代入公式(6.13),计算出观测%2值为70.17。查自由度为4的%2分布

表,得0.05水平的临界/值为9.49。观测犬值大于临界/值,拒绝虚无假设,接受冬择

假设。统计结论是,某学院学生选修体育项目的频数分布与学校总体情况不匹配,即不一致。

在上面的例题中,根据总体定义的各分类期望概率不同,各分类的期望频数也各不相同。

在另外•些研究情境中,我们会遇到朋望频数相同的情况。下面举•例说明此种情况的公

配合度检验问题。

一位糖果销售商人想知道,儿童对红、绿、蓝、黄4种颜色的糖果包装纸是否有偏好,

他在一大型幼儿园随机地调杳了400多名儿童。这400多名儿童对红、绿、蓝、黄4种颜色

包装纸选择结果是:红色有78人、绿色有105人、蓝色有98人、黄色有119人。选择中要

求每名儿童只选择一种自己喜欢的颜色,问该调查结果是否说明儿童有偏好?

从总体看,如果儿童不存在偏好,那么各类选择的期望频数应一样,都是100人,即

(105+98+78+119)+4=100。将本题的观测频数和期望频数带入公式(6.13),计算观测于

值:

(78-MX))?(105-OX)尸(98-MX))?(19-OX)>

Z2=8.74

"Tooiooiooioo-

本例题有4种分类,片检验自由度g查自由度为3的于分布表,得0.05

水平的临界尤值为7.82。观测尤值大于临界于值,拒绝虚无假设“观测频数与期望撅数匹

配”。统计结论是,儿童对4种颜色糖果包装纸有显著偏好。从数据看,选择黄色的人数较

多。

接下来,我们对犬匹配度检验过程做出总结:(1)提出虚无假设“观测频数与总体定

义的期望频数匹配或一致”,同时提出备择假设“观测频数与总体定义的期望频数不匹配或

不一致”;(2)根据总体定义情况,计算出各类别的期望频数;(3)用小计算公式求出观测

的妙值;(4)用自由度计算公式,计算%2分布的自由度停=/1,根据自由度查好表,得出

0.05或0.01水平的临界/值;(5)比较观测为2值和临界%2值,当观测£值大于或等于临

界必值时,拒绝虚无假设,反之就接受虚无假设;(6)写出统计结论。

三、独立性检验

好配合度检验可以处理单个分类变量的实验结果,z?检验的逻辑同样可以扩展到处理

两个分类变量的实验结果,检验两个分类变量之间是否独立,这就是我们将要讲的/独立

性检验的问题。接下来,让我们看一个采用好独立性检验的简单例题,了解独立性检验的

具体过程。

为了解大学生在考研问题上是否有男女差异,即考研选择是否与性别有关,一名学生管

理工作者在其关心的大学生群体中,随机选取了50名女生和50名男生,并调查他(她)们

是否考研,调查结果显示,女生有35人决定考研,男生有15人决定考研。

上述例题的研究涉及性别和考研选择两个分类变量,每个变量各有2个分类,其调查结

果可以整理成一个交叉表,交叉表的单元数为两个分类变量类别数的乘积,即2X2=4(单

元数)。表6.3反映了本次调查的结果。

表6.3说明%2独立性检验的例题数据

类别考研不考研总计

女011=35Oi2=15Ri=50

50x45“L55x50crL

UiJ

」1001210()

男021=10O;2=40R2=50

45x50•一_55x50”-

一…=22.5E”=------=27.5

100100

总计Ci=45C2=55T=l()0

同/配合度一样,好独立性检验也要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论