卡方检验ppt课件_第1页
卡方检验ppt课件_第2页
卡方检验ppt课件_第3页
卡方检验ppt课件_第4页
卡方检验ppt课件_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Chi-square,1,卡方检验的基本介绍,卡方检验的两种主要用途,卡方检验应注意的问题,2,Achi-squaretest,alsowrittenasXtest(X为希腊字母,读作chi),isanystatisticalhypothesistestwhereinthesamplingdistributionoftheteststatisticisachi-squaredistributionwhennullhypothesisistrue.,chi-squareisanon-parametrictest.,allvariablesarecategorical.,3,卡方检验通过比较两项或多项频数,检测在一定显著水平上实际频数与以某种理论模型或分布特征假设为基础的期望频数的差异度(Bulter,1985,112),具体来说,就是比较实际次数与期望次数(或理论次数)之间是否有显著差异。,期望次数是指根据某种理论模式,或根据对某种特征的分布所做的假设而期望得到或应该得到的次数。,4,卡方检验的步骤,1.建立零假设H0和备择假设H1,2.根据理论经验或理论分布计算期望频数,卡方检验的零假设为:实际次数与期望次数之间没有差异(对于不同的用途,零假设的陈述方法略有不同),备择假设为:实际次数与期望次数之间有差异。,5,4.根据自由度和显著水平在卡方分布表中查找出对应的卡方临界值。如果运算出的卡方值大于卡方临界值,拒绝零假设;反之,接受零假设。,3.根据实际频数和期望频数计算样本卡方值,计算卡方值的基本公式:,X2卡方值O指实际次数或观测次数E指期望次数或理论次数,由英国统计学家KarlPearson首次提出,也被称为Pearsonx2,6,Twomainusesofchi-squaretest,testforgoodnessoffitofthedata,testforgroupindependence,7,Chi-squareforgoodnessoffit,科学研究中,影响一个事物的因素可能很多,在一项检验中,只有一个因素改变称为单因素检验,多于一个因素的检验称为多因素检验(盛骤,1989;241).,我们经常要检验某一实际因素实际出现的频数与期望出现的频数是否有显著性差异,这在统计学上称作拟合度检验(韩宝成,2000;155),8,Thistestisusedwhenthereisonlyonecategoricalvariablewithtwoormorelevels.,目的:检验实际次数与期望次数是否吻合。,两种常见的单因素卡方拟合度检验:,检测观测数据之间的差异性,检验样本分布与理论分布模型的拟合度,9,检测观测数据之间的差异性,对观测数据之间的差异性检验是相对简单的单因素检验,只检验分成多项的单因素频数之间有没有显著性差异。,10,某大学英语老师为了了解学生学习英语的动机做了一次小范围的问卷调查,该问卷调查共6项,调查对象是150名普通高校非英语专业大二学生,调查结果整理后如下表第二行所示。从调查结果上看有无显著性差异?如果有显著性差异,其主要动机是什么呢?,11,分析步骤:,1.H0:学生学习英语的动机没有显著性差异。,2.计算期望频数。根据零假设,如果学生学习英语的动机没有显著性差异,那么150名学生对6项的选择概率相等。期望频数=总数/分类项,3.计算卡方值。,X2=33.40,12,4.根据自由度和显著水平找出相应的卡方临界值,自由度在某种意义上可以理解为我们检验时可以依据的独立信息的数量(Woods,1986).,计算自由度公式为:df=k-1(k是组数),df=6-1=5,=0.05,卡方临界值为12.6,5.结论由于X2=33.4远大于卡方临界值12.6拒绝零假设即学生学习英语的动机有显著性差异。通过观察可以看出动机为通过四六级的人数最多,由此可以得出学生学习英语的主要动机是为了通过四六级。,13,检验样本分布与理论分布模型的拟合度,卡方检验在单因素拟合度检验中的另一个重要应用是检验样本分布是否与特定分布模型拟合。,正态性检验:,检验实际次数分布与期望次数分布是否有显著性差异,实际次数指样本各组数据的实际分布次数,期望次数指在假设样本来自正态总体的情况下各组数据所应该具有的次数,如果实际次数与期望次数没有差异或差异很小,就说明样本确实来自正态分布;如果两者差异显著,就说明样本所来自的总体分布不是正态。,14,1.进行正态检验前,首先要把样本整理成分组次数分布表,其中第一列为数据的分组,第二列为魅族的实际数O,2.然后假设样本来自的总体呈正态分布,计算每组的期望次数,是正态检验的关键。,3.计算出期望次数后,根据公式计算出X2值,4.根据设定的显著水平和自由度查卡方分布表,得出卡方临界值。这类正态性检验的自由度为组数减3K-3,5.如果卡方值小于临界值,检验就没有显著意义,即不能推翻零假设,证明样本确实来自正态总体;反之,就拒绝零假设,说明样本不是来自正态总体。,15,期望次数的计算步骤:,1.计算样本的平均值与标准差,2.把每组的上限转换成标准分Z(即上限离开平均值的标准差单位数),并从正态分布表中查出对应的正态曲线下的面积A,3.求每组的面积,该面积就是每组的期望次数的比例P,4.用每组期望次数的比例乘以样本容量(PN),即得每组的期望次数E,注意:如果某组的期望次数低于5,就要与邻组的期望次数合并,直到合并后的期望次数等于或大于5,否则就会影响卡方检验的可靠性。,注:A是Z值与平均值之间所夹面积,用一组的上限标准分对应面积减去下一组上限对应面积,16,以班级A30名学生的某次精读考试成绩为例,说明如何用卡方检验来验证该样本来自正态总体的条件得到满足。成绩如下:,数据的平均数为73.823标准差为7.661,17,进行卡方检验:,1.零假设H0为:样本来自正态分布总体的一个随机样本,2.设显著水平为0.01,注意:卡方检验要求每个分数段的频率次数要有足够大的期望值(至少不能少于5),否则会导致卡方值增大。所以,表中第一和第二组被合并到一起,第五、六、七合并到一起。这样组数就是4个,自由度df=4-3=1,查卡方分布表得出临界值为6.64,3.由于卡方值3.07小于临界值6,64,所以检验没有显著意义,即不能推翻零假设,这名样本来自正态总体。,=3.07,18,Chi-squarefortestinggroupindependence,除了进行拟合度检验,卡方检验还用于分析两个或两个以上的因素之间有无关联和判断因素之间的差异是由于样本抽样造成的随机差异还是由于来自不同总体造成的真正差异。,ThetestforgroupindependenceisusedwhentherearetwoormorevariablesAllofthevariablesarecategorical.,列联表独立性检验,四格表独立性检验,19,列联表独立性检验:,用于独立性检验的数据一般整理成列联表(contingencytable)的形式,一个分类标准把数据分为若干列,另一个分类标准把数据分为若干行,行列交叉形成一个个方格(cell)每一行和每一列都有一个总计,书写在一行或一列的末尾,称为“边际总和”。所有的边际总和加起来就是全部数据的个数或样本容量N,列联表行的数目一般用r表示,列的数目用k表示,因此一个列联表可以表示为rk例如上表可表示为23,20,独立性检验的步骤:,1.陈述零假设H0:两个分类标准完全独立,2.设显著水平,3.假设零假设成立,计算每一个格里的期望次数,例如第一格A的期望数为(A+B+C)(A+D)/N,按惯例,期望次数一般放在括号内,置于实际次数之后。,21,4.计算卡方值X2,5.确定自由度:df=(r-1)(k-1),6.在卡方分布表中查对应于和df的值。如果X2大于临界值,就推翻零假设。,22,我们想知道家常信件(FamilyLetters,FL)和事务信件(BusinessLetters,BL)的词长与信件的类别之间有无联系(或是否独立).现从两类信件中分别随机选取500和600词,若把词长分为三类:两个音节以下(2)、3-4个音节、5个音节以上(5)词长的次数分布情况如下表所示,(204.5),(159.1),(136.4),(136.6),(190.9),分析步骤:,1.零假设:词长独立于信件的类型,即两者互不关联。,2.计算期望次数。,(245.5),23,3.确定自由度设定显著水平,该表的数据列联表为23根据公式计算df=(r-1)(k-1)=12=2,设定显著水平=0.05,4.查卡方分布表得对应卡方临界值5.99,3.计算卡方值得出X2=231.4,由于卡方值231.4远大于临界值5.99,所以拒绝零假设,说明词长和信件类型是有关联的。,24,四格表独立性检验,四格表又称相依表,是一种22形式的列联表计算22的四格表卡方值的方法与其他类型的列联表一样,只是在计算四格表卡方值时有一个不需要计算期望频数的特殊公式,相对常规的卡方公式计算更简单方便。,A+C,B+D,A+B,C+D,N=A+B+C+D,对于四格表,其自由度为(2-1)(2-1)=1,25,前面比较了家常信件(FL)与事务信件(BL)在用词方面的不同,除此之外,他们在句子类型上也有很大不同,比如前者多用简单句(SIM),而后者多用复合句(COM).假如我们选取一个随机样本,得到如下数据:,(4.8),(5.2),(7.8),(7.2),FLBL,SIMCOM,1213,101525,假设显著水平为0.01,两类信件在句子类型上的次数分布是否有显著差异呢?,1.零假设:信件类型与句子类型完全独立。,2.计算期望次数,然后算出卡方值为6.78用简便公式计算得出卡方值为6.84,3.自由度为1.显著水平为0.01,查卡方分布表的卡方临界值为6.64,卡方值大于临界值,推翻零假设,也就是证明信件类型与句子类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论