第七章、卡方检验ppt课件.ppt_第1页
第七章、卡方检验ppt课件.ppt_第2页
第七章、卡方检验ppt课件.ppt_第3页
第七章、卡方检验ppt课件.ppt_第4页
第七章、卡方检验ppt课件.ppt_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计学第七章.卡方检验ChapterVII.Chi-squareTest,1,第七章提纲,卡方分布的基本知识普通四格表资料卡方检验配对四格表资料卡方检验行*列表资料卡方检验多个样本率间的多重比较有序分组资料的线性趋势检验,2,第一节.卡方分布*,设随机变量u1,u2,uk,相互独立,且都服从标准正态分布N(0,1)。那么,我们将k个独立标准正态变量的平方和称为卡方变量,它满足自由度为的卡方分布,记为:,3,卡方分布*,如果随机变量X满足以下概率密度函数,则称其满足自由度为的卡方分布,4,卡方分布图形*,5,卡方分布图形*,6,卡方分布的特征*,7,卡方分布的曲线下面积定义,当确定后,卡方分布曲线下右侧尾部的面积为a时,横轴上相应的卡方值,记为c2a,n,如下图;实际应用时,可根据由附表8查得如果c2c2a,n,曲线下面积小于a;反之则大于a,8,卡方分布*,1875年,F.Helmet得出:来自正态总体的样本方差的分布服从卡方分布:因此卡方分布可用于总体方差的区间估计:卡方分布也可用于样本方差与总体方差比较的假设检验,9,S2与2比较的假设检验*,从一正态总体中抽样,样本方差s2并不总等于总体方差2,二者间存在抽样误差;这种抽样误差存在统计规律根据样本方差的分布规律有:,H0:样本来源的总体方差为02,10,Pearson卡方检验,1900年K.Pearson又从检验分布的拟合优度(goodnessoffit)中也发现了卡方分布可用于检验资料的实际频数和理论频数是否相符等问题:,11,Karl.Pearson,CarlPearsonorKarlPearson(1857-1936)JournalBiometrikaPearsonproduct-momentcorrelationcoefficient、Linearregression、Pearsonschi-squaretest,12,Goodnessoffittest*,YYRR,yyrr,减数分裂后的配子,YR,yr,F1,P,杂交,等位基因分离,Yy,Rr,Yy,Rr,13,Goodnessoffittest*,YyRr,F1配子,14,Goodnessoffittest*,F2,yyrr,:=9:3:3:1,15,Goodnessoffittest*,在两对遗传因子的试验中,F2的四种表型见下表,问该结果能否满足Mendel关于F2的9:3:3:1规律?假设满足上述规律,则不难求出2500株植物中各种表型的理论频数T,16,Goodnessoffittest*,将实际频数A与对应的理论频数T代入公式得:,17,Goodnessoffittest*,本例中有四个实际频数,其中受到总频数为2500的限制,因此能够自由取值的仅有4-1=3个,所以自由度=3查表得20.05,3=7.81,故在=0.05的水准上拒绝H0,接受H1;认为该批植物的两种遗传因子不满足9:3:3:1的遗传定律;可能出现连锁遗传,18,Goodnessoffittest,在课文P96、P126中,详细阐述了如何使用卡方检验推断某现象的频数分布是否满足特定的概率分布例如资料是否满足正态分布、二项分布、Poisson等医学研究中常见的概率分布,19,Goodnessoffittest,20,第二节.普通四格表的卡方检验,普通四格表的2检验可用于:两个样本率间的比较两个二分类变量间关联度分析*,21,卡方检验的基本思想,某中药在改变剂型前治疗152例,治愈129例;改变剂型后又观察130例,治愈101例,改变剂型前后的疗效是否不同?,22,普通四格表的卡方检验,在表格中有两组,每组的结果为二分类结果(22),这样的表格称为四格表,其通用格式表达如下:,23,卡方检验的基本思想,从表中可见两剂型的治愈率不相同,那么这种差别究竟是由于抽样误差还是由于不同剂型疗效的确有差别?不妨假设两剂型的疗效是相同的,那么此时两种剂型的疗效之差仅仅来源于抽样误差,24,卡方检验的基本思想,既然假设两剂型的总体疗效相同,可以考虑将两组样本资料合并,计算一个“合计率”,作为总体率的估计两剂型的合计治愈率Pc=230/282=81.56%在此合计治愈率的情况下,治疗152例患者应该有Pc152=124.0例治愈,(1-Pc)152=28.0例未愈;同理如果治疗130例患者,应该有106.1例有效,23.9例无效将上述数据称为疗效的理论数,据此可推算其余数据的理论频数,25,普通四格表卡方检验,26,卡方检验的基本思想,27,卡方检验的基本思想,从表中可见,疗效的理论数(根据假设两总体疗效相同得到)与实际人数存在差别如果我们的假设成立的话,这种差别属于抽样误差,应该不会很大;反之,如果这种差别很悬殊,则因该怀疑原假设不成立如何评价“悬殊”与“不悬殊”?,28,卡方检验的基本思想,卡方检验基本公式:理论数与实际数间的差距可为正亦可为负,因此需要对二者之差取平方,而后再累加如前所述,比较两组数据变异程度,直接比较标准差是不合理的,因为两组数据的均数可能差距甚大或单位不同例如:A=303,T=300,A-T=3;A=33,T=30,A-T=3;因此仅有(A-T)2尚不足以说明二者间不吻合的程度,需要对A与T间的差距作“标准化”或“相对化”,29,卡方检验的基本思想,如何对A与T间的差距作“相对化”或“标准化”?最直观的方法就是将离差的平方除于一个频数实际频数A或理论频数T最终将其除于T可有以下几点解释:为了避免A=0时除式没有意义的情况,实际频数A即使在样本含量相同的情况下,仍将随不同抽样改变;而T无此问题,比A稳定,用其作为分母更稳健也更具代表性,30,卡方检验的基本思想,此外,卡方计算公式中每项均非负,因此卡方值的大小不仅取决于A与T间的相对差距,还取决于累加项数的多少因此需对累加项数作调整,引入“自由度”的概念在列联表资料中(四格表也是一种列联表),自由度可以简单地表达为(行数-1)(列数-1),即(R-1)(C-1);其含义为列联表中除行、列合计值外可以自由取值的格子个数(或总自由度-行合计自由度-列合计自由度),31,卡方检验的基本思想,如果假设成立,实际数与理论数的差距应该较小,按照上式计算的卡方值因该接近0,如果卡方值远离0则应该拒绝原假设卡方值满足卡方分布,求得相应卡方值的曲线下面积就可以得到P值,进而作结论可见卡方检验的基本原理就是分析实际频数与根据假设构建的理论频数间的吻合程度(拟合度),32,普通四格表卡方检验,H0:两总体率相同H1:两总体率不同a=0.05c2=(A-T)2/T计算卡方值为2.428自由度v=(R-1)(C-1)=1,即四个格子中可自由取值的个数;本例中,由于行列的合计值固定,所以四个格子中只有一个可自由取值,故v=1查表得:c20.05,1=3.84,所以P0.05,在a=0.05的水准上不拒绝H0,尚不认为两种剂型的治愈率不同,33,关于四格表卡方检验的一些说明,如前所述,卡方分布是连续的;然而理论数的取值却是不连续的;因此本章节的公式7-1是对卡方的近似公式,其使用效能受到理论数大小的制约,34,Yatescorrectionforcontinuity,由离散型资料按卡方检验公式式算得的卡方值均有偏大的趋势(使得我们偏向于拒绝原假设),尤其是当自由度=1而且理论数较小时,偏差较大FrankYates(1934)提出对四格表卡方值进行连续性矫正矫正后的卡方值记为c2c,35,四格表卡方检验的理论数要求,当理论频数T有T5,而且n40时,卡方公式不需要校正,直接使用当理论频数T有1T5,而且n40时,需要校正,或者用精确概率法计算概率值当理论频数T有T1,或者n40时,只可用精确概率法计算概率值,36,四格表卡方检验专用公式,原始卡方公式需要计算理论数,略显麻烦在四格表资料中,可以使用专用公式,省略计算理论数的过程专用公式如下:,37,四格表卡方检验专用公式校正,若有1T5,而且n40时,该专用公式同样需要校正,38,四格表卡方检验的校正,将病情相似的淋巴系统肿瘤患者随机分成两组,分别作单纯化疗与复合化疗,缓解情况见下表,问两疗法的缓解情况是否不同?,39,四格表卡方检验的校正,在上表中最小的理论数应该是“单纯化疗”“缓解”所对应,因为它所对应的行、列合计值最小;2所对应的理论数为4.8,小于5,而且例数不小于40,所以本题应该作校正校正后卡方值为2.624(未校正时为3.889),故尚不认为两方案缓解情况不同,40,第三节.配对四格表卡方检验,什么是配对设计?常见配对设计的情况是那些?,41,常见的配对四格表资料,同一批样品用两种不同的方法处理,处理的结果为二分类资料观察对象根据配对条件配成对子,同一对子中的不同个体分别接受不同的处理,处理的结果为二分类资料,42,配对四格表资料,例7-3:某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定,结果见下表,问两种方法的检测结果有无差别:,43,配对四格表资料,在本例题中每份标本被一分为二(两份标本实质上是一样的),同时接受两种方法检测;这样抗核抗体检出情况差别完全取决于不同的方法,而与受检者的基本情况无关所以本例为配对设计,目的是通过样本资料判断两方法的总体阳性概率是否有差别,44,配对四格表资料,我们将上述表格稍作改变,得到如下四格表:该四格表与前面所介绍的普通四个表有所不同;普通四格表的“行”为分组因素,“列”为分组的结局,而在配对四个表中,“行”中既包含分组因素,同时也有该因素的结局,“列”也同样,所以这种四格表称为配对四格表,45,配对四格表资料的一般形式,对含量为n的一份随机样本同时按照两个二项分类属性,进行交叉分类形成的四格表,46,成组与配对四格表资料的比较,47,配对四格表资料卡方检验原理,在配对设计的四格表中,如果要了解不同的处理方案的结局是否有别(例如两种检测方法的阳性率是否有别)并不需要用到所有四格中的数据免疫法中的阳性率为(11+12)/58;乳胶法中的阳性率为(11+2)/58;可见两者都阴性的33份标本对二者阳性率的差别没有影响,而且二者都阳性的11份标本也对结果没有影响(两种方法结果一致的对二者的率差没有影响),导致两者阳性率的差别主要来源于培养结果不一致的14份样本(122),48,配对四格表资料卡方检验原理,假设122的主要原因是抽样误差导致,那么两方法的总体阳性率就是一致的所以其假设主要针对12与2,即H0为B=C,两种方法的抗核抗体阳性检出率相等如果H0成立,则二者检测结果不一致的两个格子理论数都应该是(b+c)/2所以卡方检验的公式变为:,49,配对四格表资料卡方检验原理,将数据代入上述公式中,因为12+2小于40,故需要校正,校正卡方值为5.79因为5.793.84,故P0.05,在a0.05的水准上拒绝H0,认为两法的阳性检出率不同,50,McNemar法的注意事项,本法一般用于样本含量不太大的资料。因为它仅考虑了两法结果不一致的两种情况(b,c),而未考虑样本含量n和两法结果一致的两种情况(a,d)。所以,当n很大且a与d的数值很大(即两法的一致率较高),b与c的数值相对较小时,即便是检验结果有统计学意义,其实际意义往往也不大,51,第四节.行列表卡方检验,如果有超过2组,每组的结局超过2种分类,就构成了RC列联表;四格表是最简单的列联表完全随机设计的列联表资料的卡方检验原理与四格表的相同,只不过组数或结局增多了而已,52,列联表卡方检验,例7-6:某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效,资料见下表。问三种疗法的有效率有无差别?,53,完全随机设计的列联表卡方检验,其检验思想同四格表卡方检验:先假设三种疗法的总体疗效相同,将三组的治疗情况合并作为总有效率的估计值,而后可以据此计算各处理方案的理论有效与无效人数,如果假设成立的话它们间的差别应该很小,卡方值应该不大,否则就有理由认为它们不是来源于同一总体H0:三疗法有效率相同;H1:三疗法有效率不全相同,54,完全随机设计的列联表卡方检验,请注意,对立假设包括多种情况:例如三组间互不相同、某两组间相同且都与第三组不同;所以如果拒绝原假设,还需要对三组进行多重比较(卡方分割)才可以最终下结论卡方检验的公式既可以使用基本公式c2=(A-T)2/T;也可以通过下列公式减少计算量:,55,完全随机设计的列联表卡方检验,需要说明一点:该公式也可以用于普通四格表,它的结果与四格表专用公式(未校正)计算结果完全相同将表中数据代入:查表得:c20.05,2=5.99,所以P0.05,在a=0.05的水准上拒绝H0,认为三种疗法的总体有效率不全相同,56,例7-7:某医师在研究血管紧张素I转化酶(ACE)基因I/D多态(分3型)与2型糖尿病肾病(DN)的关系时,将249例2型糖尿病患者按有无糖尿病肾病分为两组,资料见下表。问两组2型糖尿病患者的ACE基因型总体分布有无差别?,57,请注意,本例题中只有两组观察对象,因此备择假设为“两组患者的基因构成不同”H0:两组患者的基因构成相同H1:两组患者的基因构成不同a=0.05代入公式得:在a=0.05的水准上,拒绝H0,接受H1,认为两组患者的总体基因构成不同,58,行列表卡方检验注意事项,同四格表资料一样,RC表的2分布是建立在大样本的假定上的,要求总例数不可过少,不能有1/5以上的格子理论频数小于5,且不能有一个格子的理论频数小于1如果出现上述情况,可以考虑:增大样本量;根据专业知识合理地合并相邻的组别;删除理论数太小的行列;改用其它方法分析,例如确切概率法当多个样本率(或构成比)作2检验,结论为拒绝零假设时,只能认为各总体率(或总体构成比)之间总的有差别,不能说明两两之间有差别;两组间的比较可采用2分割的方法,59,第五节.多个样本率间的多重比较,多个样本率比较的资料若经卡方检验的结论为拒绝H0,接受H1时,意味着总体率间不全相同,须用卡方分割法把RC表分成多个独立的四格表进行两两比较,但必须重新规定检验水准,其目的是为保证检验假设中I型错误的概率不变。三组作两两比较需要比较三次,如果每次的显著性水准均为0.05,则三次比较后的显著性水准为1-0.953=0.14,远大于原先的预期,所以要重新确认a,使得经过三次比较后一类错误仍为0.05,60,多个样本率间的多重比较,因分析目的不同,k个样本率两两比较的次数不同,故重新规定的检验水准的估计方法亦不同;通常有两种情况任意两个实验组间的比较,以及多个实验组同一个相同的对照间的比较,61,62,实验组与同一个对照组的比较分析目的为各实验组与同一个对照组的比较,而各实验组间不须比较;其检验水准用下式估计,63,64,65,列联表资料的两两比较,66,第六节、确切概率法(Fisherexacttest),前以述及,2检验是基于大样本假定,四格表时,如果总例数小于40或任意一格子理论数小于1,大样本假定不成立,则不能用2检验另外,有些情况下虽然满足卡方检验的使用条件,但是计算的卡方值与卡方界值十分接近(P十分接近a)此时也可以考虑使用确切概率法该方法是由RonaldFisher提出,直接计算概率值;因此严格说来,它并不属于卡方检验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论