定性资料统计分析_第1页
定性资料统计分析_第2页
定性资料统计分析_第3页
定性资料统计分析_第4页
定性资料统计分析_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关于定性资料的统计分析第一张,PPT共五十九页,创作于2022年6月第七节 四格表资料的2检验第二张,PPT共五十九页,创作于2022年6月2检验(chi-square test)是英国统计学家Pearson于1900年提出的一种应用范围很广的统计方法。常用来推断两个及两个以上总体率或构成比是否有差异。根据设计类型的不同,四格表资料的2检验可分为:完全随机设计的两样本率比较的2检验配对设计的2检验。第三张,PPT共五十九页,创作于2022年6月一、2检验的基本思想 u检验与t检验的思路相同,是用标准误作为尺度,去衡量统计量与总体参数差别的大小。2检验(chi-square test)的思路则与

2、u检验、t检验不同,却有着异曲同工之妙。第四张,PPT共五十九页,创作于2022年6月例、某医院肿瘤科3年来共治疗乳腺癌患者n=131例,每例观察5年,其中单纯手术治疗组观察n1=84例,存活x1=57例,联合治疗组观察n2=47例,存活x2=39例。将资料整理成以下形式的分类频数表。 组别存活数死亡数合计阳性率(%)联合治疗39(a)8(b)47(a+b)83.0单纯手术57(c)27(d)84(c+d)67.9合计96(a+c)35(b+d)131(n)73.3第五张,PPT共五十九页,创作于2022年6月1、四格表的概念 a、b、c、d这四个格子的频数是整个表的基本数据,其余数据都是从这

3、四个基本数据推算出来的,通常将这种资料称为四格表资料(22表资料)。四格表资料多用来比较两种处理的不同效果,而每种处理只产生两种相互对立的结果。如生存与死亡、有效与无效、患病与未患病、阳性与阴性、检出与未检出等。 第六张,PPT共五十九页,创作于2022年6月2、建立检验假设 当两个样本率不等时,可能有两种原因:差别仅由抽样误差所致;两种处理的效果确有不同,而导致了样本率的不同。为区别这两种情况,分别建立检验假设:H0:两总体存活率相等,即1=2;H1:两总体存活率不等,即12。 = 0.05。 第七张,PPT共五十九页,创作于2022年6月3、H0条件下的理论频数 H0假设认为,两个样本来自

4、同一总体,即 “单纯组”与 “联合组”的存活率相同,差别仅由抽样误差所致,则可用合计存活率 73.3(即96/131)作为总体率的点估计。H0条件下,单纯组理论存活数应为47(96/131) =34.44例,联合组理论存活数应为84(96/131) =61.56例;同理,两组理论死亡数为12.56例和22.44例。这四个根据H0假设求得的数据称为理论频数T。 第八张,PPT共五十九页,创作于2022年6月理论频数T可用公式计算:式中 TRC表示第R行、第C列的理论频数,nR为相应行的合计,nC为相应列的合计,n为总例数。 第九张,PPT共五十九页,创作于2022年6月4、2检验的思路 如果H0

5、假设成立,则实际频数A与理论频数T应该比较接近。如果实际频数与理论频数相差较大,超出了抽样误差所能解释的范围,则可以认为H0假设不成立,即两样本对应的总体率不等。 第十张,PPT共五十九页,创作于2022年6月实际频数Ai与理论频数Ti之间的抽样误差,可以用2统计量表示:2统计量服从2分布,反映了实际频数A与理论频数T吻合的程度。A与T相差越大,则2值就会越大。第十一张,PPT共五十九页,创作于2022年6月如果H0假设成立,则实际频数与理论频数之差异纯系抽样误差所致,故2值不会很大。即在H0假设的前提下,一次随机试验中,出现较大2值的概率P是很小的。如果手头样本求得很小的P,且P ,根据小概

6、率原理,就有理由怀疑H0的真实性,故拒绝之;若P,则没有理由拒绝H0。 2值与P值的对应关系可查附表3的2界值表。 第十二张,PPT共五十九页,创作于2022年6月根据计算公式,2值的大小除了和实际频数与理论频数的差值|AT|有关还与格子数有关,严格的讲是和自由度有关。行列表的自由度,是指在表中周边合计数不变的前提下,基本数据可以自由变动的格子数。 四格表中有四个基本数据,其中任何一个数据发生变化,其余三个数据由于受周边合计数的限制,只能随之相应变动,故其自由度为1 。 =(行数-1)(列数-1) 第十三张,PPT共五十九页,创作于2022年6月二、完全随机设计的两样本率的比较 完全随机设计的

7、两个样本率比较的目的是推断两个样本率各自所代表的总体率是否相等。检验方法可用u检验或2检验。 例1、某医院肿瘤科3年来治疗乳腺癌患者n=131例,其中单纯手术组观察n1=84例,存活x1=57例,联合治疗组观察n2=47例,存活x2=39例,问两组存活率有无差别? 第十四张,PPT共五十九页,创作于2022年6月首先将资料整理成四格表形式:第十五张,PPT共五十九页,创作于2022年6月第十六张,PPT共五十九页,创作于2022年6月例2、在某项治疗牙科术后疼痛控制的双盲临床研究中,将178例患者随机分成两组,A药组90人,有效人数为68人。B药组88人,有效人数为58人。 第十七张,PPT共

8、五十九页,创作于2022年6月第十八张,PPT共五十九页,创作于2022年6月三、四格表资料专用公式理论频数由四格表中实际频数计算得来。对于四格表资料,可直接用专用公式计算2值,以简化计算过程。式中a、b、c、d分别为四格表的四个实际频数即四格表的基本数据,总例数n=abcd。 第十九张,PPT共五十九页,创作于2022年6月分别将前面的两个例子中的基本数据代入公式可以得到相同的2值。 39 8 57 27 68 22 58 30第二十张,PPT共五十九页,创作于2022年6月四、四格表2统计量的连续性校正 2分布是一种连续性分布,附表3中2界值是根据此连续性分布的理论公式计算得到。而两个或多

9、个率比较的原始数据却属离散型分布资料,是不连续的。 因此,2检验公式是一个近似计算公式。英国统计学家Yates F认为,应将实际频数与理论频数之差的绝对值减去0.5作连续性校正。第二十一张,PPT共五十九页,创作于2022年6月实际上,2值公式在四格表的基础数据均不太小时,近似程度相当高。但是,只要四格表中的有一个基础数据出现较小值,此时求得的2值往往偏大,相应的P值偏小,从而扩大了I型误差。为校正这种偏差,可采用校正2,用C2表示。其计算公式为: 第二十二张,PPT共五十九页,创作于2022年6月对四格表专用公式的校正为:两者是等价的,这种校正称为连续性校正,即Yates校正。 第二十三张,

10、PPT共五十九页,创作于2022年6月分析四格表资料时,不同公式的选择条件 在分析四格表资料时,需根据具体情况作出不同处理,一般认为:1、当n40,且T5时,用基本公式计算2值; 2、当n40,且1T5时,则用2检验的连续性校正公式;3、当n40,或有T1时,不能用2检验,应当用四格表的确切概率法。4、当2检验所得P值接近检验水准 时,最好使用四格表确切概率法。 第二十四张,PPT共五十九页,创作于2022年6月例1、下表资料是单用甘磷酰芥(单纯化疗组)与复合使用争光霉素、环磷酰胺等药(复合化疗组)对淋巴系统肿瘤的疗效,问两组患者总体的完全缓解率有无差别? 第二十五张,PPT共五十九页,创作于

11、2022年6月第二十六张,PPT共五十九页,创作于2022年6月例2、为观察甲、乙两药对治疗胃溃疡的疗效,将70名患者随机分成两组,一组30人服用甲药,另一组40人服用乙药。结果见下表。问两种药物的胃溃疡治愈率有无差别?第二十七张,PPT共五十九页,创作于2022年6月第二十八张,PPT共五十九页,创作于2022年6月五、u检验与2检验的关系事实上,对两样本率的比较的双侧检验,u检验和2检验是等价的。即自由度为1的2=u2。因此,两样本率的比较,可以用u检验,也可以用2检验。两者的应用条件是一样的。但若需进行单侧检验,则应选用u检验,因为2检验理论上本身就是双侧检验。第二十九张,PPT共五十九

12、页,创作于2022年6月六、配对设计四格表的卡方检验配对设计是医学研究中常用的设计方法之一,二分类结果资料的配对研究常用于比较两种检验方法、两种培养方法、两种提取方法之间的差别。 配对四格表设计的特点是对同一样本的每一份检品分别用甲、乙两种方法处理,观察其阳性与阴性例数。以推断两种处理的结果有无差别。 第三十张,PPT共五十九页,创作于2022年6月配对四格表资料结果的四种情况两法均为阳性(a)、两法均为阴性(d)、甲为阳性乙为阴性(b)、甲为阴性乙为阳性(c)。a、d为两法结果相同部分;b、c为结果不同部分。 这样的资料称为配对四格表,其形式与普通四格表类似,但内容及检验方法却不一样。 第三

13、十一张,PPT共五十九页,创作于2022年6月配对设计的两个率的比较配对2检验。两种方法若没有差别,则总体B=C。样本常表现为bc,是由于抽样误差的存在,还是两种方法确有差别,必须进行假设检验。 a和d两个格子在比较有无差异时不起作用,而配对2检验只检验结果不一致的对子数b和c之间的差别来反映两种方法的差异。第三十二张,PPT共五十九页,创作于2022年6月配对2检验计算公式的应用条件1、当b+c40时,用非校正公式计算检验统计量: 2、当20b+c40 时,用连续性校正公式来计算检验统计量:3、当b+c20时,用确切概率法计算。第三十三张,PPT共五十九页,创作于2022年6月例1、某研究室

14、用甲、乙两种血清学方法检查410例确诊的鼻咽癌患者,得结果如下表,问两种方法检出率有无不同? 第三十四张,PPT共五十九页,创作于2022年6月第三十五张,PPT共五十九页,创作于2022年6月例2、用两种检验方法对某食品作沙门氏菌检验,结果如下表,试比较两种方法的阳性结果是否有差别。 第三十六张,PPT共五十九页,创作于2022年6月第三十七张,PPT共五十九页,创作于2022年6月注意点资料判断普通四格表资料完全随机设计配对四格表资料配对设计第三十八张,PPT共五十九页,创作于2022年6月第八节 行列表资料的2检验 第三十九张,PPT共五十九页,创作于2022年6月对于单变量的计数资料,

15、均可通过行列表形式表达,其基本数据有R行C列,简称RC表。四格表是最简单的一种RC表,即22表。RC表资料卡方检验可用于多个样本率的比较、多个样本构成比的比较等等。 第四十张,PPT共五十九页,创作于2022年6月RC表2检验的通式 式中,A为第R行第C列对应的实际频数,nR为第R行的行合计,nC为第C列的列合计,n为总样本含量。该公式同样适用于四格表资料,等价于:第四十一张,PPT共五十九页,创作于2022年6月一、多个样本率的比较如果是多个样本率进行比较时,其基本数据有R行2列,构成R2表,用以表述R个样本率的基本数据。R2表的2检验用于推断R个样本率各自所代表的总体率是否相等。 第四十二

16、张,PPT共五十九页,创作于2022年6月例1、某地调查了19951998四个年度中小学女生的贫血状况,见下表,问各年度间学生贫血率有无差别? 第四十三张,PPT共五十九页,创作于2022年6月第四十四张,PPT共五十九页,创作于2022年6月例2、将133例尿路感染患者随机分成3组,第1组44例,接受甲方法治疗;第2组45例,接受乙方法治疗;第3组44例,接受丙方法治疗。一个疗程后,结果如下表,问3种治疗方法的尿培养阴转率有无差别? 第四十五张,PPT共五十九页,创作于2022年6月第四十六张,PPT共五十九页,创作于2022年6月Attention:和方差分析一样,前面例子的结论只能表明总

17、的来说各组的总体率是有差别的,但不能认为任意两个组均有差别。需通过进一步作多个率的两两比较,来明确究竟是哪些组别之间有差别。 第四十七张,PPT共五十九页,创作于2022年6月二、多个率的多重比较当多个样本率比较的2检验,结论为拒绝H0时,只能认为各总体率之间总的说来有差别,但不能说明它们彼此间都有差别,或某两者间有差别。若要进一步比较哪些率之间有差别,应进行多重比较。率的多重比较的原理多借鉴于均数的多重比较,方法较多(如Scheff可信区间法、 2分割法等等 )。第四十八张,PPT共五十九页,创作于2022年6月Scheff可信区间法 通过构建要比较的两样本率之差的可信区间来推断组间有无差异

18、。两率之差的100 (1-)%可信区间按下式计算:pA和pB为两个比较组的样本率;nA和nB为两个比较组的样本含量;k为所有的组数。 第四十九张,PPT共五十九页,创作于2022年6月例、某地调查了19951998四个年度中小学女生的贫血状况,见下表,问各年度间学生贫血率有无差别? 第五十张,PPT共五十九页,创作于2022年6月已知:2=281.6263,P0.005,该地四个年份中小学女生贫血检出率总的说来有差别,需用Scheff可信区间法进一步多重比较。按两率之差的可信区间计算公式来计算各可信区间,如98与97两年间学生贫血检出率之差的95%可信区间之计算如下: (-0.0122,0.0364) 第五十一张,PPT共五十

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论