第7章 分类资料的统计推断_第1页
第7章 分类资料的统计推断_第2页
第7章 分类资料的统计推断_第3页
第7章 分类资料的统计推断_第4页
第7章 分类资料的统计推断_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计推断统计推断用样本信息推论总体特征的过程。用样本信息推论总体特征的过程。包括:包括:参数估计参数估计: 运用统计学原理,用从样本计算出来的运用统计学原理,用从样本计算出来的统计指标量,对总体统计指标量进行估计。统计指标量,对总体统计指标量进行估计。假设检验:假设检验:又称显著性检验,是指由样本间存在的又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出差别对样本所代表的总体间是否存在着差别做出判断。判断。主要内容主要内容一、率(或构成比)的抽样误差和标准误一、率(或构成比)的抽样误差和标准误二、总体率(或构成比)的估计二、总体率(或构成比)的估计三、总体率(或构成比

2、)的三、总体率(或构成比)的假设假设检验检验 1.1.率(或构成比)的率(或构成比)的 Z Z 检验检验 2. 2. x x2 2检验检验 一、一、 率的抽样误差与标准误率的抽样误差与标准误nppsp)1 ( 样本率样本率(p)和总体率和总体率()的差异称为率的的差异称为率的抽抽样误差样误差(sampling error of rate) ,用,用率的标率的标准误准误(standard error of rate)度量。)度量。如果总体率如果总体率未知,用未知,用样本率样本率p估计估计np)1 (二、二、 总体率的估计总体率的估计点估计点估计样本率代替总体率样本率代替总体率区间估计区间估计根据

3、样本率推算总体率可能所在的根据样本率推算总体率可能所在的范围范围 率的置信区间率的置信区间1、查表法、查表法 当当n50,尤其是,尤其是p接近接近0或或1时,可直接查表时,可直接查表得到。得到。 例:从某地随机抽取例:从某地随机抽取31名初中生,发现有名初中生,发现有9名名近视,试求该地初中生近视发生率的近视,试求该地初中生近视发生率的95置置信区间。信区间。 查表得:查表得:(14,48)n例:某地抽查了例:某地抽查了10名居民的乙肝表面抗原名居民的乙肝表面抗原(HBsAg)携带情况,阴性者)携带情况,阴性者8人,求该县人,求该县人群人群HBsAg阴性率的阴性率的95置信区间。置信区间。n注

4、:附表中只列出注:附表中只列出x n/2的部分,当的部分,当x n/2时,可以用时,可以用n-x查表,再以查表,再以100减去查得减去查得的区间即可。的区间即可。n因因810/2,故以,故以n-x2查表,得查表,得356,再用再用100分别减去,得出区间:(分别减去,得出区间:(44,97)2、正态近似法、正态近似法当当n足够大,且足够大,且n p 和和n(1- p)均大于)均大于5时,时,p的抽样分布逼的抽样分布逼近近正正态分布。其可信区间为:态分布。其可信区间为:双侧:双侧: (p -Z/2 Sp, p + Z/2 Sp) (Z0.05/2=1.96)单侧:单侧: p- Z Sp 或或 p

5、 + Z Sp (Z0.05=1.645)试估计试估计p=0.585,Sp =0.048的总体率双侧的总体率双侧95%可信区间。可信区间。解解: (p - Z/2 Sp, p + Z/2 Sp) (0.585-1.960.048,0.585+1.960.048)=(0.491,0.679)即总体率的即总体率的95%可信区间为可信区间为49.1%67.9%。注意:如果计算获得可信区间下限小于注意:如果计算获得可信区间下限小于0%,上限大于,上限大于100%,则将下限直接定为则将下限直接定为0%,上限直接定为,上限直接定为100%。三、样本率与总体率比较的三、样本率与总体率比较的Z Z检验检验Z

6、Z检验的条件:检验的条件:n 和n(1- )均大于5时例例 55,-地中海贫血基因携带率:山区地中海贫血基因携带率:山区 p=12/125=0.096, n=125;本省一般成人;本省一般成人0 0=0.076, H0:= =0 0=0.076 =0.076 H1:0 0 =0.05=0.05。 按按=0.05=0.05 水准,不拒绝水准,不拒绝 H0,即不能认为,即不能认为该山区与本省一般该山区与本省一般 成人的成人的-地中海贫血基因携带率有差异。地中海贫血基因携带率有差异。 0000 (1)pppZn844.0125)076.01(076.0076.0096.0四、两个独立样本率比较的四、

7、两个独立样本率比较的Z Z检验检验0.12750.03132.19491.96110.1045(1 0.1045)()20464Z表表5-1 两种疗法的心血管病病死率比较两种疗法的心血管病病死率比较疗法疗法死亡死亡生存生存 合计合计病死率病死率(%)安慰剂安慰剂26 (X1)178 204(n1) 12.75 (p1)盐酸苯乙双胍盐酸苯乙双胍 2 (X2) 62 64(n2) 3.13 (p2)合合 计计 28240 268 10.45 (pc)2122112121nnpnpnnnXXpc1212121211(1)()ppccppppZSppnnZ Z检验的条件:检验的条件:n n1 1p p

8、1 1 和和n n1 1( (1- p1- p1 1) )与与n n2 2p p2 2 和和n n2 2( (1- p1- p2 2) )均均 55小小 结结 1样本率也有抽样误差,率的抽样误差的大小用样本率也有抽样误差,率的抽样误差的大小用p或或Sp来衡量。来衡量。 2率的分布服从二项分布。当率的分布服从二项分布。当n足够大,足够大,和和1-均不太小,有均不太小,有n 5和和n(1- )5时,近似正态分布。时,近似正态分布。 3总体率的可信区间是用样本率估计总体率的可总体率的可信区间是用样本率估计总体率的可能范围。当能范围。当p分布近似正态分布时,可用正态近似法分布近似正态分布时,可用正态近

9、似法估计率的可信区间。估计率的可信区间。 4根据正态近似原理,可进行样本率与总体率以根据正态近似原理,可进行样本率与总体率以及两样本率比较的及两样本率比较的Z检验。检验。率的率的Z检验能解决以下问题吗?检验能解决以下问题吗? 率的反应为生与死、阳性与阴性、发生与不发率的反应为生与死、阳性与阴性、发生与不发生等二分类变量,如果二分类变量为非正反关系(生等二分类变量,如果二分类变量为非正反关系(如治疗如治疗A A、治疗、治疗B B);反应为多分类,如何进行假设);反应为多分类,如何进行假设检验?检验? 率的率的Z Z检验要求:检验要求:n 5且且n(1- )5, ,如果条件不如果条件不满足,如何进

10、行假设检验?满足,如何进行假设检验? 五、卡方检验五、卡方检验 2检验检验(Chi-square test)是现代统计学的创始是现代统计学的创始人之一,英国人人之一,英国人K . Pearson(1857-1936)于于1900年提出的一种具有广泛用途的统计方年提出的一种具有广泛用途的统计方法,可用于两个或多个率间的比较,计数资料法,可用于两个或多个率间的比较,计数资料的关联度分析,拟合优度检验等等。的关联度分析,拟合优度检验等等。(一)卡方检验的基本思想(一)卡方检验的基本思想(1)疗法疗法死亡死亡生存生存 合计合计病死率病死率(%)安慰剂安慰剂26 (a)178 (b) 204(a+b)

11、12.75 (p1)盐酸苯乙双胍盐酸苯乙双胍 2 (c) 62 (d) 64(c+d) 3.13 (p2)合合 计计 28 (a+c.)240(b+d.) 268(a+b+c+d=n) 10.45 (pc)表表5-1 5-1 两种疗法的心血管病病死率的比较两种疗法的心血管病病死率的比较(a+b)(a+c.)/ n=nRnC/n =21.3(a+b)(b+d.)/ n =nRnC/n =182.7(c+d)(a+c)/ n =nRnC/n =6.7(c+d)(b+d.)/ n =nRnC/n =57.3nnncolumnrowTCR总例数合计列合计行)()((一)卡方检验的基本思想(一)卡方检验

12、的基本思想(2) 各种情形下,理论与实际偏离的总和即为卡方值(chi-square valuechi-square value),它服从自由度为的卡方分布。) 1)(1(,1)()(222CRTTATTA1) 12)(12(82. 4)3 .5717 . 617 .18213 .211(7 . 423 .57) 3 .5762(27 . 6)7 . 62(27 .182)7 .182178(23 .21) 3 .2126(22v2/) 12/(2222)2/(21)(ef3.847.8112.59P P0.050.05的临界值的临界值2分布分布(chi-square distribution)

13、2检验的基本公式检验的基本公式) 1)(1(1)()(222CRTTATTA 上述上述基本公式基本公式由由Pearson提出,因此软提出,因此软件上常称这种检验为件上常称这种检验为Peareson卡方检验。卡方检验。它不仅适用于四格表资料,也适用于其它它不仅适用于四格表资料,也适用于其它的的“行行列表列表”。(二)四格表专用公式(二)四格表专用公式(1) 为了不计算理论频数为了不计算理论频数T, 可由可由基本公式基本公式推导出,推导出,直接由直接由各格子的实际频数(各格子的实际频数(a、b、c、d)计算卡方值的公式:)计算卡方值的公式:(四格表专用公式)基本公式:;1)()()()()()()

14、()()()()(222222dbcadcbanbcaddcbadbdcdcbadbdcddcbadbbadcbadbbabdcbacabadcbacabaaTTA(二)四格表专用公式(二)四格表专用公式(2)021 ,05. 0221021 ,05. 0221 ,05. 0205. 0;84. 3,05. 0;84. 305. 0;84. 31 , 82. 46424028204268)21786226(22HPHPP,即不拒绝则如果即拒绝如果下结论:2(1) z2 2.194924.82(n40,所有T5时)(三)连续性校正公式(三)连续性校正公式(1) 2分布是一连续型分布,而行分布是一

15、连续型分布,而行列表资料属离散型分布列表资料属离散型分布,对其进行校正称为连续性校正,对其进行校正称为连续性校正(correction for (correction for continuity),continuity),又称又称YatesYates校正(校正(Yates correctionYates correction)。)。当当n40,而,而1T5时,用时,用连续性校正连续性校正公式公式当当n40或或T1时,用时,用Fisher精确精确检验检验(Fisher exact test )()()()2/(22dbcadcbannbcadc(三)连续性校正公式(三)连续性校正公式(2)表

16、5-2 两零售点猪肉表层沙门氏菌带菌情况检查结果 沙门氏菌 零售点 阳性 阴性 合计 带菌率(%) 甲 2(4.17) 26(23.33) 28 7.14 乙 5(2.33) 9(11.67) 14 35.71 合计 7 35 42 16.67 1 , 62. 3357142842)24262592(22c1 , 49. 5357142842)26592(22因为因为1 1T T5 5,且,且n n4040时,所以应用连续性校正时,所以应用连续性校正2检验检验(四)配对四格表资料的(四)配对四格表资料的2检验检验配对四格表资料的配对四格表资料的2检验也称检验也称McNemar检验(检验(McN

17、emars test) 1,) 1(2402cbcbcb时,需作连续性校正, 1,27. 4312) 1312(22,4015采用连续性校正本例cb 1,)(2240ccbcbb时,当05. 0;84. 321 ,05. 02PH0:b,c来自同一个实验总体(两种剂量的毒性无差异);来自同一个实验总体(两种剂量的毒性无差异);H1:b,c来自不同的实验总体(两种剂量的毒性有差别);来自不同的实验总体(两种剂量的毒性有差别);=0.05。配对四格表资料的配对四格表资料的2检验公式推导检验公式推导(+,)和(,+)两个格子中的理论频数均为 2cb 40 cb时 2)2(2)2()(2222cbcb

18、ccbcbbTTA cbcb2)( 2分布 同理可得40cb时 校正公式: cbcbTTA222) 1|(|) 5 . 0|(| (五)行(五)行列(列(R RC C)表资料的)表资料的2 2检验检验n行行列表也称列表也称RC表,包括表,包括22、R2、2C、RC表等。四格表为其中最简单的一种形式,本表等。四格表为其中最简单的一种形式,本节主要讨论行数大于节主要讨论行数大于2或列数大于或列数大于2的行的行列表资列表资料的料的2 2检验,用于多个样本率或构成比的比较。检验,用于多个样本率或构成比的比较。它的基本原理和检验步骤与四格表它的基本原理和检验步骤与四格表2 2检验相似,检验相似,可用可用

19、2 2检验的基本公式进行计算。检验的基本公式进行计算。R RC C表的表的2 2检验通用公式检验通用公式nnnTCR总例数列合计行合计理论频数代入基本公式 可推导出: 基本公式 通用公式 ) 1()(2222CRnnAnTTA 自由度=(行数1) (列数1) 几种几种R RC C表的检验假设表的检验假设H H0 01. 多个样本率的比较多个样本率的比较 H H0 0:1 1= =2 2= =3 3= =4 4(四种疗法三年总体生存率相等)(四种疗法三年总体生存率相等) H H1 1:i ij j,4 ji(四种疗法三年总体生存率不全相等)(四种疗法三年总体生存率不全相等) 2. 2. 两组构成

20、比的比较两组构成比的比较 H H0 0:两处理组的总体构成相同:两处理组的总体构成相同 H H1 1:两处理组的总体构成不同:两处理组的总体构成不同 3. 多组构成比的比较多组构成比的比较 H H0 0:各年龄组病变类型的总体构成相同(年龄与病变类型无关):各年龄组病变类型的总体构成相同(年龄与病变类型无关) H H1 1:各年龄组病变类型的总体构成不全相同(年龄与病变类型有关):各年龄组病变类型的总体构成不全相同(年龄与病变类型有关) R RC C表的计算举例表的计算举例例例 5 5- -12 12 对对 1135 例绝经后出血的妇女进行临床与病理分析,例绝经后出血的妇女进行临床与病理分析,

21、 结果见表结果见表 5-6,试分析病变类型是否与年龄有关。,试分析病变类型是否与年龄有关。 表表 5 5- -6 6 不同年龄妇女绝经后出血的病变类型不同年龄妇女绝经后出血的病变类型 病变类型,例数(病变类型,例数(% %) 年龄组(岁)年龄组(岁) 功能性功能性 恶性恶性 良性良性 合计合计 5050 6060(44.444.4) 1616(11.911.9) 5959(43.743.7) 135135 5151 208208(33.333.3) 111111(17.817.8) 306306(49.049.0) 625625 6161 6666(25.025.0) 7979(29.929.9) 119119(45.145.1) 264264 7171 2121(18.918.9) 4747(42.342.3) 4343(38.738.7) 111111 合计合计 355355(31.331.3) 253253(22.322.3) 527527(46.446.4) 11351135 2222601643211135(1)58.91135 355135 253111 527(4 1)(3 1)6RCAnn n 2=58.91=58.9120.05,6=12.5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论