7.分类变量的统计推_第1页
7.分类变量的统计推_第2页
7.分类变量的统计推_第3页
7.分类变量的统计推_第4页
7.分类变量的统计推_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、分类变量资料的统计推断(计数资料)DR.2007.11.25 目的要求1、掌握率的抽样误差、标准误及其可信区间 估计方法。2、掌握卡方检验的用途、各种设计资料的适 用条件及统计结论的推断。3、熟悉卡方检验的基本思想、步骤及注意事项。4、了解率的检验用途及适用条件。2007.11.25提要 : 率的抽样误差与率的标准误; 总体率的估计和率的u检验; 卡方检验。2007.11.25一、率的抽样误差和总体率的估计 1. 率的抽样误差与标准误 (sampling error & standard error of rate ) 率的抽样误差:由抽样造成的样本率与总体率的差别,或样本率之间的差别。 率的

2、标准误:表示率的抽样误差大小的统计指标。 ( Sp 为p的估计值, p为 的估计值 )*公式计算 : ( 1 - ) p ( 1 - p ) p = ; Sp = n n 2007.11.25(1)正态近似法:当总体率 未知时,若 n p 5 和 n (1p) 5 则总体率 (1- ) 可信区间为: 总体率95%可信区间为 p 1.96 sp 总体率99%可信区间为 p 2.58 sp p u sp = p - u sp p + u sp2. 总体率的区间估计2007.11.25例: 某地中学生就餐方式与乙肝病毒感染情况调查 就餐方式 调查人数 感染人数 感染率(%) 常在外就餐(A) 89

3、6 6.74 不在外就餐(B) 111 5 4.50合计 200 11 5.50 p(1 p)Sp = n抽样误差:0.0266 = 2.66% 0.0674(1 - 0.0674 )Sp = 89(A):(B): 0.0450 (1 - 0.0450 )Sp = 1110.0197 = 1.97%2007.11.25 例: 某地中学生就餐方式与乙肝病毒感染情况调查 就餐方式 调查人数 感染人数 感染率(%) 标准误 常在外就餐(A) 89 6 6.74 2.66% 不在外就餐(B) 111 5 4.50 1.97%总体率95%可信区间为 p 1.96 sp总体率99%可信区间为 p 2.58

4、 sp 总体感染率95%可信区间:(A): 6.74% 1.962.66% = 1.53% 11.95%(B): 4.50% 1.961.97% = 0.64% 8.36%2007.11.25(2)查表法 当样本含量n较小,如n50(特别是p接近0或1时),则按二项分布原理确定总体率的可信区间。 可根据样本含量 n 和阳性数 X 参照专用统计学介绍的二项分布中95%可信限表。P254 附表62. 总体率的区间估计2007.11.25二、率的u检验 1. 样本率与总体率比较目的:推断样本率所代表的总体率 与某总体率 0 是否相等。 | p-0 |u = p | p - 0 | u = 0 (1-

5、 0) /n条件:n0 5 和 n (1 - 0 ) 5公式:2007.11.25例:某地城镇25岁以上居民高血压患病率为 11,随机抽查该地矿区25岁以上居民598 人,确诊高血压者有82人。矿区居民与城镇 居民高血压患病率有何不同? 城镇居民高血压患病率:0 =11= 0.11 矿区居民高血压患病率:p = 82/598 = 0.14 分析目的: 推断 与 0 是否不同?2007.11.25假设:H0: = 0= 0.11, H1: 0 0.11, 0.05 p - 0u = 0 (1- 0) /n 0.14 - 0.11 0.11(1-0.11)/598= 2.340.01 P 0.05

6、 结论:矿区居民高血压患病率高于城镇居民。2007.11.25 2. 两个样本率比较目的:推断两样本率分别代表的总体率 1与 2是否相等。 | p1 - p2 |u = S p1-p2 _ 1 1 S p1-p2 = pc (1-pc) ( + ) n1 n2(pc为两个样本率的合并率。)公式:u 检验的条件:两样本率近似正态分布,n1p1 和n1(1- p1)与n2p2 和n2(1- p2)均 52007.11.25例: 某地5570岁居民体重指数与糖尿病关系体重指数 检查人数 糖尿病人数 患病率25 988 52 5.26 25 682 69 10.11合计 1670 121 7.25是否

7、体重指数(BMI)不同糖尿病的患病率不同?BMI 25 : p1= 5.26% 1 BMI 25 : p2=10.11% 2分析目的: 推断 1与 2 是否不同2007.11.25假设:H0: = , H1: , = 0.05 _ 1 1 S p1-p2 = pc (1-pc) ( + ) n1 n2 | p1 - p2 |u = S p1-p2 0.0725(1-0.0725)(1/988+1/682)=| 0.0526 - 0.1011 |= 3.76P 0.01结论:BMI 25者糖尿病患病率高于BMI 25者 BMI与糖尿病有关。2007.11.25小 结 1样本率也有抽样误差,率的抽

8、样误差的大小用p或Sp来衡量。 2率的分布服从二项分布。当n足够大,和1-均不太小,有n5和n(1-)5时,近似正态分布。 3总体率的可信区间是用样本率估计总体率的可能范围。当p分布近似正态分布时,可用正态近似法估计率的可信区间。 4根据正态近似原理,可进行样本率与总体率以及两样本率比较的u检验。率的u检验能解决以下问题吗? 率的反应为生与死、阳性与阴性、发生与不发生等二项分类变量,如果二分类变量为非正反关系(如治疗A、治疗B);反应为多分类,如何进行假设检验? 率的u检验要求:n足够大,且n5和 n(1-)5。如果条件不满足,如何进行假设检验? 2(卡方 )检验可用于两个或多个率间的比较;计

9、数资料的关联度分析;拟合优度检验等。 本章仅限于介绍两个和多个率或构成比比较的2检验。1. 2 检验的用途:2. 2 检验的基本思想:例8.5: 某抗生素的人群耐药性情况 用药史 不敏感 敏感 合计 耐药率 曾服该药 180 215 395 45.57 未服该药 73 106 179 40.78 合 计 253 321 574 44.08试问两种人群的耐药率是否一样?实际数 A2007.11.25某抗生素的人群耐药性情况 用药史 不敏感 敏感 合计 耐药率曾服该药 180 215 395 45.57未服该药 73 106 179 40.78 合 计 253 321 574 44.08假设:两种

10、人群耐药率一致为 253/574 44.08 曾服该药的耐药人数 T1.1=395253/574=174.1 未服该药的耐药人数 T2.1=179253/574=78.9假设:两种人群敏感率一致为 321/574 55.92 曾服该药的敏感人数 T1.2=395321/574=220.9 未服该药的敏感人数 T2.2=179321/574=100.1 T 理论值(nR)(nC)(n) nR nC TRC = n 2007.11.25 T 理论值是根据无效假设(H0)而推论出的理论数据 nR nC TRC = n 各种设计方式的卡方检验均据此试计算2007.11.25 某抗生素的人群耐药性情况用

11、药史 不敏感 敏 感 合计 耐药率 A T A T 未服该药 180(174.1) 215(220.9) 395 45.57曾服该药 73( 78.9) 106(100.1) 179 40.78合计nR 253 47 104 n 44.08基本公式: (A - T) 2 2 = T nR nC TRC = n A 实际值 T 理论值 = (行-1)(列-1) =(R-1)(C-1)(nC)2007.11.25 2 值、P 值与统计结论 2值 P值 统 计 结 论 0.05 接受H0 差异无统计学意义 20.05( ) 0.05 拒绝H0 差异有统计学意义 20.01( ) 0.01 拒绝H0

12、差异有高度统计学意义2007.11.25 3. 2检验的种类 ( 1) 四格表资料的 2检验 ( 2 test for fourfold table) 目的:用于两个样本率或构成比的比较,推断两个样本所代表的总体率(或总体构成比)是否相等。 专用公式: ( ad - bc) 2 n 2 = (a + b)(c + d)(a + c)(b + d)基本公式: (A - T) 2 2 = T = 12007.11.25检验假设:H0:12 , H1:12 ,0.05 (A - T) 2 2 = , T 2 (180174.1)2 / 174.1 + (215 220.9)2 / 220.9 + (

13、73 78.0.9)2 / 78.9 + (106 100.1)2 / 100.1 =1.15 = 1 2 0.05 P 结论:两种人群的耐药率无差别 某抗生素的人群耐药性情况用药史 不敏感 敏 感 合计 耐药率 A T A T 未服该药 180(174.1) 215(220.9) 395 45.57曾服该药 73( 78.9) 106(100.1) 179 40.78合计nR 253 47 104 n 44.082007.11.25某抗生素的人群耐药性情况用药史 不敏感 敏 感 合计 生存率未服该药 180 215 395 45.57曾服该药 73 106 179 40.78合计 253 3

14、21 574 44.08(a)(b)(c)(d)(a+b)(c+d)(a+c)(b+d)(n) ( ad - bc) 2 n 2 = (a + b)(c + d)(a + c)(b + d) 2 = (180106 - 215 73)2 574253 321 395179= 1.15P 0.052007.11.25 四格表 2值的校正当:1 T 5,而 n 40 时,需计算校正 2值 ( | A - T | - 0.5 ) 2 2 = , T ( | ad - bc | - n/2 ) 2 n或 2 = (a + b)(c + d)(a + c)(b + d)当:T 1,或 n 0.05结论:

15、无差别2007.11.25穿新旧两种防护服工人皮炎患病率比较的四格表种类 患皮炎 未患皮炎 合计 患病率 新 1 14 15 6.7 旧 10 18 28 35.7合计 11 32 43 25.6(3.84)(11.16)(7.16)(20.84) ( | ad - bc | - n/2 ) 2 n 2 = (a + b)(c + d)(a + c)(b + d)= 2.940.10 P 0.05 ( ad - bc) 2 n 2 = (a + b)(c + d)(a + c)(b + d)= 4.33 0.01 P 2 0.025(1) , P 0.025 = 1 按 =0.05水准,拒绝H

16、0,接受H1。认为两组流感发病率有差别,服药组流感发病率低于对照组。2007.11.25 本例: 第1行1列的T: T11 =23090/410=50.49 第1行2列的T: T12 =230320/410=179.51 第2行1列的T: T21 =18090/410 = 39.51 第2行2列的T: T22 =180320/410=140.49 以推算结果,可与原四项实际数并列成表11-1: 2007.11.25例11.5 表11-1 两组人群流感发病率的比较 组别 发病 未发病 合计 发病率 人数 人数 (%)服药组 40(50.49)190(179.51) 230 17.30对照组 50

17、(39.51)130(140.49) 180 27.78合计 90 320 410 21.95(nR)(nC)(N)2007.11.25 因为上表每行和每列合计数都是固定的,所以只要用TRC 式求得其中一项理论数,则其余三项理论数都可用同行或同列合计数相减,直接求出。 T1.1= 50.49 T1.2= 230 50.49 =179.51 T2.1= 90 50.49 =39.51 T2.2= 180 39.51=140.492007.11.25 2 值、P 值与统计结论 2值 P值 统 计 结 论 0.05 接受H0 差异无统计学意义 20.05( ) 0.05 拒绝H0 差异有统计学意义

18、20.01( ) 0.01 拒绝H0 差异有高度统计学意义2007.11.25 四格表 2值的校正:只要有一格当:1 T 5,而 n 40 时,需计算校正 2值 ( | A - T | - 0.5 ) 2 2 = , T ( | ad - bc | - n/2 ) 2 n或 2 = (a + b)(c + d)(a + c)(b + d)当:T 1,或 n 0.05结论:无差别 如果不采用校正公式,算得的结果 2 =4.197, 则结论就相反了。2.812 3.84,2007.11.25基本公式: (A - T) 2 2 = , T = (行-1)(列-1) = (R-1)(C-1) A 2

19、2 = n ( - 1) nR nC(2)行 列表资料的 2 检验 ( 2 test for RC table ) 目的:用于多个样本率(或构成比)的比较, 推断样本所代表的几个总体率(或总 体构成比)之间有无差别。专用公式:2007.11.25例11.8 问不同季节呼吸道感染率有无差别。 该资料归纳如表11-4作行列检验。 表11-4 不同季节呼吸道感染率的比较 季节 感染人数 未感染人数 合计 感染率% 春 12 699 711 1.69 夏 12 666 678 1.77 秋 29 665 694 4.18 冬 35 717 752 4.65 合计 88 2747 2835 3.10 该

20、表资料由4行2列组成,称24表,可用公式(11.15)检验。2007.11.25 1建立检验假设及确定检验水准 : H0:四个季节呼吸道感染率相同 H1:四个季节呼吸道感染率不同或不全 相同。 =0.052.计算2值: A 2 2 = n ( - 1) nR nC2007.11.252.计算2值: A2RC 2 = n ( 1) nRnC 122 6992 = 2835( + + 88711 2747 711 7172 + 1) 2747 75 = 17.29352007.11.253确定P值和推断结论 v =(4- 1)(2 - 1)= 3 据此查2值表: 2 0.005(3)= 12.84

21、; 2 = 17.2935 2 0.005(3) P0.005 按=0.05水准,拒绝H0,接受H1。认为 四个季节呼吸道感染率差别有高度统计学意 义。2007.11.25例. 三种方案治疗肝炎的疗效 组别 有效 无效 合计 有效率%西 药 51 49 100 51.00中药药 35 45 80 43.75中西药 59 15 74 79.73 合计 145 109 254 57.09假设:H0: 三种药物的有效率相同 H1: 三种药物的有效率不同或不全相同 = 0.05 A 2 2 = n ( - 1) nR nC2 =(512/100145+492/100109+152/74109 1) 254= 22.81 =(R1)(C1) =(R-1)(C-1)=(31) (21)= 22007.11.25 当推断结论为拒绝 H0 时,是认为各总体率(或总体构成比)不等或不全相等,即只能认 为其中至少有两个总体率(或总体构成比)不 等,而不能确定任意两个总体率(或总体构成比)不等。应作RC表的 2分割检验 行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论