分类变量资料统计推断PPT课件_第1页
分类变量资料统计推断PPT课件_第2页
分类变量资料统计推断PPT课件_第3页
分类变量资料统计推断PPT课件_第4页
分类变量资料统计推断PPT课件_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、率的抽样误差和标准误(sampling error and standard error of rate) 从同一个总体中随机抽出观察数相等的多个样本,样本率与总体率、各样本率之间往往会有差异,这种差异被称作率的抽样误差。率的抽样误差。率的抽样误差用率的标准误率的标准误表示 。 npnppsp计算公式计算公式p 为率的标准误,为总体的阳性率,n为样本含量。若不知道总体阳性率,则用样本阳性率p来代替,则公式变为第1页/共51页举例 某研究组欲研究经常在街头小餐点就餐(平均每天一次及以上)的中学生是否乙肝病毒的感染率较高。在某地随机抽取了200名中学生,询问他们是否经常在小餐点就餐,并检查乙肝

2、病毒感染情况。结果发现经常在小餐点就餐者89人 ,乙肝感染率为6.74%,不经常者111人,感染率为4.50%。 试计算两类中学生乙肝感染率的标准误及总体乙肝感染率可能所在的范围。 第2页/共51页1110450. 00450. 02ps=0.0197=1.97%经常在小餐点就餐者: n1=89,p1=6.74%=0.0674, 1-p1=0.9326890674. 00674. 01ps=0.0266=2.66% 不经常在小餐点就餐者: n2=111, p2=4.50%=0.045, 1-p2=0.955乙肝感染率的标准误解:第3页/共51页二、总体率的估计(estimation of co

3、nfidence interval of rate) 1. 正态近似法当样本含量n足够大,且样本率p或1-p均不太小时(如np和n(1-p)均大于5),样本率的分布近似正态分布,总体率可信区间的估计由下列公式估计 应用条件:总体率()95%的可信区间:p1.96sp 总体率()99%的可信区间:p2.58sp 第4页/共51页举例经常与不经常在小餐点就餐者总体乙肝感染率95%可信区间为: 经常者: 6.74% 1.96 2.66%=1.53%11.95% 不经常者:4.50% 1.96 1.97%=0.64%8.36%第5页/共51页2. 查表法l当当n较小,如较小,如n 50,特别是,特别是

4、p接近于接近于0或或1时,按二项分布原理估计总体率的可时,按二项分布原理估计总体率的可信区间。信区间。l因其计算相当复杂,统计学家已经编因其计算相当复杂,统计学家已经编制了总体率可信区间估计用表,读者可制了总体率可信区间估计用表,读者可根据样本含量根据样本含量n和阳性数和阳性数x查阅统计学专查阅统计学专著中的附表。著中的附表。 第6页/共51页第二节第二节 率的率的u u 检验检验1 1、样本含量、样本含量 n 足够大足够大2 2、样本率、样本率 p 和和 1-p 均不接近于零,此时样本率的均不接近于零,此时样本率的 分布近似于正态分布分布近似于正态分布 第7页/共51页1. 1. 样本率与总

5、体率的比较样本率与总体率的比较np1pp u=公式第8页/共51页根据大量调查资料,城镇25岁及以上者高血压患病率为11%。某研究组在某油田职工家属区随机抽查了25岁及以上者598人,82人确诊为高血压。问油田职工家属的高血压患病率与一般人有无不同?举例领悟题目含义,拟定分析方法。第9页/共51页解:大量调查所得的率可当作总体率看待。 本例总体率为0.11(11%),1- =0.89, N=598。样本率P=82/598=0.14Ho: = o=0.11H1: o=0.05第一步:建立检验假设第二步:确定检验水准第三步:选定检验方法,计算统计量第10页/共51页本题u=2.341.96,故P1

6、.96,故P0.05,按=0.05的水准拒绝Ho,接受H1。可认为用药组流感发病率较对照组低。第四步:确定P值,作出统计推断对照前一个例子,区分不同的检验方法第17页/共51页为研究某地男女学生的 肺吸虫感染率是否存在差别,某研究者随机抽取该地80名男生和85名女生,查得感染人数男生23人,女生13人,请作统计推断。举例解:本例n1=80,n2=85,n1p1=23,n1(1-p1)=57,N2p2=13,n2(1-p2)=72,该地男女生的肺吸虫感染样本率近似正态分布,故可采用u检验进行统计推断。计算步骤略第18页/共51页某流行病学课题组研究体重指数(BMI)与II型糖尿病的关系,检查了5

7、570岁的居民1670人,BMI25者988人,52人患糖尿病,BMI25者682人,糖尿病患者69人,问BMI不同者糖尿病患病率是否不同?举例计算步骤略分析题意分析题意第19页/共51页小结小结 率的抽样误差(率的标准误) 总体率的区间估计 率的u检验(大样本率的u检验)第20页/共51页1、两个或两个以上总体率之间差别有无统计 学意义2、两个或两个以上总体构成比之间差别有无统计学意义3、两分类变量间有无相关关系4、频数分布的拟合优度检验第三节第三节 卡方检验卡方检验第21页/共51页卡方检验的基本思想卡方检验的基本思想组别组别发病人数发病人数未发病人数未发病人数合计合计用药组对照组14(2

8、0)30(24)86(80)90(96)100120合计44176220用药组与对照组流感发病率比较第22页/共51页实际频数Actual frequency,简称A(或observed frequency,简称O)理论频数Theoretical frequency,简称T(或expected frequency,简称E)T)TA(22公式公式第23页/共51页一、四格表资料的卡方检验一、四格表资料的卡方检验什么是四格表资料?组别组别发病人数发病人数未发病人数未发病人数合计合计用药组对照组14(20)30(24)86(80)90(96)100120合计44176220用药组与对照组流感发病率比

9、较第24页/共51页表中,14、86、30、90是整个表的基本数据,其余数据都是从这四个基本数据相加而得的,这种资料系两组两分类资料,称为四格表(fourfold table),亦称22表(22 table)。 T)TA(22=(行数1)(列数1)nnnTCRRC1.四格表基本公式:第25页/共51页Ho:用药组和对照组的流感发病率相同,即1=2H1:用药组和对照组的流感发病率不相同,即121、计算理论频数,见表中括号内的数字。2、计算2值:125. 496)9690(24)2430(80)8086(20)2014(22222第一步建立检验假设=0.05第二步确定检验水准 =1 第三步选定检验

10、方法,计算统计量第26页/共51页第四步确定P值,作出统计推断查2 界值表,得P0.05。按=0.05水准,拒绝H0,接受H1,两组发病率差别有统计学意义,故可以认为用药组流感发病率较对照组低。第27页/共51页 2值、值、P值和统计结论值和统计结论 2值值 P值值 统计结论统计结论20.05( ) 0.05 不拒绝不拒绝H0,差异无统计学意义,差异无统计学意义20.05( ) 0.05 拒绝拒绝H0,接受,接受H1,差异有统计学意义,差异有统计学意义20.01( ) 0.01 拒绝拒绝H0,接受,接受H1,差异有高度统计学意义,差异有高度统计学意义第28页/共51页2.四格表专用公式 )db

11、)(ca)(dc)(ba (n)bcad(22式中a、b、c、d分别为四格表的实际频数,n为总例数=abcd 第29页/共51页某医生用两种疗法治疗肺癌,出院后随访24个月。甲疗法治疗46例,乙疗法治疗58例,结果见下表问两种疗法治疗肺癌病人的两年生存率是否相同? 甲乙两种疗法治疗肺癌的甲乙两种疗法治疗肺癌的2年生存率比较年生存率比较处处 理理 生存生存 死亡死亡 合计合计 生存率(生存率(%)甲疗法甲疗法 22(25.21) 24(20.79) 46 47.83乙疗法乙疗法 35(31.79) 23(26.21) 58 60.34合合 计计 57 47 104 54.81 第30页/共51页

12、 甲乙两种疗法治疗肺癌的甲乙两种疗法治疗肺癌的2年生存率比较年生存率比较处处 理理 生存生存 死亡死亡 合计合计 生存率(生存率(%)甲疗法甲疗法 22(a) 24(b) 46 47.83乙疗法乙疗法 35(c) 23(d) 58 60.34合合 计计 57 47 104 54.81 )db)(ca)(dc)(ba (n)bcad(22第31页/共51页)()()()(22dbcadcbanbcad62. 147575846104)35242322(2 =1 第32页/共51页3.四格表 2值的校正 2分布是连续性分布,而四格表资料属于分类资料,是不连续的,由此计算的 2值也是不连续的。在下列

13、情况下,用上述公式计算的 2值偏大,所得概率偏小,应进行校正。1T5,而n40时,需计算校正2值或改用四 格表资料的确切概率法计算;T1,或n40时,改用四格表资料的确切概率法。第33页/共51页连续性校正 2值的计算公式为:T)5 . 0TA(22)db)(ca)(dc)(ba (n)2/nbcad(22举例第34页/共51页防护服防护服种类种类皮肤炎症皮肤炎症合计合计阳性例数阳性例数阴数例数阴数例数新旧1(3.84)10(7.16)14(11.16)18(20.84)1528合计113243穿新旧两种防护服工人的皮肤炎患病率比较第35页/共51页 计算检验统计量 2值:首先考查最小行合计和

14、最小列合计所对应的理论数,即最小理论数。 根据上页确定的条件,选择合适的计算公式。=0.05第一步建立检验假设第二步确定检验水准第三步选定检验方法,计算统计量Ho: 1= 2H1: 1 2第36页/共51页T)5 . 0TA(2294. 284.20)5 . 084.2018(16. 7)5 . 016. 710(16.11)5 . 0|16.1114(|84. 3)5 . 0|84. 31(|2222如果不作连续性校正, 2=4.33,则P的概率偏小,将作出相反(或不可靠)的结论。第37页/共51页查 2界值表,得0.05 P40,可用公式cbcb22第42页/共51页cbcb22184.

15、071217122 =1 第43页/共51页三、行三、行列表资料的卡方检验列表资料的卡方检验行列表也称RC表,包括22、R2、2C、RC表等。上一节介绍的四格表为其中最简单的一种形式,本节主要讨论行数大于2或列数大于2的行列表资料的 2检验,用于多个样本率或构成比的比较。它的基本原理和检验步骤与四格表 2检验相似,可用 2检验的基本公式进行计算。为简化计算,可用下面的公式。第44页/共51页) 1nnA(nCR2RC21.行列表资料的 2检验第45页/共51页某省观察三个地区的花生污染黄曲霉素B1的情况,见下表,问三个地区花生污染黄曲霉素B1污染率有无差别?地区检验的样品数合计污染(%)未污染

16、污染甲乙丙63082314329441179.331.827.3合计44408447.6某省三个地区花生的黄曲霉素B1污染率比较(1)多个样本率的比较第46页/共51页) 1nnA(nCR2RC291.17)14011344118404414)44443040292344296(84222222 =21=2第47页/共51页(2)多个构成比比较某医院研究鼻烟癌患者与眼科病人的血型构成情况有无不同,资料如表,问其血型构成有无差别?组别A型B型O型AB型合计鼻烟癌患者眼科病人554445235736199176112合计99689328288第48页/共51页2.行列表资料 2检验的注意事项 如假设检验的结果是拒绝无效假设,只能认为各总体率或构成比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论