分类资料的统计推断_第1页
分类资料的统计推断_第2页
分类资料的统计推断_第3页
分类资料的统计推断_第4页
分类资料的统计推断_第5页
已阅读5页,还剩27页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类资料的统计推断

复习率的抽样误差与可信区间8.1样本率与总体率比较的u检验8.2两个样本率的比较(卡方检验)一、卡方检验的基本思想二、四格表专用公式三、连续性校正公式四、u检验五、Fisher’sexactprobability8.3多组率或构成比的比较8.4配对设计的比较复习率的抽样误差与可信区间

一、率的抽样误差与标准误二、总体率的可信区间一、率的抽样误差与标准误

由于抽样造成样本率(p)和总体率(π)的差异称为率的抽样误差(samplingerror),用率的标准误(standarderrorofrate)度量。如果总体率π未知,用样本率p估计二、总体率的可信区间

总体率的可信区间(confidenceinterval,CI):根据样本率推断总体率可能所在的范围。

8.1样本率与总体率比较

原理:当n较大,p与(1-p)均不接近于零时,如:p和n(1-p)均大于5,此时p的抽样分布接近正态分布,可考虑u检验。否则,应用二项分布原理直接计算概率法。样本率与总体率(一般为理论值、标准值或经大量观察所获得的稳定值等)比较的目的是推断该样本所代表的未知总体率与已知总体率是否相等。

例8.1已知某地40岁以上成人高血压患病率为8%,为降低患病率,经健康教育数年后,随机抽查2000人查出高血压患者100例,经健康教育后,该地高血压患病率是否有所下降?1.建立检验假设H0:π=π0=0.08。H1:π≠0.08,α=0.052.计算u值本例n=2000,X=100,p=0.05,π0=0.08,代入公式8.1,得:u=4.945

3.确定P值u=4.945>2.58,故P<0.01,4.结论按α=0.05的水准拒绝Ho,接受H1。故可以认为经健康教育后,该地高血压患病率有所下降。小结1.样本率也有抽样误差,率的抽样误差的大小用σp衡量,实际工作中用Sp来估计。2.二项分布当n足够大,π和1-π均不太小,有nπ≥5和n(1-π)≥5时,近似正态分布。3.总体率的可信区间是用样本率估计总体率的可信区间。当p分布近似正态分布时,可用正态近似法估计率的可信区间。4.根据正态近似原理,可进行样本率与总体率以及两样本率比较的u检验。8.2两样本率的比较

χ2检验(Chi-squaretest)是现代统计学的创始人之一,K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,可用于两个或多个率间的比较,计数资料的关联度分析,拟合优度检验等。本章仅限于介绍两个和多个率/构成比比较的χ2检验(Pearson’sChi-squaretest)。一、卡方检验的基本思想处理生存死亡合计生存率(%)用抗凝剂77

23

100

77.0(p1)不用抗凝剂

59

41

100

59.0(p2)合计

13664200

68.0(pc)表8.1两种疗法治疗急性心梗病人生存率

实际频数A

(actualfrequency)理论频数T(theoreticalfrequency)

四格表(fourfoldtable)

各种情形下,理论与实际偏离的总和即为卡方值(chi-squarevalue),它反映了理论数与实际数的吻合情况,该统计量近似地服从自由度为ν的卡方分布。χ2分布(chi-squaredistribution)χ2检验的基本公式

上述基本公式由K.

Pearson提出,因此许多统计软件上常称这种检验为Pearson卡方检验,下面将要介绍的其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格表资料,也适用于其它的“行×列表”。二、四格表专用公式

为了不计算理论频数T,可由基本公式推导出,直接由各格子的实际频数(a、b、c、d)计算卡方值的公式:例子查表,P189三、连续性校正公式

χ2分布是一连续型分布,而四格表资料属离散型分布,对其进行校正称为连续性校正(correctionforcontinuity),又称Yates校正(Yates'correction)。校正公式:四格表在n>40时出现有任一格1≤

T<5时例子(结论相反)因为1<T<5,且n>40时,所以应用连续性校正χ2检验四、两个独立样本率比较的u检验表5-1两种疗法的心血管病病死率比较疗法死亡生存合计病死率(%)盐酸苯乙双胍26(X1)178204(n1)12.75(p1)安慰剂2(X2)6264(n2)3.13(p2)合计2824026810.45(pc)u检验的条件:n1p1和n1(1-p1)与n2p2和n2(1-p2)均>5五、精确概率法(Fisher’sexactprobability)在无效假设成立的前提下并且周边合计固定时,产生任意四格表的概率为:P值为在无效假设成立的前提下,得到现有样本四格表以及更极端情况的四格表的概率。注意,四格表中值的特点:(1)各格相等,如表8.4的A-T,a、d、b、c四格绝对值相等(2.2)。因而计算某一四格表的值时,只需计算表中任一格的值就行了。(2)依次增减四格表中某格的数据,可列出周边合计不变条件下各种组合的四格表,如例8.4中的7个四格表,分别计算其值列于表下。可见两侧的值较大而中间的较小。四格表资料分析小结Fisher’sexactprobability法均适用卡方检验是一种近似检验(1)当n≥40,T>5时,可用。然当P值接近0.05时最好用Fisher’sexactprobability法(2)当n≥40,有任一格1≤T<5时,可用Yates校正公式(3)当n<40或有T<1时,用Fisher’sexactprobability8.3配对四格表资料的χ2检验若观察的结果只有阴性、阳性两种可能,清点成对资料时发现则存在四种情况:a(甲+乙+)、b(甲+乙-)、

c(甲-乙+)、

d(甲-乙-)。

将a、b、c、d四种情况的对子数填入四格表

配对设计包括:(1)同一批样品用两种不同的处理方法;(2)观察对象根据配对条件配成对子,同一对子内不同的个体分别接受不同的处理;(3)在病因和危险因素的研究中,将病人和对照按配对条件配成对子,研究是否存在某种病因或危险因素。

例8.7某研究者以凝集试验和细菌培养两种方法,同时对124例慢性菌痢患者的粪便进行检查,结果见表,问两种方法检出阳性率是否有差别?

将每份标本分别用两种方法检测,其检出结果共有四种情况:即(1)两种方法都出现阳性(共有35例);(2)凝集试验阳性而细菌培养却是阴性(共有32例);(3)细菌培养阳性而凝集试验却是阴性(共有42例);(4)两种检测方法均为阴性结果(共有15例)。

上述几种情况的份数整理成配对四格表式如下:配对四格表资料的χ2检验

(McNemar'stest)H0:b,c来自同一个实验总体(B=C);H1:b,c来自不同的实验总体();α=0.05。本例ν=(2-1)(2-1)=1,查值表,0.005(1)=7.88,P<0.005

配对四格表资料的χ2检验公式推导8.4行×列(R×C)表资料的χ2检验R×C表的χ2检验通用公式几种R×C表的检验假设H0R×C表χ2检验的应用注意事项1.对R×C表,若较多格子(1/5)的理论频数小于5或有一个格子的理论频数小于1,则易犯第一类错误。 出现某些格子中理论频数过小时怎么办?(1)增大样本含量(最好!)(2)根据专业知识将相邻的行或列进行合理合并。(丢失部分信息!有时甚至出假象!)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论