第三章-常用卫生统计学方法课件_第1页
第三章-常用卫生统计学方法课件_第2页
第三章-常用卫生统计学方法课件_第3页
第三章-常用卫生统计学方法课件_第4页
第三章-常用卫生统计学方法课件_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

01卫生统计学概述2024/4/16.CONTENTS1.基本概念2.基本步骤2024/4/16.变量值观察值定性定量一、卫生统计学的基本概念变量:对每个观察单位的某项特征进行测定和观察,这种观察单位的特征称为变量。2024/4/16.01计量资料用度量衡的方法测量每个观察单位的某项研究指标量的大小,所得的数据称为数值变量。02计数资料将全体观察单位按某种性质或类别进行分组,然后清点各组中的例数,这样得到的数据称为计数资料,亦称为分类变量。03等级资料将全体观察单位按某种性质的不同程度分为若干组,分别清点各组中的例数,这种数据资料称为等级资料。统计资料一、卫生统计学的基本概念描述计量资料常用统计方法:平均数、标准差等;统计分析方法:u检验、t检验、方差分析等。计数资料常用统计指标:率、构成比等;统计分析方法:u检验、χ2检验等。计数资料常用统计指标:率、构成比等;﹡统计分析方法:秩和检验、χ2检验等。2024/4/16.是从总体中随机抽取有代表性的一部分观察单位,用样本信息去推断总体特征。样本根据研究目的确定的同质的观察单位的某个变量值的全体。总体一、卫生统计学的基本概念2024/4/16.特点:不可避免,但可控制在一定范围。即使消除了系统误差,控制了随机测量误差,样本统计量和总体参数之间仍存在差别,这种由随机抽样引起的样本指标与总体指标的差异由于某种必然因素所致,具有一定的方向性。偶然机遇所致,无方向性,对同一样品多次测定,结果有高有低。抽样误差系统误差误差一、卫生统计学的基本概念特点:不是偶然造成,观察结果一贯性的偏高或偏低。避免方法:1)通过周密的研究设计2)调查或测量过程中的质量控制随机测量误差特点:由于个体变异造成,抽样机遇所致。客观存在,不可避免。但可估计大小,也可增加样本含量使其减小。2024/4/16.是指一次试验结果计算得到的样本率。频率(样本)描述随机事件发生的可能性大小的数值。事件A的概率记为P(A),随机事件的概率P取值在0~1之间。概率(总体)一、卫生统计学的基本概念.02计量资料的统计描述2024/4/16.(一)集中趋势(Centraltendency)的描述

均数

常用平均数 几何均数 中位数

平均数(average)常用于描述一组变量值的集中趋势,是反映同质资料的平均水平或集中位置的特征值。2024/4/16.

——常用平均数

1.均数(算术均数)(mean)﹡表示符号 总体均数(μ)

样本均数(x)﹡应用 对称分布资料,尤其是正态分布资料﹡计算方法

x1+x2+……+xn∑x

直接法x== n n f1x1+f2x2+……+fkxk∑fx

加权法x= = f1+f2+……+fk n2024/4/16.

——常用平均数

2.几何均数(geometricmean)﹡表示符号 (G)﹡应用 对数正态分布资料,变量值呈倍数关系﹡计算方法 直接法 G=n√x1·x2…xn lgx1+lgx2+…+lgxn

∑lgx G=lg–1 =lg–1 nn

f1lgx1+f2lgx2+…+fklgxk

∑flgx加权法 G=lg–1 =lg–1 nn2024/4/16.——常用平均数

3.中位数(median)﹡表示符号 (M)

偏态分布资料﹡应用 变量值分布一端或两端无确定数值 分布不明资料﹡计算方法

直接用变量值计算 M=Xn+1(n为奇数时)

2

1

或 M= Xn+Xn(n为偶数时) 222+12024/4/16.

(二)离散趋势(tendencyofdispersion)

描述变量值的离散趋势用变异指标

全距常用变异指标 四分位数间距 方差和标准差 变异系数2024/4/16.

——常用变异指标

1.全距(range,简记为R)

﹡R=最大值—最小值 ﹡反映变量值的变异范围 ﹡各种类型资料都可应用,但只作 参考资料2024/4/16.——常用变异指标

2.方差

和 标准差(standarddeviation)

﹡定义公式

∑(X—μ)2 ∑(X—μ)2

σ2= σ= N N ∑(X—X)2 ∑(X—X)2S2= S= n—1n—1

2024/4/16.﹡应用公式

∑X2—(∑X)2/n直接法 S=

√ n—1

∑fX2—(∑fX)2/n加权法 S=

√ n—12024/4/16.

﹡标准差用途:1.表示同质变量值的离散程度;

2.在多组资料均数相近、度量单位相同的条件下表示观察值的变异度大小;

3.与均数结合描述正态分布的特征和估计医学参考值范围;

4.与样本含量(n)结合,计算标准误2024/4/16.﹡用途:1)比较多组单位不同资料的变异度 2)比较多组均数相差较大资料的变度——常用变异指标3.变异系数(coefficientofvariation, 简记为CV)

﹡定义CV=s/X×100% 2024/4/16.

(三)正态分布和参考值范围的估计

——正态分布的概念和特征﹡正态分布是以均数为中心呈对称的钟型分布

频数(人数)125129133137141145149153157161身高(cm)f

120名12岁健康男孩身高的频数分布Normaldistributioncurve2024/4/16.

﹡正态分布的特征有:

1)正态分布曲线在均数处最高2)正态分布以均数为中心,左右对称且逐渐减少3)正态分布曲线的两个参数μ和σ,记作N(μ,σ2)4)正态曲线在±1σ处各有一个拐点2024/4/16.——正态曲线下的面积分布规律

μ±1σ 占正态曲线下面积的68.27%μ±1.96σ 占正态曲线下面积的95.00%μ±2.58σ 占正态曲线下面积的99.00%

若n>100,则μ可用X代替,σ用s代替。

--2.58

-1.96

-1

+1

+1.96

+2.58

2.5%0.5%2024/4/16.——正态分布的应用估计变量值的频数分布制定医学临床参考值

.常用U值表-------------------------------------------------

正常值范围

双侧单侧-------------------------------------------------90%1.6451.28295%1.9601.64599%2.5762.326-------------------------------------------------95%双侧参考值:χ±1.96·S99%双侧参考值:χ±2.58·S

95%单侧参考值:>χ-1.64·S,<χ+1.64·S____2024/4/16.3)百分位数法:

用于偏态分布资料双侧参考值(α=0.05) P2.5~P97.5

单侧参考值(α=0.05) >P5

或<P952024/4/16.03计量资料的统计推断2024/4/16.一、均数的抽样误差和标准误

(一)均数的抽样误差﹡概念:

由于抽样造成的样本均数与总体均数的差异或各样本均数之差异。﹡表示方法:标准误(Standarderror)

标准误为样本均数的标准差,是说明样本均数抽样误差的大小的指标,反映了样本均数与总体均数的差异。2024/4/16.﹡计算公式

σσχ= σχ:总体标准误

√n

SSχ= Sχ:样本标准误,

√n

为σχ的估计值2024/4/16.(二)t-分布(t-distribution)﹡概念

从正态总体N(μ,σ)中进行无数次样本含量为n的随机抽样,每次均可得

χ-μ到一个χ和一个s,通过t=公

s/√n式转换,可得无数个t值,t值的分布即为含量为n的t值的总体或称t-分布。2024/4/16.

﹡特征

以0为中心,左右对称

t-分布曲线的形状与自由度有关

-4-3-2-10+1+2+3+4f(t)=(χ-μ)/σχ=∞(u-d)=5=1--自由度分别为1、5、∞的t-分布2024/4/16.

二、总体均数可信区间的估计﹡点估计(pointestimation)

用样本均数作为总体均数的估计值﹡区间估计(intervalestimation)

按一定的概率估计总体均数所在范围,亦称总体均数的可信区间2024/4/16.总体均数区间估计的方法:当n足够大(如100)时,X的平均数χ

接近正态分布总体均数95%可信区间:χ±1.96

·sχ

总体均数99%可信区间:χ±2.58

·sχ

—----2024/4/16.总体均数区间估计的方法:

2)当样本含量n较小时,X的平均数χ

接近t-分布

总体均数95%可信区间:χ±t0.05,

·sχ

总体均数99%可信区间:χ±t0.01,

·sχ

—----2024/4/16.三、假设检验的基本原理概念:假设检验是用来判断样本统计量与总体参数的差异是由抽样误差引起,还是本质差异造成的统计推断方法。(一)假设检验的基本思想小概率事件不可能原理:

小概率事件在一次试验中基本不可能发生。反证法思想:先对总体的参数或分布作出某种假设,再用适当的统计方法确定假设成立的可能性大小。推断此假设成立或不成立。2024/4/16.

抽样误差所致P>0.05

(来自同一总体)

?

假设检验回答环境条件影响P<0.05

(来自不同总体)两均数不等2024/4/16.(二)假设检验的基本步骤1)建立检验假设,确定检验水准H0(无效假设):假设两组或多组资料的总体均数相等。μ=μ0

或μ1=μ2=μ3H1(备择假设):μ

μ0(双侧检验)

μ>μ0或μ<μ0(单侧检验)

(检验水准):通常取

=0.052024/4/16.2)选定检验方法,计算检验统计量

根据资料类型及统计推断的目的选用合适的检验方法计算出统计量(t值、u值、

2值等)。3)确定P值,作出推断结论

根据自由度,查不同统计量的界值表(t值表、

2值表等),确定现有统计量的概率P值

2024/4/16.

确定P值:当:t<t0.05(υ)P>0.05(差异无统计学意义)t0.01(υ)>t≥t0.05(υ)0.01<P≤0.05(差异有统计学意义)t≥t0.01(υ)P≤0.01(差异有统计学意义)

推断结论:

当 P>

按所取检验水准不拒绝H0 P

按所取检验水准拒绝H02024/4/16.

(三)假设检验时应注意的问题

保证比较的样本间有较好的均衡性和可比性;选用的假设检验方法应符合其应用条件;正确理解差别有无显著性的统计意义;结论不能绝对化;报告结论时应列出统计量值,注明单侧或双侧检验,写出P值的确切范围。2024/4/16.

四、t-检验和

u-

检验

——t-

检验(t-testorStudent’stest)(一)样本均数与总体均数比较的t检验

目的:推断样本所代表的未知总体均数μ与 已知的总体均数μ0有无差别(μ0一般 为理论值、标准值或经过大量观察所 得的稳定值等)

条件:理论上要求资料来自正态分布总体

χ-μ0

公式:t=

=n–

1Sχ2024/4/16.例1、根据大量调查,已知健康成年男子脉搏数为72次/分。某医生在山区随机抽查25名健康成年男子,求得其脉搏均数为74.2次/分,标准差为6.5次/分。能否据此认为山区成年男子的脉搏数高于一般?2024/4/16.1、H0:μ=μ0,H1:μ>μ0,=0.052、

χ-μ0

74.2-72

t=———=————=1.692

6.5/3、自由度

=n–1=25-1=24,查t值表(单侧)得t0.05(24)=1.711。

t=1.692<1.711,P>0.05

4、在=0.05水准上,接受H0,不能认为该山区成年男子的脉搏数高于一般。2024/4/16.(二)配对设计差值均数与总体均数0比较t检验

同源配对 配对方法 异源配对目的:推断两种处理的效果有无差别或推断某种处 理有无作用条件:样本来自正态总体公式: d–0 d t= =

=n-1SdSd/√nn为对子数2024/4/16.(三)完全随机设计的两样本均数的比较目的:推断两样本均数分别代表的总体均数μ1 与μ2有无差别。

1)

两样本含量较小时,且要求两样本总体方差相等公式: χ1-χ2

t=

=(n1-1)+(n2-1)Sχ1-χ2

11 Sχ1-χ2=Sc2(+)√ n1n22024/4/16.

(n1-1)s12+(n2-1)s22

Sc2=

n1+n2-2

x1-x2t=

(n1-1)s12+(n2-1)s2211

(+)n1+n2-2n1n22024/4/16.

2)两样本含量足够大,如n>50或100时

——U-

检验应用条件:当n较大(n>50)或n虽小,但总 体标准差已知,可用U检验公式:

χ1-χ2 χ1-χ2 U= =Sχ1-χ2S12S22 + √n1n2

2024/4/16.04分类资料的统计描述2024/4/16.一、常用相对数相对数:计数资料常用的统计指标,又称相对指标(Relationnumber)

率常用相对数构成比相对比

2024/4/16.——常用相对数

(一)率(Rate)*频率指标,表示某现象发生的频率和强度*计算公式:

实际发生某现象的观察数率=————————————×K

可能发生某现象的观察单位总数

(K为比例基数,可为100%或1000‰……等)2024/4/16.

(二)构成比(Constituentratio)

*又称构成指标,表示某一事物内部各组成部分所占的比重或分布。

*计算公式:

某一事物各组成部分的个体数构成比=——————————————×100%

同一事物各组成部分的个体总数2024/4/16.

(三)相对比(Relativeratio)*表示两个有联系的指标(绝对数,相对数或平均数)之比,说明对比水平。*计算公式:

A指标相对比=————(或×100%)

B指标

1)对比指标:两个有关同类指标之比,如两地肿瘤死亡比

2)关系指标:两个有关非同类指标之比,如每千人病床数2024/4/16.二、应用相对数应注意的问题:1.不要把构成比当作率分析(最容易混淆)

---------------------------------------------------------------------------

年龄组(岁)人口数癌肿病人数构成比(%)患病率(%)---------------------------------------------------------------------------

<30633000191.33.030-57000017111.430.040-37400048632.61295401.460-3025024216.2800.0---------------------------------------------------------------------------

合计17502501492100.085.2---------------------------------------------------------------------------2024/4/16.

二、应用相对数应注意的问题:

2.计算相对数的分母不宜太小-------------------------------------------------------------

治疗数有效数总体率95%可信区间-------------------------------------------------------------211

99%427

93%50253665%5002504554%500025004951%-------------------------------------------------------------

可见,当n足够大时,相对数才稳定。2024/4/16.

二、应用相对数应注意的问题:

3.率或构成比的比较应注意可比性

1)研究对象是否同质(方法、时间、种族、地区、环境等)2)其它影响因素(年龄、性别)在各组的内部构成是否相同

3)同地区不同时期资料对比时,应注意客观条件是否一致

4.对观察单位数不等的几个率不能直接相加求其平均率

5.对样本率(或构成比)的比较应作假设检验2024/4/16.三、率的标准化法(一)标准化法的意义和基本思想意义-在比较率时,如果比较的两组资料其内部构成不同,且影响到比较结果,就不能直接进行比较,需要进行标准化处理后,消除由于内部构成不同对结果造成的影响,才能进行比较。标准化法-就是采用统一的标准对内部构成不同的各组频率进行调整和对比的方法。标准化率-采用统一的标准调整后计算的率2024/4/16.(二)标准化方法选择(根据已知资料类型)

直接法:已有被观察人群中各组的率资料。

间接法:仅有各组的观察单位数和总率,没有各组率的资料。

(三)标准选择

1、选择一个有代表性的、内部构成相对稳定的较大人群为标准;

2、将比较的两组资料各对应组观察数合并作为标准;

3、在比较的两组中任选一组内部构成做标准。2024/4/16.(四)标化率的计算-直接法例1998年某社区甲乙两企业高血压患病率(%)的普查结果

甲企业

乙企业

年龄人口数构成比患病人数患病率人口数构成比患病人数患病率(1)(2)(3)(4)(5)(6)(7)(8)(9)30~93537.99101.168034.6440.640~84934.508610.140520.63297.250~42017.0714133.633316.969127.360~1506.109865.329214.8815854.170~1074.357469.225312.8916364.4合计2461100.0040916.61963100.0044522.62024/4/16.问题:甲企业各年龄高血压患病率都高于乙企业,合计患病率则乙企业高于甲企业。原因:两个企业人口数在年龄构成上不同。甲企业60岁以下人口构成比高于乙企业,60岁以上正好相反,因此乙企业高血压合计患病率高是因为高年龄人口数多的缘故。解决方法:需要将两企业的年龄构成标准化,计算标准化高血压患病率,然后再进行比较。注意的是:1)选择的“标准人口”不同,计算的标准化率不同。

2)标准化率只是为了进行合理比较而计算的一个指标,它并不反映实际水平。2024/4/16.例1998年某社区甲乙两企业标准化高血压患病率(%)的计算

甲企业

乙企业

年龄标准人口原患病率预期患病人数原患病率预期患病人数

(1)(2)(3)(4)=(2)×(3)(5)(6)=(2)×(5)

30~16151.117.80.69.7

40~125410.1126.77.290.3

50~75333.6253.027.3205.6

60~44265.3288.654.1239.1

70~36069.2249.164.4231.8

合计442416.6935.222.6776.5

甲企业标准化高血压患病率=935.2/4424×100%=21.1%

乙企业标准经高血压患病率=776.5/4424×100%=17.6%

结果表明:甲企业标准化高血压患病率高于乙企业。2024/4/16.05分类资料的统计推断2024/4/16.一、率的抽样误差和总体率的估计(一)率的抽样误差与标准误由抽样造成的样本率与总体率的差别称为率的抽样误差(p-

;p为样本率,

为总体率)。率的标准误:表示率的抽样误差大小的统计指标。计算公式:____________(1-)

p

=————————————n

____________

p(1-p)Sp

=————————————n

(p为

的估计值;Sp

p的估计值。)2024/4/16.

(二)总体率的可信区间估计正态近似法:

当总体率

未知时,若np5和n(1-p)5,则总体率(1-)可信区间为:

pU

sp=p-U

sp~p+U

sp即:总体率95%可信区间为p1.96sp

总体率99%可信区间为p2.58sp2024/4/16.二、率的U-检验(一)样本率与总体率比较目的:推断样本率所代表的总体率

与某总体 率

0是否相等(

0常为理论值或长期积累的经验值)。条件:n

05和n(1-

0)5公式:

p-

0————————————————

_______________

0(1-0)/n

u=2024/4/16.

(二)两样本率的比较目的:推断两样本率分别代表的总体率

1与

2是否相等。条件:两样本满足正态近似条件,即n1p1

、n1(1-p1)和n2p2、n2(1-p2)均大于或等于5。公式:

p1-p2u=——————Sp1-p2__________________11Sp1-p2=pc(1-pc)(—+—)n1n2

(pc为两个样本率的合并率。)2024/4/16.三、

2检验1.用途:推断两个或多个总体率(或总体构成比)之间有无差别;两变量有无相关关系。2.

2检验的基本思想

(A-T)2

2=——————,

T

=(行数-1)

(列数-1)

=(R-1)

(C-1)

nRnCTRC=—————n

A为实际值

T为理论值2024/4/16.

3.

2检验的种类(1)四格表资料的

2检验

目的:用于两个样本率或构成比的比较,推断两个样本所代表的总体率(或总体构成比)是否相等。

专用公式:

(ad-bc)2n

2=————————————(a+b)(c+d)(a+c)(b+d)基本公式:

(A-T)2

2=—————T2024/4/16.四格表

2值的校正当:1<T<5,而n>40时,需计算校正

2值当:T<1,或n<40时,需用确切概率计算法。

(|A-T|-0.5)2

2=————————,

=1T(|ad-bc|-n/2)2

n或

2=————————————(a+b)(c+d)(a+c)(b+d)2024/4/16.(2)配对四格表的

2检验

目的:用于配对设计的计数资料,是通过两种 不同的处理方法对同一样本进行处理,从而推 断两种处理方法的结果有无差别。

公式: 当b+c<40时,则

2需进行校正,此时

(b-c)2

2=—————,

=1b+c

(|b-c|-1)2

2=——————,

=1b+c2024/4/16.(3)行

列表资料的

2检验

目的:用于多个样本率(或构成比)的比较,推断样本所代表的几个总体率(或总体构成比)之间有无差别。

基本公式:

专用公式:

(A-T)2

2=————,

T

=(行-1)

(列-1)

=(R-1)

(C-1)

A2

2=n·(————-1)nRnC2024/4/16.行

列表资料

2检验的注意事项:

当有1/5及以上格子的T<5,或有一个格子T<1时,应将资料合理合并,或增大样本含量重新观察以增加理论频数T;当推断结论为拒绝H0时,是认为各总体率(或总体构成比)不等或不全相等,即只能认为其中至少有两个总体率(或总体构成比)不等,而不能确定任意两个总体率(总体构成比)不等。2024/4/16.06统计分析结果的表达2024/4/16.一、统计表(一)列表的原则:1.重点突出,简单明了2.主次分明,层次清楚(二)统计表的基本格式2024/4/16.

统计表的基本格式

表号 标题横标目名称 纵标目 合计横标目合计顶线标目线合计线底线2024/4/16.

某年某地流脑病死率比较病型病人数死亡人数病死率(%)菌血型5946.78

脑型778486.17混合型784394.97

合计1621915.61

简单表:按一个特征或标志分组。

简单表(二)统计表的种类

复合表2024/4/16.

复合表:按两个或两个以上特征或标志分组。

某年某地流脑不同病型病死率与病情轻重的关系轻中重病型病人数死亡病死率病人数死亡病死率病人数死亡病死率人数(%)人数(%)人数(%)菌血型2500.002700.007454.14脑型42820.47224114.911263527.78混合型37310.2624172.901703118.23合计82630.36492183.653037023.102024/4/16.二、统计图(一)统计图的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论