卫生统计学课件_第1页
卫生统计学课件_第2页
卫生统计学课件_第3页
卫生统计学课件_第4页
卫生统计学课件_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章绪论

1.统计学:统计学是一门处理数据中变异性的科学与艺术,内容包括收集、分析、

解释和表达数据,目的是求得可靠的结果。

2.卫生统计学:是运用统计学原理和方法研究生物医学与公共卫生问题的一门学

科。

3.统计工作的步骤:

(1)设计:制定计划,对整个过程进行安排

(2)收集资料(现场调查):根据计划取得可靠、完整的资料;

(3)整理资料:原始资料的整理、清理、核实、查对、使其条理化、系统化便

于计算和分析(SPSS/EPI/SAS);

(4)分析资料

4.统计资料的类型:计量资料、计数资料、等级资料

5统计学中的基本概念:

(1)变量及变量值:3f究者对每个观察单位的某项特征进行观察和测量,这种

特征称为变量,变量的测得值叫变量值(也叫观察值),称为资料,类型有:

数值变量:连续型变量、离散型变量

分类变量(定性变量):无序分类、有序分类

(2)计量资料:通过度量衡的方法,测量每一个观察单位的某项研究指标的量

的大小,得到的一系列数据资料。特点:有度量衡单位、多为连续性资料。

(3)计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各

组观察单位的个数;特点:没有度量衡单位、多为间断性资料

(4)等级资料:介于计量资料和计数资料之间的一种资料,通过半定量方法测

得。特点:每一个观察单位没有确切值、各组之间有性质上的差别或程度上的不

同。

(5)变异:同质事物个体间的差异

(6)总体:根据研究目的确定的同质研究对象的全体;

样本:总体中有代表性的部分;

(7)误差:统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之

差。主要有:系统误差和随机误差:

系统误差:指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,

造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差;具有累加性。

随机误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可

预知的;特点:随测量次数参数而减小;包括随机测量误差、抽样误差。

(8)概率:描述随机事件发生的可能性大小的数值,常用P来表示。

频率:在实际工作中,当观察单位的例数足够多时,可以用频率来代替概

率,频率是概率的估计值。

(9)参数:总体的统计指标如总体均数U、标准差;(固定的常数)

统计量:样本的统计指标如样本均数、标准差(参数附近波动的随机变量)

6.减少抽样误差的方法:

(D改进抽样方法,增加样本的代表性;在样本量n相等的情况下:整群抽样〉

单纯随机抽样》系统抽洋》分层抽样;

(2)增加样本量n;

(3)选择变异程度较小的研究指标。

第二章定量变量的统计描述

1.频数表的编制步骤:

(1)求极差:即最大值与最小值之差,又称为全距。

(2)决定分组组数、组距:根据研究目的和样本含量n确定分组组数,通常为

10~15组,组距二极差/组数;

(3)列出组段:第一组段的下限略小于最小值,最后一个组段必须包含最大值。

(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。

2.频数表和频数分布图用途

(1)描述频数分布的类型:

A:对称分布:若各组段的频数以中心位置左右两侧大体对称,就认为该资料

对称分布;

B.偏态分布:

(a)右偏态分布(正偏态分布):右侧组段数多于左侧的组段数,频数句右

根”拖尾

(b)左偏态分布(负偏态分布):左侧的组段数多于右侧组段数,频数句左

侧拖尾

(2)描述频数分布的特征;

A:数据变异(离散)的范围;

B:数据集中(平均)的范围;

(3)便于发现一些特大或特小的可疑值;

(4)便于进一步做统计分析和处理。

3.集中趋势的描述:统计上使用平均数这一指标体系来描述一组变量值的集中或

平均水平。

(1)算术均数:可用于反映一组呈对称分布的变量值(特别是正态分布)在数

量上的平均水平或者说是集中位置的特征值;计算方法:

A:直接计算法;B:加权法(频率表法):/+£+《+•••+£»

(f为频数,x为组中值,k为频数表的组段数)

(2)几何均数:可用于反映一组经对数转换后呈对称分布或正态分布的变量值

在数量上的平均水平。成等比数列的资料

G=qx、x?…X,,

1Vigx

lgG=-(lgX,+lgX+••♦+lg)=乙丁

n2n

G=lg-'

n在

(3)中位数与百分位数:

A中位数:是将每个变量值从小到大排列,位置居于中间的那个变量值;适用于

各种类型的资料,特别适合大样本偏态分布资料或者一端或两端无确切数值的资

料;频数表法计算如下

B百分位数:是指将n个观察值从小到大依次排列后,对应于姆位的数值

P-V

直接计算法:nx%带小数时:X-[minc(〃X%)+l]

nx%为整数时口=5〔小%)+Xc]

Px=Lx+工(〃X%-W/k)

频数表法:“’(i为该组的组距,Fx为该组段内

的频数,n为总频数;化为小于所在组段的累积频数)

(4)众数:指一组观察值中出现频率最高的那个观察值;适用于大样本。

4.(1)正态分布时:均数二中位数二众数

(2)正偏态分布时:均数>中位数)众数

(3)负偏态分布时:均数<中位数<众数

5.离散趋势的描述:常用极差、四分位数间距、方差、标准差和变异系数

(1)极差(R):即一组变量值最大值与最小值之差

(2)四分位数间距(Q):Q=P75-P25;下四分位数QL=P25;上四分位数Qu二P75

Q值越大意味着数据间变异越大;适用于各种数据,特别是偏锋分布

(3)方差:也称均方差,反映一组数据的平均离散水平;

A总体方差:N

s?——)2

B样本方差:一一11(自由度V=n-限制条件的个数)

(4)标准差(SD):方差的算术平方根。和方差一样,同类资料比较时,标准

差越大意味着观察值的离散程度越大,或者说变异程度越大。方差和标准差都适

用于对称分布的变量,特别对服从正态分布或近似正态分布的变量;常把均数和

标准差结合起来,从平均水平和变异程度两方面描述变量的分布特征。

=Z(X-〃)2

A总体标准差:b—qN

X-X)

B样本标准差:

s=n—1

C频数表法:(组中值的平方*频数的和一(组中值*频数的和)的平

方In)/(n-1),整体开方)

(4)变异系数(CV):主要用于不同变量间变异程度的比较,尤其是量纲不

S

CV==x100%

同的变量间的比较,其计算公式为:X,变异系数没有

单位,消除了量纲的影响。CV越大,意味着相对于均数而言,变异程度越大。

第三章定性变量的统计描述

1.常用的相对数指标:频率、强度、相对比

(1)频率型指标:通常近似地反映某一事件出现的机会大小;计算公式为:

频率型指标=某事件发生的个体数/可能发生某事件的个体数XK

(2)强度性指标:单位时间内某事件发生的频率;计算公式为:

Example:人时发病率的分子是新发生的事件数,分子是人时数(观察人数*时间)的总和

(3)相对比型指标:是指任何两个相关联的变量A与B之比(男女性别比,每

千人口的医生数、每千人口的病床数……)

2.医学人口统计:是从卫生保健的角度研究和描述人口数量、分布、结构、变

动及其规律,研究人口与卫生事业发展的相互关系,是卫生统计学的重要组成部

3.医学人口统计资料的来源:

(1)人口普查资料;

(2)人口抽样调查资料

(3)人口登记资料

4.描述人口学特征的常用指标:

(D人口总数:一般由一个国家或地区在某一特定时间的人口数。按惯例,一

般采用一年的中点,即7月1日零时为标准时刻来进行统计。国际规定的两种方

法:

①实际制:统计标准时刻某地实际存在的人口数(包括临时在该地的人数)

②法定制:只统计某地的常住人口数。

(2)人口学特征指标:包括年龄、性别、文化、职业等,其中最常用来描述人

口结构的是年龄和性别

5.生育和人口死亡的常用指标:

(1)测量死亡水平的喈标:包括粗死亡率、婴儿死亡率、围生儿死亡率、5岁

以下儿童死亡率、死因别死亡率、病死率

①粗死亡率(CDR):指某地某年平均每千人口中的死亡数,反映当地居民总的

死亡水平,可按照不同性别、年龄、疾病等特征分别计算死亡专率(如年龄别死

亡率)

②婴儿死亡率(IMR):是指某年活产儿中未满1周岁婴儿的死亡频率,是反映

社会卫生状况、婴儿保健工作以及人群健康状况的重要指标之一,也是死亡统计

指标中较敏感的指标。(28天内死亡为新生儿死亡率;>28天但〈一周岁死亡为

新生儿后期死亡率);

③围生儿死亡率:妊娠满28周至出生后7天以内的时期,是衡量孕前、孕期、

产期、产后保健工作质量的敏感指标之一;

④死因别死亡率:指某种原因(疾病)所致的死亡率。

⑤病死率:指在某一时期内(1年)患某病者因该病死亡的百分比。

(2)死因构成及死因顺位的指标:

①死因构成比:指全部死亡人数中,死于某死因者所占的百分比,说明各种死因

的相对重要性。

②死因顺位:是指按照各类死因构成比的大小由高到低排列的位次。

6.有关生育的常用指标:出生率、生育率、人口再生产指标

(1)测量生育水平的指标:

①粗出生率(CBR):指某年某地平均每千人口的活产数,是反映一个国家或地

区的人口自然变动的基本指标;

②总生育率;

③年龄别生育率

(2)测量人口再生育的统计指标:自然增长率(是粗出生率(CBR)与粗死亡率

(CDR)之差,即NIR二CBR-CDR.)、粗再生育率(是只计算女婴的总和生育率)、

净再生育率(在粗再生育率基础上扣除母亲一代所生女儿中0-49岁之间的死亡

数)

7.疾病统计常用指标:发病率、患病率、治愈率、生存率、残疾患病率

(1)发病率:表示一定时期内,在可能发生某病的一定人群中新发生某病的强度。

⑵患病率:又称为现患率,指某时点上受检人数中现患某种疾病的频率,通常

用于描述病程较长或发病时间不易明确的疾病的患病情况。

(3)治愈率:表示受治病人中治愈的频率。

(4)生存率:指病人能活到某一时点的概率;直接法和寿命表法

8.标准化法的意义:变量在两组个体内的分布存在差异,则粗死亡率等不能直接

进行比较,为消除两组个体其他变量分布不同的影响,需要首先对两组数据作标

准化处理。

9.标准化率的计算:

(1)直接标准化法:一般地,设有一个重要的分类变量,它在两组个体中的分

布不同,已知第某组每个类别中发生某事件的频率P

①选定“标准人口”,每个类别中的个体数记为此,i=1,2....

②分别计算“标准人口”的预期治愈人数之和

③分别计算两种疗法的标准化治愈率

(2)间接标准化法(引进标准患病率):标准化患病率二标准患病率*(实际患

病人数之和/预期患病人数之和);预期患病率=调查人数*标准患病率;标准化

死亡比二实际死亡人数/期望死亡人数。

10.动态数列:是按时间顺序将一系列统计指标(可以是绝对数、相对数或平均

数)排列起来,用以观察和比较该事物在时间上的变化和发展趋势。

(1)绝对增长量:是说明事物在一定时期增长的绝对值

①累计增长量:即报告期指标与基线期指标之差;

②逐年增长量:即报告期指标与前一期指标之差;

(3)发展速度与增长速度

①发展速度:表示报告期指标的水平相当于基线期(或前一期)指标的百分之多

少或者若干倍;

②增长速度:表示的是净增加速度,增加速度二发展速度700%

(3)平均发展速度与平均增长速度

第四章常用概率分布

1.常用概率分布:

2.二项分布:如果每个观察对象阳性结果的发生概率为TT,阴性结果的发生概

率为(1-n),且各个观察对象的结果是相互独立的,那么重复观察n个对象,

发生阳性结果的概率服从二项分布,记做B(n,n)o

3.二项分布的基本条件;(1)结果独立;(2)两种可能;(3)概率确定

4.二项分布的概率函数:

5.二项分布的特征:二项分布的形态取决于n与n,高峰在u二nn处.当nrt

n不太靠近。或1,(特别是当np和n(1-p)都大于5时),二项分布近似于正

态分布。

6.二项分布变量X的均数与标准差:

(1)均数:nn;标准差(nn*(1-n))开方

(2)概率p=X/n的均数是n;标准差{n(1-n)/n}开方

7.二项分布的应用

(1)概率估计:运用二项分布的概率函数

(2)累积概率估计

8.Poisson分布:离散型分布,用以描述单位时间、空间、面积等的罕见事件

发生次数的概率分布;可以看作是发生的概率n(或未发生的概率1-n)很

小,而观察例数n很大时的二项分布。

9.Poisson分布的概率函数:P(X)=e-入*(入

入二n*n

10.Poisson分布的特征:非对称性的,总体参数入值越小,分布越偏,随着入

增大,分布趋向对称。

11.Poisson分布的特性:

(DPoisson分布的总体均数与总体方差相等,均为入(主要特征)

(2)Poisson分布的观察结果具有可加性。(总体均数入共人2);医学研究中

常利用Poisson分布的可加性,将小的观察单位合并,来增大发生次数X,以便

分析。

13.正态曲线:是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远

不与横轴相交的钟形曲线;该曲线的函数表达式f(x)称为正态分布密度函数

f(x)

b、(其中口为总体均数,。为总体标洋差)

14.正态概率密度曲线的位置与形状具有如下特点:

(1)关于x二口对称;

(2)在x二口处取得该概率密度函数的最大值,在x二U士。处有拐点;

(3)曲线下面积为1;

(4)以决定曲线在横轴上的位置,口增大,曲线沿横轴向右移,反之,U减小,

曲线沿横轴向左移;

(5)。决定曲线的形状,当口恒定时,。越大,数据越分散,曲线越“矮胖”;

。越小,数据越集中,曲线越“高瘦”

15.正态概率密度曲线下的面积:

16.正态分布的应用:

(1)确定医学参考值范围:人们习惯用特定“正常”人群95%的个体某项医学

指标的取值范围作为该项指标的医学参考值范围。

①百分位数法:双侧95%医学参考值范围是(P,P),单侧范围是P95以下,或

Ps以上;

②正态分布法(X服从正态分布):因为正态分布变量X在区间>±。上取值

的概率为95%,所以正态分布资料双侧医学参考值范围一般&K±L96S|

近似估计。

(2)质量控制图;

(3)二项分布、泊松分布的正态分布近似

①二项分布累计概率的正态近似计算公式为:

②泊松分布累计概率的正态近似计算公式为:

第五章参数估计基础

1.参数估计:根据样本的统计量估计总体参数的过程叫参数估计;

2.抽样误差:由于生物固有的个体变异的存在,从某一总体中随机抽取一个样本,

所得样本统计量与相应的总体参数往往是不同的,这种差异称为抽样误差。

3.在服从正态分布的总体中进行随机抽样,样本均数的抽样分布具有以下特点:

(1)样本均数恰好等于总体均数是极其罕见的;

(2)样本均数之间存在差异;

(3)样本均数围绕总体均数,中间多两边少,左右基本对称,呈近似正态分布

(4)样本均数之间的差异明显小于原始数值之间的变异

4.均数的标准误:样本均数的标准差,可用于反映均数抽样误差的大小,也反映

样本均数之间的离散程度。若随机变量X的均数为口,方差为^二则样本均数

b_b

的均数仍为口,样本均数的标准差为b又,则x"

根据正态分布原理,若随机变量X服从正态分布,则样本均数又也服从正态分

布。若随机变量x〜阳〃°2),则样本均数又〜N(,,N

S「S

均数标准误的估计值:'G(实际应用中,总体标准差通常未知,需要用样本标准

差S来估计)

5.样本频率抽样误差:由于个体差异与偶然性的影响,这种样本频率与样本频率

之间、样本频率与总体频率之间的差异称为频率的抽样误差;表示频率的抽样误

差的指标叫频率的标准误;若随机变量则样本频率P的总体参数

b,二万(1一万)S=P(1-P)。P(l-P)

为n,标准误为〃Vn,频率标准误的估“值:'V〃-1V

:从正态分布抽得样本的均数又也服从正态分布,记为

7N=Xz=X_从〜N(01)

哂。对正态变量X作z变换b又,得。又'。

.X-//_X-/z

rS-s又s/

在实际工作中,当X未知时常用X来替代,即:分布,V=n-1

t分布,记做总体均数的区间估计和假设检验的理论基础。

(t值的分布与自由度V有关,t分布只有一个参数,即V)

(1)单峰分布,以。为中心,左右对称;

(2)v越小,t值越分散,曲线的峰部越矮,尾部越高;

(3)随着v逐渐增大,t分布逐渐接近标准正态分布;当v趋向于8时,t分布

趋近标准正态分布,故标准正态分布是t分布的特例。

单侧:P(,W-ho516)二°・05和。(,刈0.0516)=。・。5

如d双侧:P"W-0.05216)+P(,%.05216)二0・05

从t界值表中可以看出,在自由度相同时,绝对值t越大,t分布的尾部概率越

小;在t临界值相同时,双侧尾部概率为单侧尾部概率的两倍。

8.参数估计分为点估计和区间估计:

(1)点估计:是直接利用样本统计量的一个数值来估计总体参数,比如,基于

一份随机样本,用又估计U,用P估计n,用S估计总体标准差。(未考虑到

抽样误差,故难以反映参数的估计值对其真值的代表性)。

(2)区间估计;是将样本统计量与标准误结合起来,确定一个具有较大置信度

的包含总体参数的范围,该范围称为总体参数的置信区间。置信度一般记做100

(1-a)%或(1-a),a

9.总体均数的置信区间:根据总体标准差是否已知和样本量n的不同,可分为:

(1)t分布法:

同理,单侧均数H的单侧(l-a)置信区间的计算通式为

一般地,总体均数U的95%置信区间的含义可以理解为:如果重复100次抽样,

Q-

每次样本含量均为n,每个样本均按'构建置信区间,则在此100个置

信区间中,平均有95个包含总体均数,5个不包含总体均数。

(2)正态近似法:

10.总体概率的置信区间:根据样本含量n和样本频率p的大小,可以采用查表

法和正态近似法计算总体概率的置信区间

当X>n/2时,应以n-X代替X查表,再用100减去查得的数值,即为所求的置

信区间。

概率P的标准误:Nn

第六章假设检验基础

第一节:假设检验的概念与原理

1.统计推断:由样本信息对相应总体的特征进行推断称为~;

2.假设检验:对所估计的总体首先提出一个假设,然后通过样本数据去推断是

否拒绝这一假设,称为假设检验。

3.通过假设检验来处理的问题的两个特点:

(1)需要从全局的范围,即从总体上对问题做出判断;

(2)不可能或者不允许对研究总体的每一个个体均作观察。

4.假设检验的基本步骤:首先根据设计和研究目的提出某种假设,然后根据现

有资料提供的信息,推断应当拒绝还是不拒绝此假设:

(1)建立检验假设,确定检验水准:根据研究目的、研究设计的类型和资料特

点(变量种类、样本大小)等因素选择合适的检验方法,并且将需要推断的问题

表述为关于总体特征的一对假设。

①Ho:零假设(原假设)

②田:对立假设(备择假设)

(2)计算检验统计量:根据样本数据计算相应的统计量。统计量是随机样本的

函数,不应包含任何未知参数。根据资料的设计类型选择相应的检验,如z检验、

t检验等;

(3)确定P值,作出推断:

①P值的定义:如果总体状况和H0一致(零假设成立),统计量获得现有数值

以及更不利于H0的数值的可能性(概率)有多大

②P值的意义:当零假设Ho:u尸口成立时,凭借样本中所见的样本均值不相等

去拒绝零假设(下阳性结论),有可能犯假阳性错误,犯假阳性错误的概率就是

Po

5.检验水准(sizeofatest)用希腊字母aa就是小概率。

6.假设检验小意图:

第二节t检验

1.t检验:以t分布为基础的检验称为t检验。

2.t检验的应用条件:

(1)随机样本;

(2)来自正态分布总体

(3)均数比较时,要求两总体方差相等(方差齐性)

3.单样本资料的t检验:推断该样本来自的总体均数U与已知某一总体均数U。

(常为理论值或标准值)有无差别。零假设为Ho:p=R0;对立假设根据问题背

景可定:双侧的对立假设为Hi:U于U。;单侧的对立假设可以是Hi:U>uo;

或Hi:UVuo

单样本资料t检验的统计量为:

X—N

抬(修改小。)

4.配对设计资料的t检验:

检验假设为:H°=°,凡

当Ho成立时,检验统计量:

其中)为差值的均数,S"为差值的样本标准差,n是对子数。同样,给定一个

小概率a作为检睑水平,如果与t值相应的p值小于给定的a,拒绝Ho;否则,

不拒绝Hoo

5.两独立样本资料的t检验:将受试对象随机分配成两个处理组,每一组随机接

受一种处理。一般把这样获得的两组资料视为代表两个不同总体的两份样本,据

以推断它们的总体均数是否相等;

(1)两样本所属总体方差相等,即具有方差齐性:

如果两总体均为正态分布,分别记为7V(4'b-2)、N(jb2)

检验假设为:.・N\=:〃\手以2a

检验统计量为:

用-予2

~[(几]十九2-2)

(6-1)

(2)两样本所属总体方差不等(Satterthwaite近似法)

如果蟾,两总体分别记为7V("[八'(〃2,bl)

这时可采用式(67)的t'做统计量:

根据近似的t分布可以得到相应的P值,其他同上。

6.两独立样本资料的方差齐性检验

设有两个随机样本分别独立地取自两个正态总体,欲判断其总体方差是否齐同,

可以做如下的齐性检验:

小S;(较大)1〃1

应用F统计量进行检验牧小)

F分布有两个自由度,分子的自由度V1和分母的自由度V2。根据两个自由度和

F统计量的数值可以查到相应于双侧检验的P值。计算的F值越大,对应的P值

越小;

同样,给定一个小概率a作为检验水准,如果与F值相应的P值小于给定的a,

拒绝Ho,否则,不拒绝Ho

第三节二项分布与Poisson分布资料的z检验

1.二项分布资料的z检验(大样本)

(1)一组样本资料的z检验:

①如果二项分布的n或1-n不太小,则n足够大时,近似的有

于是对于检验假设:

H0成立时,检验统计量

如果根据样本算得的z值偏大,有理由拒绝H0;

②当n不太大时,需作如下的连续性校正

X—几7roi—0.5n

Z=

J九%。(1一%0)或

(2)两组独立样本资料的z检验:

乩:%=兀[月\:%

据二项分布近似正态分布的原理,对于假设:

如果根据样本算得的Z值偏大,有理由拒绝H0;

人>20时,依据Poisson分布近似正态分布的原理,可以对其总体均数进行推

断。

(1)单样本资料的z检验:

对检验假设:/:"=4,"]:'*4

N

检验统计量为:

其中%为Possion分布的总体均数,%为一定值,若总体均数2

(2)两组独立样本资料的z检验:

当两总体均数都大于20时,依据Poisson分布近似正态分布的原理,可以应用

z检验对其总体均数进行推断。

对检验假设:"():4=办,"i:4X4

①当两样本观测单位数相等时,检验统计量为:

②当两样本观测单位数不等时,检验统计量为:

第四节假设检验与区间估计的关系

1.置信区间具有假设检验的主要功能

2.置信区间可提供假设检验没有提供的信息:置信区间在回答差别有无统计学意

义的同时,还可以提示差别是否具有实际意义;

3.假设检验比置信区间多提供的信息:假设检验可以报告准确的P值,置信区间

只能在预先确定的置信度100(1-a)%水平上进行推断。

第五节假设检验的功效

1.假设检验的两类错误:由于假设检验是根据有限的样本信息对总体作推断,

不论做出哪一种推断结论,都有可能发生错误。这就是假设检验的两类错误。

2.结论正确:如果实际情况与H0不一致,检验结论为拒绝H0,接受H1;或

者实际情况与H0一致,检验结论为接受H0;这两种推断结论都是正确的。

3.第I类错误:如果实际情况与H0一致,仅仅由于抽样的原因,使得统计量的

观察值落到拒绝域,拒绝原本正确的H0,导致推断结论错误。这样的错误称为

第I类错误。犯第一类错误的概率用a来控制,其大小与检验水准相同。

4.第II类错误:如果实际情况与H0不一致,也仅仅是抽样的原因使得统计量

的观察值落到接受域,不能拒绝原本错误的H0,则导致了另一种推断错误。这

样的错误称为第II类错误。

5.犯第I类错误:犯第I类错误的概率用aa

6.犯第二类错误:犯第II类错误的概率用B来控制。因为H0不成立时检验统计

量的精确分布往往难以确定,所以在多数情况下准确估计B的数值比较困难。B

的意义是:如果H0并不成立,即所研究的总体与H0有实质差异(例如)〃户外,

按照同样的方法在总体中重复抽样,那么在每100次检验结论中平均可以有100

P次接受H0(犯第II类错误).

第七章方差分析基础(多个样本均数之间的差别是否有统计学意义)

第一节方差分析的基本思想

1.方差分析的基本思想:是把全部观察值间的变异按设计和需要分解成两个或多

个部分,然后将各影响因素产生的变异与随机误差进行比较,以判断各部分的变

异与随机误差相比是否具有统计学意义

2.总变异:观测数据围绕总均数的变异(包含处理效应与随机误差);总变异的

大小与(观测数据-总均数)2之和SS总与总均方MS总来描述。

3.组间变异:各组样本均数与总均数的差别(处理效应与速记误差);组间变异

的大小用(组均数-总均数)2之和SS组间与组间均方MS组间来描述

2

SS组间=SSB=Zni(玄i—X)

i(m为该组的样本数)

S组间=MS组间=MSR=SS组间/—”组间-v-k-14为组数)

4.组内变异:各组内观察数据与样本均数的差别(随机误差);其大小可用(观

测数据-组均数)2之和ss组内与组内均方MS组内描述

数理统计可证明:SS总二SS组间+SS组内V总固组间+V组内

5.方差分析(F检验):

”():=…=〃人.

H1:至少有两个总体均数不相等

根据分子自由度小、分母自由度V2查F界值表得P值,若F^Fa(V1,V2),则P

Wa,按a水准拒绝H。,有统计学意义,可以认为多个总体均数不完全相同,即

至少有两个不同,相反则无统计学意义。

第二节方差分析的步骤

(-)完全随机设计资料方差分析的步骤

1.完全随机设计:是将同质的受试对象随机地分配到各处理组,冉观察其效应,

是最常见的研究单因素两水平或多水平的实验设计方法,各组样本数可以相等,

也可不等。属于单项方差分析;

2.步骤:

(1)建立假设检验,确定检验水准:

/:4==…=4(各组总体均数全相等)

H1:三个总体均数不全相等,亦即至少有两个总体均数不等。

a

(2)计算检验统计量:分别计算离均差平方和SS总(变异离均差平方和SS,m.、

组间离均差平方和SS组间和组内离均差平方和SS组内)、自由度V(总自由度V总、

组间自由度V组间和组内自由度V组内)、均方MS(组间均方MS组间和组内均方MS

组内)、检验统计量为F值

(二)随机区组设计资料方差分析的步骤

1.随机区组设计:又称配伍组设计,通常是将受试对象按性质(如体重,性别等

非实验因素)相同或相近者组成b个区组(配伍组),每个区组中的受试对象分

别随机分配到k个处理组中。

2.总变异:处理组的变异、区组的变异和误差;

3.基本步骤:

(1)建立检验假设,确定检验水准

对于处理组:

H0:三个总体均数全相等,即A、B、C三种方案的效果相同

H1:三个总体均数不全相等,即A、B、C三种方案的效果不全相同

对于区组:

H0:十个总体均数全相等

H1;十个总体均数不全相等

均取a

(2)计算检验统计量

(3)确定P值,做出推断结论:分别以求F值时分子的自由度V处理和V区组

分母的自由度V误差查F界值表得处理效应的P值和区组效应的P值。若Fe

心(一"2)则PWa;按a水准,拒绝H0,接受H1,有统计学意义。可以认为

多个总体均数不全相同,即多个总体均数中至少有两个不同。

第三节多个样本均数的两两比较

(一)SNK法:也称NK(Newman-KeuIs)法,属多重极差检验(muIitpIerange

test)o其检验统计量为q,故又称q检验。

1基本步骤:

1)建立检验假设,确定检验水准

HO:uA=uB,即任两对比组的总体均数相等;

H1:即任两对比组的总体均数不等

a

2)计算检验统计量:首先将各组样本均数由大到小排列,并编组次:

根据q检验计算公式,依次计算并列表。

3)确定P值,做出推断结论:以计算MS误差即MS组内和对比组内包含组数a

查q界值表得P值,按a

(二)Dunnett法:Dunnett法其检验统计量为tD,故又称Dunnett-t检验。

它适用于k-1个实验组与对照组均数的比较;基本步骤为:

1.建立检验假设,确定检验水准

HO:UT=RC,即任一实验组与对照组的总体均数相等

H1:UT#=uc,即任一实验组的总体均数低于对照组的总体均数

a

2.计算检验统计量:列出计算表

3.确定P值,做出推断结论:tD取绝对值,并以计算MS误差时的自由度V误差

和实验组数a=k-1(不含对照组)查Dunnettt界值表得P值,列于表中,按

a

(三)Bonferroni法:Bonfferoni提出,若每次检验水准为a,共进行m次比

较,当H0为真时,犯第一类错误的累积概率Q”不超过ma,即有Bonfferoni

不等式(BonfferoniinequaIity)a"Vma成立。从实质上讲Bonfferoni法

是对检验水准进行调整,故又称Bonfferoni调整(Bonfferoniadustment)法。

法的思想适用于所有的两两比较,无论是多个均数比较,还是前面的多个频率比

较。基本步骤为:

1.建立检验假设,确定检验水准。

HO:uA=uB,即任两对比组的总体均数相等;

H1:uAHuB,即任两对比组的总体均数不等

/_a_____2a

a

m一I)

/(m为比较的次数,k为组数)

2.计算检验统计量;列出计算表

3确定P值,做出推断结论:以得出的t值和计算MS误差时的自由度V误爰查t

界值表得各对比组的P值,按屋水准,推断有无统计学意义。

第四节方差分析的前提条件和数据变换

(一)方差分析的前提:

1.从理论上讲,进行方差分析的数据应满足如下两个基本假设:

(1)各样本是相互独立的随机样本,均服从正态分布;

(2)各样本所对应的总体方差相等,即方差齐性。

(二)方差齐性检验

“2

N检验:资料服从正态分布的多个总体方差齐性检验法:

S2

式中合并方差c亦即组内或误差的均方MS组内或MS误差

“2

力检验的基本步骤:

(D建立检验假设,确定检验水准

_2__2__2

H0:巧=%=%,即三个总体方差全相等

H1:三个总体方差不全相等,即至少有两个总体方差不等

aa宜稍大以减少第二类错误的概率)

(2)计算检验统计量:上式计算公式

(3)确定P值,做出判断:以自由度V二k-1查卡方界值表,得P,按a

资料是任意分布时的方差齐性检验法,既可用于两总体方差齐性检验,也可用于

多个总体的方差齐性检验。该法是将原始观测值:d转换为相应离差ZB,然后按

下述公式进行单向方差分析,以相应自由度查F界值表得到结论。

F_(N-k)EhGi-32

一(Ll)Z2(z厂1)2…-k

式中N=2%W为样本”。离差4计算方法有如下几种:

(1总=1七-,,其中五表示第》组的算术均数。

(2)勺=(4-五产7-1

(3)zg=IX厂%1

其中M表第i组的中位数。该法又称Brown&Forsythe法(1974)。

(即+%-2)%(少-冗)2-卯(%-1时

(4)

(%-1)(几「2)

该法又称O'Brien法(1979,1981)0其中W一般取0.5,用它可以调整资料分布的房

4.levene检验的基本步骤:

(1)建立检验假设,确定检验水准

HO:b:=b;=b"即三个总体方差全相等

H1:三个总体方差不全相等

a

(2)计算检验统计量:将原始观测值Xij用式77和7-2转换为相应的离差Zij

然后再用单向方差分析计算F值,列表

(3)确定P值,作出推断

第八章X2检验(两个或多个率之间的差别是否有统计学意义)

第一节独立样本四格表资料的x2检验

1.X2分布:是一种连续型随机变量的概率分布。X2分布的形状依赖于自由度

的大小,当自由度大于2时,随着自由度增加,曲线逐渐趋于对称,当自由度趋

于无穷大时,X2分布逼近正态分布。如果Z服从标准正态分布,那么Z2服从

自由度为1的X?分布,其概率密度在(0,8)区间上表现为L型。

X2检验的基本步骤:

(1)建立检验假设,确定检验水准

HO:xxx有效概率相同,巧

H1:两药有效概率不同,阳丰冗工

a

2.计算检验统计量

①首先,按照下图格式及公式1计算各个格子的理论频数Tu

Ej

n式中n为总例数,ni是第i行的合计数,mj是第j列的合计数

②计算统计量:通式或四格表专用公式

22

2v(4-T)y=--------(血----

=Ix(o+6)(c+d)(c+c)(6+d)

(A为实际频数即a、b、c、d;『a+b+c+d;T为理论频数即①所求)

1)当n,40时,如果有某个格子出现1WTW5,需进行如下校正:

2)如果样本例数不是很大,计算时应先估计表中最小值的T值,也就是行合计

最小值及列合计最小值所对应的那一个的T值,以确定是否需要采用校正公式。

③确定P值,作出推断:

一般地,四格表X?检验统计量的自由度都是V=10自由度的计算可以归结为

自由度V=(行数7)(列数7)

X2界值表,得P值,判断有无统计学意义。

3.需处理数(NNT):作为指标比较两种药物的临床治疗效果

NNT二(有效率之差)/1:说明为了增加1例有效者而需要改变治疗的人数。

第二节多个独立样本R*C列联表资料的x2检验

X2检验的基本思想和计算步骤;设有一个定性变量,具有C种可能的“取值”;

现有R个独立样本的分布,相应的数据如下图所示,这样的数据形式称为R*C

列联表

检验统计量X2的计算公式:

自由度仍按公式自由度丫=(行数(列数・1);其他步骤同2*2列联表。

对于比较多组独立样本的X2检验,拒绝H0只能说各组总体概率不全相同,即

多组中至少有两组的有效概率是不同的,但并不是多组有效概率彼此之间均不相

同。若要明确哪两组间不同,还需进一步作多组间的两两比较。4个处理组,两

两比较有6种对比,如果直接对每种对比分别作四格表的X2检验,将增大I

类错误的机会,为此在进行多组频率的两两比较时,需根据比较的次数修正检验

水准。例如原来检验水准aax2检验的话,应计算确切概率。

第三节配对设计资料的X2检验

(-)配对2*2列联表资料的x2检睑

2(lt-cl-I)2]

X=----7-------〃=1

若b+c<40校正公式为…

以上检睑称为McNemar检验。我们将两变量不一致的总例数(b+c)视为固定

值,在此条件下进行推断无需考虑两变量一致的总例数a和d的大小。这类方法

在统计学中称为条件推断方法。

(-)配对R*R列联表资料的X?检验

T_k-\y(%一人)2

k+m:-2A-

X2检验公式为:

(三)X2检验要注意的问题:

1.关于X?检验的条件:

使用X2检验在任何情况下都要注意理论频数T不能太小。一般要求各格的理论

频数均应大于1,且TV5的格子数不宜多于格子总数RXC的1/5。如果理论频

数太小,①最好的办法是增加观察例数以增大理论频数。②当行或列大于2时也

可将理论频数太小的行(列)与邻近的行(列)相合并,以增大理论频数。但这

样做会损失信息;③改用R*C的Fisher确切概率法,可以用计算机实现。

2.只有在各组对象其他方面“同质”的前提下考察频率是否相同。

第四节列联表资料的确切概率法

1.四格表资料,若有理论数小于1或nV40或作X?检验后所得概率P接近检验

水准a,需用确切概率(exactProbability)法直接计算概率以作判断。

第九章基于秩次的非参数统计

1参数统计的特点:假定随机样本来自可用有限个实参数刻画的总体(如正态分

布),并对总体分布的参数(如总体均数)进行估计和检验。如t检验、方差分

析等。

2.非参数统计(任意分布检验):分布类型未知,一端或两端无界,出现少量

异常值的小样本数据以及以等级做记录的资料分析。

第一节配对设计资料的符号秩和检验

1.符号秋和检验(Wilcoxonsigned-ranktest);推断配对资料的差值是否来

自中位数为零的总体。

2.符号秩和检验(Wilcoxonsigned-ranktest)的基本思想:假定两种处理效

应相同,则差值的总体分布是对称的,总体中位数为0。

3.符号秩和检验的基本步骤:

(1)建立检验假设,确定检验水准

H0:差值的总体中位数等于零,即Md=0

H1:差值的总体中位数不等于零,即Md于0

a

(2)计算检验统计量T值

①求差值:求各对数据(xi,yi)的差值di=xi-yi,

②编秩:依差值的绝对值由小到大编秩,并按差值的正负给秩次加上正负号。编

秩时,若差值为0,舍去不计;若差值的绝对值相等,称为相持(tie),这时

取平均秩次并记原来符号

③分别求正、负器和,分别以T+和T_表示;记正、负差值的总个数为n(即n

为差值不等于0的对子数),则T+与T_之和为n(n+1)/2

④确定检验统计量:双侧检验时,以绝对值较小者为统计量T值,即1=01脂(T

+,T—);单侧检验时,任取正差值的秩和或负差值的秩和为统计量T

(3)确定P值,作出推断:

①查表法(5/nW50时)查配对设计用的T界值表,若检验统计量T值在上、

下界值范围内,其P值大于相应的概率水平;若T值在上、下界值上或范围外,

则P值小于相应的概率水平。

②正态近似法(n>50时):已知H0成立时,近似地有

/ir=n(n+l)/4

Z=工二汕T

07二v,"(几+l)(2n+l)/24

统计量为:

如果根据样本算得的z值太大或太小,就有理由拒绝H0。

当n不很大时,统计量Z需要作如下的连续性校正:

若多次出现相持现象(如超过25%),用上式求得的Z值偏小,应按下式计算

校正的统计量值Zco

第二节两组独立样本比较的秩和检验

(-)两组连续型变量资料的秩和检验:完全随机设计两个独立样本比较的

WiIcoxon秩和检验,目的是推断两样本分别代表的总体分布是否不同。

2.基本步骤:

(1)查表法:

①检验假设

H0:两个总体分布相同

H1:两个总体分布不同

a

②编秩:将两组数据混合后由小到大统一编秩,编秩时遇到有相同数据时如在不

同组则必须取平均秩次,在同一组可顺次编秩。

③求秩和并确定统计量T:两组秩次分别相加。统计量为样本量较小一组的秩和,

当样本量相等时为任一组的秩和;n为样本量较小一组的样本量,利用n,绝对

值n1-n2查T界值表,若检验统计量T值在界值范围内,其P值大于相应的概率

水平;若T值在界值上或范围外,则P值小于相应的概率水平。

(2正态近似法:如果n1(>10)或n2-n1超出了成组设计T界值的范围,可

用正态近似检验。若超过标准正态分布的临界值,则拒绝H0

若相持较多(比如超过25%),应按下式进行校正:

(二)两组有序变量资料的秩和检验

1.建立假设检验,确定检验水准

H0:两种药物疗效的总体分布相同

H1:两种药物疗效的总体分布不同

a

2.编秩:本例为等级资料,在编秩时,相同等级的个体属于相持.先按组段计算

各等级的合计人数、各组段秩次范围、计算各组段的平均秩次;以各组段的平均

秩次分别与各等级例数相乘,再求和得到T1和T2

3.计算统计量:样本量合计较小的一组的样本数,n>50近似正态法,公式同前

每个等级的人数表示相持的个数,即tj,由于相持过多,需按校正公式计算。

4.确定P值,作出推断。

第三节多组独立样本比较的秩和检验

(-)多组连续变量资料的秩和检验

若相持出现较多,对H进行校正得He值:Hc=H/C

(二)多组有序变量资料的秩和检验(基本同两组有序变量资料的秩和检验)

第四节随机区组设计资料的秩和检验

处理组样本分别代表的总体分布是否不同。

2.Friedman秩和检验的基本思想是:各区组内的观察值按从小到大的顺序进行

编秩;如果各处理的效应相同,各区组内秩1,2…,k应以相等的概率出现在

各处理(列)中,各处理组的秩和应该大致相等,不太可能出现较大差别.如果

按上述方法所得各处理样本秩和R1,R2,Rk,相差很大,便有理由怀疑各

处理组的总体分布是否相同。

(1)查表法(当bW15,kW15时)查本书附录中的M界值表

(2)X2分布近似法:当处理数k或区组数b超出M界值表的范围时

第五节多个样本间的多重比较

(-)完全随机设计多个样本间的多重比较

1.检验假设

H0:第i组与第j组所代表的总体中位数相等

H1:第i组与第j组所代表的总体中位数不等

a

2.计算检验统计量并确定p值:设Ri和Rj分别为比较的第i组和第j组样本

的秩和,其平均秩和分别为Ri(平均)和Rj(平均)

(1)精确法:样本含量较小时,应采用两样本秩和检验的方法,求得统计量的

数值后,借助SAS或SPSS软件的“exact”功能得到相应的p值(包括该数值对

应的概率和更极端情形的概率)。

(2)正态近似法:样本含量很大时,计算统计量

k

Z=E

其中为k个样本的总含量,nixnj分别为第i组和第j组

的样本含量。

当相持的个数较多(大于25%)时,用校正值:

"r其中,,一]N-N

利用正态分布表或统计软件求得统计量数值所对应的P值。

3.作出统计推断结论将两组比较所得P值与调整以后的检验水准Q'比较,

若「<屋,则拒绝H0。

4.检验水准的调整(Bonferroni法)对k个样本反复两两比较,会增加第I

类错误的概率,为保证第I类错误的概率总共不超过Q,每次比较的第I类错误

概率屋必须严加控制:

通常有两种情况:

(1)多组间的两两比较:k组样本间,任两组均进行比较时,比较的次数为

k(1-k)/2,检验水准为a'为

(2)试验组与同一个对照组的比较k组样本中,一个指定的对照组与其余各组

比较时,比较的次数为k—1次,检验水准a'为

(-)随机化区组设计资料的多重比较

其他基本同多组间的两两比较一致

除下式正态近似检验中的方差计算算法不同。

第十章两变量关联性分析

第一节线性相关

(-)线性相关的概念及其统计描述

1.线性相关:两个随机变量X、Y之间呈线性趋势的关系称为线性相关,又称简

单相关,简称相关。

2.正、负相关:

正相关:两变量X、Y同时增大或减小,变化趋势是相同的;

负相关:两变量X、Y呈反向关系。

(二)线性相关系数的意义及计算

例:当样本值为(x1,y1),(x2,y2),•••,(xn,yn)时,将X和Y的样本

均数分别记为x和y

1.线性相关系数:又称为Pearson积矩相关系数:是定量描述两个变量间线性关

系密切程度和相关方向的统计指标,其定义为:

上式右端分别为总体协方差和总体方差时,左端便是总体相关系数,习惯记为Po

若P去0,称为X和Y线性相关,简称相关;若P=0,则简称为X和y不相关。

当上式右端分别为样本协方差和样本方差时,左端便是样本相关系数,记为人

2.由于协方差的大小与X,Y的量纲有关,不同问题中的协方差不可比较。于是

我们就在X与Y分别标准化之后计算协方差,这就是相关系数。样本相关系数的

定义可写为

q分别表示X的离均差平方和、Y的离均差平方和、X与Y的离均差乘积和。

3相关系数的特点有:

(D相关系数r是一个无量纲的数值,且一1VrV1;

(2)r>0为正相关,rV0为负相关;

(3)|r|越接近于1,说明相关性越好,|r|越接近于0,说明相关性越差。

(三)线性相关系数的统计推断

1.用统计资料计算出来的相关系数r是一个样本统计量,存在抽样误差。为此,

在假定X和Y服从二元正态分布的前提下,检验假设:

HO:p=0;H1:pWO;a

常用的线性相关系数假设检验方法有两种:

(1)直接查r临界值表,根据自由度V=n—2,查r临界值表,比较IrI与

临界值,统计量越大,概率P越小;统计量越小,概率P越大

(2)采用t检验,统计量为样本相关系数的标准误;'\n-2

H0成立时,t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论