医学统计学总结 (二)

上传人：飞*** IP属地：河北上传时间：2026-04-17 格式：PDF 页数：14 大小：4.12MB 积分：12 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

医学统计学总结

一、绪论

1,医学统计学:运用概率论与数理统计学得原理与方法,研究医学领域中随机现象有关数据得搜集、整理、

分析与推断,进而阐明其客观规律性得一门应用科学。

2,医学统计学得主要内容：

1）统计研究设计调查研究设计与实验研究设计

2）医学统计学得基本原理与方法研究设计与数据处理中得显本统计理论与方法。A:资料得搜集与整

理B:常用统计描述，集中趋势与离散趋势,相对数，相关系数,回归系数，统计表,统计图C:统计推

断，如参数估计与假设检脸.

3）医学多元统计方法多元线性回归与逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、

logistic回归与Cox回归分析。

3,统计工作步骤：

1）设计明确研究目得与研究假说，确定观察对象与观察单位，样本含量与抽样方法,拟定研究方案，预

期分析指标,误差控制措施,进度与费用。

2）搜集材料

A,搜集材料得原则及时、准确、完整

B,统计资料得来源医学领域得统计资料得来源主要有三个方面。一就是统计报表,二就是经常性

工作记录,二就是专题调查或专题实验。

C,资料贮存

3）整理资料a检查核对b设计•分组c拟定整理表d归表

4）分析资料统计分析包括统计描述与统计推断

4,同质（homogeneity）:指被研究指标得影响因素相同。

变异（variation）:同质基础上得各观察单位间得差异。

变量（variable）:收集资料过程中，根据研究目得确定司质观察单位，再对每个观察单位得某项

特征进行测量或观察,这种特征称为变量

变量值:变量得观察结果或测量值。

变量类型变量值表现实例资料类型

数值变量离散型定量测量值,有计量单位产前检查次数计量资料

连续型「才二

分无二分类对立得两类属性性别（男女）计数资料

类序

多分类不相容得多类屈性血型(A,B,0,AB)

变

量有多分类类间有程度差异得属性受教育程度（小学，中等级资料

序学，高中,大学…）

5,总体（population）根据研究目得所确定得同质研究对象中所有观察单位某变量值得集合。总体

具有得基本特征就是：同质性

样本（sample）从总体中随机抽取部分观察单位，其变量值得集合构成样本。样本必须具布•代表

性。代表性就是指样本来自同质总体，足够得样本含量与随机抽样得前提。

统计量（slatislics）描述样本变量值特征得指标（样本率，样本均数，样本标准差）。

参数（parameter）描述总体变量值特征得指标（总体率,标准差，总体均数）。

抽样误差(samplingerror):由于个体差异得存在，即使在同一整体中随机抽取若干样本，各样本得统计

量往往不等,统计量与参数也会有所不同。这种因抽样研究引起得差异称抽样误差。

随机事件(randomevent)对随机试验得各种可能结果得集合。

概率(probability)描述随机事件发生得可能性大些哦得一个度量。

小概率事件若随机事件A得概率P(事Wa,习惯上，a=0、05时，就称A为小概率事件。其统计学意义

就是小概率事件在一次随机试验中认为不会发生。

抽样误差

1,抽样误差(samplingerror)由抽样而造成得样本统计量与总体参数之间得差异或各样本统计量之间得差

异.在医学统计学中，常把由抽样造成得样本均数与总体均数间律差异称为均数得抽样误差：由抽样造成得

样本率与总体率之间得差异称为率得抽样误差。

2,样本均数得标准差(简称标准误,standarderror)反映均数得抽样误差大小得指标。大,抽样误差大;反之,

小,抽样误差小。

(3、D

实际工作中往往未知得，可用样本标准差s作得(古计值，计算标准误得估计值。

(3、2)

3,标准误得用途:a,衡量样本均数得可靠性;b,估计总体均数得置信区间;3,用于均数得假设检验。

4,标准误得估计值得用途：

6描述抽样误差得大小；

b,总体参数得估计；

c,用来进行假设检验。

5,率得抽样误差：由抽样造成存样本率与总体率得差异称为率得抽样误差。

衡量率得抽样误差大小得指标就是率得标准误。越小,率得抽样误差越小;越大,率得抽样误差越大。

(3、3)

其中为总体率。实际工作中，日于往往就是未知得，可用样本率p作得估计值,计算率得标准误得估计值。

(3、4)。

标准差(s)标准误

计算公式$=

(1)表示观察值得变异程度(1)估计均数得抽样误差得大小

(2)计算变异系数CV=100%(2)估计总体均数得可信区间

(,)

(3)确定医学参考值范围(3)进行假设检验

(4)计算标准误

简述标准差、标准误得区别与联系？

区别：(1)含义不同:标准差S表示观察值得变异程度,描述个体变量值(x)之间得变异度大小,S越大,变量值

(x)越分散;反之变量值越集中,均数得代表性越弓虽。标准误估计均数得抽样误差得大小，就是描述样本均数

之间得变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之，样本均数越接近总

体均数，抽样误差越小。(2)与n得关系不同：n增大时,S趋于。(恒定)，标准误减少并趋于0(不存在抽样

误差)。(3)用途不同:标准差表示x得变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,

标准误用于估计总体均数可信区间与假设检验。

联系:二者均为变异度指标,样本均数得标准差即为标准误,标准差与标准误成正比。

标准差：标准误：

二、分布

正态分布

1,正态分布得国数

其中为总体均数,为总体标准差,为圆周率,为自然对数得底,旦仅为变量。以为横轴，以为纵轴，当均数与标

准差已知时即可绘出正态分布曲线。

为应用方便,将式中进行变量变换,使原来得正态分布变为得标准正态分布,亦称分布。被称为标准正态变量

或标准正态离差,将代入上述公式即得标准正态分布得密度函数。

（2、17）

（2.18）

2,正态分布得特征

（1）正态曲线（normalcurve）在横轴上方均数处最高二

（2）正态分布以均数为中心,左右对称。

（3）正态分布有2个参数（parameter）,即均数（位置）与标准差（形状）。当固定不变时,越大，曲线沿横轴越向

右移动;反之，越小，则曲线沿桢轴越向左移动。当固定不变时，越大，曲线越平阔:越小，曲线越尖峭。通常用

N（,）表示均数为、方差为得正态分布。用（0.1）表示标准正态分布。（4）正态分布在1处各行一个拐点。（5）

正态曲线下面积得分布有一定规律。

3,常用得两个区间：1、96及2、58得区间面积分别占总面积得95%及99%。

4,正态分布得应用

1）,制定医学参考值范围

a,正态分布法适用于正态或近似正态分布得资料双侧界假：；单侧上界:，或单侧下界：。

b,对数正态分布法适月于对数正态分布资料双侧界值：；单侧上界:，或单侧下界

C,百分位数法常用于偏态分布资料及资料中一端或两端无确切数值得资料。双侧界值:与;单侧上界:,

或单侧下界:。

2）正态分布就是多种统计方法得理论基础如〔分布,F分布，分布都就是在正态分布得基础上推导出来

得,分布也就是以正态分布为基础得。另外I分布，二项分布,poisson分布得极限为正态分布,一定条件下可

按正态分布原理处理。

t分布

l,t分布：（3、5）

t分化得特征为：

1.以0为中心，左右对称得单峰分布。

2.（分布曲线形态变化与自由度得大小有关。自由度越小，则1值越分散，曲线越低平；自由度逐渐

增大时，则t分布逐渐逼近正态分布（标准正态分布）。当=时,1分布为u分布。t界值表附图

中非阴影部分面积得概率为：

2,总体均数得估计:用样本指标估计总体参数称为参数估计,就是统计推断得一个重要方面。总体均数得估

计有2种方法。一就是直接用统计量估计总体参数，称为点值估计。由于抽样误差得存在，此法很难估计准

确。二就是区间估计（intervaleslimation）法。区间估计就是按一定得概率100（1-）%估计总体均数所在得范

围，亦称可信区间（confidenceinterval,CI）。常取得可信度为95%与99%,即95%可信区间与99%可信区间。

计算方法有3种：

（1）未知且n小按I分布原理用式（3、6）计算可信区间。

由于将代入，得

则总体均数得100（1-）%可信区间得通式为：（3、6）或写成（,）。

⑵未知，但n足够大时（n>100；t分布逼近u分布，按正态分布原理，用式（3、7）估计可信区间。

（）（3、7）

（3）已知按正态分布原理，用式（3、8）估计可信区间。

()(3、8)

标准正态分布(u分布)与t分布有何异同？

答:相同点:t分布可标准正态分布(u分布)都就是以0为中心得正态分布。标准正态分布就是t分布得特例

(白山度就是无限大时)。

不同点：t分布为抽样分布,u分布为理论分布;t分布比标准正态分布得峰值低，且尾部翘得更高;I分布

受自由度大小得影响，随着自U度得增大，逐渐趋近于标准正态分布;I分布有无数条曲线，而u分布只有唯

---条曲线。

二项分布

1,二项分布(binomialdisiribulion)就是对只具有2种互斥结果得离散型随机事件得规律性进行描述得一种

概率分布.

二项分布概率公式：(3、9)

式中n为独立得贝努力试验次数,为成功得概率，⑴)为失败得概答X为在n次贝努力试验中出现“成功”

得次数,表示在n次试验中出现X得各种组合数,在此称为二项系数(binomialcoefficient)o

2,二项分布得应用条件：

(D各观察单位只能具有相互对立得一种结果，如阳性或阴性,生存或死亡。

(2)已知发生某一结果(阳性)得概率为,其对立结果得概率为1-,实际工作中要求就是从大量观察中获

得比较稳定得数值。

(3)n次试验在相同条件下进行,且各个观察单位得观察结果相互独立。

3,二项分布得性质：

A,二项分布得均数与标准差在二项分布得资料中，

当与n已知时，它得均数及其标准差如下:=n(3、11)

(3、⑵

若均数与标准差不用绝对数表示，而就是用率表示时，即对式13、11)(3、12)分别除以n,得：

(3、⑶

(3、⑷

就是样本率得标准误得理论值，当未知时，常用样本率p作为得估计值，则：

(3.15)

B,一项分々得累计概率一项分化得累计概率(cumulativeprobaBhly)常用得月左侧累计与右侧累计2种力

法。

从阳性率为得总体中随机抽取n个个体,则

(D最多有k例阳性得概率

(3.16)

(2)最少有k例阳性得概率

(3、17)

D,二项分布得形状取决于与n得大小：

⑴当=0、5时，分布对称;当《0、5时，分布.呈正偏态,且固定n时，越小，分布越偏；当〉0、5时，分布呈负偏

态,且固定n时,越大,分布越偏。

(2)对固定得,分布随n得增大趋于对称。

4,总体率得估计

总体率得估计也有点估计与区间估计，点估计就是简单地用样本率来估计总体率；区间估计就是求出总

体率得可能范围。样本率得理论分布与样本含量n、阳性率p得大小有关,所以需要根据n与p得大小不同，

分别选用下列2种方法。

(一)查表法当样本含量n较小，如nW50,特别就是p很接近于0或1时,按二项分布得原理估计总体率得

可信区间。

（二）正态近似法当样本含量n足够大,且样本率p或Lp均不太小,如np与n（l-p）均大于5时,样本率得p

得抽样分布近似正态分布，总体率得可信区间可按下列式（3、17）进行估计。

（3.17）

Poisson分布

1,Poisson分布泊松分布就是在很小，样本含量n趋向于无穷大时，二项分布得极限形式。更多地用于研究

单位时间、单位人群、单位空间内，某罕见事件发生得次数得分布。

X=0,1,2（3、19）

式中=n为Poisson分布得总体均数,X为单位时间或单位空间内某事件得发生数,e为自然对数得底,约等于

2、71828.在实际运算中，P（X）亦可按式（3、20）作递推计算.（3、20）

2,Poisson分布应用条件：

A,要求事件得发生就是相互独立

B,发生得概率相等

C,结果就是二分类

3,Poisson分布得性质:

A,该分布就是一种单参数得离散型分布,其参数为,它表示单位时间或空间内某件事平均发生得次数,

又称强度参数。

B.Poisson分布得方差与均数相等，即=

C.Poisson分布得累计概率

（1）最多为k次得概率

（2）最少为k次得概率

4,Poisson分布得图形

已知,就可按公式计算得出X=0,1,2,时得P（X）值，以X为横坐标，以P（X）为纵坐标作图，即可会出PDisson

分布得图形。

值越小，分布越偏，随着得增大，分布越趋于对称，当=20时,分布接近正态分布，当=50时，可以认为Paisson

分布呈正态分布N（,）按正态分布处理。

5,Poisson分饰具有可加性

6,总体参数得估计

由样本均数（样本计数）X估计总体均数也有点（值）估计与区间估计，区间估计得方法，需视样本计数（样

本均数）X得大小而定,X小时用查表法,X大时用正态近似法。

（一）查表法

当样本计数X时，用X值查附表poisson分布得可信区间，可得总体均数得95%或99%可信区间。

（二）正态近似法

当样本计数X>50时,可用正态近似原理下面公式求总体均数得95%或99%可信区间

正态分布、二项式与泊松分布得关系：

二项分布（binomialdislr止ulion）:对只具有两种互斥结果得离故型随机事件得规律性进行描述得一种概

率分布。Poisson分布就是在n很小,样本含量n趋于无穷大时，二项分布得极限形式。当v=8时,t分布即

为u分布，趋向正态分布。

可信区间与参考值范围得区别：

意义、计算公式与用途均不同。（1）参考值范围就是指同质总体内包括百分之几十个体值得估计范围。而可

信区间就是指在百分之几十得可信度估计得总体参数得所在范围，（2）同样得百分之几十,参考值范围就是

样本范围,可信区间就是指可信度范围，二者有着本质得不同。（3；从意义来瞧,95%参考值范围就是指同质

总体内包括95%个体值得估计范围，而总体均数95%可信区间就是指按95%可信度估计得总体均数有所在

范围。（4）从计算公式瞧，若指标服从正态分布,95%参考值范围得公式就是：±1、96s。总体均数95%可信

区间得公式就是：。前者用标准差，后者用标准误。前者用I、96,后者用。为。、05,自由度为v得I界值。

(5)从用途上瞧,可信区间用来估计总体均数,参考值范围用来判断观察对象得某项指标就是否正常。

简述检验假设与可信区间得联系与区别。

答：(1)可信区间用于推断总体参数所在得范围,假设检验用于推断总体参数就是否不同。前者估计总体参数

得大小，后者推断总体参数有元质得不同。(2)可信区间也可回答假设检险得问题。但可信区间不能提供确

切得P值范围，只能给出在a水准上有无统冲意义。(3)可信区间还可提示差别有无实际意义。

统计图表

1,绘制统计图得基本要求：

A,根据资料性质与分析目得据顶适当图形.

B,标题应说明资料得内容、时间与地点,一般位于图得下方。

C,图得纵、横轴应注明标目及对应单位，尺度应等距或具有规律性，一般自左而右、自下而上、由小

到大。

D.为使图形美观并便于比较，统计图得长宽比例一般为7:5,有时为了说明问题也可以变动。

E,比较、说明不同得事物时，可用不同颜色或线条表示，并常附图例说明,但不宜过多。

2,常用统计图得适用条件与绘制

1.条图(bargraph)用簿宽长条得高度表示按性质分类资料各类别得数值大小，用于表示它们之间得

对比关系。

2.圆图(picgraph)圆形图适用于百分构成比资料，表示事物各组成部分所占得比重或构成。

3.百分条图(percentbar)意义及适用资料同圆图，也称构成条图。

4.线图(linegraph)线图适用于连续性资料，以不同得线段升降来表示资料得变化，并可表明一事物

随另一食物(时间)而变动得情况。

5.直方图(hislogram)直方图用于表达连续性资料得频数分布。

6.散点图(scalierdiagram)散点图以直角坐标系中各点得密集程度与趋势来表示两现象间得关系。常

用在对资料进行相关分析之前适用。

单变量资料

一,数值变量

统计描述

1,频数表得编制求全距定组段与组距列频数表画频数图

2,频数分布得两个重要特征:卖中趋势与离散趋势

3,频数分布可以分为正态分布与偏态分布

4,频数表得用途:揭示资料分布类型与分布特征，以便选取适当得统计方法;便于进一步计算指标与统计处

理；便于发现某些特大或者特个得可疑值。

5,集中趋势得描述:均数几何均数中位数百分位数

6,均数(mean):算术均数得简称。常用==表示。

7,中位数(median):一组由小到大按顺序排列得观察值中位次居中寿数值，用M表示。可用于描述任何分他

特别就是偏态分布资料以及频数分布得一端或两端无确切数据资料得中心位置。

8,百分位数(pemeniile)就是•种位置指标，用表示。•个百分位数P将•组观察值分为两部分，理论上有x%

得观察值比它小，有(100・x)%得观察值比它大。可用于确定非正态分布资料得医学参考值范围。

9,离散趋势得描述:全距(range)四分位数间距(quartile)方差标准差

10,全距(range)亦称极差,为一组同质观察值中最大值与最小值之差。反映个体差异得范围，优点就是计算

简单,缺点就是：1)只考虑最大最小值之间得差异，不能反映组内其她观察值得变异度;2)样本含量相差悬殊

时不宜用全距比较。

11,四分位数间距(quartile)上四分位数与下四分位数之差。常用于描述偏态频数分布以及分布得一端或两

端无确切数值资料得离散程度。

12,方差(variance)离均差得平方与表示。

13,标准差(standardvariance)得作用：a,估计变量值得离散程度b,计算变异系数c,与均数结合，估计变异

值得频数分布范围d,计算标准误

(总体)s=(样本)

14,变异系数(cocftkicnlofvariation)常用于比较度量单位不同或均数相差悬殊得两组或多组资料得变异

度。CV=100%

假设检验

1,假设检验(hypothesislest)亦称显著性检验(significancetesl),其基本思想就是先对总体得参数或分布做出

某种假设，加设总体均数(或率)为一定值：两总体均数(或率)相等总体服从正态分布或两分布相同等,然后

根据样本信息选用适当得方法，推断此假设应当拒绝或不拒绝。

2,假设检验得一般步骤：

(1)建立假设与确定检验水准:根据实际情况确定单、双侧检验，建立假设，确定检验水准；

(2)选定检验方法与计算统计昼:根据设计得类型及研究目得选择合适得检验方法并计算出对应得统计量；

⑶确定P值并做出推断结论。若1期a,v,则PSa,按检验水准，拒绝H0,接受H1,尚可认为差异显著有统

计学意义;相反则差异不显著,无统计学意义

3,假设检验时应注意得事项：

⑴要有严密得抽样研究设计;样本必须就是从同质总体中随机抽取得，要保证组间得均衡性与资料得可比

性，可能影响结果得北处理因袤在对比组问应尽可能相同或相近；

(2)正确选择检验方法;根据现有得资料类型、设计类型、分析目得、样本含量等因素选用适当得检验方法，

如不符合条件可做适当转换；

(3)正确理解“差别无显著性”得含义，差别有统计学意义，不能理解为两者差差大，也不能理解为所分析得

指标在实际应用上就有“显著效果”。

(4)检验假设得推断结论为概率结论，不能绝对化:检验水准人为规定,就站相对得,报告结论时应列出检验

统计量与P值得确切范围。

(5)注意就是单侧检验还就是双侧检验

I型错误与II型错误：

1型错误(lype1error)拒绝了实际上成立得，即样本原本米自学总体，由于抽样得偶然性得到了较大得t

值,所以拒绝了，接受了，这类弃真错误称为第一类错误,犯第一类借误得概率就是。

II型错误(typeIIerror)就是不拒绝实际上不成立得，即“存伪”即样本原本来自得总体,但就是白于抽

样得偶然性,得到r较小得t值,得到r较大得p值,没有拒绝,这类存伪错误称为第二类错误,犯第二类错误

得概率就是1-

正态性检验:用均数与标准差描述资料得分布特征,对例数n较小得样本进行t检验时,首先要求样本取自正

态分布得总体。

两个方差得齐性检验:两样本均数比较得t检验与多个样本均数比较得方差分析要求各样本所来自得总体方

差相等。两样本方差得齐性检验：

(4.12)

式中为较大得样本方差,为较小得样本方差,为分子得自由度,为分母得自由度,相应得样本例数分别为与。

当两总体方差齐同时,F值一般不会离I太远;若算得得F值较大，大于我们规定得界值时，就认为两样本所

在总体得方差不齐。

t检验

t检验:常用于总体标准差未知且样本含量较小时样本均数叮总体均数得比较，成组设计得两个小

样本得均数得比较及配对设计得两样本均数得比较。

1检验得应用条件:a,nW50b,样本来自正态分布得总体c,两样本均数比较时要求两样本总体方差相等。

1,单样本I检验（onesampleLies。：样本均数与已知总体均数比较.目得就是推断样本所代表得未知总体

均数与已知总体均数有无差别。

0（4、1）

式中为样本均数,为已知总体均数,s为样本标准差,n为样本含量，为自由度。

步骤如下（可为u检验）

1）建立假设，确定检验水准。

H0:「叩Hl:pi加0

a=0、05

2）计算统计量.

己知，（总体均数）叩=,n=,=,s=

3）确定P值，做出推断结论.

按v=n-l,查t界值表,得P>0、05（或P<0、05）,按a检验水准,不拒绝H0（或拒绝H0,接受HI）,即根据本资

料尚不能（可以）认为？与？有差异。

2,配对设计资料得」检验分为3种情况:①将受试对象按一定条件配成对子（同种属、同体市、同年龄、同

性别等），再随机分配每对中得2个受试对象到不同得处理组;②同一受试对象分别接受2种不同处理，其目

得就是推断2种处理得效果有无差别;③同一受试对象处理前后得比较，其目得就是推断某种处理有无作

用。

配对设计资料得1检验（pairedt-tcs（fordependentsamples）得基本思路:首先计算出各对差值d得均数，当2

种处理结果无差别或某种处理不起作用时，理论上差值得总体均数应该为0,故可将配对设计资料得I检验

视为样本均数与总体均数得比较。

（4、2）

式中为样本中各对差值d得均数,为样本差值得标准差,n为对子数,为自由度。

先列表求差值d与

1）建立假设，确定检验水准。

H0:pd=0和

a=U、U〉

2）计算统计量。

已知,n=,gd=,Z=

3）确定P值，做出推断结论。

按v=n-l,查t界值表,得P>0、05（或P。、05）,按a检验水准,不拒绝H0（或拒绝H0,接受HI）,即根据本资

料尚不能（可以）认为？。

3,成组设计资料两样本均数比较得I检验（iwo-samplet-leslforincependenlsamples）:在临床医学研究111进

行配对设计比较困难，•股分别从2个总体中随机抽样,进行成组诙计两样本均数得比较，目得就是推断2个

总体均数就是否相等。所比较得两个样本含量最好相等,此时抽样误差最小。

$7一户叼-（口即2/%+丁占一芯引&1十】）

V均+?一2%%（4、3；

可为I,U检验

1)建立假设，确定检验水准。

:n1=u2:

0=0、05

2)计算统计量。

已知,nl=,LXI=,E=,n2=,ZX2=,E=

l=LXl/nl=,2=£X2/n2=

(已知，nl=,1=,sl=,n2=,2=,s2=

3)确定P值,做出推断结论。

按v=nl+n2-2t查t界值表,得P>0、05(或P<0、05),按a检验水准,不拒绝H0(或拒绝H0,接受H1),可以

认为？得差别无(或有)统计学意义。

检验

u检验(u-lest,或Z-lest):用检验统计量u来命名得。用于样本含量n足够大(n>50),或n虽小但总体标准差

已知时得样本均数与总体均数得比较、成组设计两样本均数得比较。

1,单样本u检验(onesampleu-tesO:

(4、4)

式中为样本均数,为已知总体均数,s为样本标准差,n为样本含量。

2,成组设计得两样本均数比较得u检验(two-sampleu-testforind叩endentsamples):

(4、5)

式中，分别为两样本均数，为两样本均数差值得标准误，、为分别为两样本得方差，、分别为两样本例数。

标准正态分布(u分布)与t分布有何异同？

答:相同点：t分布与标准正态分布(u分布)都就是以0为中心得正态分布。标准正态分布就是t分布得特例

(自由度就是无限大时)。不同点：t分布为抽样分布,u分布为理论分布;t分布比标准正态分布得峰值低，且

尾部翘得更高;【分布受自由度大小得影响，随着白山度得增大，逐渐趋近于•标准正态分布;t分布有无数条曲

线，回u分布只有唯一一条曲线。

方差分析

1,方差分析得基本思想:按研究目得与设计类型,将总变异中得离均差平方与SS与自由度分别分解成相应

得若干部分,然后求得各相应部分得变异；由于其中得组内(或误差)变异主要反映个体差异或抽样误差，其

她各部分得变异与之比较得出统计量F值,根据F值得大小确定P值,并做出推断。

2,方差分析得优点：

(1)不受比较组数得限制，可比较多组均数

(2)可同时分析多个因素得作用

(3)可分析同类间得交互作用

3,方差分析得应用范围：

(1)2个或多个样本均数间得比较

(2)分析2个或多个因素间得交互作用

(3)回归方程得线性假设检验

(4)多元线性回归分析中偏回归系数得假设检验

(5)两样本方差齐性检验

完全随机设计得方差分析：

就是将总变异中得离均差千方与SS与自由度分别分解成组间与组内两部分,SS/与SS/SS分别为组间变

异(MS)与组内变异(MS),两者之比即为统计量Fo

（I）总离均差平方与及自由度:

SS=（5、2）

=（5、3）

（2）组间离均差平方与、自由度与均方：

SS=（5、4）

=（组数-I）（5、5）

MS=（5、6）

（3）组内离均差平方与、自由度与均方：

SS=SS-SS（5、7）

=N-k（样本量•组数）（5、8）

MS=（5、9）

当方差分析得推断结果为拒绝H。,接受IL,各总体均数不同或不全相同时，应对均数进一步两两比较，即多

重比较（multipleparisons）。可用q检验进行分析：

（5、14）

式中为方差分析得组内均方，若为两因素或两因素以上得方差分析，则为误差项均方;与分别为两样本

得样本含量。

配伍组设计资料得方差分析

配伍组设计亦称随机区组设计（randomizedblockdesign）,其多个洋本均数比较可用无重复数据得两因素方

差分析（two-wayANOVA）o2个因素就是指主要得研究因素与配缶组因素。两因素得方差分析就是把总变

异中得离均差平方与与自由度分别分解成处理组间、配伍组间与误差三部分。计算公式如下：

变异来源离均差平方与自由度均方MSF

总-C

处理组间k-1

配伍组间b-1

误差ss-ss-ss(k-D(b-l)

,为配伍组数

二，分类变量

统计描述常用相对数,即率,构成比,与相对比对分类资料进行统计描述

1,率（raic）:率又称频率指标，它说明某现象发生得频率或强度

率=

2,构成比（proportion）:又称构成指标，它说明一事物内部各组成部分所占得比重或分布,常以百分数表示

构成比=

3,相对比（relativera【io）亦称比,就是A.B2个有关指标之比,说明A与B得若干倍或百分之几就是相对数

得最简单形式。A,B性质可杆同可不同。

相对比=

4,应用相对数时应注意得事项：

（-）计算相对数得分母不宜过小。

（二）分析时不能以构成比代替率。

（三）对观察单位数不等得几个率,不能直接用相加求其平均率。

（四）资料得对比应注意可比性。

（五）对样本率（或构成比）得比较应遵循随机抽样,要做假设检验。

（六）区别清分子分母。

5,率得u检验

1）,样本率与总体率比较：目得就是推断样本率所代表得总体率与某已知总体率就是否相等。根据资料得不

同情况,可以采用不同得假设检验方法:①若很小,可用Poisson分布原理做检验;②若不太靠近0或1时，可

用二项分布原理做检验;当样不含量n足够大时,或且,二项分布逼近正态分布，可用u检验计算其样本检验

统计量。

（6、1）

式中p为样本率,为已知总体墓（常为理论值或标准值），n为样本含量。

2）,两样本率比较：两个样本率作比较得目得就是推断两个样本各自代表得两总体率就是否相等，当两个样

本满足正态近似条件且样本含量较大时,可用u检验,其公式：

（6、2）

式中、分别为两个样本率，、分别为两样木含量,为两个样木率之差得标准误，为合并阳性率,，、为两个样本

阳性例数。

四格表资料得检验

适用于分类变量资料中推断两个或多个总体率（或构成比）之间有无差别，两个分类指标之间有无相关关系

得检验以及检验频数分布得拟合优度。

（6、3）

式中A代表实际频数,T代表理论频数。格子理论频数可用同样方法求得，其计算公式为：（6、4）

（6、5）

四格表资料得专用公式：（6、6）

式中a、b、c、d分别为四格表得实际频数=a+b+c+d。

四格表得值得校正。

①当所有T>5.n>40时用上述公式；

②当有l<T<5,且n>40时，需进行连续性校正：

（6、7）

③或n<4U时，需用四格表资料得确切概率法。

行X列表资料得检验。

（6、9）

式中n就是总例数,A就是每个格子得实际频数,，分别为某格子对应得行合计与列合

行X列表检验注意事项

（1）X2检验要求理论频数不宜太小，否则将导致偏性。一般认为行X列表资料中不宜有1/5以上得格子理论

数小于5,或有一个格子理论数小于I。处理方法:最好得方法就是常加样本例数，以增大理论频数;且精确概

率法;进行合理得合并;删除理论频数太小得行与列，后两种方法将损失一定得信息并影响样本得随机性。

（2）单向有序列行X列表得统计处理:当效应按强弱分为若干个级别，试验结果整理为单向有序行列表，在比

较各处理组得效应有无差别时,宜用秩与检验或Ridit分析。

（3）当多个样本率比较得检验。结论为拒绝H0,只能认为各总体率或总体构成比之间总得说来有差别，但不

能说明它们彼此间都有差别,或某两者间有差别。若要进一步解决此问题,可用卡方分割法。

配对四格表资料得卡方检验：

（一）关联性分析：

（1）建立假设检验,确定检验水唯。

H0:两种方法得检验结果无关系

H1:两种方法得检验结果有关系

a=0、05

(2)计算统计量X2值。

①n>=40,T>=5,

②n>=401<T<5、

③n<40或T<1,四格表确切概密法。

⑶确定P值，做出推断结论。

X2>3、84,P<0、05,按a=0、05检验水准，拒绝H0,接受Hl,可以认为两种方法得检验结果有关系。

(二)差别性检险：

(1)建立假设检验,确定检验水淮。

H0:两总体得B=C

Hl:两总体得B不等于C

a=0、05

(2)计算统计量X2值。

①b+c>40时：

②b+c<40时，

⑶确定P值，做出推断结论。

X2>3、84,P<0>05,按a-0、05检验水准，拒绝11(),接受III,可以认为两种方法得检验结果有差别。

(X20、05(1)=384X20、005(1)=7、88)

非参数检验

参数检验与非参数检验得优缺点：

参数检验得优点就是对资料得分析利用充分,统计分析得效率高;缺点就是对资料得要求高，适用范围有

限。非参数检验得优点：(1)适用范围广，时变量得类型与分布无特殊要求,不受总体分布得限制；(2)对数据

得要求不严,对某些指标不便准确测定得资料也可应用；(3)方法简便，易于理解与掌握。缺点就是如果对符

合参数检验得资料用了非参数检验，因不能充分利用资料提供得信息，会使检验效能低于非参数检验;若要

使检验效能相同,往往需要更大得样本含量。

配对设计得符号秩与检验

Wilcoxon符号秩与检脸(Wilcoxonsignedranktest)就是推断其差值就是否来自中位数为零得总体得方法,

可用于配对设计差值得比较与单一样本与总体中位数得比较。

(•)基本思想其假设就是差值得总体中位数等于0,备择假设就是差别得总体中位数不等于0,如果差别

太大,就拒绝;反之,不拒绝。

(二)方法步躲：1,建立检验假设,确定检验水准;2,计算检验统计量T值:a,求各对得差值;b,编秩;c,求秩

与，确定统计量T：3,确定P值，做出推断结论。

完全随机设计两样本比较得秩与检验

亦称两个样本比较得秩与检验,利用两样本观察值得秩与来推断样本分别代表得总体分布就姑否相同。

成组设计多样本比较得秩与检验，

利用多个样本得秩与来推断各样本分别代表得总体得分布有无差别。

配伍组设计得秩与检验M检验

秩与检验步骤：

(1)建立检验假设，确定检验水准。

H0:?与?得？总体分布相同。

H1：?与？得？总体分布不同。

(2)计算统计量T值。

I)编秩将2组数据由小到大统•编秩，相同数据取平均秩次。

2）求秩与，确定统计量T2狙秩次分别相加，若两组例数相等，则任取一组得秩与为统计量;若两组例数不

等,则以样本例数较小者对应得秩与为统计量。

3）确定P值，做出推断结论“

查T界值表（成组设计用），若T值在界值范围内，P>0、05,按a=0、05检验水准,不拒绝H0,可以认为两者

得总体分布相同;若T值<=界谊或在界值范围外,P<=0、05,按a=0.05检验水准,，拒绝H0,接受H1,可以

认为两得分布位置不同。

如nl或n2-nl超出了成组设计T

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

医学统计学总结 (二)

文档简介

温馨提示

最新文档

评论

医学统计学总结 (二)

文档简介

温馨提示

最新文档

评论

相关文档