医学统计学复习要点_第1页
医学统计学复习要点_第2页
医学统计学复习要点_第3页
医学统计学复习要点_第4页
医学统计学复习要点_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章绪论

1>数据/资料的分类:

1、计量资料,又称定量资料或者数值变量;为观测每个观察单位某项

治疗的大小而获得的资料。

2、计数资料,又称定性资料或者无序分类变量;为将观察单位按照某

种属性或者类别分组计数,分组汇总各组观察单位数后而得到的资料。

3、等级资料,又称半定量资料或者有序分类变量。为将观察

单位按某种属性的不同程度分成等级后分组计数,分类汇总各

组观察单位数后而得到的资料。

2、统计学常用基本概念:

1、统计学(statistics)是关于数据的科学与艺术,包括设计、搜集、

整理、分析和表达等步骤,从数据中提炼新的有科学价值的信息。

2、总体(population)指的是根据研究目的而确定的同质观察单位的

全体。

3、医学统计学(medicalstatistics):用统计学的原理和

方法处理医学资料中的同质性和变异性的科学和艺术,通过一

定数量的观察、对比、分析,揭示那些困惑费解的医学问题背后的规律

性。

4、样本(sample):指的是从总体中随机抽取的部分观察单位。

5、变量(variable):对观察单位某项特征进行测量或者观察,这种特

征称为变量。

6、频率(frequency):指的是样本的实际发生率。

7、概率(probability):指的是随机事件发生的可能性大小。用大写的

P表示。

3、统计工作的基木步骤:

1、统计设计:包括对资料的收集、整理和分析全过程的设想与安排;

力、收集资料:采取措施取得准确可靠的原始数据;

3、整理资料:将原始数据净化、系统化和条理化;

©、分析资料:包括统计描述和统计推断两个方面。

第二章计量资料的统计描述

1.频数表的编制方法,频数分布的类型及频数表的用途

1、求极差(range):也称全距,即最大值和最小值之差,记

作R;

2、确定组段数和组距,组段数通常取10-15组;

3、根据组距写出组段,每个组段的下限为L上限为U,变

量X值得归组统一定为LWXVU,最后一组包括下限。

4、分组划记并统计频数。

频数分布的类型包括对称分布和偏态分布;

偏态分布主要分为右偏态分布(也称正偏态分布)和左偏态分

布(也称负偏态分布)。

频数表的用途包括以下几个方面:

1、描述频数分布的类型;

2、描述频数分布的特征;

3、便于发现一些特大或特小的离群值;

4、便于进一步做统计分析和处理。

2.集中趋势指标的适用条件、计算方法和意义。

统计学用平均数(average)这一指标体系来描述一组变量值

的几种位置或者平均水平。

常用的平均数有算术均数、几何均数和中位数。

i、算数均数,简称均数(mear),可用于反映一组呈对称分布的变量3•离散趋势指标的适用条件、计算方法和意义

值在数量上的平均水平。计算方法包括直接计算法和频数表法(公式见

描述数据变异大小的常用统计指标有报差、四分位数间距、左爱、应准

2-2)。

差禾和变异系数。

1、极差,一组变量值的最大值与最小值之差<

2、几何均数(geometricmean),可用于反映一组经对数转换后呈

对称分布的变量值在数量上的平均水平•在医学研究中常用于免疫学的2、四分位数间距(quartilerange,QR是把全部变量值分为四部分

指标。(计算公式见于2-3)的分位数后,由第3四分位数和第1四分位数相减而得。它一般和中位

数一起描述偏态分布资料的分布特征。

QR=P-P25,

3、中位数(median),适用于各种分布类型的资料,尤其是

偏态分布资料和一端或者两端无确切数值的资料。3、方差(varianee)也称均方差(meansquaredeviation)

离均差平方和与样本含量的比值。计算公式为2-11

4、百分位数(percentile)是一种位置指标,是一个界值,其重要用

途是确定医学参考值范围(refereneerange)。

直接计算法(公式见于2-7、2-8)

频数表法(2-9-2-10)

4、标准差(standarddeviation)是方差的正平方根,其单

位与原变量值得单位相同。计算公式为2/3、2-14

5、变异系数

(coefficientofvariation)记作CY多用

于观察指标单位不同时,或者均数相差较大时两者变异程度的

比较。计算公式为2-16

4.正态分布的图形,正态分布的特征,正态曲线下面积的分

布规律。

正态分布的特征:

1、在直角坐标的横轴上方呈钟形曲线,两端与X轴永不相交,

且以X二口为对称轴,左右完全对称。

2、在X二口处,f(X)取最大值,远离[3,其值越小。

3、正态分布有两个参数,位置参数P和形态参数(T,□夬定正态分布

的曲线在坐标轴上的左右移动,越大越右移;(T决定曲线的弓背程度,

越小峰宜越高。

4正态分布曲线下的

面积分布有一定的规律。X轴与正态曲线

所夹面积恒等于1或者100%

区间□士(T的面积为%

区间□士(丁的面积为%

区间□士(丁的面积为%

5.医学参考值范围的意义和估计方法。

医学参考值(referencevalue)是指包括绝大多数正常人的人体形态、

机能和代谢产物等各种生理及生化指标常数,也称正常值。

由于存在个体差异,生物医学数据并非常数,而是在一定范围内波动,

故采用医学参考值范围(medicalreferencerange作为判定正常和异

常的参考标准。通常使用的医学参考值范围

有90%95%99%单侧:

1、正态分布法:数据服单恻:

从或者近似报从正态分布•或者通过适当的变换转换为正态分布,采用第三章总体均数的估计与假设检验

此方法之前一般要对资料进行正态性检验且要求样本含量足够大(如

1'基本概念:

n>100)

1抽样误差(samplingerror):指的是由于个体变异产生、随机抽

计算公式为2-23、2-24:

样造成的样本统计量与总体参数的差异。

双网:

2标准识(standarderror,SE):指的是样本统计量的标准差・

2、立分位数法L适用于偏态分布资料医学参考值范围的制定.(standarderrorofmean,SEM:指的是样

所要求的样本含量比正态分布要多(不低于100)-本均数的标准差。

3均数的标准误

探SEM反映样本均数之间的离散程度,也反映样本均数与用应总体均数间的差异。

计算公式为2-25、2-26:

双侧:

均数的标准误的计算公式为3-1、3-2

t分布:随机变量X服从总体均数为P,总体标准差为。的正

4统计推断(statisticalinference):通过抽样讲究的方法从总体中随态分布N(u,(T2),则可以通过u变换将一般的正态分布转化为标

机抽取一个样本,用样本的信息来推断总体的特征的统计学方法•包拈准正态分布。

参数估计和假设检验。

※但是通常获得的资料为样本的均数标准误,因此经过转换后并不是完

2•标准差的用途:全意义上的标准正态分布,而是服从t分布。(计算公式为3-3)

1、反映资料的离散趋势。标准差越小,说明变异程度越小,均数的代

表性越好:

t分布主要用于总体均数的区间估计和t检验。

2用于计算变异系数;

4、可信区间:从固定样本含量的已知总体总进行重复随机抽

3用于计算标准误;样试验,根据每个样本可算得一个可信区间,则平均有1-a(如

95%的可信区间包含了总体参数,而不是总体参数落在该范囹的可能性

4结合均数和正态分布规律估计参考值范围。

为1-a

3、u分布与t分布:

5、参考值范围和总体均数可信区间的区别见课本表3-2

u分布(也称Z分布):指的是总体均数为0,总体标准差为的标准正态

分布N(0.12)«1

6、标准差与标准误的区别和联系:B两总体均数之差的可信区间:

映保你送茎

10反映X的抽“过t礴用数榭的国依M

义差大小

女※前提:两总体方差相等,但均数不等

MSCi⑸

记法

5tS《X尸计党公式见于3-12、3-13、3-14

计yN

肾S>s.n/(XXF

Yn1

控福ifftDn不能通it猊计方法来控

方法

7'总体均数可信区间的计算:

8t分布图的特征:

※根据总体标准差。是否已知以及样本含量n的大小而异,通

1、单峰分布•以0为中心,左右对称;

常有t分布和u分布两类方法。

2't分布的曲线形态取决于自由度V的大小,自由度越小,

A、单一总体均数的可信区间:

则t值越分散•曲线的峰部越矮而尾部翘得越高:

a、总体标准差。已未知:按t分布

双恻和单侧公式见3-5、3-6、3-7

b「已知或者未知,但n足够大(如〉60>时:茂u分布

双侧和单侧公式见3、也3-9、3-10

3、当自由度逼近无穷的时候,样本标准误接近总体标准误,

t分布逼近标准正态分布。(标准正态分布是t分布的特例)

9、t检验的适用条件

t检验(ttest/Studentt-test)当(T未知且样本含量较小时

[如nv60),理论上要求t检验的样本随机地取自正态分布的总体,两

小样本均数比较式还要求两样本所对应的两总体方差相等,即方差齐性。

在实际应用中,如与上述条件略有偏离,对结果影响也不大。

10、假设检验

A、假设检验的基本思想:利用小概率反证法的思想,从问题的对立面(H)

出发简介判断要解决的问题(H)是否成立。

即在假设H成立的条件下计算检验统计量,然后根据获得的P

值来判断。

R假设检验的基本步骤:①建立检验假设,确定检验水准;

2计算检验统计量;

3确定P值,做出推断结论。

Q假设检验的错误

I型错误:拒绝了实际上成立的H0,这类“弃真”的错误;

(久)

II型错误:“接受”了实际上不成立的H0,这类“取伪”的错误。(B)

注意:①a越小,B越大;反之a越大,B越小;

2若重点是减少I型错误,一般取a=;若重点是减少

n型错误,一般取B二或者甚至更高;

3若要同时减小I型和II型错误,唯一的方法就是增加样本含量

n;

4拒绝H0,只可能犯I型错误;接受H0,只可能犯H

型错误

对方差齐与否无

两单样本t适用于已知样本均数和已t分布t值

要求

样本检验知总体均数的比较

(v=n-1)

止态分布

资本含时方差齐与否无

配对样本适用于配对设计的计量资t分布t'

料量要求

t检验料

(v=n-1)

或较

止态分布

小,

<、、

t分布

计量资两样本t检验/适用于任意两计t值

60)万差齐万差齐

料成组t检验量资料的比较(v=n1+n2

止态分布

(已-2)

知均数

和/;

方差不Cochran&Cox近似t分布方差不齐t,值(校正t

准差)

齐t检验止态分布值)

分布'值(校正自由

t方差不齐t

度)

Satterthwai止态分布

te近似t检验

※两样本的方差比较时,互以使用F检验,分子为较大的样本方差(自由度为n1-1);分母为较小的样本方

差(自由度为n2-1)<F值满足F分布.统计值为F值■>

'.、八'•

多分布值与成组检验意

F万差齐Ft

完全随机设完全随机化分组方法将试验对象

样义相同

计资料的方分配到g个处理组中去,试验后止态分布

差分析比较各组均数之间的差别

,.、八、-

随机区组随机分配的次数要重复多F分布F值与配对t检验意

万差齐

设计资料次•且各个处理组实验对象

的方差分数量相同,区组内均衡止态分布义相同

、.、八、-

拉丁方设F分布万差齐F值

可多安排一个已知的对实验结果

计资料的

有影响的非处理因素,增加了均止态分布

方差分析

衡性'减少了误差,提高了效率

'.'八'-

两种处理在仝部头验过程F分布万差齐F

两阶段交叉两个阶段之间一定

中交叉进行

设计资料的止态分布要经过一段洗脱阶

方差分析段以消除残留效应

※多样本的多重比较LSD-t检验/最小显著差异t检验,适用于一对或者儿对在专业上有特殊意义的样本均数间的比较,统

计量为t值

Dunnett-1检验适用于g-1个实验组与一个对照殂均数差别的多重比较•统计量为Dunnett-t值

SNK-q检验适用于多个样本均数两两之间的全面比较,统计量为q值

※多样本的方差比较Bartlett检验,要求资料具有正态性,统计量为卡方:

Levene检验,比Bartlett检验要求低,不需要资料具有正态性,统计量为F值。

无方差齐性

分类资料四格表资料通过两个样区的样本率来卡方分布卡方值※与两样本的U

要求

反映总体率有无差异检验等价:U2-

无正态分布卡方值

要求

Dunnett-1检验适用于g-1个实验组与一个对照组均数差别的多重比较,统计量为Dunnett-t值

无方差齐性

配对四格表卡方分布卡方值

要求

强调配对:即针对同一样本采取

资料

不同的试验或者处理方法。无正态分布

他要求

类型

无方差齐性

行X列表资用于多个样本率的比较、卡方分布卡方值

资料

要求

※可用来分析两个

料两个或多个构成比的比较

以及双向无序分类资料的无正态分布分类变量之间有无

关联性检验要求关系或者关联

无方差齐性

多样本率的适用于多样本率两两之间的多卡方分布卡方值H0:

要求

多重比较重比较(基石思想:对卡方值进

H1

行校正)无正态分布

要求

无方差齐性

推断某现象的频

频数分布的推断频数分布的拟合优度适用卡方分布卡方值

要求

数分布是否符合

拟合优度于正态分布'二项分布'Poisson

无正态分布某一理论分布

分布和负二军

分布要求

无方差齐性

样本量n>50时

不满足上述统配对样本的秩和(正秩

要求

适用于配对样本差值的中位数和可用正态分布近似

计方汰的资料检验和或负秩

0比较:还可用于单个样本中位法

等级资料秩无正态分布和)

检验数和总体中位数比较

要求T值

两独立样本方差不齐帙和(正佚

适用于推断计量资料或等n1>10或n2-n1

和或负秩

比较

级资料的两人独立样本所来自的止态分布可用正态分布

和)>10

两个总体分布是否有差别近似法作u检验

T值

无方差齐性

完全随机多H检验Hg=3且最小样本的

用于推断计置资料或者等

要求

样本比较值例数大于5或g

级资料的多人独立样本所来自的

无正态分布>3,H近似服从

多个总体分布是否有差别

g-1的正态分布*

要求可用卡方分布法

多变量资料双变量直线用于对两变置总体间线性回扫方程

设性'独立'方

的处理---回归关系的估计(回归系

差齐性、误差服

回归与相关数)

从均数为。的正

态分布

用于判断两人数值变量之

双变呈直线止态分布相关系相关系数求出后

间有无线性今系,双变量

相关数r应做假设检验

正态分布资料

多元线性回用于分析一/、应变量与多止态分布多元回回归方程求出后应

归个自变量之间的线性关系归方程做辂体假设检验以

及各自变量的假设

检验

第四章多样本均数比较的方差分析4、方差分析的变异分析:

1概念:

总变异的大小一一SS总:各个观测值与总均数差值的平方和;组间变

I离均差平方和(sumofsquaresofdeviationfrommean,SS

异的大小一一SS组间:各组均数与总均数的离均差平方

指的是各个观测佗与总均数差值的平方。

和;

2均方差,简称均方(meansquare,MS指的是离均差平方和组内变异的大小一SS组内:组内个观测值与其所在组的均数的

差值的平方和。

与自由度之间的比值。

并有SS总=$5组间+SS组内

2、方差分析的基本思想:

由于组间与组内的离均差平方和的自由度不同,因此单纯的比

设处理因素有g(g>2)个不同的水平•实验对象随机分为g组•分别接受

较并无实际意义。

不同水平的干预。方差分析的目的就是在H0:n2=……二口g成立

的条件下,通过分析各处理均数之间的差别大小,推断g各总体均数间有MS且间=SS组间/v组间;MS且内=SS组内/v组内

无差别。

5、完全随机设计资料的方差分析:

3、方差分析的应用条件为:各个样本是相互独立的随机样本,均来自于正

态分布总体:相互比较的各个样本的总体方差相变异来源自由度MSF

等•即具有方差齐性。

总变异N-1总变异N-1

MS且间/MS组

组间MS且间处理问MS处理MSt理/MS误差

g-1内g-i

MS区且/MS误

组内N-gMS且内区组间n-1MS区组

完全随机设计资料:误差(n-1)(g-1)MS吴差

正态分布且万差齐:单因素方差分析

随机区组设计资料:

成组t检验(意义相同t2=F)

正态分布且方差齐:双向分类的方差分析

非正态分布或/和方差不齐:变量转换单因素方差分析

配对t检验(苣义相同t2=F)

秩和检验

非正态分布或/和方差不齐:变量转•换一双向分类的方差分析

6、随机区组设计资料的方差分析:

FriedmanM检验

变异来源自由度MSF

7、拉丁方设计资料的方差分析:

初衷:考虑环境因素对实验结果的影响。

列区组g-1MS列MS列/MS误差

可多安排一人已知的对实验结果有影响的非处理因素,增加了均衡性,减

误差吴差

少了误差,提高了效率。(g-i)(gMS

-2)

完全随机设计只涉及一个处理因素;

8两阶段交叉设计资料的方差分析

随机区组设计涉及一个处理因素'•个区组因素:

该设计不仅平衡了处理顺序的影响,而且能把蛆理方法间的差别'时间

如果实验研究涉及一个处理因素和两个控制因素,每个因素的

先后之间的差别和实验对象之间的差别分开来分析。

类别豹或水立数相等,此时可采用粕丁方世■计。

9'多样本均数间的多重比较方法:LSD-t检验Qunnett-t检验、SNK-q

变异来源自由度F

MS检验三种。

总变异N-110、多样本方差比较:Bartlett检验'Levene检验

处理组g-iMS处理MS处理/MS谟差

第九章计数贯料的统计描通

行区组g-iMS亍MSVMS误差

1、基本概念:

、相对数(Relativenumber):是两个有知御数据之比,用以说明

事物的相对关系,便于对比分析。

常用的相对数指标很多,按联系的性质和说明的问题不同,主

要分为:率、构成、相对比三类。

2、强度相对数-频率(frequency):是最常见的一种相对数,频率在实

践中又称为比率(proportion)。它表示事物内部某个组成部分所占的相

对多少。

3、结构相对数一构成比(constituentratio):说明某事物

内部各组成部分所占的比重或分布,又称构成比。构成比

可相加,和等于100%

4、优势相对数一比(ratio):是指两个有关联的指标A和B之比,简称

比。A和B可以是性质相同,也可以是性质不相同。通常以倍数或百分

数(%表示。

5、率的标准化法:指的是消除内部构成差别,使总体率能够直接进行

比较的方法。采用统一标准调整后的率为标准化率,简称为标化率

(standardizedrate)。

标准化的基本思想:采用统一的“标准人口构成”,以消除人口构

成不同对各组总率的影响,使算得的标准化率具有可比性。

6、动态数列(dynamicseries):是按时间顺序排列的统计指标(可

以为绝对数,相对数或平均数),用以观察和比较该事物在时间上的变化

和发展趋势。

分析动态数列常用的指标有:绝对增长量、发展速度与增长速度、平均发

展速度与平均增长速度。

7、发展速度:表示报告期指标的水平相当于基线期(或前一期)指标

的百分之多少或若干倍。

8、增长速度:表示的是净增加速度,增长速度二发展速度-1

(100%

2、率的标准化的注意事项:

1•标准化后的标准化率,已经不再反映当时当地的实际水平,它只是

表示相互比较的资料间的相对水平。

2•两样本标准

化率是样本值,存在抽样误差。当样本含量较小时,比较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论