医学统计学总结._第1页
医学统计学总结._第2页
医学统计学总结._第3页
医学统计学总结._第4页
免费预览已结束,剩余16页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医学统计学总结一. 绪论1,医学统计学: 运用概率论和数理统计学的原理和方法, 研究医学领域中随机现象有关数据的搜集、 整理、分析和推断,进而阐明其客观规律性的一门应用科学。2,医学统计学的主要内容:1) 统计研究设计调查研究设计和实验研究设计2) 医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。A:资料的搜集与整理 B :常用统计描述, 集中趋势和离散趋势,相对数,相关系数, 回归系数, 统计表,统计图 C :统计推断,如参数估计和假设检验。3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、 聚类分析、 主成分分析、 因子分析、logistic回归与 Cox 回归

2、分析。3,统计工作步骤:1) 设计 明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。2) 搜集材料A, 搜集材料的原则及时、准确、完整B, 统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表, 二是经常性工作记录,三是专题调查或专题实验。C, 资料贮存3) 整理资料 a 检查核对b 设计分组 c 拟定整理表d 归表4) 分析资料统计分析包括统计描述和统计推断4,同质( homogeneity ):指被研究指标的影响因素相同。变异 (variation):同质基础上的各观察单位间的差异。变量 (variab

3、le):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。变量类型变量值表现实例资料类型数值变量离散型产前检查次数定量测量值,有计量单位计量资料连续型身高分无二分类对立的两类属性性别(男女)类序多分类不相容的多类属性血型( A,B,O,AB )计数资料变量有多分类类间有程度差异的属性受教育程度(小学,中序学,高中,大学 )等级资料5,总体( population) 根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总体具有的基本特征是:同质性样本( sample ) 从总体中随机抽取部分观察单位,

4、其变量值的集合构成样本。样本必须具有 代 表性。代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。统计量( statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。参数( parameter )描述总体变量值特征的指标(总体率,标准差,总体均数)。抽样误差( sampling error ):由于个体差异的存在,即使在同一整体中随机抽取若干样本,各样本的统计量往往不等,统计量与参数也会有所不同。这种因抽样研究引起的差异称抽样误差。随机事件( random event )对随机试验的各种可能结果的集合。概率( probability) 描述随机事件发生的可能性大

5、些哦的一个度量。小概率事件 若随机事件 A 的概率 P(A) ,习惯上, =0.05 时,就称 A 为小概率事件。其统计学意义是小概率事件在一次随机试验中认为不会发生。抽样误差1,抽样误差( sampling error) 由抽样而造成的样本统计量与总体参数之间的差异或各样本统计量之间的差异。在医学统计学中,常把由抽样造成的样本均数与总体均数间的差异称为均数的抽样误差;由抽样造成的样本率与总体率之间的差异称为率的抽样误差。2,样本均数的标准差(简称标准误,standard error) 反映均数的抽样误差大小的指标。大,抽样误差大;反之,小,抽样误差小。( 3.1)实际 工 作 中往往 未 知

6、 的, 可 用 样本 标 准 差s 作的估 计 值 ,计 算 标 准误 的 估 计值。( 3.2)3,标准误的用途:a,衡量样本均数的可靠性;b,估计总体均数的置信区间;3,用于均数的假设检验。4,标准误的估计值的用途:a ,描述抽样误差的大小;b ,总体参数的估计;c ,用来进行假设检验。5,率的抽样误差:由抽样造成的样本率与总体率的差异称为率的抽样误差。衡量率的抽样误差大小的指标是率的标准误。越小,率的抽样误差越小;越大,率的抽样误差越大。( 3.3)其中为总体率。实际工作中, 由于往往是未知的, 可用样本率p 作的估计值, 计算率的标准误的估计值。( 3.4)。标准差( s)标准误计算公

7、式 s=(1)表示观察值的变异程度( 1)估计均数的抽样误差的大小( 2)估计总体均数的可信区间(2)计算变异系数 CV=100%(,)(3)确定医学参考值范围( 3)进行假设检验(4)计算标准误简述标准差、标准误的区别与联系?区别:( 1)含义不同:标准差S 表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S 越大,变量值( x)越分散;反之变量值越集中,均数的代表性越强。标准误估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。(2)与 n 的关系不同:n 增大时, S 趋

8、于 (恒定),标准误减少并趋于 0(不存在抽样误差)。( 3)用途不同:标准差表示 x 的变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间和假设检验。联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。标准差:标准误:二 . 分布正态分布1 ,正态分布的函数其中为总体均数,为总体标准差,为圆周率,为自然对数的底,且仅为变量。以为横轴,以为纵轴,当均数和标准差已知时即可绘出正态分布曲线。为应用方便,将式中进行变量变换,使原来的正态分布变为的标准正态分布,亦称分布。被称为标准正态变量或标准正态离差,将代入上述公式即得标准正态分布的密

9、度函数。(2.17 )( 2.18 )2 ,正态分布的特征( 1)正态曲线( normal curve )在横轴上方均数处最高。( 2)正态分布以均数为中心,左右对称。(3)正态分布有2 个参数( parameter ),即均数(位置)和标准差(形状)。当固定不变时,越大,曲线沿横轴越向右移动;反之,越小,则曲线沿横轴越向左移动。当固定不变时,越大,曲线越平阔;越小,曲线越尖峭。通常用N (,)表示均数为、方差为的正态分布。用( 0, 1)表示标准正态分布。(4)正态分布在1处各有一个拐点。(5)正态曲线下面积的分布有一定规律。3,常用的两个区间:1.96及2.58的区间面积分别占总面积的95

10、%及 99%。4,正态分布的应用1 ),制定医学参考值范围a,正态分布法适用于正态或近似正态分布的资料双侧界值:;单侧上界 :,或单侧下界:。b,对数正态分布法适用于对数正态分布资料双侧界值:,或单侧下界c,百分位数法常用于偏态分布资料及资料中一端或两端无确切数值的资料。双侧界值:;单侧上界:,或单侧下界:。;单侧上界:和2 )正态分布是多种统计方法的理论基础如 t 分布, F 分布,分布都是在正态分布的基础上推导出来的,分布也是以正态分布为基础的。另外t 分布,二项分布,poisson 分布的极限为正态分布,一定条件下可按正态分布原理处理。t 分布1, t 分布:(3.5)t 分布的特征为:

11、1以 0 为中心,左右对称的单峰分布。2t 分布曲线形态变化与自由度的大小有关。自由度越小,则t 值越分散,曲线越低平;自由度逐渐增大时,则t 分布逐渐逼近正态分布(标准正态分布)。当=时, t 分布为u 分布。 t 界值表附图中非阴影部分面积的概率为:2,总体均数的估计:用样本指标估计总体参数称为参数估计,是统计推断的一个重要方面。总体均数的估计有2 种方法。一是直接用统计量估计总体参数,称为点值估计。由于抽样误差的存在,此法很难估计准确。二是区间估计(interval estimation )法。区间估计是按一定的概率所在的范围,亦称可信区间(confidence interval ,CI

12、 )。常取的可信度为99%可信区间。计算方法有3 种:(1)未知且 n 小 按 t 分布原理用式(3.6)计算可信区间。100(1-)% 估计总体均数95%和 99%,即 95%可信区间和由于将代入,得则总体均数的100 ( 1-) % 可信区间的通式为:( 3.6)或写成(,)。(2)未知,但 n 足够大时( n>100) t 分布逼近 u 分布,按正态分布原理,用式(3.7)估计可信区间。() ( 3.7)(3)已知 按正态分布原理,用式(3.8)估计可信区间。()( 3.8 )标准正态分布(u 分布)与 t 分布有何异同?答:相同点: t 分布和标准正态分布(u 分布)都是以0 为

13、中心的正态分布。标准正态分布是t 分布的特例(自由度是无限大时)。不同点: t 分布为抽样分布,u 分布为理论分布;t 分布比标准正态分布的峰值低,且尾部翘得更高;t分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布;t 分布有无数条曲线,而u 分布只有唯一一条曲线。二项分布1,二项分布( binomialdistribution )是对只具有2 种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。二项分布概率公式:( 3.9)式中 n 为独立的贝努力试验次数,为成功的概率, (1-)为失败的概率,X 为在n 次贝努力试验中出现“成功” 的次数,表示在 n 次试验中出现X

14、的各种组合数, 在此称为二项系数 ( binomial coefficient )。2,二项分布的应用条件:(1)各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡。(2)已知发生某一结果(阳性)的概率为,其对立结果的概率为1-,实际工作中要求是从大量观察中获得比较稳定的数值。(3)n 次试验在相同条件下进行,且各个观察单位的观察结果相互独立。3,二项分布的性质:A,二项分布的均数和标准差在二项分布的资料中,当和 n 已知时,它的均数及其标准差如下:=n(3.11)( 3.12)若均数和标准差不用绝对数表示,而是用率表示时,即对式(3.11)( 3.12)分别除以n,得:( 3.1

15、3)( 3.14)是 样 本 率 的 标 准 误 的 理 论 值 , 当未 知 时 , 常 用 样 本 率p作 为的 估 计 值 , 则 :( 3.15)B,二项分布的累计概率二项分布的累计概率(cumulative probability )常用的有左侧累计和右侧累计2 种方法。从阳性率为的总体中随机抽取n 个个体,则(1)最多有 k 例阳性的概率(3.16)(2)最少有k 例阳性的概率(3.17)D,二项分布的形状取决于和 n 的大小:(1)当=0.5 时,分布对称; 当<0.5 时,分布呈正偏态, 且固定n 时,越小,分布越偏; 当>0.5时,分布呈负偏态,且固定n 时,越大

16、,分布越偏。(2)对固定的,分布随n 的增大趋于对称。4,总体率的估计总体率的估计也有点估计和区间估计,的可能范围。样本率的理论分布和样本含量点估计是简单地用样本率来估计总体率;n、阳性率p 的大小有关,所以需要根据区间估计是求出总体率n 和 p 的大小不同,分别选用下列2 种方法。(一)查表法当样本含量n 较小,如n50,特别是p 很接近于0 或 1 时,按二项分布的原理估计总体率的可信区间。(二)正态近似法当样本含量n 足够大,且样本率p 或 1-p 均不太小,如np 与 n(1-p)均大于本率的 p 的抽样分布近似正态分布,总体率的可信区间可按下列式(3.17)进行估计。5 时,样(3.

17、17)Poisson 分布1, Poisson 分布泊松分布是在很小,样本含量n 趋向于无穷大时,二项分布的极限形式。更多地用于研究单位时间、单位人群、单位空间内,某罕见事件发生的次数的分布。X=0 ,1,2( 3.19)式中=n为 Poisson 分布的总体均数,X 为单位时间或单位空间内某事件的发生数,e 为自然对数的底,约等于2.71828 。在实际运算中,P ( X )亦可按式(3.20 )作递推计算。(3.20)2, Poisson 分布应用条件:A , 要求事件的发生是相互独立B, 发生的概率相等C, 结果是二分类3, Poisson 分布的性质:A , 该分布是一种单参数的离散型

18、分布,其参数为次数,又称强度参数。,它表示单位时间或空间内某件事平均发生的B, Poisson 分布的方差和均数相等,即=C, Poisson 分布的累计概率(1) 最多为 k 次的概率(2) 最少为 k 次的概率4, Poisson 分布的图形已知,就可按公式计算得出X=0 ,1,2,时的P(X )值,以X 为横坐标,以P(X) 为纵坐标作图,即可会出 Poisson 分布的图形。值越小,分布越偏,随着的增大,分布越趋于对称,当=20 时,分布接近正态分布,当=50 时,可以认为 Poisson 分布呈正态分布N(,)按正态分布处理。5, Poisson 分布具有可加性6,总体参数的估计由样

19、本均数(样本计数)X 估计总体均数也有点(值)估计和区间估计,区间估计的方法,需视样本计数(样本均数)X 的大小而定, X 小时用查表法,X 大时用正态近似法。(一)查表法当样本计数X时,用 X 值查附表poisson 分布的可信区间,可得总体均数的 95%或 99%可信区间。(二)正态近似法当样本计数X>50时,可用正态近似原理下面公式求总体均数的95%或99%可信区间正态分布、二项式和泊松分布的关系:二项分布( binomial distribution ):对只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。 Poisson 分布是在 很小,样本含量n 趋于无穷大时

20、,二项分布的极限形式。当v=时, t 分布即为 u 分布,趋向正态分布。可信区间与参考值范围的区别:意义、计算公式和用途均不同。(1)参考值范围是指同质总体内包括百分之几十个体值的估计范围。而可信区间是指在百分之几十的可信度估计的总体参数的所在范围。( 2)同样的百分之几十,参考值范围是样本范围,可信区间是指可信度范围,二者有着本质的不同。( 3)从意义来看, 95参考值范围是指同质总体内包括95个体值的估计范围,而总体均数95可信区间是指按95可信度估计的总体均数的所在范围。( 4)从计算公式看,若指标服从正态分布,95参考值范围的公式是:±1.96s。总体均数95可信区间的公式是

21、:。前者用标准差,后者用标准误。前者用1.96,后者用 为 0.05,自由度为 v 的 t 界值。( 5)从用途上看,可信区间用来估计总体均数,参考值范围用来判断观察对象的某项指标是否正常。简述检验假设与可信区间的联系与区别。答:(1)可信区间用于推断总体参数所在的范围,假设检验用于推断总体参数是否不同。前者估计总体参数的大小,后者推断总体参数有无质的不同。(2)可信区间也可回答假设检验的问题。但可信区间不能提供确切的 P 值范围,只能给出在 水准上有无统计意义。(3)可信区间还可提示差别有无实际意义。统计图表1,绘制统计图的基本要求:A , 根据资料性质和分析目的据顶适当图形。B, 标题应说

22、明资料的内容、时间和地点,一般位于图的下方。C, 图的纵、横轴应注明标目及对应单位,尺度应等距或具有规律性,一般自左而右、自下而上、由小到大。D, 为使图形美观并便于比较,统计图的长宽比例一般为7:5,有时为了说明问题也可以变动。E,比较、说明不同的事物时,可用不同颜色或线条表示,并常附图例说明,但不宜过多。2,常用统计图的适用条件与绘制1 条图( bar graph) 用等宽长条的高度表示按性质分类资料各类别的数值大小,用于表示它们之间的对比关系。2 圆图( pie graph)圆形图适用于百分构成比资料,表示事物各组成部分所占的比重或构成。3 百分条图( percent bar) 意义及适

23、用资料同圆图,也称构成条图。4 线图( line graph) 线图适用于连续性资料,以不同的线段升降来表示资料的变化,并可表明一事物随另一食物(时间)而变动的情况。5 直方图( histogram) 直方图用于表达连续性资料的频数分布。6 散点图( scatter diagram) 散点图以直角坐标系中各点的密集程度和趋势来表示两现象间的关系。常用在对资料进行相关分析之前适用。单变量资料一,数值变量统计描述1,频数表的编制求全距定组段和组距列频数表画频数图2,频数分布的两个重要特征:集中趋势和离散趋势3,频数分布可以分为正态分布和偏态分布4,频数表的用途:揭示资料分布类型和分布特征,以便选取

24、适当的统计方法;便于进一步计算指标和统计处理;便于发现某些特大或者特小的可疑值。5,集中趋势的描述:均数几何均数中位数百分位数6,均数 (mean):算术均数的简称。常用=表示。7,中位数 (median):一组由小到大按顺序排列的观察值中位次居中的数值,用M 表示。可用于描述任何分布,特别是偏态分布资料以及频数分布的一端或两端无确切数据资料的中心位置。8,百分位数 (percentile)是一种位置指标,用表示。一个百分位数P将一组观察值分为两部分,理论上有 x%的观察值比它小,有(100-x )%的观察值比它大。可用于确定非正态分布资料的医学参考值范围。9,离散趋势的描述:全距(range

25、) 四分位数间距(quartile )方差标准差10,全距( range)亦称极差,为一组同质观察值中最大值和最小值之差。反映个体差异的范围,优点是计算简单,缺点是:1)只考虑最大最小值之间的差异,不能反映组内其他观察值的变异度;2)样本含量相差悬殊时不宜用全距比较。11,四分位数间距( quartile ) 上四分位数与下四分位数之差。常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。12,方差( variance)离均差的平方和表示。13,标准差( standard variance)的作用: a,估计变量值的离散程度b,计算变异系数c,与均数结合,估计变异值的频数分布范

26、围d,计算标准误( 总体 )s=(样本)14, 变异系数( coefficient of variation ) 常用于比较度量单位不同或均数相差悬殊的两组或多组资料的变异度。 CV=100%假设检验1,假设检验( hypothesis test)亦称显著性检验(significance test),其基本思想是先对总体的参数或分布做出某种假设,如设总体均数(或率)为一定值;两总体均数(或率)相等;总体服从正态分布或两分布相同等,然后根据样本信息选用适当的方法,推断此假设应当拒绝或不拒绝。2,假设检验的一般步骤:( 1)建立假设和确定检验水准:根据实际情况确定单、双侧检验,建立假设,确定检验水

27、准;( 2)选定检验方法和计算统计量: 根据设计的类型及研究目的选择合适的检验方法并计算出对应的统计量;(3)确定 P 值并做出推断结论。若tt ,v,则 P ,按检验水准,拒绝H0,接受H1,尚可认为差异显著有统计学意义;相反则差异不显著,无统计学意义3,假设检验时应注意的事项:( 1)要有严密的抽样研究设计; 样本必须是从同质总体中随机抽取的,要保证组间的均衡性和资料的可比性,可能影响结果的非处理因素在对比组间应尽可能相同或相近;( 2)正确选择检验方法;根据现有的资料类型、设计类型、分析目的、样本含量等因素选用适当的检验方法,如不符合条件可做适当转换;( 3)正确理解“差别无显著性”的含

28、义,差别有统计学意义,不能理解为两者差差大,也不能理解为所分析的指标在实际应用上就有“显著效果”。( 4)检验假设的推断结论为概率结论,不能绝对化:检验水准人为规定,是相对的,报告结论时应列出检验统计量和 P 值的确切范围。( 5)注意是单侧检验还是双侧检验I 型错误和 II 型错误 :I 型错误( type I error )拒绝了实际上成立的,即样本原本来自的总体,由于抽样的偶然性得到了较大的t 值,所以拒绝了,接受了,这类弃真错误称为第一类错误,犯第一类错误的概率是。II 型错误( type II error )是不拒绝实际上不成立的,即“存伪”即样本原本来自的总体,但是由于抽样的偶然性

29、,得到了较小的t 值,得到了较大的P 值,没有拒绝,这类存伪错误称为第二类错误,犯第二类错误的概率是1-正态性检验 :用均数和标准差描述资料的分布特征,对例数n 较小的样本进行t 检验时,首先要求样本取自正态分布的总体。两个方差的齐性检验 :两样本均数比较的 t 检验和多个样本均数比较的方差分析要求各样本所来自的总体方差相等。两样本方差的齐性检验:( 4.12)式中为较大的样本方差,为较小的样本方差,为分子的自由度,为分母的自由度,相应的样本例数分别为和。当两总体方差齐同时,F 值一般不会离1 太远;若算得的F 值较大,大于我们规定的界值时,就认为两样本所在总体的方差不齐。t 检验t 检验:常

30、用于总体标准差未知且样本含量较小时样本均数与总体均数的比较,成组设计的两个小样本的均数的比较及配对设计的两样本均数的比较。t 检验的应用条件:a,n 50 b,样本来自正态分布的总体c ,两样本均数比较时要求两样本总体方差相等。1,单样本t 检验( one sample t-test):样本均数与已知总体均数比较,目的是推断样本所代表的未知总体均数与已知总体均数有无差别。()(4.1)式中为样本均数,为已知总体均数,s 为样本标准差,n 为样本含量,为自由度。步骤如下(可为u 检验)1)建立假设,确定检验水准。H0: = 0 H1: 0 =0.052)计算统计量。已知, ( 总体均数 ) 0=

31、,n=,= , s=3)确定 P 值,做出推断结论。按 v=n-1 ,查 t 界值表,得P>0.05(或 P<0.05),按 检验水准,不拒绝H0 (或拒绝 H0 ,接受 H1),即根据本资料尚不能(可以)认为?与?有差异。2,配对设计资料的t 检验分为 3 种情况:将受试对象按一定条件配成对子(同种属、同体重、同年龄、同性别等) ,再随机分配每对中的2 个受试对象到不同的处理组;同一受试对象分别接受2 种不同处理,其目的是推断 2 种处理的效果有无差别;同一受试对象处理前后的比较,其目的是推断某种处理有无作用。配对设计资料的t 检验( paired t-test for depe

32、ndent samples)的基本思路: 首先计算出各对差值d 的均数,当 2 种处理结果无差别或某种处理不起作用时,理论上差值的总体均数应该为 0,故可将配对设计资料的 t 检验视为样本均数与总体均数的比较。( 4.2)式中为样本中各对差值d 的均数,为样本差值的标准差,n 为对子数,为自由度。先列表求差值d 和1)建立假设,确定检验水准。H0: d =0H1: d0 =0.052)计算统计量。已知, n=, d=,=3)确定 P 值,做出推断结论。按 v=n-1 ,查 t 界值表,得P>0.05(或 P<0.05),按 检验水准,不拒绝H0 (或拒绝 H0 ,接受 H1),即根

33、据本资料尚不能(可以)认为?。3,成组设计资料两样本均数比较的t 检验(two-sample t-test for independent samples):在临床医学研究中,进行配对设计比较困难,一般分别从2 个总体中随机抽样,进行成组设计两样本均数的比较,目的是推断2 个总体均数是否相等。所比较的两个样本含量最好相等,此时抽样误差最小。(4.3)可为 t,u 检验1)建立假设,确定检验水准。: 1=2: 1 2 =0.052)计算统计量。已知, n1=, X1= ,=, n2=, X2= ,=1=X1/n1= ,2=X2/n2=(已知, n1=,1=, s1=, n2=,2=,s2=3)确

34、定P 值,做出推断结论。按 v=n1+n2-2 ,查 t 界值表,得P>0.05(或P<0.05),按 检验水准,不拒绝H0 (或拒绝H0 ,接受H1),可以认为?的差别无(或有)统计学意义。检验u 检验( u-test,或Z-test):用检验统计量u 来命名的。用于样本含量n 足够大( n>50),或n 虽小但总体标准差已知时的样本均数与总体均数的比较、成组设计两样本均数的比较。1,单样本u 检验(one sample u-test):( 4.4)式中为样本均数,为已知总体均数,s 为样本标准差,n 为样本含量。2,成组设计的两样本均数比较的u 检验( two-sampl

35、e u-test for independent samples):(4.5)式中,分别为两样本均数,为两样本均数差值的标准误,、为分别为两样本的方差,、分别为两样本例数。标准正态分布(u 分布)与 t 分布有何异同?答:相同点: t 分布和标准正态分布(u 分布)都是以0 为中心的正态分布。标准正态分布是t 分布的特例(自由度是无限大时)。不同点:t 分布为抽样分布,u 分布为理论分布;t 分布比标准正态分布的峰值低,且尾部翘得更高;t 分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布;t 分布有无数条曲线,而u 分布只有唯一一条曲线。方差分析1,方差分析的基本思想:按研究目

36、的和设计类型,将总变异中的离均差平方和SS 和自由度分别分解成相应的若干部分,然后求得各相应部分的变异;由于其中的组内(或误差)变异主要反映个体差异或抽样误差,其他各部分的变异与之比较得出统计量F 值,根据F 值的大小确定P 值,并做出推断。2,方差分析的优点:(1)不受比较组数的限制,可比较多组均数(2)可同时分析多个因素的作用(3)可分析同类间的交互作用3,方差分析的应用范围:( 1)2 个或多个样本均数间的比较( 2)分析 2 个或多个因素间的交互作用( 3)回归方程的线性假设检验( 4)多元线性回归分析中偏回归系数的假设检验( 5)两样本方差齐性检验完全随机设计的方差分析:是将总变异中

37、的离均差平方和SS 和自由度分别分解成组间和组内两部分,SS/和 SS/SS分别为组间变异(MS)和组内变异(MS),两者之比即为统计量F。(1)总离均差平方和及自由度:SS =( 5.2)=( 5.3)(2)组间离均差平方和、自由度和均方:SS=(5.4)=(组数 -1)(5.5)MS=(5.6)(3)组内离均差平方和、自由度和均方:SS=SS -SS( 5.7)=N-k (样本量 -组数)(5.8)MS=当方差分析的推断结果为拒绝H0 ,接受即多重比较 (multiple comparisons)。 可用(5.9)H 1 ,各总体均数不同或不全相同时,应对均数进一步两两比较,q 检验进行分

38、析:( 5.14)式中为方差分析的组内均方,若为两因素或两因素以上的方差分析,则为误差项均方;和分别为两样本的样本含量。配伍组设计资料的方差分析配伍组设计亦称随机区组设计(randomized block design ),其多个样本均数比较可用无重复数据的两因素方差分析( two-way ANOVA )。 2 个因素是指主要的研究因素和配伍组因素。两因素的方差分析是把总变异中的离均差平方和与自由度分别分解成处理组间、配伍组间和误差三部分。计算公式如下:变异来源离均差平方和自由度均方 MSF总-C处理组间k-1配伍组间b-1误差( k-1)( b-1)SS-SS-SS,为配伍组数二,分类变量统

39、计描述常用相对数,即率,构成比,和相对比对分类资料进行统计描述1, 率( rate):率又称频率指标,它说明某现象发生的频率或强度率=2,构成比( proportion ):又称构成指标,它说明一事物内部各组成部分所占的比重或分布,常以百分数表示构成比 =3,相对比( relative ratio )亦称比,是 A,B 2 个有关指标之比,说明 A 和 B 的若干倍或百分之几,是相对数的最简单形式。 A , B 性质可相同可不同。相对比 =4 ,应用相对数时应注意的事项:(一)计算相对数的分母不宜过小。(二)分析时不能以构成比代替率。(三)对观察单位数不等的几个率,不能直接用相加求其平均率。(

40、四)资料的对比应注意可比性。(五)对样本率(或构成比)的比较应遵循随机抽样,要做假设检验。(六)区别清分子分母。5,率的 u 检验1),样本率与总体率比较:目的是推断样本率所代表的总体率与某已知总体率是否相等。根据资料的不同情况,可以采用不同的假设检验方法:若很小,可用Poisson 分布原理做检验;若不太靠近 0 或 1 时,可用二项分布原理做检验;当样本含量n 足够大时,或且,二项分布逼近正态分布,可用u 检验计算其样本检验统计量。(6.1)式中p 为样本率,为已知总体率(常为理论值或标准值),n 为样本含量。2),两样本率比较:两个样本率作比较的目的是推断两个样本各自代表的两总体率是否相

41、等,当两个样本满足正态近似条件且样本含量较大时,可用u 检验,其公式:(6.2)式中、分别为两个样本率,、分别为两样本含量,为两个样本率之差的标准误,为合并阳性率,、为两个样本阳性例数。四格表资料的检验适用于分类变量资料中推断两个或多个总体率(或构成比)之间有无差别,两个分类指标之间有无相关关系的检验以及检验频数分布的拟合优度。(6.3)式中A 代表实际频数,T 代表理论频数。格子理论频数可用同样方法求得,其计算公式为:( 6.4)( 6.5)四格表资料的专用公式:(6.6)式中 a、b、 c、d 分别为四格表的实际频数=a+b+c+d。四格表的值的校正。当所有T>5,n>40 时

42、用上述公式;当有 1<T<5 ,且 n>40 时,需进行连续性校正:(6.7)( 6.7)或 n<40 时,需用四格表资料的确切概率法。行×列表资料的检验 。(6.9)式中n 是总例数,A 是每个格子的实际频数,分别为某格子对应的行合计和列合行×列表检验注意事项(1)X2 检验要求理论频数不宜太小,否则将导致偏性。一般认为行X 列表资料中不宜有1/5 以上的格子理论数小于5,或有一个格子理论数小于1。处理方法:最好的方法是增加样本例数,以增大理论频数;且精确概率法;进行合理的合并;删除理论频数太小的行和列,后两种方法将损失一定的信息并影响样本的随机性

43、。(2)单向有序列行X 列表的统计处理:当效应按强弱分为若干个级别,试验结果整理为单向有序行列表,在比较各处理组的效应有无差别时,宜用秩和检验或Ridit 分析。(3)当多个样本率比较的检验。结论为拒绝H0 ,只能认为各总体率或总体构成比之间总的说来有差别,但不能说明它们彼此间都有差别,或某两者间有差别。若要进一步解决此问题,可用卡方分割法。配对四格表资料的卡方检验:(一)关联性分析:(1)建立假设检验,确定检验水准。H0:两种方法的检验结果无关系H1:两种方法的检验结果有关系 =0.05( 2)计算统计量 X2 值。n>=40,T>=5, n>=40,1<T<5

44、,n<40 或 T<1, 四格表确切概率法。(3)确定 P 值,做出推断结论。X2>3.84 , P<0.05,按 =0.05检验水准,拒绝H0,接受 H1 ,可以认为两种方法的检验结果有关系。(二)差别性检验:(1)建立假设检验,确定检验水准。H0:两总体的B=CH1:两总体的B 不等于 C =0.05( 2)计算统计量 X2 值。b+c>40 时: b+c<40 时,(3)确定 P 值,做出推断结论。X2>3.84 , P<0.05,按 =0.05检验水准,拒绝H0,接受 H1 ,可以认为两种方法的检验结果有差别。( X20.05(1)=3.84, X20.005(1)=7.88 )非参数检验参数检验和非参数检验的优缺点:参数检验的优点是对资料的分析利用充分,统计分析的效率高; 缺点是对资料的要求高,适用范围有限。非参数检验的优点:(1)适用范围广,对变量的类型和分布无特殊要求,不受总体分布的限制;(2)对数据的要求不严,对某些指标不便准确测定的资料也可应用;(3)方法简便,易于理解和掌握。缺点是如果对符合参数检验的资料用了非参数检验,因不能充分利用资料提供的信息,会使检验效能低于非参数检验;若要使检验效能相同,往往需要更大的样本含量。配对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论