计量资料的统计分析.ppt_第1页
计量资料的统计分析.ppt_第2页
计量资料的统计分析.ppt_第3页
计量资料的统计分析.ppt_第4页
计量资料的统计分析.ppt_第5页
已阅读5页,还剩123页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、常用医学统计方法 Medical Statistics,教 学 内 容,9.7 3学时 计量资料的统计分析(理论课) 9.7 2学时 计量资料的软件实现(操作演示) 9.9 3学时 计数资料的统计分析(理论课) 9.9 2学时 计数资料的软件实现(操作演示),计量资料的统计描述 Descriptive Statistics,统计资料的分类,1、计量资料(或定量变量) 2、计数资料(或无序分类变量) 3、等级资料(或有序等级变量),计量资料(或定量变量),1.定义:测定每个观察单位的某项指标量的大小,所得的资料称为计量资料。其变量值是定量的,表现为数值大小,一般带有度量衡或其它单位。 2.特点:

2、每个观察单位的观察值之间有量的区别。,1.定义:将观察单位按某种属性或类别分组计数,得到各组观察单位数称为计数资料。 2.特点:计数排列是无序分组,同组各观察单位之间没有量的差别,但各组间有质的不同,不同质的观察单位不能归入一组。 变量值是定性的,表现为互不相容的属性或类别 二项分类和多项分类,计数资料(或无序分类变量),等级资料(或有序等级变量),1.定义:将观察单位按某种属性的不同程度而顺序分组,所得各组的观察单位数称为等级资料,通常有两个以上等级。这类资料具有计数资料的特点,但所分各组之间又有等级顺序,如由轻到重、由小到大排列。 2.特点:等级是有序分组。同计数资料的区别是:属性的分组有

3、程度或等级的差别,各组按一定顺序排列;与计量资料的区别是:每个观察单位未确切定量,所以又称为半定量资料。,资料的转化,根据分析的需要,变量可以转化,但只能由高级向低级转化。连续型有序分类二值,血红蛋白(g/dl) 等级 计数 6 重度贫血 异常 6 中度贫血 异常 9 轻度贫血 异常 1216 血红蛋白正常 正常 16 血红蛋白增高 异常 但必须明确,凡能计量的,应尽可能采用计量资 料;因为计量资料可以得到较多的信息。,实例(一),实例(二),城市脑力劳动者调查资料部分指标摘录,注:体重指数=体重/身高3 (Kg/m3); 嗜肥肉史 有1,无0 劳动强度 轻1,中等2,重3 紧张程度 不紧张1

4、,一般2,紧张3 班制 日班制1,两班制2,三班制3,平均数指标 Average Number,平均数指标,平均数(average) 是描述一群同质变量值集中位置的特征值,用以说明同类现象或事物数量的中等水平(集中趋势)。 常用的有算术均数、中位数、众数、几何均数等,算术均数(arithmetic mean),简称均数( mean ),符号为 (相应的总体均数记为)。,算术均数的计算,实例: 某市10名7岁男童体重(kg)分别为: 17.3,18.0,19.4,20.6,21.2,21.8, 22.5,23.2,24.0,25.5,求其平均体重。,均数的应用与特点 适用条件:算术均数适合于对称

5、分布的资料,如分布均匀的小样本数据或近似正态分布的大样本数据; 特点:算术均数容易受极端值的影响.,几何均数(geometric mean),符号为G。 几何均数的计算 几何均数的定义公式为:n个变量值x的连乘积的n次方根。,当n3时,上式计算不便,而常采用以下计算公式: 式中logx表示对观察值x求对数,log-1为相应对数的反对数。 几何均数就是变量对数值的算术均数的反对数。,同一资料,几何均数均数,实例 5人的血清滴度为:1:2,1:4,1:8,1:16,1:32,求平均滴度。,几何均数的应用与特点,适用条件:几何均数常用以描述观察值为等比级数资料(呈倍数关系的等比资料)或对数正态分布资

6、料的集中趋势。 呈等比级数的资料,如血清滴度、抗体效价等; 特点:同一资料,几何均数均数,众数(mode),众数是指在一群观察值中,出现频率最高(即次数最多)的数据,在频数表上表现为频数最多组的组中值,数理上指曲线上的最高点。用符号Mo表示。,适用条件:众数主要应用在对小样本的探索性数据进行分析。 特点:它不受变量数列极端数值的影响,但众值的计算只有在总体单位数足够多,而且又具有明显的集中趋势时,才有意义。,中位数(median),将一组变量值按大小顺序排列,位次居中的变量值即为中位数。中位数将变量值一分为二,一半比它小,一半比它大。符号为M、Md。计算公式为:,中位数的计算,实例 12个数据

7、如下: 顺序号 (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) 数据值 7.4 8.6 8.6 10.8 11.6 11.6 11.6 12.1 12.3 14.3 15.0 15.6,中位数的应用与特点,适用条件:适合各种类型的资料。尤其适合于大样本偏态分布的资料; 资料有不确定数值;资料分布不明等。,特点:由于中位数总处在居中的位置上,将频数等分为二,它不受特大或特小值的影响,仅仅利用了中间的12个数据。,均数、中位数、众数三者关系,正态分布时: 均数中位数众数 正偏态分布时:均数中位数众数 负偏态分布时:均数中位数众数,1.同质事物或

8、现象才能求平均数 2.要根据数据分布类型正确选用平均数 3.要与下一节的离散趋势分析相结合,以弥补反映不出差异和易受极端值影响的缺陷。,在计算和应用平均数指标时的注意事项,变异指标 Variation Number,变异指标(variation number)又称离散指标( Dispersion number),用以描述一组计量资料各观察值之间参差不齐的程度。 变异指标越大,观察值之间差异愈大,说明平均数的代表性就越差;反之亦然。,三组同性别、同年龄儿童体重,极差(Range),意义:是一批数据中最大值与最小值之差,反映了数据散布范围。,符号及计算:,优点:简便。 缺点:不能反映在该范围以内的

9、其它数据的离散度; 各样本含量大小悬殊时,不宜比较其极差; 极差的抽样误差较大,样本的例数越多,极差越大,不够稳定 。 适用条件:极差仅适用于对未知分布的小样本资料作粗略的分析。样本量增大,极差会增大。通常与众数结合使用。,极差(Range),四分位数间距(Quartile range),意义:包括了全部变量值中居于中间水平的一半数据的分布范围。 Q =P25 P75,符号及计算:,缺点:比较稳定,但不能反映其余数据的变异情况,没有充分利用每个变量值的信息。 适用条件:四分位数间距用来描述大样本偏态资料的变异情况。通常与中位数结合使用。,四分位数间距(Quartile range),符号及计算

10、:方差分为样本方差和总体方差。样本方差符号为 ,相应的总体方差符号为 。,方差(Variance),意义:样本观察值的离均差平方和(sum of square,SS)的均值。表示一组数据的平均离散情况。,标准差(standard deviation),意义:标准差即为方差的平方根。其单位与原变量X 的单位相同。,符号及计算:样本标准差符号为s ,相应的总体标准差符号为,三组同性别、同年龄儿童体重,方差与标准差的应用,方差或标准差属同类变异指标,它们多用来描述均匀分布或近似正态分布的资料,大、小样本均可,其中以标准差的应用最广,通常与均数结合使用。比如在许多医学研究报告中常用 的形式表达资料。,

11、方差与标准差的应用,方差是样本观察值的离均差平方的平均值,它全面地反映了数据的变异大小;方差越大,观察值与均数间的差异就越大,数据的变异程度就越大,反之亦然; 标准差的量纲与原始数据一致,适用于对称分布的资料;标准差保持了方差的优点,其单位与观察值单位一致。,变异系数( coefficient of variation ,CV),变异系数可用于不同类型资料间变异程度的比较,,变异系数也可用于均数相差悬殊时同单位资料间变异程度的比较,如不同年龄段同性别儿童的体重变异大小比较等。,符号及计算:,适用条件:,实例:某部队干部体检得到体脂的均数和标准差分别为18.9%和5.8%,血清胆固醇的均数与标准

12、差分别为4.84mmol/L和1.03mmol/L,试比较两者的变异情况。 由于体脂和血清胆固醇是两个不同的观察指标,不能直接比较其标准差大小,而应比较变异系数。对本例: 体脂变异系数: 血清胆固醇变异系数: 显然,体脂变异大于血清胆固醇变异。,变异系数主要用于量纲不同的指标间,或均数相差较大的指标间的变异程度的比较; 极差、四分位数间距与标准差有单位; 变异系数为标准差与均数的比值,无单位;,变异系数的特点,平均数与变异指标的使用范围,均数与标准差: 适用是均匀分布的小样本数据或近似正态分布数据,对样本含量没有要求。 中位数与四分位数间距: 适用于大样本偏态分布资料。 众数与极差: 适用于描

13、述未知分布的小样本数据。 几何均数: 描述近似对数正态分布数据的平均水平或平均发展速度 变异系数: 比较不同资料或同类资料均数相差悬殊时变异程度的比较。,AVERAGE、MEAN 算术均数 GEOMEAN 几何均数 MEDIAN 中位数 MODE 众数 HARMEAN调和均数 STDEV 标准差 VAR 方差 QUARTILE 四分位数 PERCENTILE 百分位数 FREQUENCY频数分布,计量资料的统计推断 Analysis Statistics,假设检验概述 t检验 单因素方差分析,假设检验概述,假设检验(hypothesis testing)亦称显著性检验(significance

14、 testing):目的是通过考察一部分样本对总体作出二择一的决策。,一、假设检验的基本思想,样本均数间存在差异,各样本来自于同一总体,差异仅由抽样误差引起,各样本来自于不同总体,差异不仅包含抽样误差,更主要反映了总体参数间确实存在差异,假设检验的意义,假设检验,质量检查例子:已知一批弹药必须有95%以上的合格才算该批弹药是合格的,现某工厂生产了一批弹药,怎么判断该批弹药是否合格? 一个自然的想法是从该批产品中随机抽取100件来做试验,问题转换成这100件样品中最多有多少件不合格就可以判断该批产品是合格的? 假定该批弹药的合格率为95%,则根据二项分布,从该批弹药中随机抽取100件,有 件不合

15、件的概率为 全部合格 的概率为:0.0059; 至多有1件不合格 的概率为:0.0312; 至多有2件不合格 的概率为:0.0812; 至多有3件不合格 的概率为:0.1396。,假设检验就是基于小概率事件原理即“小概率事件在一次随机试验中几乎不可能发生”这一推断原理的思维判断形式而发展出来的依据随机样本对未知事物进行判断和决策的规则。 它利用了数学中的反证法思想,从一个适当的假设出发,根据小概率事件原理,对该假设进行推断。,例 通过以往大规模调查,已知某地一般新生儿的头围均数为34.50cm,标准差为1.99cm。为研究某矿区新生儿的发育状况,现从该地某矿区随机抽取新生儿55人,测得其头围均

16、数为33.89cm,问该矿区新生儿的头围总体均数与一般新生儿头围总体均数是否不同?,假设检验的目的就是判断差别是由哪种原因造成的。, 抽样误差造成的; 本质差异造成的。,一般新生儿头围 34.50cm,33.89cn,矿区新生儿头围 34.50cm,一种假设H0,另一种假设H1,抽样误差,总体不同,1. 推断总体是否服从某一分布类型,2.推断总体参数与某一确定数值是否有显著性差异,3.推断两个或多个总体参数是否有统计意义上的差异,假设检验可解决的问题,假设检验的基本步骤,建立检验假设和检验水准 选定检验方法计算统计量 确定P值作推断结论,二、假设检验的基本步骤,假设的建立,假设的建立,1、检验

17、假设(hypothesis under test) 即假设一,符号H0,亦称无效假设。 2、备择假设(alternative hypothesis ) 即假设二,符号H1。 两种假设是相互对立的, H0是验证的主题,只有H0在被拒绝时, H1才能接受。 在建立备择假设时,根据不同问题有时用单侧检验,有时用双侧检验。,例如比较山区成年男子的脉搏均数与一般成年男子的脉搏均数。 H0:山区成年男子的脉搏均数一般成年男子的脉搏均数 双侧检验:H1:山区 一般 单侧检验:H1:山区 一般,单侧检验与双侧检验,1.假设是针对总体而言,而不是针对样本。 2.H0和H1是相互对立的假设,后面的结论是根据H0和

18、H1作出的,因此两者不是可有可无,而是缺一不可。,对于检验假设,须注意:,3.H1的内容直接反映了检验单双侧。若H1中只是 0 或 0,则此检验为单侧检验。它不仅考虑有无差异,而且还考虑差异的方向。 4.单双侧检验的确定,首先根据专业知识,其次根据所要解决的问题来确定。若从专业上看一种方法结果不可能低于或高于另一种方法结果,此时应该用单侧检验。一般认为双侧检验较保守和稳妥。,对于检验假设,须注意:,检验水准(significance level) 值:错误地拒绝H0 的概率或接受H1 的风险. 是预先规定的判断小概率事件的概率尺度,它确定了小概率事件的标准。在实际工作中常取 = 0.05。可根

19、据不同研究目的给予不同设置,但不能根据试验结果事后设定。,检验水准,根据设计的类型和统计推断的目的选用适当的统计方法,计算相应的统计量(如t, u, ,F值),利用它来进行统计推断。,选定检验方法,计算统计量,P值概念:在H0所规定的总体中作随机抽样,得到绝对值等于或大于当前的检验统计量的概率。,确定P值作推断结论,若P,结论为按所取检验水准拒绝H0,接受H1,差别有统计学意义; 其统计学依据是,在H0成立的情况下,得到现有统计量的概率P,是小概率事件,因为小概率事件不可能在一次抽样中发生,所以拒绝H0。,确定P值作推断结论,若P,结论为按所取检验水准接受H0,差别没有统计学意义。 不拒绝H0

20、,但不能下“无差别”或“相等”的结论,只能下“根据目前试验结果,尚不能认为有差别”的结论。,确定P值作推断结论,三、假设检验的注意事项,(1)可比性 (2)正确选用假设检验方法 (3)判断结论时不能绝对化,提倡使用精确P值。 (4)单侧检验与双侧检验,(5)报告结果应写出统计量值、具体P值,单侧时应注明; (6)可信区间与假设检验各自不同的作用,要结合使用。 95CI既能说明差别的大小,也具有检验的作用,建议使用。,t 检验,t 检验(t-test)源于t分布 t分布是英国统计学家W.S.Gosset于1908年以“Student”笔名发表论文提出的,所以又称“Students t-distr

21、ibution”。 t分布的发现使得小样本统计推断成为可能,它被认为是统计学发展历史中的里程碑之一。 以t分布为基础的检验称为t 检验,在医学统计学中, t 检验是非常活跃的一类假设检验方法。,t 检验(t-test)又称亦称student t检验(Students t test),主要用于样本含量较小(例如n30),总体标准差未知的正态分布资料。用于: 1. 小样本均数与总体均数的比较; 2. 配对资料的比较; 3. 两样本均数的比较。,实例1:某地正常成年男子凝血酶时间(TT)均数为16.00s。某研究小组测得30例男性肺癌患者的凝血酶时间均数为18.39s,标准差为4.66s,问肺癌患者

22、的凝血酶时间是否高于正常男子?,注意:医学中一些公认的生理常数一般可看作总体均数0 。,目的:推断样本所代表的未知总体均数与已知总体均 数0有无差别。,(1)建立检验假设 H0:=0=16.00 (男性肺癌患者的平均凝血酶时间 与正常男子平均凝血酶时间相同) ; H1: 0,t检验步骤:,(2)确定检验水准: =0.05,(3)计算检验统计量t:,实 例2,附表2 t界值表,根据专业知识确定单、双侧检验,二、配对t检验,随机配对设计(randomized paired design):将受试对象按照某些重要的非处理因素配成对子,每对中的两个受试对象随机地接受两种不同的处理。配对计量资料的特点是

23、数据成对出现,不可拆分。,实验设计类型,(1)两个同质受试对象分别接受不同处理; 如对同窝、同性别大鼠施以两种处理;对双胞胎生理、心理测量结果等。,(2)同一受试对象分别接受不同的处理; 如对同一份血液样品用两种方法进行检测。,(3)同一受试对象接受处理前后。 如对同一病人自身治疗前后比较;将同一份标本一分为二分别处理等。,配对t检验实质上是检验同对数据之差的总体均数是否为0;如果总体均数为0,说明两种处理之间或处理前后之间没有差别;如果总体均数不为0,说明两种处理之间或处理前后之间有差别。 假设检验为同对数据之差的总体均数为0( H0: ),t值的计算,若差值的总体均数为0,则统计量t值服从

24、自由度 的t分布。,实例:10名战士在平原与高原的血氧饱和度(%)见表,试检验平原与高原的血氧饱和度相差是否显著。,3、求P值,下结论 ,在 水准处拒绝H0,接受H1,认为 ,相差显著,平原的血氧饱和度高于高原。,三、两样本t检验,两组完全随机设计:是指将受试单位完全随机地分为两组,每组给予不同的处理。 目的:推断所来自的两总体均数是否相同。 假设检验为两总体均数相同( H0: ),两样本t检验又称成组t检验,适用于完全随机设计两样本的均数比较,t值的计算,实例:某高原研究组将籍贯相同、年龄相同、身高体重接近的20名新战士随机分为甲、乙两组,甲组为锻炼组,每天除常规训练外,接受中速长跑与健身操

25、锻炼,乙组为对照组,按常规训练,一月后测定肺活量(L)结果见表。试比较两组的肺活量有无差别。,1、建立假设、确定检验水准,2、计算检验统计量,3、查t界值表,确定P值 在 水准处拒绝H0,接受H1, ,相差显著,锻炼组的肺活量高于对照组。,方 差 分 析,一、方差分析的基本思想,问题的提出 :比较两个均数 - t 检验,多个均数: -方差分析(analysis of variance,ANOVA),例如全年级不同地区身高分析:,若用两样本均数比较的t检验进行多重比较,将会加大犯I型错误的概率。 例如:现有3个样本均数,进行两两比较共需要3次,若选用检验进行3次比较,每次比较的检验水准取0.05

26、,则每次不犯I型错误的概率为1-0.05,3次均不犯I型错误的概率为(10.05)3 0.8574 ,此时总的I型错误的概率为1-0.8574=0.1426,比0.05大多了。,方差分析的基本原理:是将全部观察值之间的变异(总变异)按设计和研究目的需要分解为两个或多个部分,其自由度也分解为相应的几部分,每部分的变异可由某因素的作用解释,通过比较分析判断该因素对测定结果有无影响。,总变异 = 部分1变异 + 部分2变异 + 随机误差,样本内数据变化很小,但各样本均值间变化较大。由于和样本内变异比较小,样本间的变化较大,可直观地认为对应总体均值是不等的。,表1 三个样本均值的比较(样本内变异小),

27、样本内数据变异较大,且相对于样本内的变化,样本均值间变异较小,依据这些数据就不大可能说对应总体的均值是不同的。,表2 三个样本均值的比较(样本内变异大),图1 表1中的数据,图2 表2中的数据,方差分析就是将样本均值之间的差异和样本内的变异进行比较,从而判断样本均值之间的差异在统计上是否显著。,例:某医生为研究一种四类降糖新药的疗效,以同一的纳入标准和排除标准选择了60名2型糖尿病患者,按完全随机设计方案将患者分为三组进行双盲临床试验。其中降糖新药高剂量组21人,低剂量组19人,对照组20人。对照组服用公认的降糖药物,治疗4周后测得其餐后2小时血糖的下降值(mmol/L),结果如表。问治疗4周

28、后,餐后2小时血糖下降值的三组总体平均水平是否相同?,例:2型糖尿病患者4周后餐后2小时血糖的下降值(mmol/L),1、总变异:包含随机误差(患者的个体差异和测量误差),包含三组用药即处理不同。其大小表示: 18.4176(601)1086.6384 2、组间变异:三组的样本均数各不相同,与总均数也不相同,反映用药不同的影响(处理因素),同时也包含随机误差(患者的个体差异和测量误差)。其大小表示: 3、组内变异: 个体不同,与本组样本均数也不相同,反映随机误差(患者的个体差异和测量误差)。其大小表示:,用均方表示:,若各样本所代表的总体均数相等,即各样本来自同一总体。本例,三组所用药物处理效

29、应相同,组内变异和组间变异一样,只反映随机误差作用大小, 该比值服从分子自由度 ,分母自由度 的F分布。 理论上讲F1,但不同处理对三组的作用不同,即三个总体均数不全相同时, 。 F值要大到多少才有统计学意义?查F界值表得到相应的P值,然后根据检验水准作出推断结论。,本例 312, 60357,查得 F=5.5374.98,P0.01。按0.05水准,拒绝H0,接受H1,有统计学意义。可以认为2型糖尿病患者经药物(新药和标准药物)治疗4周,其餐后2小时血糖的总体平均水平不全相同,即三个总体均数中至少有两个不同。 方差分析表,三种“变异”之间的关系,均方(mean square,MS),F 值,

30、F 界值表,方差分析的应用条件,各样本是相互独立的随机样本; 各样本来自正态总体; 各处理组总体方差相等,即方差齐性或齐同(homogeneity of variance)。,二、完全随机设计资料的方差分析,完全随机设计(the completely random design)是指将受试单位随机地分配到各处理组中进行实验研究,或分别从互相独立的不同总体里随机地抽取样本进行比较的一种设计方法。,实例,某高原研究组将籍贯相同、年龄相同、身高体重接近的30名新战士随机分为三组,甲组为对照组,按常规训练,乙组为锻炼组,每天除常规训练外,接受中速长跑与健身操锻炼,丙组为药物组,除常规训练外,服用抗疲劳药物,一月后测定第一秒用力肺活量(L),结果见表。试比较三组第一秒用力肺活量有无差别。,表2 完全随机设计资料的方差分析表,检验步骤,建立假设 H0:三个组第一秒用力肺活量的总体均数相同; H1:三个组第一秒用力肺活量的总体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论