医学统计学:第二章 统计描述_第1页
医学统计学:第二章 统计描述_第2页
医学统计学:第二章 统计描述_第3页
医学统计学:第二章 统计描述_第4页
医学统计学:第二章 统计描述_第5页
已阅读5页,还剩94页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第二章统计描述2频数分布数值变量资料的描述性指标分类变量资料的描述性指标统计表和统计图正态分布及其应用

主要内容3§1频数分布一、频数分布表二、频数分布图

4一、频数表

当样本含量较大时,为了解样本中观察值的分布规律和便于指标计算,可编制频数分布表,简称频数表。

频数:相同观察值出现的次数(一)数值变量资料的频数表(二)分类变量资料的频数表离散型数值变量资料频数表连续型数值变量资料频数表5(一)数值变量资料的频数表

方法:以变量的不同取值进行分组,并分别列出各组所对应的频数。

A:离散型数值变量资料频数表6例1.某地2004年抽样调查100名男大学生的身高(cm)7

(1)求全距

最大值与最小值之差即为全距(或极差,range),用R表示。例1,最大值为183.5cm,最小值为162.9cm,

R=183.5-162.9=20.6(cm)(2)确定组段和组距一般设8~13个组段。各组段的起点和终点分别称为下限和上限,组中值为某组段(下限+上限)/2。相邻两组段的下限之差称为组距,常用全距的1/10取整做组距。

1.频数表的编制B:连续型数值变量资料频数表8

注意:第一组段应包括最小值;最末组段应包括最大值,且同时写出其下限与上限。例1全距20.6的1/10为2.06,取组距为2.0cm;第一组段的下限为162cm,第二组段的下限为164cm,依次类推,最末组段为182cm

184cm。(3)列出频数表

将原始数据汇总,得出各组段的观察例数,即频数,把各组段(或各观察值)及其相应的频数列表即为频数表。910

2.频数的分布特征

频数分布的两个重要特征:集中趋势(centraltendency)和离散程度(dispersion)。

(1)如表2-1,身高有高有矮,但中等身高居多(172cm

组段),此为集中趋势。

(2)由中等身高到较矮或较高的频数分布逐渐减少,反映了身高的离散程度。对于数值变量资料,可用集中趋势和离散程度分析其分布规律。

113.频数表的用途

(1)频数表可以揭示资料分布类型和分布特征,以便选取适当的统计指标和统计方法;(2)便于进一步计算指标和进行统计分析;(3)便于发现某些特大或特小的可疑值。12市区急性传染病发生数A2433B3033C1650D1503E1282F1853G1130合计12884表2-2某市某年各区急性传染病发病数

(二)分类变量资料的频数表13图××某地100名18岁男大学生身高的频数分布二、频数分布图14

频数分布有对称分布和偏态分布之分。

(1)对称分布是指频数分布的集中位置在中间,左右两侧大致对称。对称分布

15

(2)偏态分布是指频数分布不对称,集中位置偏向一侧:集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏态分布,如冠心病、大多数恶性肿瘤等慢性病患者的年龄分布为负偏态分布。

临床上正偏态分布资料较多见;不同的资料分布类型应选用不同的统计分析方法。正偏态分布

负偏态分布

16§2数值变量资料的描述性指标

集中趋势的描述离散程度的描述

17

一、集中趋势的描述

集中趋势指标反映一组同质观察值的平均水平或中心位置。常用指标有均数、几何均数、中位数、众数、调和均数等。

二、离散程度的描述

离散程度指标反映一组同质观察值的变异程度。常用的指标有极差、四分位数间距、方差、标准差和变异系数。

18一、集中趋势的描述指标---均数1.均数(mean,average)是算术均数(arithmeticmean)的简称,反映一组同质观察值的平均水平,适用于正态或近似正态分布的数值变量资料。通常样本均数用表示,总体均数用表示。

(1)直接法用于样本含量较小时,公式为:19(2)加权法(weightingmethod)用于频数表资料或样本

中相同观察值较多时,公式为:

对于例1:20均数的特性各观察值与均数之差总和为零,即离均差之和等于零。各观察值的离均差平方和最小。212.集中趋势的描述指标---几何均数

几何均数(geometricmean)用G表示,适用于

①数据经过对数变换后呈正态分布的(对数正态分布)资料;

②观察值之间呈倍数或近似倍数变化(等比关系)的资料。如医学研究中的抗体滴度、平均效价、某些疾病的潜伏期等。

22(1)直接法例2.4有6份血清的抗体效价为1:10,1:20,1:40,

1:80,1:80,1:160,求其平均效价。

该6份血清的平均抗体效价为1:45。

23

例:某地区50名麻疹易感儿童接种麻疹疫苗1个月后,测其血凝抑制抗体滴度,如表2-2中(1)、(2)栏,求平均抗体滴度。24(2)加权法对于上例:25注意事项计算几何均数时观察值中不能有0;一组观察值中不能同时有正值和负值;对于同一组资料,几何均数小于均数,即263.集中趋势的描述指标---中位数

中位数(median)是一种位置指标,用表示。应用:中位数可用于描述任何分布,特别是偏态分布资料以及频数分布的一端或两端无确切数据资料的中心位置。

它是一组观察值按由小到大的顺序排列后位次居中的数值,小于和大于中位数的观察值个数相等。27(1)直接法

用于样本含量较小的资料。将观察值由

小到大排列,按下式计算:

例:某病患者9名,其发病的潜伏期(d)分别为:2,3,3,3,4,5,6,9,16,求发病潜伏期的中位数。

若在上例基础上再继续观察,在第20天又发现1例患者

29(2)频数表法

用于频数表资料计算步骤:①按所分组段由小到大计算累计频数和累计频率;②确定中位数所在组段;③下式求中位数。表2-4199名食物中毒患者潜伏期中位数的计算

31均数与中位数的关系正态分布时:均数=中位数正偏态分布时:均数>中位数负偏态分布时:均数<中位数32

附:百分位数(percentile)用表示是描述一组数据某百分位的位置指标。(并不是描述集中趋势的指标!!)

1.直接法,设有n个原始数据从小到大排列,第X百分位数的计算公式为:当nX%带小数位时:当nX%为整数时:

例:对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5个百分位数和第99个百分位数。

患者:123456789…117118119120

住院天数:12223344540404245342.频数表资料,百分位数的计算公式为:3637二、离散程度的描述

例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)盘编号甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500甲乙丙38

(1)全距(range,简记为R)亦称极差,为一组同质观察值中最大值与最小值之差。

(2)它反映了个体差异的范围,全距大,说明变异度大;反之,全距小,说明变异度小。

1.离散程度的描述指标---全距39

(3)不足①仅考虑了最大值与最小值之差,不能反映组内其它观察值的变异度;②样本含量越大,抽到较大或较小观察值的可能性越大,故全距可能越大。因此,样本含量相差悬殊时不宜用全距进行比较。402.离散程度的描述指标---四份位数间距412.离散程度的描述指标---四份位数间距423.离散程度的描述指标---方差和标准差(1)计算公式:4344(2)意义:标准差大,表示观察值的变异度大;反之,标准差小,表示观察值的变异度小。(3)应用范围:适用于对称分布资料尤其是正态分

布资料(4)应用:①描述变量分布的离散程度;②结合均数,描述正态分布的分布特征;③结合均数,计算变异系数;④结合样本含量,计算标准误。454、离散程度的描述指标---变异系数应用:常用于比较度量单位不同或均数相差悬

殊的两组(或多组)资料的变异度。

例:某地7岁男孩身高的均数为123.10cm,标准差为4.71cm;体重均数为22.29kg,标准差为2.26kg,试计算该地7岁男童身高和体重的变异系数。

身高:

体重:47§3分类变量资料的描述性指标一、统计描述指标二、应用相对数时应注意的问题三、率的标准化

48一、统计描述指标

(一)常用相对数分类变量资料用相对数指标描述。常用的相对数指标有率、构成比和相对比。1.率(rate)它说明在某一时段内某现象或事件发生的频率或强度。49例:某医院在2010年在某市随机调查了8589例60岁以上老人,体检发现高血压患者为2823例,高血压患病率为:

502.构成比(proportion)又称构成指标,它说明某事物(或现

象)内部各组成部分所占的比重或分布,常以百分数表示。

524.相对比(relativeratio)亦称比,是A、B两个有关指标之比,说明A为B的若干倍或百分之几。两个指标可以是性质相同的,(如两病区病床数之比);也可以是性质不同的(如小鼠肝重与体重之比);两个指标可以是绝对数,也可以是相对数或平均数。54计算相对数的分母不宜过小

当分母观察例数足够多时,计算的相对数比较稳定,能够正确反映实际情况;当分母观察例数很少(如少于30)时,易受偶然因素的影响,不宜计算相对数,可用绝对数表示。二、应用相对数时应注意的问题55分析时不能以构成比代替率构成比是说明某现象中各组成部分的比重或分布的指标,率则反映某现象发生的频率或强度的指标。应用时两者不能混淆。对观察单位数不等的几个率,不能直接相加求其平均率对观察单位数不等的几个率求平均率时,要用各率的分子之和与分母之和来计算。

应用相对数时应注意的问题(续)56比较相对数时应注意其可比性

影响率和构成比的因素很多。两个或多个率(构成比)比较时,各组间除研究因素外,其它影响因素要基本相同,即各组间要具有可比性。

注意:

①各组的研究对象要同质,研究方法要相同,观察时间相等以及内外环境条件相近。②所比较资料的内部构成要相同。③同一地区不同时期资料的对比,应注意客观条件有无变化。

应用相对数时应注意的问题(续)57对样本率(或构成比)的比较应遵循随机抽样,并做假设检验遵循随机抽样的原则才能保证样本具有代表性,才能用该样本信息推断总体特征。抽样研究中,样本率或构成比也存在抽样误差,因此在比较两个或多个率(构成比)时,要做假设检验。应用相对数时应注意的问题(续)58三、率的标准化(standardization)591.标准化的目的:消除混杂因素(confoundingfactor)对结果的影响,使资料具有可比性。

2.标准化法的基本思想:将所比较的两组或多组资料的构成按统一的“标准”调整后,计算标化率,使其具有可比性。

603.标准化率的计算方法

标准化率(standardizedrate)简称标化率,亦称调整率。常用的计算方法有直接法、间接法2种。

直接法用于已知被标化组的年龄别率,以及已知标准组的年龄别人口数或年龄别人口构成比时;

间接法用于已知被标化组的年龄别人口数与发病(死亡)总数,但年龄别率未知,以及已知标准组年龄别发病(死亡)率与总发病(死亡)率时。

61

直接法

标准组的选定:应根据研究目的选择有代表性、较稳定和数量较大的人群作为标准组。例如,世界、全国、全省、本地的数据作为标准较理想。通常:

①以两组资料中任一组的年龄别人口数或构成比作为标准组;②以两组资料合并的各年龄组的人口数或构成比作为标准组;③以公认的或便于与他人资料比较的标准作为标准组,例如,用全国、全省或本地区的年龄别人口构成作为标准。62直接法的计算方法和步骤

①选定标准人口。本例以甲地各年龄组的实际人口数为标准组年龄别人口数;②将乙地各年龄组实际发病率与相应的标准年龄别人口数相乘,得出乙地各年龄组的预期(理论)发病数;③将乙地各年龄组预期发病数之和除以标准人口总数,得出乙地标准化总发病率。

(1)用标准组年龄别人口数计算63直接法的计算方法和步骤:表2-8用直接法计算标准化发病率(以甲地为标准)64直接法的计算方法和步骤因甲地为标准组,其总发病率仍为74.61/万,低于乙地标化后的总发病率。经标准化后,甲乙两地的年龄别发病率与总发病率不再存在矛盾。

(1)用标准组年龄别人口数计算65直接法的计算方法和步骤①以标准组(甲地)各年龄组人口构成比作为标准组年龄别人口构成比;②将乙地各年龄组实际发病率与相应的标准年龄别人口构成相乘,得出乙地各年龄组的分配发病率。③乙地各年龄组的分配发病率之和86.09/万为乙地标准化后的总发病率。其结果与第1种计算方法相同。

(2)用标准组年龄别人口构成比计算66直接法的计算方法和步骤67间接法的计算方法和步骤乙地的年龄别发病率未知,但发病总数已知,须用间接法对乙地进行标化。选用甲地年龄别发病率作为标准组,对乙地进行标准化。标准组年龄别发病率和乙地各年龄组人口数相乘,可得出乙地按标准组年龄别发病率计算出来的各年龄组预期发病人数。6869标准组总发病率为74.61/万,被标化组的实际发病总数是乙地的实际发病总数287人,预期发病总数是232.09人。得乙地的标化率为:因甲地为标准组,其总发病率仍为74.61/万,用间接法所得结论仍是甲地感染性腹泻的总发病率低于乙地,与直接法一致。

70

注意事项:

①标准化的目的在于消除混杂因素对结果的影响,使标准总率具有可比性;通常,直接法因其计算简便更为常用,但若原资料中有些年龄组人口过少,易使年龄别死亡率波动较大时宜用间接法;②标准化率并不表示某地实际水平,只能表明资料间的相对水平,且同一资料用不同“标准”标化,所得标化率不同,但是比较时的结论不变;71注意事项:

③对于存在混杂因素的两个总率进行比较时,若不进行标准化,也可通过比较两组的各年龄别发病(死亡)率,得出正确结论;④比较两样本的标准化率时,还应进行两样本标准化率的假设检验。72§3统计表与统计图一、统计表二、统计图

一、统计表

(一)统计表的结构与编制1.列表的原则(1)重点突出,简单明了,即一张表一般表达一个中心内容,便于分析比较;(2)主谓分明,层次清楚,符合逻辑,明确被说明部分(主语)与说明部分(谓语)。

2.编制要求

(1)标题:写于表的上端中央,一般应注明时间与地点。

(2)标目:标目是表格内的项目。横标目:横标目列在表的左侧;一般用来表示表中被研究事物的主要标志;表示同一横行数字含义。纵标目:列在表的上端;统计指标;表示同一竖行数字含义。标目内容一般应按顺序从小到大排列,小的放在上面,不同时期的资料可按年份、月份先后排列,有助于说明其规律性。

(3)线条:线条不易过多,常用3条线表示。表的上下两条边线可以用较粗的横线,一般省去表内的线条,但合计可用横线隔开。表的左右两侧的边线可省去,表的左上角一般不用对角线。(4)数字:以阿拉伯数字表示。表内的数字必须正确,小数的位数应一致并对齐,暂缺与无数字分别以“…”、“-”表示,为“0”者记作“0”,不应有空项。为方便核实与分析,表一般应有合计。(5)说明:一般不列入表内。必要说明者可标“*”号,于表下加以说明。(二)统计表的种类1.简单表(simpletable)

由一组横标目和一组纵标目组成。

2.复合表(combinativetable)是由2组及以上的横标目和纵标目相结合起来或1组横标目和2组及以上纵标目结合起来以表达他们之间关系的统计表。78

二、统计图(一)绘制统计图的基本要求

1.根据资料的性质和分析目的决定适当的图形;

2.标题应说明资料的内容、时间和地点,一般位于图的下方;

3.图的纵、横轴应注明标目及对应单位,尺度应等距或具有规律性,横轴尺度自左而右、纵轴尺度自下而上、由小到大。4.为使图形美观并便于比较,统计图的长宽比例一般为7:5,有时为了说明问题也可加以变动;5.比较、说明不同事物时,可用不同颜色或线条表示,并常附图例说明,但不宜过多。(二)常用统计图的适用条件与绘制1.条图适用:按性质分类、相互独立、互不联系的非连续性资料。制图要求:(1)一般以横轴为基线,表示各个类别;纵轴表示其数值大小;(2)纵轴尺度必须从0开始,中间不宜折断。在同一图内尺度单位代表同一数量时,必须相等;(3)各直条宽度应相等,各直条之间的间隙也应相等,其宽度与直条的宽度相等或为直条宽度的1/2;(4)直条应按自然顺序排列,若无自然顺序则按直条的高低顺序排序。(5)复式条图绘制方法同上,所不同的是复式条图以组为单位,1组包括2个以上直条,直条所表示的类别应用图例说明,同一组的直条间不留空隙。图2-22001年某省不同地区、性别的卫生系统反应性评分比较2.圆图(piegraph)圆形图适用于百分构成比资料,表示事物各组成部分所占的比重或构成。以圆形的总面积代表100%,把面积按比例分成若干部分,以角度大小来表示各部分所占的比重(图2-3)。图2-32001年某医科大学公共卫生学院专业技术人员构成制图要求:(1)先绘制以大小适当的圆形。由于圆心角为360度,因此每1%相当于3.6度的圆周角,将各部分百分比分别乘以3.6度即为各构成部分应占的圆周角度数。(2)圆形图上各部分自圆的12点开始由大到小按顺时针方向依次绘制,其他置最后。所得各部分的扇形面积即代表某一构成部分。(3)圆中各部分用线分开,注明简要文字及百分比或用图例。(4)如有2种或2种以上性质类似的资料相比较,应绘直径相同的圆,并使各圆中各部分的排列次序一致,以利比较。

3.百分条图(percentbar)百分条图的意义及适用资料与圆形图相同,不同的是表现形式不一样。百分条图亦称构成条图,是以直条总长度作为100%,直条中各段表示事物各组成部分构成情况(图2-4)。图2-42001年某医科大学公共卫生学院专业技术人员构成制图要求:(1)先绘制一个标尺,尺度分成5格或10格,每格代表20%或10%,总长度为100%,尺度可绘制在图的上方或下方。(2)绘一直条,全长等于标尺的100%,直条宽度可任意选择,一直条内相对面积的大小代表数量的百分比。(3)直条各部分用线分开并注明简要文字及百分比或用图例表示。(4)资料一般按各构成由大到小,自左至右依次排列,其他置后。

4.线图(linegraph)线图适用于连续性资料,以不同的线段升降来表示资料的变化,并可表明一事物随另一事物(如时间)而变动的情况(图2-5)。常见的有纵横轴均为算术尺度,表示时间变化趋势的普通线图;纵轴为对数尺度,横轴为算术尺度,表示消长趋势的半对数图(semilogarithmiclinegraph)。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论