第四章 定量资料的统计描述(终板)_第1页
第四章 定量资料的统计描述(终板)_第2页
第四章 定量资料的统计描述(终板)_第3页
第四章 定量资料的统计描述(终板)_第4页
第四章 定量资料的统计描述(终板)_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

欢迎学习医学统计学医学统计学第四章定量资料的统计描述

主讲:谢小花

定量资料的统计描述主要内容

1、数值变量资料的频数分布

频数表的编制,频数分布的特征,分布形态。

2、集中趋势的指标—平均水平指标算术均数(均数)、几何均数、中位数

3、离散程度指标极差(R)、四分位数间距(Q)、方差和标准差、变异系数(CV)一、定义:相同观察结果出现的次数称为频数(frequency)。将所有观察结果的频数按一定顺序排列在一起,表达变量取值及其不同取值频数分布情况的统计表称为频数分布表,简称频数表(frequencytable)。

第一节频数表与频数图二、频数分布表的编制

原始资料分组计量资料频数分布表计数资料频数分布表按数量分组按性质或属性分组计量资料离散型资料连续型资料变量取值可以一一列举变量取值为一定范围内的取值每一育龄妇女现有的子女数;每分钟的脉搏数身高(cm)、体重(kg)、总胆固醇(mmol/L)结果为整数结果有度量衡单位以变量取值为标志分组,列出各组别的频数

课本【例4-1】某市2010年随机抽取120名正常成年男子红细胞计数值(×1012/L)资料如下。该组数据为何种类型资料?如何描述其数量特征?试制作该样本红细胞计数值的频数表。5.12 5.134.584.314.094.414.334.584.245.454.324.844.91 5.145.254.894.794.905.094.645.145.464.664.204.21 3.735.175.795.464.494.855.284.784.324.945.214.68 5.094.684.915.135.263.844.174.563.526.004.054.92 4.874.284.465.035.695.254.565.534.584.864.974.70 4.284.375.334.784.755.395.274.896.184.135.224.44 4.134.434.025.865.125.363.864.685.485.314.534.83 4.113.294.184.134.063.424.684.525.193.705.514.64 4.924.934.903.925.044.704.543.954.404.313.774.16 4.585.353.715.274.525.214.374.804.753.865.69【分析】(1)该组数据是通过测量120名正常成年男子红细胞计数值得到的,表现为具体的数值大小且有度量衡单位,属于定量资料。(2)若要了解正常成年男子红细胞计数值的数量特征,需要对原始数据进行整理和分析,包括采用适当的统计图表、统计指标描述其分布情况、平均水平以及变异程度等,即进行统计描述。统计描述是用适当的统计图表和统计指标描述资料的分布规律及其数量特征,是从统计资料中获取信息的最基本方法,也是进一步统计分析的基础。(一)、频数表的编制方法

1、求极差(全距,用R表示)R=最大值-最小值=6.18-3.29=2.89(单位)

2、确定组数和组距(i)根据样本含量的大小及研究目的确定组数,一般设8~15个组;此资料分为10组。

组距:相邻组段下限值之差。i=极差/10=2.89/10=0.289≌3(单位)

3、确定组段(1)第一组段包括最小值,最后组段包括最大值;(2)每一组段都有上限和下限:

下限:组段的起点(最小值)上限:组段的终点(最大值)

4、列表划记、得出频数表将所有观察值按其数值大小归入各组。一般只列出下限!表4-1某市2010年120名正常成年男子红细胞计数值(×1012/L)的频数表组段(×1012/L)(1)组中值(2)频数(f)(3)频率(%)(4)累计频数(5)累计频率(%)(6)3.20~3.50~3.80~4.10~4.40~4.70~5.00~5.30~5.60~5.90~6.203.353.653.954.254.554.855.155.455.756.052510192224211142

1.74.28.315.818.320.017.59.23.31.7

27173658821031141181201.75.914.230.048.268.385.895.398.0100.0合计—12010.0——二、频数表的用途

1、揭示资料的分布特征和分布类型;

2、便于进一步计算指标和统计分析;

3、便于发现特大或特小的可疑值;4、据此绘制频数分布图。频数分布的特征

1、集中趋势:观察值向某一数值集中的倾向(用平均数指标说明);

2、离散趋势:观察值大小不等的倾向(用变异指标说明)。频数分布的类型

1、对称分布:集中位置(高峰)居中,左右两侧频数分布大体对称,其中的正态分布是重要的分布形式。

2、偏态分布(1)正偏态:集中位置(高峰)偏向数值较小的一侧。

(2)负偏态:集中位置(高峰)偏向数值较大的一侧。频数分布的类型

对称分布

偏态分布

正偏态负偏态

正态分布

三、频数图

除了上文提到的频数表以外,还可以用频数图(graphoffrequency)来描述定量资料的频数分布。频数分布图又称直方图,以变量值为横坐标、频数为纵坐标(等距分组时也可以频率作纵坐标;用等宽的长方形的面积来表示各组相应的频数(或频率)的统计图。不等距分组时要以频率/组距=频率密度作为纵坐标)绘制频数图。现将表4-1绘制成频数图4-1。因为表4-1中的定量资料是连续型的,所以其频数图中各长方形是相连的,又称直方图(histogram);而离散型的定量资料,因其变量值是非连续的,其频数图中各长方形是有间隔的,又称直条图(bargraph)。根据频数分布表制作直方图的要点:分别以横轴上每组别两边界点为端点的线段为底边,做高为相应频数的矩形,就得到所求的频数分布直方图。频数图与频数表的用途相似,但其在表达频数分布的特征及分布类型时更直观、形象,在统计描述中也是经常采用的形式。表4-1绘制成频数图4-1如下图:描述计量资料分布特征的指标集中趋势指标离散趋势指标平均数R、Q、S、S2、CV第二节集中趋势的统计描述常用的平均数指标:算术均数、几何均数、中位数

平均数:用于描述一组同质计量资料平均水平(集中位置)的指标,是一组计量资料的代表值。

使用平均数指标描述定量资料的集中趋势的特征。

平均数指标

一、算术均数(均数)总体均数用表示,样本均数用表示。适用资料:对称分布,尤其是正态分布的资料。

算术均数:说明一组同质计量资料在数量上的平均水平。1.计算方法(1)直接法

【例4-2】用于样本含量较少时,可直接将各观察值相加,除以观察例数,其公式为:加权法:f:频数,x为组中值=(上限+下限)/2表4-1资料故120名正常成年男子红细胞计数值的均数为4.7075(×1012/L)。2.应用均数适用于对称分布特别是正态分布资料集中趋势的描述,此时均数位于分布的中心,既表达了集中的位置,又表达了一组观察值数量上的平均水平。

二、几何均数(简记为G)

适用资料:

1、呈等比的资料(如抗体滴度或效价);

2、对数正态分布资料。

几何均数:说明一组数据平均增减的倍数。计算方法:直接法:【例4-4】某实验室测得5人血清中某种抗体的滴度分别为1/20,1/40,1/80,1/80,1/320,试求平均滴度。分析人员为方便计算,将原始数据取倒数,求得均数为108,再取倒数以恢复原始的形式,得平均滴度为1/108。针对该组数据,分析人员采用均数描述资料的平均水平是否合适?【分析】该组资料不是对称分布,几个观察值中,有个别的数据与其它数据相差较大,因此使得均数不能很好地代表该组资料的平均水平,所以选择均数是不合适的,根据该资料的特点,宜选用几何均数。为了方便计算使用直接法的以下公式:故5个人抗体的平均滴度是1/70。加权法:若相同观察值较多或资料已编制成频数表则可利用加权法计算,其公式为:50名麻疹易感儿接种麻疹疫苗后血凝抑制抗体的平均滴度为1/54。

应用几何均数注意事项:

1、观察值不能有0;

2、观察值不能同时有正负值;若全为负值,则取绝对值计算;

3、同一资料求得的G<;4、几何均数适用于:①对数对称分布(含对数正态分布),即数据经过对数变换后呈对称分布或正态分布的资料;②等比级数资料,即观察值之间呈倍数或近似倍数变化的资料,如抗体滴度、抗体效价等。

三、中位数(median)与百分位数(percentile)

中位数(M):将一组观察值从小到大排列,位次居中的观察值就是中位数。在全部观察值中,大于和小于中位数的观察值各占一半。

百分位数(Px):将一组观察值从小到大按顺序排列,在某百分位置上的值即称为Px。一个百分位数将全部观察值分为两部分,理论上有x%的观察值比Px小,有(100-x)%的观察值比Px大。P50分位数也就是中位数。

适用资料:理论上,中位数可用于任何分布的计量资料,但实际应用中常用于下述资料:

1、偏态分布资料;

2、分布不明资料;3、分布末端无确定值资料(开口资料)。

【例4-7】200名食物中毒患者潜伏期资料如表4-4,研究人员据此采用加权法计算均数得平均潜伏期为27小时。(1)该组数据在分布上有何特点?(2)采用均数描述该组资料的平均水平是否合适?表4-4200名食物中毒患者的潜伏期潜伏期(小时)(1)频数(2)累计频数(3)累计频率(%)(4)=(3)/n0~30

3015.012~7110150.524~4914974.536~2817889.048~1419296.060~

719999.572~84

1200100.0合计200--【分析】从频数表可以发现该组数据呈正偏态分布,大部分数值偏小,存在个别极大值,因此不宜选择均数,但也不适宜选择几何均数,此资料应选择中位数描述数据的平均水平。计算方法:

1、直接法:适用于观察数少资料(中位数)

n为奇数时,

M=

3,4,6,7,9,10,26

x1x2x3x4x5x6x7M

n为偶数时,

M=

x1x2x3x4x5x6x7x8

35789101327

M中位数(M)的计算直接法实例请阅读p36【例4-8】

2、频数表法:适用于频数表资料公式:步骤:

①从小到大计算累计频数和累计频率;②确定百分位数和中位数所在组段;③计算百分位数Px和中位数M【分析】先在频数表中找出中位数所在的组段。本例n=200,中位数应位于与之间,根据表4-4第(2)栏数据,自上而下计算累计频数及累计频率,见第(3)、(4)栏。由第(3)栏可知与恰在12~组段内,亦即中位数应在12~组段内。或由小于中位数的观察值累积频率占50%,从第(4)栏可知,50.5%是大于50%的最小累计频率,故M在“12~”组段内,将相应的L、i、fM、∑fL代入公式,求得M。【例4-9】根据例4-7的资料计算中位数。潜伏期(小时)(1)频数(2)累计频数(3)累计频率(%)(4)=(3)/n0~303015.012~7110150.524~4914974.536~2817889.048~1419296.060~719999.572~841200100.0合计200--表4-4200名食物中毒患者的潜伏期L:为M或所在组段的下限值;i:为M或所在组段的组距;:为M或所在组段的频数;:为小于L各组段的累计频数。频数表法通用公式(计算其它百分位数)中位数与百分位数的应用:(1)中位数常用于描述偏态分布资料、一端或两端无确切数据的资料及总体分布不明资料的集中趋势。(2)百分位数用于描述一组数据某一百分位置的水平,多个百分位数结合应用,可全面描述一组观察值的分布特征;百分位数还可用于确定非正态分布资料的医学参考值范围。但应用百分位数时,样本含量要足够大,否则不宜取太靠近两端的百分位数。

常用平均数的意义及其应用场合━━━━━━━━━━━━━━━━━━━━━━━━━

平均数意义应用场合

─────────────────────────

均数平均数量水平应用甚广,最适用于对称分布,

特别是正态分布;几何均数平均增(减)倍数(1)等比资料,(2)对数正态分布中位数位次居中的观察(1)偏态分布,(2)分布不明,(3)

值水平。分布末端无确定值(开口资料)━━━━━━━━━━━━━━━━━━━━━━━━━

第三节离散趋势的统计描述【例4-11】分别观察两组各9只动物的每日进食量(mg/g),结果如下:A组242526272829303132B组202122232425262764分别计算两组动物每日进食量的平均数,均为28mg/g。(1)这两组动物每日进食量的平均数相同,是否意味着他们的数据分布特征相同?(2)28是不是均能代表两组动物每日进食量的平均水平?分析1.两组数据内部差异不同2.A组分布对称,B组分布不对称3.A组最小值与最大值相差8,B组中最小值与最大值相差44。4.对于B组28的代表性差说明,对于定量资料的描述仅描述其集中趋势是不全面的,还需描述数据的离散趋势。极差1四分位间距2方差3标准差4变异系数5离散趋势变异程度指标

一、极差(全距R)全距:用于说明一组数据分布的范围。

1、计算方法:R=最大值-最小值2、意义:R愈大,数据变异愈大;R愈小,变异愈小。3、优点:计算简单,意义明了;4、缺点:(1)不能反映每一个观察值的变异;(2)R的抽样误差大,不稳定,样本例数越大,R可能越大。

1、计算方法:四分位数间距Q=QU-QL

QL为下四分位数(P25)

;QU为上四分位数(P75)2、意义:反映中间一半观察值的极差,与R意义相同。

3、特点:(1)比R稳定,但仍未考虑每一个观察值的变异;

4、常用于描述偏态资料以及分布的一端或两端无确切数值资料的变异度。二、四分位数间距(Q)三、方差(总体方差简记σ2,样本方差简记S2

)一组观察值的离均差平方和,取其均数,即方差,其意义是:方差越大,变异度越大;反之,变异度越小。方差全面考虑了每个观察值的变异度。四、标准差(总体标准差σ,样本标准差S)标准差:方差的开平方,即标准差。

(直接法)(加权法)

意义:与方差的意义相同

应用:

1、用于表示正态或近似正态分布资料的离散度,说明均数的代表性;

s越小,均数的代表性越好;反之,均数的代表性差。

2、结合均数描述正态分布的特征;

3、结合均数计算变异系数、估计参考值(正常值)范围、结合样本例数计算标准误。【例4-14】根据表4-1资料,计算120名正常成年男子红细胞计数值(×1012/L)的标准差。五、变异系数(CV)用途:

1、比较度量衡单位不同的多组资料的变异度(离散度);

2、比较均数相差悬殊的多组资料的变异度(离散度)。特点:CV没有单位,是相对数,便于资料间的比较。

(标准差占均数的百分比)【例4-15】某医院预防保健科,对一组5岁男孩进行检,测量了身高、体重等指标。得身高的均数与标准差分别为103.5cm和5.6cm,体重的均数与标准差分别为22.3kg和0.78kg,并比较得出结论,因身高的标准差大于体重的标准差,所以身高的变异程度比体重的变异程度大。上述结论是否正确?能否用标准差比较身高与体重的变异程度大小?【分析】上述结论不正确。因为身高与体重单位不同,所以不能直接用标准差比较身高与体重的变异程度大小,应采用变异系数。根据例4-15资料分别计算身高与体重的变异系数如下:由此可见身高的变异程度比体重的变异程度大。应用变异指标的注意事项1.极差适合于任何分布的资料,且计算简便。缺点是容易受个别极端数据的影响,结果不稳定,只能用于资料的粗略分析和小样本数据。2.四分位数间距适合于任何分布的资料,计算结果比极差稳定,尤其适用于大样本偏态资料。3.方差和标准差属同类指标,但标准差与均数的单位相同,作为变异指标多采用标准差。标准差适合于均匀分布或近似正态分布资料,大样本、小样本均可,是统计分析中最为多见的一种指标。4.变异系数主要用于不同类型的观察指标,或同类型观察指标但均数相差悬殊时变异程度的比较。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论