第二讲 卫生统计学 定量资料的统计描述_第1页
第二讲 卫生统计学 定量资料的统计描述_第2页
第二讲 卫生统计学 定量资料的统计描述_第3页
第二讲 卫生统计学 定量资料的统计描述_第4页
第二讲 卫生统计学 定量资料的统计描述_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,第二讲定量资料的统计描述,主要内容,频数与频数分布定量变量的特征数常用统计图表,.,一、离散型定量变量的频数分布,二、连续型定量变量的频数分布,第一节频数与频数分布,.,一、频数与频数分布,频数:对一个随机事件进行重复观察,其中某变量值出现的次数被称作频数(frequency)某个测量值的个(例)数。(当汇总大量的原始数据时,把数据按类型分组,其中每个组的数据个数,称为该组的频数。)频数表(频数分布):是用于反映各变量值及其相应频数之间的关系。(表示各组及它们对应的组频数的表格称为频数表或频数分布。),.,(一)离散型定量变量的频数分布,例2-11998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7等共96个数值。,.,离散型定量变量的频数分布表,表2-1:96名妇女产前检查次数分布的频数分布表,.,离散型定量变量的频数分布图,.,(二)连续型定量变量的频数分布,例2-2抽样调查某地120名18岁35岁健康男性居民血清铁含量(mol/L)。将数据适当分组,计数每组的频数,根据这些数据编制成的频数分布表(表2-2)则能显示出这组数据分布的特点。,.,连续型定量变量的频数分布,原始数据,.,1、频数表的编制,(1)求全距(R):R=最大值最小值=29.64-7.42=22.22(mol/L)(2)确定组数、组距:通常815组计算组距(i)i=R/组数相邻两组段下限值之差称组距。一般都用等距,且用全距的十分之一进行估计。本例:22.2210=2.222,取整为2,该样本可分为12组。,.,频数表的编制,(3)确定组段:第一组段包括最小值,如本例为6.00;最后组段包括最大值,如本例28.0030.00(要求第一个组段的下限应略小于最小值,最后通一组要同时写出上下限。);尽量取较整齐的数值作为组段的端点;一般都用等距。(4)列表划记:做出如表2-2的表格,将选好的组段顺序地列在(1)列。将原始数据按照“下限x上限”的原则确定每一例数据x应归属的组段。依次完成(2)(5)列的清点频数、计算频率、累计频数与累计频率等步骤,得如表2-1的频数表。,.,表2-2120名18岁35岁健康男性居民血清铁含量(mol/L)。,.,2、频数分布图,在表2-2的基础上,可以绘制出图2-2,称为直方图(频率直方图)。横轴:血清铁含量纵轴:频率密度,即频率/组距(直条面积等于相应组段的频率)。在组距相等时,直方图中矩形直条的高度与相应组段的频率成正比。,.,频数分布图,.,1、正态分布:图形高峰在中央,两边对称(或基本对称)地逐渐减少,统计学上称之为正态分布或近似正态分布。2、正偏态分布:高峰位于左侧,右侧的组段数多于左侧,如图2-3。3、负偏态分布:高峰位于右侧,左侧的组段数多于右侧,如图2-1。进行描述性统计时,需要根据数值的分布形态选择统计指标和相应的计算公式。,3、频数分布的类型,.,频数分布具有两个特征:集中趋势(centraltendency):变量值集中位置。如120名正常男子血清铁含量虽然高低不等,但向中间集中(18),中等的人数最多。平均水平指标离散趋势(tendencyofdispersion):变量值围绕集中位置的分布情况。本例1424,共有89人,占74.2;离“中心”位置越远,频数越小;且围绕“中心”左右对称。变异水平指标,4、频数分布的特征,.,5、频数表的主要用途,(1)揭示分布类型;(2)便于发现特大值和特小值;(3)计算集中趋势指标与离散趋势指标;(4)作为陈述资料的形式,可以代替繁复的原始资料,便于进一步分析;(5)当样本含量比较大时,可用各组段的频率作为概率的估计值。如上述频数表(2)栏的频数除以总例数即为第(3)栏的频率,由此可推测正常男子的血清铁含量出现在各组段的概率分别为0.0083、0.025、0.050、0.0083。,.,一、算术平均数,二、几何均数,三、中位数与百分位数,四、众数,五、调合均数,第二节集中趋势指标,.,集中趋势指标,平均指标又称平均数(average),是一类用于描述数值变量资料平均水平(或集中趋势)的指标。统计上的平均数一般包括5种,即算术平均数、几何平均数、中位数、众数以及调和均数。在医学研究上对于连续型定量变量,较常用的为算术平均数、几何平均数和中位数3种。,.,一、算术均数(均数),意义:一组性质相同的观察值在数量上的平均水平。(它是一组已知性质相同的数值之和除以数值个数所得的商。)表示:(总体)、(样本)计算:直接法、间接法、计算机特征:估计误差之和为0。应用:正态分布或近似正态分布注意:合理分组,才能求均数,否则没有意义。,.,(1)直接法:当观察例数不多(如样本含量n小于30)时,宜选择直接法。公式为:,例题:有5个自然数分别为1,2,3,4,5,求算术均数。将5个自然数代入公式,得:,计算:,.,例2-3测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。算术均数=(4.20+6.43+2.08+3.45+2.26+4.04+5.42+3.38)/8=3.9075(U/L),.,(2)加权法(weightedmethod):当观察例数很多可以用加权法计算。,例题:利用下表的资料,用加权法计算120名成年18岁35岁健康男性居民血清铁含量(mol/L)算术均数,计算表如下:,首先将数据编制成频数表,得出每组的频数,求出组中值,代入下列公式,得到均数。,.,直接法均数=18.61(mol/L),.,二、几何均数(geometricmean,G),意义:N个数值的乘积开N次方即为这N个数的几何均数。表示:G计算:,应用:当一组观察值不呈正态分布、且其差距较大时,用均数表示其平均水平会受少数特大或特小值影响;数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。如抗体的平均滴度、药物的平均效价等。(适用于观察值变化范围跨越多个数量级的资料,其频数图一般呈正偏态分布。)计算几何均数的观察值不能小于或等于0,因为无法求对数。同一组数据的几何均数小于算术均数。,.,(1)直接法当观察例数不多(如样本含量n小于30)时采用直接法计算:,例题:有5份血清的抗体滴度分别为1:10,1:100,1:1000,1:10000,1:100000,求平均抗体滴度。,将各抗体滴度的倒数代入公式,得:,血清的抗体平均效价为1:1000。,计算:,.,例2-57名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。,.,(2)加权法,例2-652例慢性肝炎患者的HBsAg滴度数据如表2-4。试计算滴度的几何均数。,计算公式为:,.,.,三、中位数、百分位数,意义:中位数:将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。百分位:把一组数据从小到大排列,分成100等份,各等份含1的观察值,分割界限上的值就是百分位数。中位数是百分位的特殊形式。同样的例子还有四分位数、十分位数等。表示:M、Px,.,计算:,应用:任何分布的资料都可以用中位数反映平均水平;资料一端或两端无确定数值;对于资料的分布情况不清楚时。,.,计算:(1)中位数的直接计算法:样本含量不大时使用。将观察值按大小顺序排列,当样本含量n为奇数时,位置居中的那个数值就是M;当n为偶数时,位置居中的两个数值的平均数就是M。,特点:仅仅利用了中间的12个数据,.,(2)中位数和百分位数的频数表计算法当观察例数较多时采用。先将观察值编制成频数表,按所分组段由小到大计算累计频数和累计频率,找出中位数或百分位数所在的组,将该组段的下限(L)、组距(i)、频数(fx)和小于L的各组段累计频数(fL)代入下列公式即可求出中位数M和百分位数Px。,.,例2-8试利用表2-2的频数表求例2-2中血清铁含量的中位数。从表2-2可判断出位于“18-”这个组段。将相应数据代入式(2-8)该组血清铁资料的中位数为18.74(mol/L)如果按(2-7)式计算,结果为18.99(mol/L)。,.,表2-2120名18岁35岁健康男性居民血清铁含量(mol/L)。,.,四、众数,众数(mode):原指总体中出现机会最高的数值。样本众数则是在样本中出现次数最多的数值。,产前检查次数的众数为4次。,.,五、调合均数,调和均数(harmonicmean,H):先求原始数据倒数的算术均数。该算术均数的倒数便称为原数据的调和均数。计算公式:,例2-10接受某种处理的5只小鼠生存时间(分钟)分别为49.1、60.8、63.3、63.6和63.6,试计算其调和均数。,.,一、全距,二、四分位数间距,五、方差和标准差,六、变异系数,三、离均差总和,四、离均差平方和,第三节离散趋势特征数,.,平均水平指标仅描述了一组数据的集中趋势,可以作为总体的一个代表值。由于变异的客观存在,需要一类指标描述资料的离散程度。观察两组数据:甲组:4,5,6,7,8。n5;6乙组:2,5,6,7,10。n5;6两组资料的倒数和均数都相同,但它们的分布情况是不一样的,因此要全面描述这两组资料的特征,还需要有能表示其离散程度的指标。,.,例2-11试观察三组数据的离散状况。A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。三组数据个数都为5,均数都为30。将三组数据分别点在直线上,如下图所示。,.,一、全距(range),1概念全距用R表示,是一组资料最大值与最小值之差。例2-11中三组数据的极差A组R=34-26=8B组R=36-24=12C组R=34-26=82含义全距越大,离散程度越大;反之,全距越小,离散程度越小。,.,3、优缺点优点:简单明了,容易理解,使用方便。缺点:(1)仅考虑两端数据的差异,未考虑其他数据的变异情况;(2)变量值个数不同时无意义(n大,R也会大);(3)不稳定,易受极端值的影响(抽样误差大)。,.,1概念四分位数间距用Q表示,是上四分位数QU(P75)和下四分位数QL(P25)之差。如例:表22资料:QQUQLP75P2521.4416.005.44(mol/L)2含义其值越大,说明变异程度越大;反之,值越小,离散程度越小。常常和中位数一起描述偏态分布资料的的分布特征。3优缺点:该指标比全距稍稳定,但仍未考虑每个观察值。,二、四分位数间距(quartilerange),.,三、离均差总和,考虑到了每一个变量值的影响,但对称分布的资料,由于正负相消,故离均差总和等于0。如上例:三组数据的离均差总和均等于0。,.,四、离均差平方和(sumofsquares),如上例:A组=(26-30)2+(28-30)2+(30-30)2+(32-30)2+(34-30)2=40B组=(24-30)2+(27-30)2+(30-30)2+(33-30)2+(36-30)2=90C组=(26-30)2+(29-30)2+(30-30)2+(31-30)2+(34-30)2=34和离均差总和一样,考虑到了每一个变量值的影响,而且克服了正负相消的缺点,但变量值个数不同时无意义。,.,为了能反映每个观察值之间的离散情况,同时又能考虑到观察单位数多少的影响,可取离均差平方和的均数,简称方差(variance)。总体方差用2表示,样本方差用S2表示,公式分别为:,五、方差(variance),.,六、标准差(standarddeviation),由于每一离均差都经过平方,使原来观察值的度量单位也都变为平方单位了。为了还原成为原来的度量单位,所以又将方差开平方,这就是标准差。,.,(1)小样本资料:,例题:有数据1,2,3,4,5,求其标准差。,标准差计算,.,例2-14分别计算例2-11中三组数据的标准差。A组:B组:C组:C组的标准差最小,B组的最大。意味着C组数据的离散趋势最小,B组的最大,.,(2)大样本资料:对于大样本资料,可用频数表进行计算,公式为:,例题:根据下列频数表资料,计算140名成年男子红细胞数的标准差。计算表如下:,.,表2-2120名18岁35岁健康男性居民血清铁含量(mol/L)。,.,方差和标准差的意义都是说明资料的变异程度,算出的值越大,说明变异程度越大。标准差愈小,说明观察值的离散程度愈小,从而也反映了用平均数反映平均水平,其代表性愈好。反之,平均数的代表性愈差。(越大说明围绕均数越离散,反之说明较集中在均数周围,均数代表性越好),方差和标准差的含义:,.,反映一组观察值的离散程度,标准差小,离散程度小,均数的代表性好;用于计算变异系数;计算标准误;结合均值与正态分布的规律估计参考值的范围。,标准差用途:,.,六、变异系数,无单位(量纲)应用:单位不同的多组数据比较均数相差悬殊的多组资料,意义:标准差与均数之比用百分数表示。符号:CV计算:,.,1、比较均数悬殊的资料变异程度,例题:某地7岁男孩身高均数为121.16cm,标准差为4.31cm;胸围均数为57.71cm,标准差为2.82cm,比较身高和胸围的变异程度。,身高:,胸围:,说

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论