定量变量的统计描述_第1页
定量变量的统计描述_第2页
定量变量的统计描述_第3页
定量变量的统计描述_第4页
定量变量的统计描述_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

卫生统计学(第七版),第二章定量变量的统计描述,利用统计表对数据进行概括,用统计图对分布形态及分布间的关系做直观的表达,用于描述定量资料的统计指标的意义与计算。,统计学,统计描述:,从资料中获取信息最基本的方法,把握资料基本的特征为统计分析打下基础,表2-2120名18-35岁健康男性居民血清铁含量(umol/L),目的:描述该组18-35岁健康男性居民血清铁含量的分布规律。,问题1.该组居民血清铁含量平均值多少?,问题4.用表/图表示血清铁分布?,问题2.血清铁含量范围?最高多少?最低多少?,问题3.血清铁含量主要集中在哪个范围?,?,【教学要求】,了解频数分布表的编制方法及应用,掌握数值变量资料的平均水平、变异程度常用统计描述指标,及各自的应用。,第一节频数与频数分布,频数(frequency):对一个随机变量做重复观察,其中某变量值出现的次数。频数分布表(frequencydistributiontable):将各变量值及其相应的频数列成表格的形式。例2-2抽样调查某地120名18岁35岁健康男性居民血清铁含量(mol/L),试编制频数分布表。,频数表的编制:,一、连续型定量变量的频数分布,(二)连续型变量频数表的编制方法:,步骤:,求全距(Range,简记R):是一组资料中最大值(Xmax)与最小值(Xmin)之差,亦称极差。,全距(R)=Xmax-Xmin=29.647.42=22.22(umol/L),2.定组距:将全距分为若干段,称为组段。组与组之间的距离,称为组距;用小写i表示。,原则:(1)“组段”数一般为8-15个;(2)“组距”一般为R/10取整;(3)为计算方便根据组距采取取整数方法,本例题:组距(i)=全距/预分组段=22.22/10=2.222(umol/L),3.写组段:即将全距分为若干段的过程。,原则:(1)第一组段要包括Xmin,最末组段包括Xmax;(2)每组段均用下限值加“”表示,最终组段同时注明上下限。,注意:各组段不能重叠,每一组段均为半开半闭区间。,4.列表划记:根据预定的组段和组距,用划记的方法整理原始资料。,表2-3120名18-35岁健康男性居民血清铁含量的频数分布表,一上正一正上正正丅正正正正正正正正正丅正正正上正正丅正上止一,13681220271812841,组段,划记,频数,120,表2.2120名18-35岁健康男性居民血清铁含量(umol/L)频数表组段频数频率%累计频数累计频率%610.8310.83832.5043.331065.00108.331286.671815.00141210.003025.00162016.675041.67182722.507764.17201815.009579.17221210.0010789.172486.6711595.832643.3311999.17283010.83120100.00合计120100.0,特点:中间高、两侧逐渐下降、左右基本对称的分布-直方图(直条间连续),用于表达连续型变量的频数分布。,频数直方图(frequencydistributionfigure):根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。,的频数是7,,频率为7.3%,进行3次检查,的频数是11,,频率,为,11.5%,进行5次以上检查的,频数是12,频率为12.5%。,进行0次检查的频数是4,其频率为4.2%,,进行1次,检查,0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7,二、离散型定量变量的频数分布,例2-1(P11),离散型变量的频数分布表每一个组段就是一个固定的取值,离散型变量的频数分布图直条图横坐标为产前检查次数;纵坐标为频率,即产前检查K次的妇女在被统计妇女中所占的比例%。图中等宽矩形长条的高度与相应检查次数的频率呈正比。,频率:各组的频数除以总例数n所得的比值。频率描述了各组频数在全体中所占的比重,各组频率之和等于100%。累计频数:本组段的频数与以前各组段的频数相加;累计频率:每组段的累计频数除以总例数。,三、频数分布的两个特征,集中趋势:血清铁含量向中央部分集中,即中等含量者居多,集中在18这个组段,这种现象为集中趋势。,离散趋势:从中央部分到两侧的频数分布逐渐减少,而且血清铁含量的值参差不齐,最低的接近6,最高的接近30,这种现象称为离散趋势。,由于同质性,所有实测值趋向同一数值的趋势称为集中趋势。,离散趋势或变异程度是指观察值之间参差不齐的程度。,表2-2某地101名正常成年女子血清总胆固醇的频数表,合计,140,血清胆固醇值向中央部分集中,即中等含量者居多集中趋势,频数分布,四、频数分布的类型,对称分布型:指集中位置在正中,左右两侧频数分布大体对称。,偏态分布型:指集中位置偏向一侧,频数分布不对称。,偏态分布,正偏态分布:集中位置偏向数值小的一侧。,负偏态分布:集中位置偏向数值大的一侧。,(三)频数表的用途:,1.揭示变量的分布特征,图3.1某市100名8岁男童身高(cm)的频数分布,离散趋势(tendencyofdispersion),集中趋势与离散趋势结合能全面反映频数的分布特征,集中趋势(centraltendency),2.揭示变量的分布类型,频数分布,偏态分布,正偏,负偏,集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。,对称分布,集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏态分布。,集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏态分布。,4.便于进一步计算统计指标和统计分析,3.便于发现某些离群值或极端值。,图3.1某市101名8岁男童身高(cm)的频数分布,身高(cm),频数,一.集中趋势统计指标:反映总体内部的同质。二.离散度统计指标:反映总体内个体间的变异。三.分布形态统计指标:反映高峰的形态。,第二节描述平均水平的统计指标,平均数:描述一组同质计量资料的集中趋势;反映一组观察值的平均水平。常用的平均数有算术均数,几何均数和中位数。(一)算术均数(mean):简称均数,总体均数用希腊字母表示,样本均数用拉丁字母表示。1.计算方法1)直接法:适用于样本例数n较少的资料。其中X1,X2Xn为各变量值,n为样本例数。,2)加权法:适用于变量值较多的资料。K=1、2、3.,fk为第k组段的频数,X0k为第k组段的组中值,组中值=(本组段下限+下组段下限)/2。,权,即频数多,权数大,作用也大,频数小,权数小,作用也小。,10,10,10,15,15,10有3个,权数为3,计算均数时起3/5的作用频数多,权数大,作用大,15有2个,权数为2,计算均数时起2/5的作用频数小,权数小,作用小,例2-3某年某医院8名女性晚期肺癌患者红细胞计数(1012/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。,例2-4求例2-2中某地120名18-35岁健康男性居民的血清铁含量的均数。,120名18-35岁健康男性居民血清铁含量均数、标准差计算表(加权法),13681220271210841,7276610418034051337827620010829,7911131517192123252729,4924372613522700578097477938634850002916841,2.算数均数的应用它最适用于对称分布资料,尤其是正态分布资料。因为这时均数位于分布的中心,最能反映资料的集中趋势。,(二)几何均数(geometricmean):(几何均数也称为倍数均数,用G表示)1.几何均数的计算方法1)直接法:适用于样本例数n较少的资料。将n个观察值X1,X2,X3Xn的乘积开n次方对数形式:G=lg-1(lgX1+lgX2+lgX3+lgXn)/n=lg-1(lgX/n),例2-57名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。求其平均效价。,7份HBsAg的平均滴度为1:64,2)加权法:适用于样本例数n较多的资料。,X1,X2Xn为各组段的滴度或滴度倒数。f1,f2fn分别为各组段的频数。,例2-652例慢性肝炎患者的HBsAg滴度数据见表,求其平均滴度。,52例慢性肝炎患者的HBsAg滴度的几何均数为1:119.74705,二)几何均数应用的注意事项:1)几何均数常用于等比资料或对数正态分布资料。2)观察值中不能有0。3)观察值中不能同时有正值和负值。,练习题:,1.有8份血清的抗体效价分别为:1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640求平均抗体效价。,2.有50人的血清抗体效价,分别为:5人1:10,9人1:20,20人1:40,10人1:80,6人1:160求平均抗体效价。,中位数(median,M):将一组变量值从小到大按顺序排列,位次居中的那个变量值就是中位数。,(三)中位数和百分位数,百分位数(percentile,Px):指把数据从小到大排列后位于第X%位置的数值。有n个观察值X1,X2Xn,把他们由小到大按顺序排列成X1X2X3Xn,将这n个观察值平均的分为100等份,对应于每一等份的数值就是一个百分位数,对应于前面X%个位置的数值称为第X百分位数,用Px表示。,一个百分位数Px将总体或样本的全部观察值分为两部分,理论上,在不包括Px的全部数据中有X%的观察值比它小,有(100-X)%的观察值比它大。,1.中位数和百分位数的计算1)直接法:适用于样本例数n较少的资料。将观察值按大小顺序排列,当n为奇数时,中间那个数就是中位数。当n为偶数时,中间两个数的平均数就是中位数。,例2-7某药厂观察9只小鼠口服高山红景天醇提物(RSAE)后在乏氧条件下的生存时间(分钟)如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.6,69.0n为奇数,M=63.6(cm),练习:,1.某病患者9名,发病潜伏期分别为顺序2、3、3、3、4、5、6、9、16d,求中位数。,2.某病患者8名,发病潜伏期从小到大排分别为5、6、8、9、11、11、13、16d,求平均潜伏期。,2)频数表法计算中位数和百分位数:适用于样本例数n较多的资料。累计频数:本组段的频数与以前各组段的频数相加;累计频率:每组段的累计频数除以总例数。公式为L为百分位数所在组段的下限,i为该组段的组距,fx为该组段的频数,fL为百分位数所在组段的前一组段的累计频数,n为总例数。,例2-850例链球菌咽峡炎患者潜伏期(h),计算其中位数。,112781611193811306073774542844469224896250100,求P25,P75。,2.中位数和百分位数的应用1)中位数常用于描述偏态分布资料的集中趋势,反映位次居中的观察值的平均水平。在对称分布的资料中,中位数和均数在理论上是相同的。2)百分位数可用于确定医学参考值范围(详后)。3)分布在中部的百分位数相当稳定,具有较好的代表性,但靠近两端的百分位数,只有在样本例数足够多时才比较稳定。,应用平均数的注意事项1.平均数的计算和应用必须具备同质基础,必须先合理分组。不同质的事物要分别求平均数,以便分析比较。2.根据资料的分布选用适当的平均数。对称分布资料,尤其是正态分布资料,宜用均数,也可用中位数,而偏态分布资料则中位数的代表性较好,对数正态分布及等比级数资料宜用几何均数。,4.众数(mode),是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段。,例有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数?出现频数最多的数值为58,故众数为58。58岁为高血压的高发年龄。众数从概念上易于理解。但没有充分利用样本观察值的全部信息。,例.对甲乙两名高血压患者连续观察5天,测得的收缩压(mmHg)结果如下:可以看出:两患者收缩压的均数十分接近,但甲患者的血压波动较大,而乙患者相对稳定。,第三节、描述变异程度的统计指标,只用平均数描述资料的弊病,甲组2629303134均数30kg乙组2427303336均数30kg丙组2628303234均数30kg,例2-11试观察3组数据的离散情况。A组2628303234B组2427303336C组2629303134,为了全面的把握数据的分布特征,通常,描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。,离散趋势:用于描述一组数值变量观察值之间参差不齐的程度,即变异程度。,包括,极差(Range,R)四分位数间距(Quartile,Q)方差(Variance,)标准差(Standarddeviation,S)变异系数(Coefficientofvariation,CV),1.极差(range,R)也称为全距,用R表示,即一组资料中,最大值与最小值之差。缺点:1)除了最大、最小值外,不能反映组内其他数据的变异度。2)样本例数越多,抽到较大或较小变量值的可能性越大,因而极差可能越大。3)即使样本含量相同,极差也不够稳定。,1、适用条件:常用于描述单峰对称分布小样本资料的变异程度,或用于初步了解资料的变异程度。2、意义:对于计量单位相同的变量,极差越大,观察值的离散程度越大。3、优点:用以说明数据分布的离散程度,方法简单明了;理论上可用于各种分布资料,4、缺点(1)除了最大值与最小值外,不能反映组内其它观察值的变异度;稳定性差。(2)样本较大时,抽到较大值与较小值的可能性也较大,因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。(3)当两组样本例数相差悬殊时,不宜选用极差作为比较两组变异程度的指标,2.四分位数间距(quartilerange,Q)简记为Q,可看为特定的百分位数。P25表示全部观察值中有25%(1/4)的观察值比它小,记为下四分位数QL,P75表示全部观察值中有75%的观察值比它小,记为上四分位数QU。Q适用于各种类型的连续型变量,特别是偏态分布的资料。,例2-8,四分位数间距的特点:,适用于描述偏态分布、一端或两端无确切数值、分布不明确资料的离散程度。四分位数间距越大,数据分布的变异度越大;反之,变异度越小。与中位数一起描述偏态分布资料的分布特征。作为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小,未考虑全部观察值的变异度,在统计分析中应用的不够普遍。,3.方差(Variance),公式及来源:,极差和四分位间距未考虑全部观察值的变异度,应考虑总体中每个变量值x与总体均数之差;x-称为离均差。,分析:,为解决这个问题,给每项离均差平方后再相加,称离均差平方和,即(x-)2。,还有没有问题没考虑到?,离均差平方和的大小,除与变异度有关外,还与变量值的个数(多少)有关,为在变量值个数不等时进行比较,还要除以变量值的个数,所得值即为总体方差,用2表示:,2=,总体方差:,公式中存在的问题?,根据以上公式研究的结果表明求得的样本方差总是偏小;为解决此问题,英国统计学家通过实验,用n-1代替可消除误差。,n-1称为自由度(degreeoffreedom),用希腊字母nju:表示,表示随机变量能够自由取值的个数。,(n-1)称为自由度(degreeoffreedom),用希腊字母nju:表示,表示随机变量能够自由取值的个数。,分析:如有一组四个(n=4)数据的样本,受到=5的条件限制,在自由确定4、2、5三个数据后,第四个数据只能是9,否则5。因而这里的自由度=n-1=4-1=3。推而广之,任何统计量的自由度=n-限制条件的个数。,方差:分总体方差,样本方差S2,计算:意义:克服了值的不足,考虑了每个变量值的离散情况并消除了的影响。优点:全面地考虑每个变量值的离散情况缺点:其单位是原度量单位的平方。,总体方差,样本方差,例:计算三组数据的方差A组:24,27,30,33,36;B组:26,28,30,32,34;C组:26,29,30,31,34。,方差的特点适用条件:对称分布资料,特别是正态分布或近似正态分布资料。意义:方差越大,数据间的变异越大优点:利用了每个数据的信息,是常用的描述数据分布离散程度指标不足:度量衡单位发生了改变,不便于实际应用。为此,更常用的是标准差。,4.标准差(Standarddeviation,SD或S),方差的单位是原度量单位的平方,不便使用。,将方差公式展开,并开方,即得到另一个重要的离散趋势的指标,即标准差,简写为S。,公式来源:,总体标准差:,样本标准差:,1.直接法:适用于n较小的资料,求例题中A组数据的标准差。,2.加权法:适用于n较大的资料,120名成年男子血清铁含量均数、标准差计算表(加权法),13681220271210841,7276610418034051337827620010829,7911131517192123252729,4924372613522700578097477938634850002916841,3.标准差的应用:1)表示变量分布的离散程度。2)结合均数计算变异系数。3)结合样本含量计算标准误。4)结合均数描述正态分布特征。,问题的引入,例:某校一年级男大学生身高样本均数为167.4cm,标准差为5.8cm;体重均数为57.3kg,标准差为6.4kg。试比较其变异程度的大小?,5.变异系数(coefficientofvariation,CV)公式为:常用于:1)比较度量衡单位不同的多组资料的变异度。,例2-15某年通过10省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm,标准差为3.0cm,试比较二者变异度。,体重CV=0.98/8.42100%=11.64%身高CV=3.0/72.4100%=4.14%,2).比较均数相差悬殊的几组资料的变异度。,运用变异系数的注意事项:1.有关的事物才能比较。2.均数小于标准差时要考虑其实际运用价值。,某地不同年龄段男子身高的变异度,变异系数的特点:,与前面的四种离散程度指标相比,变异系数有以下两个不同之处:1、它描述的不是数据分布的绝对离散程度,而是相对离散程度;不属于描述性统计指标,是一个用于比较的统计指标。2、它不像极差、四分位数间距、方差、标准差那样具有取值单位。它没有取值单位,偏度系数(coefficientofskewness,SKEW)理论上,总体偏度系数为0时,分布是对称分布;取正值时,分布为正偏峰;取负值时,分布为负偏峰。,第四节、描述分布形态的特征数,峰度系数(coefficientofkurtosis,KURT)理论上,正态分布的总体峰度系数为0;取负值时,其分布较正态分布的峰平阔;取正值时,其分布较正态分布的峰尖峭。,SKEW=-0.19393,KURT=-0.01783,小结反映集中趋势的指标:算术均数:对称分布几何均数:测定值按等比级数变化中位数:不规则分布反映离散度的指标:标准差(方差):对称分布变异系数:对称分布四分位数间距:不规则分布极差(全距):不规则分布反映峰型的指标:偏度系数:测定高峰的位置,分布的对称性.峰度系数:测定峰度的高低。集中趋势的强度.,平均数与标准差(方差)联合应用中位数与四分位数间距(极差)联合应用,统计表(statisticaltable)和统计图(statisticalchart)是统计描述的重要工具。医学科学研究资料经过整理和计算各种必要的统计指标后,所得结果除了用适当文字说明以外,常用统计表和统计图表达分析结果。统计图表可以对于数据进行概括、对比或做直观的表达。统计表和统计图不仅便于阅读,而且便于分析比较。,第五节统计图表和统计图,1概念:指在科技报告中,常将统计分析的事物及其指标用表格列出,以反映事物的内在规律性和关联性。2作用:1)避免繁杂的文字叙述2)便于计算3)便于事物间的比较分析,一、统计表,3.统计表的结构从外形上看,统计表由标题、标目(包括横标目、纵标目)、线条、数字及必要的文字说明和备注5部分构成。其基本格式如表1:,1)标题:概括说明表的中心内容,要求用词简练、确切。必要时注明资料的时间、地点,写在表的上端中央。注意:防止标题过于简略或过于繁杂,有的甚至不写标题。2)标目:要求文字简明,有单位的标目要注明单位。横标目位于表的左侧,说明各横行数字的含义。纵标目位于表的右侧,向下说明各纵行数字的含义。注意:防止标目过多,层次不清。,3线条:只需要顶线、底线及纵标目下面与合计上面的横线。注意:线条不宜过多,表的左上角不宜有斜线,表内不能有纵线。4数字:表内数字一律用阿拉伯数字表示,同一个指标的数字精确度应当一致,表内不宜有空格,无数字用“”表示,数字为0,则填写0。5备注:表格一般不列备注或其他文字说明,如有特殊情况需要说明时可用“*”标出,将文字说明写在表格的下面。,从内容上看,每张表都有主语和谓语。主语指被研究的事物,如表2-5中的药物分组,一般置于表的左侧;谓语指说明主语的各项统计指标,如表2-5中的“治

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论