3.计量资料统计(1)描述_第1页
3.计量资料统计(1)描述_第2页
3.计量资料统计(1)描述_第3页
3.计量资料统计(1)描述_第4页
3.计量资料统计(1)描述_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章数值变量资料的统计描述,第一节数值变量资料的频数表,频数就是观察值的个数。频数分布就是观察值在其取值范围内分布的情况。要了解数值变量资料的分布规律,当观察单位较多时,可编制频数分布表(简称频数表)和绘制直方图。,一、频数表(frequencytable)的编制,1、找出观察值中的最大值(Max)、最小值(Min)和极差(R)R=MaxMin2、确定组段数(即组数)、组距:频数表一般设815个组段。组距(classinterval)=R/组段数。往往取近似值。3、确定组段,列表划记:每个组段的起点称下限,终点称上限。第一组段要包括最小值,最后一个组段要包括最大值。各组段从本组段的“下限”开始,不包括本组段的“上限”,最末一组段应同时写出其上下限。,例2.1某市1982年110名7岁男童的身高(cm)资料,112.4117.2122.7123.0113.0108.2118.2108.2118.9118.1123.5118.3120.3116.2114.7119.7114.8119.6113.2120.0119.7116.8119.8122.5119.7120.7114.3122.0117.0122.5119.8122.9128.0121.5126.1117.7124.1129.3121.8112.7120.2120.8126.6120.0130.5120.0121.5114.3124.1117.2124.4116.4119.0117.1114.9129.1118.4113.2116.0120.4112.3114.9124.4112.2125.2116.3125.8121.0115.4121.2117.9120.1118.4122.8120.1112.4118.5113.0120.8114.8123.8119.1122.8120.7117.4126.2122.1125.2118.0120.7116.3125.1120.5114.3123.1122.4110.3119.3125.0111.5116.8125.6123.2119.5120.5127.1120.6132.5116.3130.8,2.1110名7岁男童身高(cm)频数表,二、频数分布的两个特征,从频数表可以看出频数分布的两个重要特征:集中趋势(centraltendency):身高向中央部分集中,以中等身高者居多,是为集中趋势。离散趋势(tendencyofdispersion):从中央部分到两侧频数分布逐渐减少,是为离散趋势。集中和离散趋势是频数分布的两个重要侧面,其可较全面地分析所研究的事物。,三、频数分布的类型:,对称分布:集中位置在正中左右两侧频数分布大体对称,如正态分布。偏态分布:集中位置偏向一侧,频数分布不对称。正偏态分布负偏态分布不同类型的分布,应采用相应的统计分析方法。,四、频数表的用途:,1、揭示资料的分布特征和分布类型。2、便于进一步计算指标和统计分析处理。3、便于发现某些错误。,第二节集中趋势的描述,平均数(average)是用于描述一组同质的定量变量值集中趋势的一系列指标,它反映一组变量值的平均水平。医学研究中常用的平均数有算术均数、几何均数、中位数。,一、算术均数(简称均数mean),总体均数记作,样本均数记作。该指标适用于对称分布,尤其是正态或近似正态分布的资料。,计算方法:,l直接法:当观察单位的个数不多时可直接计算。公式为:l加权法:当资料中相同观察值的个数较多时,可将相同观察值的个数,即频数f,乘以该观察值X,以代替相同观察值逐个相加。加权法用于频数表资料时,式中,f为组段频数,x为组中值,组中值=。,例2.2对表2.1资料用加权法求平均身高,计算方法如下:表2.2110名7岁男童身高均数的计算(加权法),二、几何均数(geometricmean),记作G。该指标适用于:变量值呈等比级数关系的资料,如血清抗体滴度的资料;对数正态分布的资料,即某些偏态分布的资料,当将变量值取对数后又呈现正态分布的资料。,计算方法,l直接法:当观察单位的个数不多时可直接计算。公式为:l加权法:当资料中相同观察值的个数较多时,如频数表资料,可用下式计算:,例2.440名麻疹易感儿接种麻疹疫苗后一个月,血凝抑制抗体滴度见表2.3第(1)、(2)栏,求平均滴度。,表2.3平均滴度的计算lgG=72.2471/40=1.8064G=lg-11.8064=64即平均抗体滴度为1:64,抗体滴度,(,1,),人数,,f,(,2,),滴度倒数,,X,(,3,),lg,X,(,4,),flgX,(,5,),=,(,2,)(,4,),1,:,4,1,4,0.6021,0.6021,1,:,8,5,8,0.9031,4.5155,1,:,16,6,16,1.2041,7.2246,1,:,32,2,32,1.5051,3.0102,1,:,64,7,64,1.8062,12.6434,1,:,128,10,128,2.1072,21.0720,1,:,256,4,256,2.4082,9.6328,1,:,512,5,512,2.7093,13.5465,合,计,40,72.2471,计算几何均数应注意的问题,数据中不能有零;数据中不能同时有正值和负值;但若均为负值时,可先去掉负号进行计算,再在计算结果上加上负号。,三、中位数(median)和百分位数(percentile),中位数(median):将一组观察值由小到大顺序排列,位次居中的变量值即为中位数。记作M。中位数适用于:明显偏态分布;总体分布型不明的资料;开放型数据。,中位数的计算方法,l直接法:先将观察值按大小顺序排列,再按下式计算:n为奇数时n为偶数时l频数表法:当观察值的个数较多时,可先将资料整理为频数表,再按下式计算:式中,L为中位数所在组段的下限;i为频数表中的组距;f为中位数所在组段的频数;为中位数所在组段以前的累积频数。,例2.5151例慢性胃炎患者住院时间如表2.4,求其平均住院天数。,表2.4151例慢性胃炎患者住院时间的频数分布平均住院天数为16.53天。,住院天数,0,15,30,45,60,75,90,105115,频,数,70,54,16,5,4,1,0,1,百分位数(percentile):以Px表示一个百分位数Px将总体或样本的全部观察值分成两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大,故百分位数是一个界值,也是分布数列的百等份分割值,P50分位数也就是中位数,因此,中位数是一个特定的百分位数。,百分位数计算方法,计算公式:Px=L+i/fx(nx%-fL)式中,L为Px所在组段的下限;i为频数表中的组距;fx为Px所在组段的频数;fL为Px所在组段以前的累积频数。,例2.6某市大气中SO2的日平均浓度(g/m3)见表2.5第(1)、(2)栏,分别求第25、75、95百分位数和中位数。,表2.5某市大气中SO2日平均浓度的百分位数和中位数计算,计算累计频数及累计频率,见第(3)、(4)栏;P25=50+25/67(36125%-39)=69.12P75=125+25/45(36175%-233)=145.97P95=250+25/6(36195%-341)=258.12P50=M=100+25/63(361/2170)=104.17,四、平均数指标的正确应用,上述各平均数指标,均有其相应的适用条件,应依据资料分布类型和数据情况正确选用。一般情况下可通过对同一资料中几个指标间的关系,粗略判断资料的分布类型:对称分布,尤其是正态分布资料中,均数与中位数相接近(即)。偏态分布时,均数与中位数相差较大。对某一偏态分布资料,若其中位数与几何均数接近(即),则说明此资料为对数正态分布资料。总之,对称分布(尤其正态或近似正态分)资料应首选均数;对数正态分布资料应首选几何均数;其它分布情况则使用中位数。,第三节离散程度的描述,集中趋势和离散趋势是频数分布的两个重要特征,要把两者结合起来才能全面地认识事物。,离散趋势分析实例,例2.7三组同性别、同年龄儿童的体重(Kg)如下,分析其集中趋势与离散趋势。甲组2628303234甲=30Kg乙组2427303336乙=30Kg丙组2629303134丙=30Kg三组数据的集中位置都是30Kg。但三组数据的离散程度不同,这在分析资料时不能不加以考虑。说明离散程度的指标有极差、四分位数间距、方差、标准差、变异系数等,其中方差、标准差最为常用。,一、极差(亦称全距range),它反映一组观察值的波动范围,记作R。该指标适用于任何分布类型的资料。但因其只受两侧极端值的影响,故反映一组观察值的变异程度时较粗糙。,二、四分位数间距(quartile),四分位数间距(quartile)记作Q。公式表达为:Q=QU-QL式中,QU为上四分位数,即P75;QL为下四分位数,即P25。四分位数间距可看成中间一半观察值的极差。它和极差类似,数值越大说明变异度越大。如例2.6中,P25=69.12(g/m3),P75=145.97(g/m3),故其四分位间距为Q=QU-QL=145.9769.12=76.85(g/m3)该指标的适用条件同中位数,而且通常与中位数(亦称第50百分位数)结合,全面描述偏态及不明分布资料的特征。应用时需注意:当样本含量不够大时,该指标不够稳定,故不宜选用。,三、方差(variance),总体方差记作2,样本方差记作S2。计算公式为:该指标常在方差分析中应用。,四、标准差(standarddeviation),将方差开平方即为标准差,总体标准差记作,样本标准差记作S。标准差的适用条件与均数相同,而且通常与均数结合全面描述正态或近似正态分布资料的特征。标准差越大,说明变量值越分散,即变异度越大;反之,则说明变量值越集中,即变异度越小,此时样本均数对该组变量值的代表性就越好。,样本标准差的计算,直接法:求例2.7中甲、丙两组数据的标准差:甲组n=5,X=26+28+30+32+34=150X2=262+282+302+322+342=4540S=3.16丙组n=5,X=150,X2=4534,S=2.92(kg)甲组体重的标准差3.16kg,大于丙组的2.92kg,可见甲组的变异度大于丙组,也就是甲组均数的代表性比丙组均数的代表性差。,加权法:例2.8求表2.2中110名7岁男童身高的标准差。由表2.2,已知f=110,fx=13194,再由(3)、(4)栏相乘后求和,得fx2=1584990,代入公式得=4.72(cm),五、变异系数(coefficientofvariation),变异系数记作CV。适用条件:两观察指标单位不同。单位相同但均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论