2 第二章计量资料的统计描述马修强_第1页
2 第二章计量资料的统计描述马修强_第2页
2 第二章计量资料的统计描述马修强_第3页
2 第二章计量资料的统计描述马修强_第4页
2 第二章计量资料的统计描述马修强_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,第二章计量资料的统计描述,卫生统计学教研室2011.9.15,统计分析的内容,统计描述,统计描述(statisticaldescription):指用恰当的统计指标、统计表与统计图,对资料的数量特征及其分布规律进行测定和描述。,医学研究中常见的资料类型,实例分析,例2-1某医院用随机抽样方法检查了138名成年女子的红细胞数(1012/L),其测量结果如下。,实例分析,第一节频数分布,频数(frequency):对一个随机变量做重复观察,其中某变量值出现的次数叫做频数,每个变量值出现次数与总数的比值叫做频率。频数分布表(frequencydistributiontable):简称频数表,当变量值个数较多时,对各变量值出现的频率列表即为频数分布表。,频数表的编制步骤,求极差(Range)R=Xmax-Xmin5.46-3.072.39定组距R除以组段数1015本例:组距为2.39/120.1990.2写组段确定每个组段的上下限划记并计算频数:写“正”字,表2-1138名正常成年女性的红细胞数(1012/L)频数分布,频数分布表,频数分布图,频数表和频数图的用途,1.描述频数分布的类型,对称分布,正偏态分布,负偏态分布,频数表和频数图的用途,2.描述频数分布的特征,频数表和频数图的用途,3.便于发现一些特大或特小的离群值,4.便于进一步做统计分析和处理,第二节集中趋势的描述,统计学用平均数(average)来描述一组计量资料的集中位置或平均水平。常用的平均数指标:算术均数(mean)几何平均数(geometricmean)中位数(median),算术均数(简称均数,mean),计算公式直接法:频数表法:,符号:样本均数总体均数,适用范围:对称分布、正态分布资料,均数的计算,例2-2计算138名成年女子的红细胞数(1012/L)的均数。,直接法:,间接法:,资料:10,100,1000,10000,100000,均数22222能够反映该资料的平均水平(集中趋势)吗?,几何均数(geometricmean),表示符号:G或适用范围:等比数列的资料,或原始数据分布不对称,但经对数转换后呈对称分布的资料,即对数正态分布资料。常用于免疫学指标。,计算公式:直接法:间接法:,表2-569例RA患者血清EBV-VCA-IgG抗体测定结果,几何均数的计算,几何均数的计算,故69例RA患者血清EBV-VCA-IgG抗体的平均滴度为1:150.6。,几何均数的计算,21,11个大鼠存活天数:4,10,7,50,3,15,2,9,13,60,60平均存活天数?,22,中位数(median),定义:将n个变量值从小到大排列,位置居于中间的那个数。符号:M或Md适用范围:各种分布类型的资料,尤其是偏态分布资料,一端或两端无确切数值的资料。,23,中位数的计算,直接法,n为奇数时,n为偶数时,从小到大排列后,位置在(n+1)/2个顺位,将数值从小到大排列,24,中位数的计算,例2-67名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,求其中位数。,本例n7为奇数,所以M=X4=5(天)。,25,中位数的计算,例2-78名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。,8名中学生n为偶数,1,2,2,3,5,8,15,24,百分位数(percentile),一种位置指标,用Px表示用第X百分位数。一个百分位数Px将全部变量值分为两个部分,其中有X的变量值小于或等于Px,另外(100-X)的变量值大于或等于Px。中位数是特定的百分位数,即第50百分位数(P50)。,百分位数的计算,首先将变量值从小到大排列。百分位数的计算公式为:设(n+1)X%=j+g,j为整数部分,g为小数部分当g=0时,PX=X(j)当g0时,PX=(1-g)X(j)+gX(j+1),百分位数的计算,百分位数的计算,例2-9对某医院细菌性痢疾治愈者的住院天数统计,119名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。患者编号:123456789117118119住院天数:112223445404042,百分位数的计算,n=119,1205=6,12099=118.8P99=0.2X(118)+0.8X(119)=0.240+0.842=41.6(天),计算公式公式中LX、iX、fX分别为第X百分位数所在组段的下限、组距、频数,fL为小于LX各组段的累计频数,n为总例数。,频数表资料百分位数的计算,表2-6118名链球菌咽喉炎患者的潜伏期,频数表资料百分位数的计算,表2-6118名链球菌咽喉炎患者的潜伏期,其他百分位数的计算,应用平均数的注意事项,算术均数适用于观察值相差不大的小样本资料或对称分布、近似正态分布的大样本资料;几何均数适合于观察值为等比级数的资料,或对数正态分布的资料;中位数适合各种类型的资料,尤其适合大样本偏态分布资料。当资料分布类型不明,特别是当分布末端无确定数值,不能求均数和几何均数时,宜采用中位数表示其平均水平。,计算平均数时要注意数据的同质性。平均数的计算和应用必须具备同质的基础,必须先合理分组,否则计算的平均指标是没有实际意义的。,应用平均数的注意事项,34,资料:三组4岁男童的身高(cm)甲组:9095100105110乙组:9698100102104丙组:99100100100101,=100cm,35,第三节描述离散趋势的统计指标,变异指标(variationindex)/离散趋势指标:用以描述一组数值变量的变量值之间参差不齐的程度,即离散程度或变异程度。,又称全距,简称为R,为一批数据中最大值与最小值之差。极差越大,说明数据变异程度越大。,极差(range),例子:R甲=110-90=20(cm)R乙=104-96=8(cm)R丙=101-99=2(cm),极差的用途:极差适合于各种分布类型的资料,可以用于资料的粗略分析,如用于说明传染病、食物中毒等的最长、最短潜伏期等。,极差的缺点:1.除了最大、最小两个极端值外,不能反映所有数据的变异大小;2.受样本含量n的影响较大,稳定性差。,极差(range),四分位数间距(quartilerange),四分位数(quartile)就是把全部位次平均分为四个部分,各有25%的观察值,即第1四分位数(下四分位数QL=P25)、第2四分位数(中位数M=P50)、第3四分位数(上四分位数QU=P75)四分位数间距(quartilerange)就是由第3四分位数(QU)与第1四分位数(QL)相减计算而得,记为QR。,例2-12,已知P25=39.2,P75=67.7,计算118名链球菌咽喉炎患者潜伏期的四分位数间距。QR=67.7-39.2=28.5(天),百分位数和四分位数间距的应用,1.QR数值越大,说明变异度越大;反之,说明变异度越小。QR受样本大小波动的影响小,常与中位数一起使用,描述偏态分布资料的分布特征;2.百分位数是描述资料特征的位置指标,多个百分位数的结合应用,可更全面描述总体或样本的分布特征;3.百分位数可用于确定医学参考值范围(referencerange)。,方差(variance),又称均方差(meansquaredeviation),表示一组数据的平均离散水平。,离均差,离均差平方和,总体方差,标准差(standarddeviation),总体标准差的计算公式为:,为方差的正的平方根,使得量纲与原变量值相同。标准差越大,说明数据的变异程度越大。,样本标准差:,简化公式:,标准差(standarddeviation),例:计算三组资料的标准差。甲组:9095100105110乙组:9698100102104丙组:99100100100101,甲组:n=5,乙组:S=3.16cm,丙组:S=0.71cm,标准差(standarddeviation),频数表资料标准差的计算:,标准差(standarddeviation),3.计算变异系数、标准误等指标;,1.描述正态分布或近似正态分布资料的离散程度;,标准差的应用,5.当资料的度量单位不同或均数相差较大时,两组资料的标准差不能直接比较。,4.估计样本含量;,2.结合均数描述正态分布特征(),还可用于估计参考值范围();,为标准差与均数之比用百分数表示,又称为离散系数(coefficientofdispersion)。,变异系数(coefficientofvariation),公式:,例:某地7岁男孩:身高的均数为123.10cm,标准差为4.71cm;体重的均数为22.29kg,标准差为2.26kg。,身高:,体重:,变异系数(coefficientofvariation),变异系数(coefficientofvariation),1.极差应用比较广泛,它适合于各种分布类型的资料,可以用于资料的粗略分析;2.四分位数间距同极差一样,适合于各种分布类型的资料,但较极差稳定,尤其适用于大样本偏态分布资料;,应用变异指标的注意事项,3.标准差适合于均匀分布或近似正态分布的资料,大、小样本均可,是统计分析中最为常用的一种变异指标;4.变异系数主要用于不同类型的观察指标,或同类型观察指标但均数相差悬殊时变异程度的比较。,应用变异指标的注意事项,计量资料的统计描述SPSS数据格式,包括2个变量:Group:组别,1=甲组,2=乙组,3=丙组height:身高,“Analyze”DescriptiveStatistics”Explore”,将变量“height”选中放入“DependentList”对话框,将变量“height”选中放入“DependentList”对话框,将分组变量“group”选中放入“FactorList”对话框,点击按钮“Statistics”,选中“Descriptive”和“Percentiles”,均数,均数,总体均数的95%CI,中位数,方差,标准差,极差,四分位数间距,各组的百分位数,正态分布(normaldistribution),正态分布(normaldistribution),正态分布的概率密度函数:称X服从正态分布,记作XN(,2),正态分布的命名,虽然正态分布的概念是由德国数学家和天文学家Moivre首次提出的,但率先将其应用于天文学研究的却是德国数学家Gauss,故正态分布又称Gauss分布(Gaussdistribution)。,正态分布的特点,在直角坐标的横轴上方呈钟型曲线,两端与X轴永不相交,且以X=为对称轴,左右完全对称。在X=时,曲线达到最高峰,即f()最大,随着X逐渐远离,f(X)逐渐减小。,正态分布的特点,位置参数增大,曲线右移减小,曲线左移总体均数越大,曲线越远离原点;越小,曲线越接近原点。,正态分布的特点,形态参数越小,曲线越陡峭越大,曲线越平坦总体标准差越大,变异程度越大,个体值越分散;总体标准差越小,变异程度越小,个体值越集中。,正态分布的特点,正态分布曲线下面积分布有一定的规律;求一定区间的曲线下面积可以通过微积分的方法计算得到;计算公式如下:F(x)为正态随机变量X的分布函数。,正态分布曲线下面积分布规律,x轴与曲线所夹面积恒等于1或100;,标准正态分布(standardnormaldistribution),不同变量的正态分布曲线是不相同的(如:身高和体重);同一变量在不同状态下的正态分布曲线也不相同(如:餐前血糖和餐后血糖);通过变量转换可将所有的正态分布曲线转化为一条通用的正态分布曲线标准正态分布曲线。,标准正态分布变量转换方法,将中心位置移至原点,即=0;将刻度单位定义为总体标准差,即=1;将原变量X转换为u变量,u称为标准正态变量。转换公式为:,标准正态分布函数,标准正态分布记作uN(0,12),其概率密度函数为:标准正态分布的分布函数为:,标准正态分布表,附表1标准正态分布表,(u),1-(-u),(-u),根据正态分布左右对称的特点,所以有(u)=(-u),u0,标准正态曲线下面积的应用,用于估计某随机变量中某个取值范围内的例数占全部例数的百分比。已计算得到某地138名正常成年女性的红细胞数的均数为4.23(1012/L),标准差为0.45(1012/L),试估计该地正常成年女性的红细胞数在4.00(1012/L)、4.005.00(1012/L)和5.00(1012/L)者分别占正常成年女性总人数的百分比。,标准正态曲线下面积的应用,进行u转换,标准正态曲线下面积的应用,查附表1可得:(-0.51)=0.3050,(-1.71)=0.0436(1.71)=1-(-1.71)=1-0.0436=0.9564(-0.51,1.71)=0.9564-0.3050=0.6514结论:该地正常成年女子红细胞数4.00(10

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论