《医学统计学》教学课件-计量资料的统计描述 1_第1页
《医学统计学》教学课件-计量资料的统计描述 1_第2页
《医学统计学》教学课件-计量资料的统计描述 1_第3页
《医学统计学》教学课件-计量资料的统计描述 1_第4页
《医学统计学》教学课件-计量资料的统计描述 1_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章计量资料的统计描述,陈学芬,第一节频数分布,一、频数分布表,连续变量:将变量值划分为若干个组段,清点并记录各组段变量值的个数,称为频数表。离散变量:各变量值的个数。目的:初步了解分布规律,【例4-1】某地2009年随机抽取102名成年男子测量其血红蛋白含量(g/L)的资料如下,试编制其血红蛋白的频数表。,编制频数表的步骤,1.求全距(Range):也称极差用R表示。2.确定组段数和组距:较好地显示数据分布规律。3.写出组段:前闭后开,最后组段全。4.分组划计统计频数列出频数表。,频数表的编制步骤1.求极差:极差(range)是全部数据中的最大值与最小值之差,它描述了数据的变异幅度。公式:RXMaxXMin例2-1:R=173-103=70,一、频数分布表,2.确定组段数n100,1015组;n60,60平均存活天数?1.中位数(median)是将一组变量值从小到大排列,位置居于中间的那个变量值(n为奇)或位置居中的两个变量值的均数(n为偶),用M表示,((medianpercentile)),中位数例:,X:5,5,6,7,20,位次:12345,中位数(M):6,6.5,236,中位数,计算方法:直接由原始数据计算中位数先将观察值按大小顺序排列,再按下面公式计算:,例有7名正常人的血压(舒张压)测定值(mmHg)为:72,75,76,77,81,82,86,求中位数。解:n=7为奇数变量x:72,75,76,77,81,82,86位次:1234567,中位数,请大家思考下:计算中位数和其他平均数有什么不同?,特点:仅利用了中间的12个数据,计算方法:用频数表计算中位数,按所分组段,由小到大计算累计频数和累计频率。再按下面公式计算为:,中位数,3.中位数,0,2.27,4.55,10.61,28.03,46.21,65.15,80.30,89.39,96.97,3.中位数,累计频数,3614376186106118128132,中位数应用情况,适用于各种分布类型的资料,特别是:资料明显偏态资料一端或两端无确定数值(开口资料)资料分布情况不明,3.百分位数,定义:是一种位置指标,用PX来表示。将n个变量值从小到大依次排列,再把它们的位次转换为百分位。对应于X%位次的数值即为第X百分位数。变量值:55889758位次:12375150百分位次:0.7%1.3%2%50%100%,百,分,数,示,意,(100-x)%,x%,位,图,3.百分位数,一个PX将全部变量值分为两部分,在不包含PX的全部变量值中有X%的变量值比它小,有(100-X)%的变量值比它大。,PX是一个界值。,3.百分位数,计算方法频数表法公式如下,Lx:第X百分位数所在组段的下限ix:第X百分位数所在组段的组距fx:第X百分位数所在组段的频数:第X百分位数所在组段上一组段累计频数,例某传染性疾病的潜伏期(天)见表8-3,求平均潜伏期和潜伏期的第25、75与95百分位数P25,P75,P95。,3.百分位数,3.百分位数,四分位数(Quartile)(三个四分位数),3.百分位数,P50,P25,P75,百分位数的应用,百分位数用于描述一组数据某一百分位的位置,中位数即P50最为重要可用多个百分位数结合描述一组观察值的分布特征。百分位数可用于确定非正态分布资料医学参考值范围。注意样本含量要足够大。,(四)众数(mode),在样本中出现次数最多的数值。1,2,3,4众数没有1,2,3,4,4众数为41,2,2,3,3,4众数为2和3,设有甲、乙、丙三名医生,分别对相同的5份血样进行红细胞计数(万/mm3),结果如下表:,二、离散趋势的描述,常用统计指标,极差四分位数间距方差和标准差变异系数,(一)极差(Range),极差,又称全距,用R表示。即一组变量值最大值与最小值之差。,简单,但仅利用了两端点值,稳定性差。不能反映其它数据的变异,当样本量较大时极差也较大不宜比较。,极差,例三组同龄男孩的身高值(cm)R甲组909510010511010020乙组96981001021041008丙组96991001011041008,(二)四分位数间距(quartilerange),四分位数间距,用Q表示:Q=下四分位数:上四分位数:,四分位数间距通常用于描述偏态分布资料和开口资料的离散程度,较极差稳定,但也不能全面反映资料的离散程度。,(三)方差与标准差,1.方差(variance)也称均方差(meansquaredeviation),全面考虑观察值的变异情况。总体方差:样本方差:,2、总体标准差用表示:样本标准差用表示:加权法计算公式:,方差和标准差用于对称分布资料。,特点:方差的分子离均差平方和,是将每一个观察值与均数作差之后平方:反映了全部观察值的离散程度;但同时也将变量值的度量衡单位平方了,变成了(m)2、(kg)2为了用原单位,就把总体方差开平方,取其正的平方根,这就是总体标准差,用表示:,恩8错!这个指标够尽善尽美,方差与标准差,标准差的意义,说明资料的离散趋势(或变异程度),标准差的值越大,说明变异程度越大,均数的代表性越差;标准差越小,说明观察值的离散程度越小,说明用均数反映平均水平的代表性越好。(标准差与原始数据的单位一致,在科技论文报告中,均数与标准差经常被同时用来描述资料的集中趋势与离散趋势),样本方差为什么要除以(n1),与自由度(degreesoffreedom)有关。自由度是统计学术语,其意义是随机变量能自由取值的个数。如:n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。,如有一个n=4数据样本,受到5的条件限制,在自由确定4,2,5三个数据之后,第四个数据只能是9,否则均数不是5,推而广之,任何统计量的v=n-限制条件的个数。,计算标准差时,n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n1)个“离均差”表示,所以只有(n1)个独立的“离均差”。因此只有(n1)个自由度。,方差与标准差,(四)变异系数,变异系数(coefficientofvariation,CV)常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。,某地7岁男孩身高的均数为123.10cm,标准差为4.71;体重均数为22.59kg,标准差为2.26kg,比较其变异度?,小结,不同分布类型的计量资料,用来描述集中趋势和离散趋势的指标各不相同;对称分布(尤其是正态分布或近似正态分布)常用均数和标准差来描述集中和离散趋势;偏态分布常用中位数和四分位数间距来描述集中和离散趋势。,SPSS实习统计描述,1.计量资料的统计描述分析AnalyzeDescriptiveStatisticsFrequenciesVariables:待分析的变量Statistics,填入分位点,点击Add,点击Continue。CentralTendancy(集中趋势)Dispersion(离散趋势)Distribution(峰度和偏度系数)Charts:Histogram(直方图)点击Continue。OK,课堂练习:例3-1.sav要求:(1)绘制直方图(2)计算出均数、中位数、P5、P25、P75、P95(3)计算方差、标准差,编制频数表SPSS步骤(1)TransformRecodeintoDifferentVariables:“血清铜含量”移至右框“name框”中输入“组段”change。单击OldandNewValuesOldValues:9.009.99NewValues:9.00.ContinueOK(2)AnalyzeDescriptiveStatisticsFrequencies组段Variable框OK,SPSS结果,几何均数,SPSS步骤(例3-4)AnalyzeReportsCaseSummaries(滴度Variables框)。Statistics,“GeometricMean”添加入Cell框。ContinueOK。,2.计数资料的统计描述分析(1)数据加权DataWeightCasesWeightCases:Weightcasesby:Frequency:f(2)列出频数表AnalyzeDescriptiveStatisticsCrosstabsRows:group(行变量)Columns:effect(列变量)ContinueOK。,课堂练习:例3-2.sav,第三节正态分布,一、正态分布的概念与特征,正态分布(normaldistribution)也叫高斯分布(Gaussiandistribution),是以均数为中心,中间频数分布多,两侧逐渐减少的对称分布,其概率密度函数为:,随机变量X服从正态分布,记作,为总体均数,为总体标准差。,1.概念,2.特征,横轴上方钟型曲线,与横轴永不相交,以为对称轴,左右完全对称。单峰分布,高峰位置在中央(X=),X越远离,f(X)越小。正态分布有两个参数:位置参数:描述正态分布的集中趋势的位置。形态参数:描述正态分布离散趋势,越小,分布越集中,曲线形状越“瘦高”;反之越“矮胖”。正态分布的面积分布有一定的规律性,总面积=1。,不同参数的正态分布曲线,不同参数的正态分布曲线,正态分布曲线下面积,任意两点x1,x2且(x1x2),X在(x1,x2)范围内取值的概率P,即正态分布曲线在(x1,x2)下面积:,正态分布曲线下的面积,反映了总体中相应区间的个体观察值所占的比例或概率。,概率密度函数与累积分布函数,正态分布曲线下面积,标准正态分布,对任意一个正态分布可以进行标准化变换,z变换变换后的随机变量z服从标准正态分布,即zN(0,1),标准正态离差,标准正态分布曲线下面积表、图,为标准正态分布曲线下-到z范围内的面积,标准正态分布的特殊点的概率,正态分布的概率计算,例:已得110名7岁男孩身高(121.94.5),现欲估计该地1995年身高介于116.7cm到119.1cm范围内的7岁男童的概率。解:由该例的频数图可知,可以认为7岁男孩身高近似服从正态分布,由于本例样本量较大,假定:,二、正态分布的应用,制定医学参考值范围质量控制:警戒线,控制线统计方法的理论基础,第四节医学参考值范围的制定,一、概念,医学参考值范围:绝大多数正常人的某项生理、生化等指标值的波动范围,参考值范围在诊断方面可用于划分正常或异常。“正常”人群:排除了影响所研究指标的疾病和有关因素的同质人群大多数个体;90%,95%,99%等,二、确定医学参考值范围步骤,确定“正常人”;统一测量标准;确定分组;确定样本量;选定适当的百分界值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论