数值变量统计描述_第1页
数值变量统计描述_第2页
数值变量统计描述_第3页
数值变量统计描述_第4页
数值变量统计描述_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数值变量资料的统计描述,DescriptiveStatistics,变量关系,研究内容,统计描述:利用统计图、统计表、统计指标等来描述样本资料的特征。,DescriptiveStatistics,频数分布表(frequencytable),数值变量资料的分类离散型资料(discretedata):是指变量取值可以一一列举的资料。例如,每个育龄妇女现有的子女数。如1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7。连续型资料(continuitydata):是指变量取值不能一一列举(即变量取值为一定范围内的任意值)的资料。例如,人体的身高(cm)、体重(kg)等。,DescriptiveStatistics,表2-11998年某地96名孕妇产前检查次数分布,离散型资料(discretedata),DescriptiveStatistics,频数分布表(frequencytable),根据表2-1频数的分布可绘出频数分布图。,DescriptiveStatistics,频数分布表(frequencytable),离散型资料(discretedata),1998年某校100名18岁健康女大学生(cm)资料,DescriptiveStatistics,频数分布表(frequencytable),连续型资料(continuitydata),1998年某校100名18岁健康女大学生(cm)资料,DescriptiveStatistics,频数分布表(frequencytable),连续型资料(continuitydata),例1测得130名健康成年男子脉搏资料(次/分)如下,试编制频数表和观察频数分布情况。,频数表的编制:,DescriptiveStatistics,频数分布表(frequencytable),求极差(range):即最大值与最小值之差,又称为全距。R8457=27(次/分)决定分组组数、组距:根据研究目的和样本含量n确定分组组数,通常分为1015个组。组距=极差/组数,为方便计,组距为极差的十分之一,再略加调整。27/10=2.73列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值。5659808385划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。,DescriptiveStatistics,频数分布表(frequencytable),频数表的编制:,表2-3130名健康成年男子脉搏(次/分)的频数分布表,Nf,DescriptiveStatistics,频数分布表(frequencytable),频数表的编制:,频数分布表(frequencytable),频数分布图,DescriptiveStatistics,频数表的编制:,表2-4160名正常成年女子的血清甘油三酯(mmol/L),DescriptiveStatistics,频数分布表(frequencytable),频数表的编制:,(1)求极差(range):即最大值与最小值之差,又称为全距。本例极差:R=1.770.51=1.26(mmol/L)(2)决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分之一,再略加调整。本例i=R/10=1.26/10=0.1260.1。(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。,DescriptiveStatistics,频数分布表(frequencytable),频数表的编制:,DescriptiveStatistics,频数分布表(frequencytable),编制频数表的基本步骤:,频数分布表(frequencytable),DescriptiveStatistics,频数表的用途:,频数分布表(frequencytable),DescriptiveStatistics,频数表的用途:,1描述频数分布的类型和特征,DescriptiveStatistics,频数分布表(frequencytable),(1)对称分布:若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布,频数表的用途:,1描述频数分布的类型和特征,是否为对称分布?,DescriptiveStatistics,频数分布表(frequencytable),(2)偏态分布:正偏态分布:右侧的组段数多于左侧的组段数,频数向右侧拖尾。负偏态分布:左侧的组段数多于右侧的组段数,频数向左侧拖尾。,频数表的用途:,1描述频数分布的类型和特征,DescriptiveStatistics,频数分布表(frequencytable),表23数据的频数分布特征:数据变异(离散)的范围在5784(次/分)数据集中(平均)的组段在6873(次/分)之间,尤以组段的人数71(次/分)最多。且上下组段的频数分布基本对称。,频数表的用途:,1描述频数分布的类型和特征,DescriptiveStatistics,频数分布表(frequencytable),频数表的用途:,2便于发现一些特大或特小的可疑值,3便于进一步做统计分析和处理,DescriptiveStatistics,频数分布表(frequencytable),描述数值变量资料的集中趋势(centraltendency)指标,统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。常用的平均数有:算术均数(均数)(mean)几何均数(geometricmean)中位数(median)与百分位数(percentile)众数(mode),DescriptiveStatistics,算术均数(arithmeticmean:简称均数(mean)可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。,计算方法:,直接法:,例2.2某地随机抽取10名18岁健康男大学生身高(cm)分别为168.7,178.4,170.0,170.4,172.1,167.6,172.4,170.7,177.3,169.7,求平均身高。,(cm),DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),例:测得130健康成年男子脉搏资料(次/分)如下,计算平均水平。,算术均数(arithmeticmean:简称均数(mean),直接法:,DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),公式:,k:频数表的组段数,f:频数,X:组中值。,算术均数(arithmeticmean:简称均数(mean),加权法:,权数:各组次数(频数)的大小所对应的标志值对平均数的影响具有权衡轻重的作用。当各组的次数都相同时,即当f1=f2=f3=fn时:加权算术平均数就等于简单算术平均数。,描述数值变量资料的集中趋势(centraltendency),DescriptiveStatistics,表2-2130名健康成年男子脉搏(次/分)的频数分布表,Nf,fX,fX2,DescriptiveStatistics,算术均数(arithmeticmean:简称均数(mean),特点:,各个标志值与其算术平均数的离差之和等于零。各标志值与算术平均数离差的平方和为最小值。对于任意两个变量x和y,它们的代数和的算术平均数等于两个变量的算术平均数的代数和。,DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),算术均数(arithmeticmean:简称均数(mean),适用条件:,1.均数反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本进行比较。2.均数适用于描述单峰对称分布,特别是正态或近似正态分布资料的集中趋势。,意义:一组性质相同的观察值在数量上的平均水平。表示(总体)X(样本)计算:直接法、间接法、计算机特征:(X-X)=0估计误差之和为0。应用:正态分布或近似正态分布注意:合理分组,才能求均数,否则没有意义。,小结:,DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),几何均数(geometricmean),例题:血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。,此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,,DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),几何均数:变量对数值的算术均数的反对数。,其他对数(如自然对数)变换获得相同的几何均数,几何均数(geometricmean),DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),例有8份血清的抗体效价分别为1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640,求平均抗体效价。,平均抗体效价为:1:57,几何均数(geometricmean),DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),例69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布见表2-4第(1)、(2)栏,求其平均抗体滴度。,几何均数(geometricmean),DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),适用于成等比数列的资料,特别是服从对数正态分布资料。,几何均数(geometricmean),适用条件:,变量值中不能有0;不能同时有正值和负值;若全是负值,计算时可先把负号去掉,得出结果后再加上负号。,注意事项:,DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),几何均数(geometricmean),小结意义:N个数值的乘积开N次方即为这N个数的几何均数表示:G计算:应用:原始数据分布不对称,经对数转换后呈对称分布的资料。例如:抗体滴度,DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency)指标,例题:11个大鼠存活天数:4,10,7,50,3,15,2,9,13,60,60平均存活天数?,中位数(median)和百分位数(percentile),中位数定义:将一组变量值从小到大按顺序排列,位次居中的变量值称为中位数(median,简记为M)。1.直接法:用于例数较少时n为奇数时n为偶数时,DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),例:9名中学生甲型肝炎的潜伏期分别为12,13,14,14,15,15,15,17,19天,求其中位数。,中位数(median)和百分位数(percentile),DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),下限值L,上限值U,中位数M,中位数(median)和百分位数(percentile),描述数值变量资料的集中趋势(centraltendency),DescriptiveStatistics,例2.7某疾病控制中心记录了199名沙门氏菌属食物中毒患者发病的潜伏期,并整理成表2-3中(1)、(2)栏,试计算其平均发病潜伏期。,DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),中位数(median)和百分位数(percentile),中位数适用条件:变量值中出现个别特小或特大的数值;资料的分布呈明显偏态,即大部分的变量值偏向一侧;变量值分布一端或两端无确定数值,只有小于或大于某个数值;资料的分布不清。,DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency)指标,(二)百分位数(percentile),中位数(median)和百分位数(percentile),百分位数(percentile)是一种位置指标,以Px表示。百分位数是将频数等分为一百的分位数。一组观察值从小到大按顺序排列,理论上有x%的变量值比Px小,有(100-x)%的变量值比Px大。故P50分位数也就是中位数,即P50=M。,DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),设有n个原始数据从小到大排列,第X百分位数的计算公式为:当为带有小数位时:当为整数时:,Trunc()取整函数,中位数(median)和百分位数(percentile),直接法:,DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),例对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。,患者:住院天数:(1)n=120,为整数:,(2),带有小数,故取整trunc(118.8)=118,DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),频数表法:,中位数(median)和百分位数(percentile),DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),例2.7某疾病控制中心记录了199名沙门氏菌属食物中毒患者发病的潜伏期,并整理成表2-3中(1)、(2)栏,试计算其平均发病潜伏期。,DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency)指标,例试分别求频数表的第25、第75百分位数。,P2565+3x(130 x25%19)/1565.90P7574+3x(130 x75%85)/1974.66,DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。适用于大样本;较粗糙。例2-7有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。,众数(mode),DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency),正态分布时:均数中位数众数正偏态分布时:均数中位数众数负偏态分布时:均数中位数众数,均数、中位数、众数之间的关系,DescriptiveStatistics,描述数值变量资料的集中趋势(centraltendency)指标,例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3),DescriptiveStatistics,描述数值变量资料的离散趋势(centraltendency)指标,变异(variation)指标,反映数据的离散度(Dispersion),即个体观察值的变异程度。常用的指标有:极差(全距)(Range)百分位数与四分位数间距PercentileandQuartilerange方差Variance标准差StandardDeviation变异系数CoefficientofVariation,DescriptiveStatistics,描述数值变量资料的离散趋势(centraltendency)指标,优点:简便缺点:1.只利用了两个极端值2.n大,R也会大3.不稳定,120,40,20,极差(Range),DescriptiveStatistics,描述数值变量资料的离散趋势(centraltendency),百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。四分位间距:QRP75P25,四分位数间距(quartilerange),特点:比极差稳定,只反映中间两端值的差异。计算不太方便。可用于各种分布的资料。,DescriptiveStatistics,描述数值变量资料的离散趋势(centraltendency),方差(variance),DescriptiveStatistics,描述数值变量资料的离散趋势(centraltendency),方差(variance)也称均方差(meansquaredeviation),反映一组数据的平均离散水平。总体方差样本方差,方差(variance),DescriptiveStatistics,描述数值变量资料的离散趋势(centraltendency)指标,标准差(StandardDeviation),样本方差为什么要除以(n1),与自由度(degreesoffreedom)有关。自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。计算标准差时,n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n1)个“离均差”表示,所以只有(n1)个独立的“离均差”。因此只有(n1)个自由度。,DescriptiveStatistics,描述数值变量资料的离散趋势(centraltendency),标准差的公式还可以写成利用频数表计算标准差的公式为,标准差(StandardDeviation),DescriptiveStatistics,描述数值变量资料的离散趋势(centraltendency),例2-11对例2-1的前10个数据:75,76,72,69,66,72,57,68,71,72,用直接法计算标准差。,标准差(StandardDeviation),DescriptiveStatistics,描述数值变量资料的离散趋势(centraltendency)指标,例2-12利用表2-2中的数据和频数表法计算标准差,Nf,fX,fX2,DescriptiveStatistics,标准差的意义和用途,说明资料的离散趋势(或变异程度),标准差的值越大,说明变异程度越大,均数的代表性越差。标准差与原始数据的单位一致,在科技论文报告中,均数与标准差经常被同时用来描述资料的集中趋势与离散趋势。用于计算变异系数用于计算标准误(见第四章)结合均值与正态分布的规律,估计参考值的范围(见第五节)。,标准差(StandardDeviation),DescriptiveStatistics,描述数值变量资料的离散趋势(centraltendency),变异系数(coefficientofvariation,CV)常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。,变异系数(coefficientofvariation,CV),DescriptiveStatistics,描述数值变量资料的离散趋势(centraltendency),某地7岁男孩身高的均数为123.10cm,标准差为4.71;体重均数为22.59kg,标准差为2.26kg,比较其变异度?,变异系数(coefficientofvariation,CV),DescriptiveStatistics,描述数值变量资料的离散趋势(centraltendency),变异指标小结,1极差较粗,适合于任何分布2标准差与均数的单位相同,最常用,适合于近似正态分布3变异系数主要用于单位不同或均数相差悬殊资料4平均指标和变异指标分别反映资料的不同特征,常配套使用如正态分布:均数、标准差;偏态分布:中位数、四分位半间距,DescriptiveStatistics,描述数值变量资料的离散趋势(centraltendency),正态分布的通俗概念:如果把数值变量资料编制频数表后绘制频数分布图(又称直方图,它用矩形面积表示数值变量资料的频数分布,每条直条的宽表示组距,直条的面积表示频数(或频率)大小,直条与直条之间不留空隙),若频数分布呈现中间为最多,左右两侧基本对称,越靠近中间频数越多,离中间越远,频数越少,形成一个中间频数多,两侧频数逐渐减少且基本对称的分布,那我们一般认为该数值变量服从或近似服从数学上的正态分布。,正态分布的概念,DescriptiveStatistics,正态分布(Gaussiandistribution),以某地13岁女孩118人的身高(cm)资料,来说明身高变量服从正态分布。频数分布表:,DescriptiveStatistics,正态分布(Gaussiandistribution),频数分布图一(又称直方图),从频数表及频数分布图上可得知:该数值变量资料频数分布呈现中间频数多,左右两侧基本对称的分布。所以我们通俗地认为该资料服从正态分布。,DescriptiveStatistics,正态分布(Gaussiandistribution),频数分布图二,DescriptiveStatistics,正态分布(Gaussiandistribution),频数分布图三,DescriptiveStatistics,正态分布(Gaussiandistribution),正态分布图四,DescriptiveStatistics,正态分布(Gaussiandistribution),DescriptiveStatistics,正态分布(Gaussiandistribution),医学研究中的某些观察指标服从或近似服从正态分布;很多统计方法是建立在正态分布的基础之上的;很多其他分布的极限为正态分布。因此,正态分布是统计分析方法的重要基础。,正态分布的重要性,DescriptiveStatistics,正态分布(Gaussiandistribution),DescriptiveStatistics,正态分布(Gaussiandistribution),正态曲线(normalcurve)的发现deMoivre(1667-1754),publishedin1733Laplace(1749-1827)Gauss(1777-1855)正态分布:又称高斯分布(Gaussiandistribution),1正态分布曲线的数学表达式(概率密度函数,probabilitydensityfunction,pdf),正态分布的概念和特征:,DescriptiveStatistics,正态分布(Gaussiandistribution),正态曲线下面积分布有一定的规律,总面积=1。,正态分布的概念和特征:,DescriptiveStatistics,正态分布(Gaussiandistribution),DescriptiveStatistics,累积面积可通过对概率密度函数f(X)积分求得,(累积)分布函数:,正态分布的概念和特征:,DescriptiveStatistics,正态分布(Gaussiandistribution),图2-7正态曲线面积分布示意图,DescriptiveStatistics,图2-7正态曲线面积分布示意图,DescriptiveStatistics,标准正态分布的概念和特征:,DescriptiveStatistics,正态分布(Gaussiandistribution),标准正态分布的概念和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论