数值变量资料的统计描述课件_第1页
数值变量资料的统计描述课件_第2页
数值变量资料的统计描述课件_第3页
数值变量资料的统计描述课件_第4页
数值变量资料的统计描述课件_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,第十五章数值变量的统计分析,2,数值变量资料的统计描述,3,150名3岁女孩身高(cm)资料如下80.1100.197.096.797.9100.786.291.794.790.897.195.892.582.5102.699.196.699.385.289.290.695.193.693.795.197.384.4104.8101.398.7101.587.189.092.796.892.794.999.491.187.283.5103.2101.684.488.491.893.699.294.486.491.788.489.384.282.384.587.989.491.994.586.995.696.592.585.789.186.585.087.689.390.492.195.089.396.396.294.399.591.389.787.489.888.790.292.997.291.490.394.294.696.2,一、数值变量资料的频数分布,4,频数(frequency)对一组研究对象进行观察,某变量或变量值出现的次数,就是变量值的个数。频数分布:变量在其取值范围内各组段分布情况。用频数分布表(简称频数表)、频数分布图表示。反映各变量值与其频数之间的关系,观察资料的分布特征和分布类型,为进一步描述奠定基础。,5,内容,频数分布表的编制频数分布图频数分布的特征频数分布的类型应用,6,频数分布表的编制例1某市随机测量了150名3岁女孩的身高(cm)试编制频数分布表。测试结果如下:,频数分布表,7,80.1100.197.096.797.9100.786.291.794.790.897.195.892.582.5102.699.196.699.385.289.290.695.193.693.795.197.384.4104.8101.398.7101.587.189.092.796.892.794.999.491.187.283.5103.2101.684.488.491.893.699.294.486.491.788.489.384.282.384.587.989.491.994.586.995.696.592.585.789.186.585.087.689.390.492.195.089.396.396.294.399.591.389.787.489.888.790.292.997.291.490.394.294.696.2,150名3岁女孩身高(cm)资料如下,8,1.计算全距:全距又叫极差(range),以R表示,指数据中最大值与最小值之差,它描述了数据变异的幅度。2.划分组段:确定组数、组距和上下限。3.列表归组。,本例中最大值为104.8最小值为80.1R=104.880.1=24.7(cm),为了简化资料组数不宜过多组数也不能太少否则就掩盖了数据分布的规律一般取815组,最常取10组具体视观察值个数n的多少而定,组距(classinterval)即每组间的距离,以i表示i=Rk即全距组数本例中i=24.710=2.47为了便于分组,可以将i取整为2,确定了组数和组距就可以划分组段,每个组段的起点称“下限”,终点称“上限”。为避免含混,每个组段包含下限,不包含上限,是个半开半闭区间:)第一组必包含最小值,最后一组必包括最大值。本例:第一组下限取80,上限=下限+组距=82该值也是第二组的下限,以此类推。本例共划分13个组段。,9,10,以直方图多见,更直观了解频数分布情况。组距有等距与不等距之分。不等距是就变量值的划分而言,直方图的宽度始终相等。,频数分布图,11,图15-1某市150名3岁女孩身高的频数分布,12,年龄(岁)患者人数每岁患者人数年龄(岁)患者人数每岁患者人数03388813396629910363.63111120131.34232330111.1522224040.461111506010.171414,某市某年乙脑患者的年龄分布,13,14,集中趋势(centraltendency)3岁女孩身高虽然有高有矮,但向中间集中,中等身高(92-94cm)的人数最多。离散趋势(tendencyofdispersion)从中等身高向较矮或较高方向频数逐渐减少,向两端离散。,频数分布特征,15,频数分布类型,16,对称分布(正态分布):在频数分布图上表现为中间高、两边低,左右两端对称并逐渐下降。如:体温、血压、脉搏、体重、血糖值。,17,偏态分布:频数分布不对称,在频数分布图上表现为高峰偏向一侧,依高峰所在位置又分为正偏态分布和负偏态分布两种。正偏态分布:高峰偏左侧,即在观察值较小的一端集中了较多的频数。如:正常人体中某些非必需微量元素的频数分布。负偏态分布:高峰偏右侧,较为少见。,18,238名正常人发汞值(g/g)的频数分布,发汞值频数累计频数累计频率(1)(2)(3)(4)=(3)/2380.320208.40.7668636.11.16014661.31.54819481.51.91821289.12.31622895.82.7623498.33.1123598.73.5023598.73.94.33238100.0,19,年龄组恶性肿瘤死亡率(1/10万)00.510122015307640189502346038670286,某地某年恶性肿瘤死亡率的年龄分布,20,揭示资料的分布特征、分布类型。便于发现某些特大或特小的可疑值。便于进一步计算统计学指标。,频数分布表和频数分布图的应用,21,又称平均数(average),是统计学中应用最广泛、最重要的一个指标体系。常用的有算术均数、几何均数、中位数三个指标。用于描述一组同质计量资料的集中位置或反映一组观察值的平均水平。,二、集中趋势指标(centraltendency),22,最常用,也简称均数(mean)。反映一组数据在数量上的平均水平和在分布图上的集中位置。总体均数用表示,样本均数用x表示适用于描述对称分布、正态分布(或近似正态分布)资料的集中趋势。,1算术均数,一,23,1.直接法(用于小样本或有计算机及软件)将所有数据相加,再除以总例数。X1、X2Xn为变量值,n为总例数,为希腊字母,为求和符号。,24,10名3岁女孩身高(cm)分别为:92.5、82.5、102.6、99.1、96.6、99.3、85.2、89.2、90.6、95.1,求其平均身高。代入公式得:,25,2.加权法(大样本,一般以频数表为基础)f1、f2fk为各组段频数,X1、X2Xk为各组段组中值,即(本组下限+下组下限)2,k为组数。,26,1、编制频数表(1)计算全距:R=最大值最小值(2)划分组段:iR/组数(3)列表划记:2、计算公式3、列计算表计算均数,加权法步骤,27,表15-2某市150名3岁女孩身高均数的加权法计表组段频数组中值XfX(1)(2)(3)(4)(2)(3)8018181823832498488568086108787088198916919023912093922693241894249522809617971649981099990100610160610221032061041061105105合计150(f)13918(fX),28,用来描述对数正态分布(呈倍数关系)资料。1.直接法(用于小样本),2几何均数(geometricmean,G),29,例2有5人的血清抗体效价为:1:10,1:100,1:1000,1:10000,1:1000000。求其平均效价?为计算方便,先求其倒数的平均效价:5份血清的平均抗体效价为1:1000。,30,2.加权法(用于大样本、频数表资料)f1、f2fk为各组段频数,X1、X2Xk为倒数,k为组数。,31,例335人血清抗体滴度见下表,求平均滴度。代入公式:得35人血清抗体平均滴度为1:44。,32,抗体滴度人数f滴度倒数XlgXflgX(1)(2)(3)(4)(5)=(2)(4)1:4240.60211.20421:8581.90314.51551:166161.20417.22461:322321.50513.01021:647641.806112.64341:128101282.107221.07201:25612562.40822.40821:51225122.70935.4186合计3557.4967(flgX),表15-3平均抗体滴度计算表,33,是将一组变量值从小到大排序后位次居中的变量值。主要用于描述偏态分布资料;开口资料(一端或两端无确定数据);变量值中有个别过大或过小值资料的集中趋势。,3中位数(median,M),34,1.直接法(用于小样本)n为奇数时,n为偶数时,,35,某病患者5人的潜伏期(d)从小到大排列为1,3,8,9,15天,求中位数。本例n=5为奇数,,36,例4某病患者10人的潜伏期(d)从小到大排列为1,3,8,9,15,19,20,23,25,30,求中位数。此时n为偶数,,37,百分位数是一种位置指标,以PX表示,即将数据从小到大排列分为100等份:P1、P2P100。PX就表示位于X位置的数值。中位数就是位于50%位置的数值,是百分位数的一个特例。,2.频数表法,38,LX:第X百分位数所在组下限iX:PX所在组的组距fX:PX所在组的频数fL:PX所在组前一组的累计频数,百分位数计算,39,中位数(频数表法)LM:中位数所在组下限iM:中位数所在组组距fM:中位数所在组的频数fL:中位数所在组前一组的累计频数,40,例5某医师调查了181名食物中毒患者的潜伏期,见下表,试用中位数反映其平均水平。思路:先判断中位数在哪一个组段,再用公式计算。,41,表15-4181名食物中毒患者的潜伏期,42,本例中位数在第三组段,则L=12,i=12,f=63,fL=30,代入公式得:,43,先找到包含PX的最小累计频数;该累计频数同行左边的组段值为L;L同行右边的频数为fX(或fm);L前一行的累计频数为fL;将上述已知条件代入计算PX或P50。,计算百分位数及中位数技巧:,44,描述一组同质计量资料离散程度。常用指标有极差、四分位数间距、方差、标准差和变异系数。例现有3组健康女大学生口腔温度测得值,试分析其平均水平和离散趋势。1组36.836.937.037.137.2X1=37.02组36.536.937.037.137.5X2=37.03组36.536.737.037.337.5X3=37.0,三、离散趋势指标,45,怎么才能完整的描述一组资料的特征?,仅用集中趋势尚不能完全反映一组资料的特征。故应将集中趋势和离散趋势结合起来,才能更好地反映一组资料的特征。,46,优点:易理解易记忆。缺点:只能反映最大值与最小值的差距,组内其它数的变异反映不出来。受最大值和最小值的影响,样本含量相差悬殊时不宜用。适用范围:适用于开口资料除外的任何分布资料。,1极差(range,R)又称全距,47,是特定的百分位数,把数列分为100等份,前四分之一变量值比第25百分位数(P25)小,称下四分位数,记作QL;后四分之一变量值比第75百分位数(P75)大,称上四分位数,记作QU。四分位数间距=QUQL,2.四分位数(quartile,Q),48,LX:第X百分位数所在组下限iX:PX所在组的组距fX:PX所在组的频数fL:PX所在组前一组的累计频数,百分位数计算,49,首先求资料的P25和P75由表可见P25在12组段,L=12,i=12,f=63,fL=30,代入公式得:P25=同理可知P75在24组段,L=24,i=12,f=47,fL=93,代入公式得:P75=,例6求表15-4数据的四分位数间距,50,表15-4181名食物中毒患者的潜伏期,51,前面已计算出P25=14.90,P75=34.91,代入公式得四分位数间距:QUQL=34.9114.90=20.01(小时),52,优点:比极差稳定,误差较小。缺点:仍未考虑每一个数据的变异。适用范围:偏态分布资料,特别是分布末端无确定数据的资料。,53,离均差:离均差平方和:总体方差:,3方差(variance),54,样本方差:,n1称自由度(degreeoffreedom),常用表示,它描述了当X选定时,n个变量值(X)中能自由变动的X的个数。n1,_,55,总体标准差:样本标准差:加权法:,4标准差(standarddeviation),56,适用条件:方差与标准差均用于描述对称分布资料的离散趋势,尤其是正态分布资料的离散趋势。,57,例75个8岁男孩的体重为:26,28,30,32,34,试求其标准差。,58,例求表15-2中150名3岁女孩体重的标准差。,59,表15-2某市150名3岁女孩身高均数的加权法计表组段频数组中值XfXfX2(1)(2)(3)(4)(2)(3)(5)=(3)(4)8018181656182383249206678488568057800861087870756908819891691150499902391209319046392269324182248749424952280216600961797164915995398109999098010100610160661206102210320621218104106110510511025合计150(f)13918(fX)1294566(fX2),60,描述事物变异程度:适用于正态分布资料(或近似正态分布资料)。衡量均数的代表性:当几组资料单位相同,均数相差不大时。标准差大,表示变量值离均数较远,均数的代表性差;标准差小,表示变量值密集于均数两侧,均数的代表性好。,标准差的应用,61,标准差与均数共同描述正态分布资料的特征,可用于确定医学参考值范围。计算变异系数和标准误。,62,用来比较度量衡单位不同或均数相差悬殊的两组(或多组)资料的变异程度。公式为:,5变异系数(coefficientofvariation,CV),63,例810名小学生,胸围S=3.0cm;背肌力,S=2.5kg,试比较胸围与背肌力的离散程度。,64,胸围背肌力变异指标显示:背肌力的变异程度大于胸围。,65,例9某地200名2月女婴的身高均数为56.9cm,标准差2.3cm;而同年该地150名5岁女孩的身高均数为109.2cm,标准差3.1cm。比较不同年龄女性的身高的离散程度。,66,2月女婴身高:5岁女孩身高:变异系数显示:2月女婴身高的离散度大于5岁女孩身高的离散度。,67,主要指标资料类型X、S正态(近似正态)分布资料G、lg-1Slgx对数正态分布(等比)资料M、QUQL偏态分布、分布不明、分布末端无确定值资料,总结:,一,68,正态分布(normaldistribution)也称高斯分布,是医学和生物学最常见的连续性分布。如正常人的生理生化指标:身高、体重、红细胞数、血红蛋白等。1、正态分布的图形,四、正态分布和医学参考值范围的估计,69,70,正态分布的曲线函数:为圆周率:=3.1415926e为自然对数的底:e=2.71828,71,为正态总体的均数:它描述了正态分布的集中趋势位置,又称为位置参数。为正态总体的标准差:它描述了正态分布的离散程度,又称为形状参数。,72,73,74,为了应用方便,将正态曲线进行u转换使原来的正态分布变换为=0,=1的标准正态分布(standardnormaldistribution),亦称u分布,此时公式化成:,标准正态分布,75,76,正态曲线在横轴上方,均数处最高。以均数为中心,两侧对称,呈“钟形”分布。正态分布有两个参数:位置参数;形状参数正态分布可表示为N(,)标准正态分布可表示为N(0,1)正态曲线下横轴上方的面积有一定规律。,正态分布特征,77,正态曲线下的面积分布规律,78,79,又称为正常值,是指正常人的人体形态、功能和代谢产物等各种生理、生化指标的波动范围。,医学参考值范围的估计,80,选择足够数量的正常人正常人:不具有对所研究指标有影响因素的人,并不是指没有任何疾病或一切都正常的人。对选定人的指标进行测量确定单、双侧范围确定百分数范围:最常用95%。,制定医学参考值范围的步骤,81,82,资料必须呈正态分布或近似正态分布或经过变量变换可变换成正态分布。否则,应当用其它方法如百分位数法估计医学正常参考值范围。,应用正态分布理论估计医学参考值范围必须注意:,83,样本含量必须足够大,否则估计出的医学正常参考值范围就不够可靠。总体必须有明确的定义和范围。观察仪器方法必须统一。,84,正态分布法:正态或近似正态分布资料双侧界值单侧上限单侧下限表15-5常用u值表,医学参考值确定方法(95%),85,例10试根据表15-2中150名3岁女孩身高资料,估计该市3岁女孩身高的95%参考值范围。83.8101.8cm,86,百分位数法:偏态分布资料(95%)双侧界限:(P2.5,P97.5)单侧上限:P95单侧下限:P5表14-6常用参考值范围对应得百分位数Px,百分范围80909599,双侧,单侧,下限P20P10P5P1,上限P80P90P95P99,下限P10P5P2.5P0.5,上限P90P95P97.5P99.5,百分位数法:偏态分布资料(95%)双侧界限:(P2.5,P97.5)单侧上限:P95单侧下限:P5表15-6常用参考值范围对应得百分位数Px,百分范围80909599,双侧,单侧,下限P20P10P5P1,上限P80P90P95P99,下限P10P5P2.5P0.5,上限P90P95P97.5P99.5,87,例将某地某年200名正常成年人血铅含量(ug/100g)资料整理成下表,试估计该市正常成年人血铅含量的95%参考值范围。,88,组段频数f累计频数f累计频率()3474723.59509748.5154414170.5212716884.0271818693.033519195.539519698.045219899.051119999.55763

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论