定量的统计描述.ppt_第1页
定量的统计描述.ppt_第2页
定量的统计描述.ppt_第3页
定量的统计描述.ppt_第4页
定量的统计描述.ppt_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

卫生统计学,第二章 定量资料的统计描述,利用统计表对数据进行概括,用统计图对分布形态 及分布间的关系做直观的表达,用于描述定量资料的统 计指标的意义与计算。,第一节 频数与频数分布,频数(frequency):对一个随机变量做重复观察,其中某变量值出现的次数。 频数分布表(frequency distribution table):将各变量值及其相应的频数列成表格的形式。 例2-2 抽样调查某地120名18岁35岁健康男性居民血清铁含量(mol/L)见P12,试编制频数分布表。,频数表的编制:,一、连续型定量变量的频数分布,步骤: (1) 求全距:(极差)R=29.64-7.42=22.22 (2) 定组段数与组距 : 815个组段,组距i=全距/组段数(3) 划组段:以一个稍小于或等于最小值的整数作为第一个组段的起点数据。 下限:每个组段的起点(最小值) 。 上限:每个组段的终点(近似最大值)。 注:最后一个组段应同时写出上限和下限来。 (4) 绘制整理表 “下限x上限” 注:各组段的频数之和应等于总的观察例数。,两端的组段应分别包含最小值或最大值; 尽量取较整齐的数值作为组段的端点,便于对数据进行表述; 组距以相等为宜。,表2 120名正常成年男子血清铁含量的频数分布表,一 上 正一 正上 正正丅 正正正正 正正正正正丅 正正正上 正正丅 正上 止 一,1 3 6 8 12 20 27 18 12 8 4 1,组段,划记,频数,120,二、离散型定量变量的频数分布,离散型变量的频数分布图 直条图 横坐标为产前检查次数;纵坐标为 频率,即产前检查K次的妇女在被统计妇女中所占的比例%。图中等宽矩形长条的高度与相应检查次数的频率呈正比。,频率:各组的频数除以总例数 n 所得的比值。频率描述了各组频数在全体中所占的比重,各组 频率之和等于100%。 累计频数:本组段的频数与以前各组段的频数 相加; 累计频率:每组段的累计频数除以总例数。,连续变量的频数分布图 连续型变量的频数分布图,以直方的面积大小表示频率的多少。 等距分组 以横轴表示被观察变量,纵轴表示频率密度,以各矩形(宽度为组距)的面积代表各组段的频率。,直方图,图中横轴为血清铁含量,纵轴为频率密度,直条面积等于相应组段的频率。,?,三、 频数分布的两个特征,集中趋势:血清铁含量向中央部分集中, 即中等含量者居多,集中在18 这个组段,这种现象为集中趋势。,离散趋势:从中央部分到两侧的频数分布 逐渐减少,而且血清铁含量的值参差不齐, 最低的接近6 ,最高的接近30 , 这种现象称为离散趋势。,由于同质性,所有实测值趋向同一数值的趋势称为集中趋势。,离散趋势或变异程度是指观察值之间参差不齐的程度。,频数分布,四、频数分布的类型,对称分布型:指集中位置在正中,左右 两侧频数分布大体对称。,偏态分布型:指集中位置偏向一侧,频数 分布不对称。,偏态分布型,正偏态分布:集中位置偏向数值小的一侧。,负偏态分布:集中位置偏向数值大的一侧。,频数表的用途 1. 揭示频数分布的分布特征和分布类型。文献中常将频数表作为陈述资料的形式。 2. 便于进一步计算统计指标和进行统计分析处理。 3. 便于发现某些特大或特小的可疑值。,1 3 9 9 15 18 21 14 10 4 3 2 1,110名7岁男童身高(cm)的频数分布,第二节 定量变量的特征数,总体中的某些个体总是具有某些同质性,同一地区、同一年度、同一民族、同一年龄段、相同的性别与类似的健康状况,这些共同点使得该人群的血清铁含量应趋向同一数值,即集中趋势。不同总体间比较的方式之一就是对他们的集中趋势进行比较。另一方面,同一总体中的个体之间又普遍存在着各种差别,也就是说由于遗传、营养、行为、发育、心理的各种因素在个体之间都不会完全相同,即个体间存在差异,因此导致某地18-35岁健康男性居民血清铁含量不会完全相同,而是呈现或大或小的离散趋势。,平均数:描述一组同质计量资料的集中趋势;反映一组观察值的平均水平。 常用的平均数有算术均数,几何均数和中位数。 (一)算术均数(mean):简称均数,总体均数用希腊字母表示,样本均数用拉丁字母 表示。 1. 计算方法 1) 直接法:适用于样本例数n较少的资料。 其中X1,X2Xn为各变量值,n为样本例数。,一、描述集中趋势的统计指标,2) 加权法:适用于变量值较多的资料。 f1,f2fn分别为各组段的频数,X1,X2X0 为各组段的组中值, 组中值=(本组段下限+下组段下限)/2。,权,即频数多,权数大,作用也大,频数小,权数小,作用也小。,例2-3 测得8只正常大白鼠总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08, 3.45,2.26,4.04,5.42,3.38。试求其算术均数。,求例2-2中某地120名正常成年男子的血清铁 含量的均数。,120名成年男子血清铁含量均数、标准差计算表(加权法),1 3 6 8 12 20 27 12 10 8 4 1,7 27 66 104 180 340 513 378 276 200 108 29,7 9 11 13 15 17 19 21 23 25 27 29,49 243 726 1352 2700 5780 9747 7938 6348 5000 2916 841,2. 均数的两个重要特性 1). 各离均差的总和等于0。(总体中各变量值X与均数之差称为离均差) 2). 离均差的平方和小于各观察值X与任何数a之差的平方和。( ) 即 设:a ,则a= d,d0,由于,3. 均数的应用 但它最适用于对称分布资料,尤其是 正态分布资料。因为这时均数位于分布的中心,最能反映资料的集中趋势。,( 二)几何均数(geometric mean): (几何均数也称为倍数均数,用G表示) 1. 几何均数的计算方法 1) 直接法:适用于样本例数n较少的资料。 将n个观察值X1,X2,X3Xn的乘积开n次方 对数形式:G=lg-1(lgX1+lgX2+lgX3+lgXn)/n =lg-1(lgX/n),例2-5 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。求其平均效价。,7份HBsAg的平均滴度为1:64,2) 加权法:适用于样本例数n较多的资料。,X1,X2Xn 为各组段的滴度或滴度倒数。 f1,f2fn分别为各组段的频数。,例2-6 52例慢性迁延性肝炎患者的HBsAg滴度数据见表2-4,求其平均滴度。,52例慢性肝炎患者的HBsAg滴度的几何均数为1:119.74705,二)几何均数应用的注意事项: 1)几何均数常用于等比级数资料或对数正态分布资料。 2)观察值中不能有0。 3)观察值中不能同时有正值和负值。,中位数(median,M):将一组变量值从小到大按顺序排列,位次居中的那个变量值就是中位数。 百分位数(percentile, Px):指把数据从小到大排列后位于第X%位置的数值。有n个观察值X1,X2Xn,把他们由小到大按顺序排列成X1X2X3Xn,将这n个观察值平均的分为100等份,对应于每一等份的数值就是一个百分位数,对应于前面X%个位置的数值称为第X百分位数,用Px表示。 一个百分位数Px将总体或样本的全部观察值分为两部分,理论上,在不包括Px的全部数据中有X%的观察值比它小,有 (100-X)%的观察值比它大。,(三)中位数和百分位数,1. 中位数和百分位数的计算 1) 直接法:适用于样本例数n较少的资料。 将观察值按大小顺序排列,当n为奇数时,中 间那个数就是中位数。当n为偶数时,中间两个数 的平均数就是中位数。,例2-7 某药厂观察9只小鼠口服高山红景天醇 提物(RSAE)后在乏氧条件下的生存时间(分钟) 如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8, 68.6,69.0 n为奇数,M=63.6 (cm),2)频数表法计算中位数和百分位数:适用于 样本例数n较多的资料。 累计频数:本组段的频数与以前各组段的频数 相加; 累计频率:每组段的累计频数除以总例数。 公式为 L为百分位数所在组段的下限,i为该组段的组距,fx为该组段的频数,fL为百分位数所在组段的前一组段的累计频数,n为总例数。,例2-8 利用表2-2的频数表求血清铁含量的中位数。,1 1 0.83 3 4 3.33 6 10 8.33 8 18 15.00 12 30 25.00 20 50 41.67 27 77 64.17 18 95 79.17 12 107 89.17 8 115 95.83 4 119 99.17 1 120 100.00,例 某市大气中SO2的日平均浓度见表2.5,求P25,P50,P75。,例 某市大气中SO2的日平均浓度见表2.5,求中位数,P25,P50,P75。,2. 中位数和百分位数的应用 1)中位数常用于描述偏态分布资料的集中趋势,反映位次居中的观察值的平均水平。在对称分布的资料中,中位数和均数在理论上是相同的。 2)百分位数可用于确定医学参考值范围(详后)。 3)分布在中部的百分位数相当稳定,具有较好的代表性,但靠近两端的百分位数,只有在样本例数足够多时才比较稳定。,应用平均数的注意事项 1.平均数的计算和应用必须具备同质基础,必须先合理分组。 不同质的事物要分别求平均数,以便分析比较。 2.根据资料的分布选用适当的平均数。对称分布资料,尤其是正态分布资料,宜用均数,也可用中位数,而偏态分布资料则中位数的代表性较好,对数正态分布及等比级数资料宜用几何均数。,1. 极差(range ,R) 也称为全距,用R表示,即一组资料中,最大值与最小值之差。 缺点:1)除了最大、最小值外,不能反映组内其他数据的变异度。2)样本例数越多,抽到较大或较小变量值的可能性越大,因而极差可能越大。3)即使样本含量相同,极差也不够稳定。,二、描述离散趋势的特征数,例2-11 试观察3组数据的离散情况。 A组 26 28 30 32 34 B组 24 27 30 33 36 C组 26 29 30 31 34,2. 四分位数间距(quartile range ,Q) 简记为Q,可看为特定的百分位数。P25表示全部观 察值中有25%(1/4)的观察值比它小,记为下四分位数QL, P75表示全部观察值中有25%(1/4)的观察值比它大,记为上四分位数QU。 Q适用于各种类型的连续型变量,特别是偏态分布的资料。,例 据表2.5资料求某市大气中SO2日平均浓度分布 的四份位数间距。,3. 方差(variance),A组 26 28 30 32 34 C组 26 29 30 31 34,总体方差,方差只取正值。同类资料比较时,方差越大意 味着数据间变异越大。,(二)标准差(standard deviation ,S),总体标准差,样本标准差,式中n-1是自由度,为随机变量能自由取值的个数。它描述了当 选定时n个变量值中能自由变动的变量值的个数。,SS=lxx= =X2-(X)2/n,1. 直接法:适用于n较小的资料,求例题中A组数据的标准差。,2. 加权法:适用于n较大的资料,120名成年男子血清铁含量均数、标准差计算表(加权法),1 3 6 8 12 20 27 12 10 8 4 1,7 27 66 104 180 340 513 378 276 200 108 29,7 9 11 13 15 17 19 21 23 25 27 29,49 243 726 1352 2700 5780 9747 7938 6348 5000 2916 841,3. 标准差的应用: 1) 表示变量分布的离散程度。 2) 结合均数计算变异系数。 3) 结合样本含量计算标准误。 4)结合均数描述正态分布特征。,5. 变异系数(coefficient of variation ,CV) 公式为: 常用于: 1) 比较度量衡单位不同的多组资料的变异度。,例2-16 1985年通过10省调查得知,农村刚满周岁的女童体重均数为8.42kg ,标准差为0.98kg ;身高均数为72.4cm,标准差为3.0cm,试比较二者变异度。,体重 CV=0.98/8.42100%=11.64% 身高 CV=3.0/72.4100%=4.14%,2). 比较均数相差悬殊的几组资料的变异度。,运用变异系数的注意事项: 1.有关的事物才能比较 。 2.均数小于标准差时要考虑其实际运用价值 。,某地不同年龄段男子身高的变异度,偏度系数(coefficient of skewness,SKEW) 理论上,总体偏度系数为0时,分布是对称分布;取正值时,分布为正偏峰;取负值时,分布为负偏峰。,三、描述分布形态的特征数,峰度系数(coefficient of kurtosis,KURT) 理论上,正态分布的总体峰度系数为0;取负值时,其分布较正态分布的峰平阔;取正值时,其分布较正态分布的峰尖峭。,三、描述分布形态的特征数,统计表(statistical table)和统计图(statistical chart)是统计描述的重要工具。医学科学研究资料经过整理和计算各种必要的统计指标后,所得结果除了用适当文字说明以外,常用统计表和统计图表达分析结果。统计图表可以对于数据进行概括、对比或做直观的表达。统计表和统计图不仅便于阅读,而且便于分析比较。,第三节 常用统计图表,1概念:指在科技报告中,常将统计分析的事物 及其指标用表格列出,以反映事物的内在规律性和 关联性。 2作用: 1)避免繁杂的文字叙述 2)便于计算 3)便于事物间的比较分析,一、统计表,3. 统计表的结构 从外形上看,统计表由标题、标目(包括横标目、纵标目)、线条、数字及必要的文字说明和备注5部分构成。其基本格式如表1:,1)标题:概括说明表的中心内容,要求用 词简练、确切。必要时注明资料的时间、地点, 写在表的上端中央。 注意:防止标题过于简略或过于繁杂,有的 甚至不写标题。 2)标目:要求文字简明,有单位的标目要 注明单位。横标目位于表的左侧,说明各横行数字的含义。纵标目位于表的右侧,向下说明各纵行数字的含义。 注意:防止标目过多,层次不清。,3线条:只需要顶线、底线及纵标目下面与合 计上面的横线。 注意:线条不宜过多,表的左上角不宜有斜线, 表内不能有纵线。 4数字:表内数字一律用阿拉伯数字表示,同一 个指标的数字精确度应当一致,表内不宜有空格,无 数字用“”表示,数字为0,则填写0。 5备注:表格一般不列备注或其他文字说明,如 有特殊情况需要说明时可用“*”标出,将文字说明写在 表格的下面。,从内容上看,每张表都有主语和谓语。主语指被研究的事物,如表2-5中的药物分组,一般置于表的左侧;谓语指说明主语的各项统计指标,如表2-5中的“治愈”和“未愈”、“合计”,一般置于表的右侧,主语和谓语结合起来构成一个完整的句子。如表 2-5可读成用替硝唑治疗组治愈25例,未愈4例,合计29例。,4.统计表的种类 根据说明事物的主要标志(主语)的复杂程度,统计表可以分成简单表和复合表。 l.简单表:只有一种主要标志,即主语按一个标志分组。 2.复合表:有两种或两种以上的标志,即主语按多个标志分组。在安排上可以将部分主语放在表的上方与谓语配合起来。,5.编制统计表的基本要求 1)重点突出,简单明了。即一张表只包括一个中心内容,表达一个主题。 2)主谓分明,层次清楚。即主谓语的位置准确,标目的安排及分组要层次清楚,符合专业逻辑。简单表只有一个分组标志,一般作为横标目,而纵标目就是统计指标名称。复合表有两个以上分组标志,一般把其中主要的和分项较多的一个作为横标目,而其余的则安排在纵标目上。 3)数据准确、可靠。,6.统计表的审查与修改 统计表制作是否良好,可以从以下几方面检查: 1)标题是否正确 2)主谓语的排列是否合适,标目是否组合重复。 3)表线是否过多过密。,某地1974年111例钩端螺旋体病患者发病季节、年龄和职业构成资料如表124所示,请按照编制统计表的基本要求,检查此表编制的是否合适,如不合适,请指出并修改成正确表。,表12-4的缺点是: 1)标题不确切,并且未注明时间与地点。 2)发病季节、年龄、职业三项指标放在一起,内容繁杂,不能突出重点。 3)标目设计不合理。人数、%多次重复,不便于比较分析。 4)表内文字和线条过多。,某医院对麦牙根糖浆治疗急性慢性肝炎161例的疗效,资料如表12-8,指出缺点并加以改进。,缺点是:1)标题过于简单,不能概括表的内容。 2)标目组合重复。 3)主谓语排列不当。,1. 概念:利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料和指标. 2.作用:它将研究对象的特征、内部构成、相互关系、对比情况、频数分布等情况形象而生动地表达出来,更直观地反映出事物间的数量关系,更易于比较和理解。但对数量的表达较粗略,从图中不能获得确切数字。,二、统计图,医学中常用的统计图有: 直条图、百分条图、圆图、 普通线图、半对数线图、 直方图、箱式图、散点图、 统计地图,3. 制图的基本要求 统计图通常由标题、标目、刻度、图域和图例5部分组成。 1)标题:简明扼要地说明资料的内容、时间和地点.一般写在图的下方中央。 2)图域:即制图空间。除圆图外,一般用直角坐标系第一象限的位置表示图域,或者用长方形的框架表示。不同事物用不同线条(实线、虚线、点线)或颜色表示。 图域的高:宽比例习惯上为5:7。,3)标目:分为纵标目和横标目,表示纵轴和横轴数字的意义,一般有度量衡单位。 4)图例:在对比关系较为复杂的统计图中,为使读者易于分辨各种图形的意义,可以设置图例。图例通常放在横轴与标题之间。 5)刻度:即纵轴与横轴上的坐标。排列方法与直角坐标系的排法一致,刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右,一律用等距表明。,4. 常用统计图的绘制方法及要求 绘制统计图时要根据资料的性质和分析的目的选择适当的图形。 1)直条图 直条图(bar graph):适用于性质相似而不连续的资料。用等宽的直条的长短来表示各独立指标数值大小和它们之间的对比关系。指标既可以是绝对数,也可以是相对数。为便于比较,被比较的指标一般按大小顺序排列。,A)单式直条图 只有一个统计指标,一个分组因素 。如根据表2-6绘制成图2-6。,B)复式条图 具有两个统计指标,两个及以上分组因素。如根据表2-7绘制成的图2-7。,绘制直条图时应注意 1坐标:一般以横轴为基线,表示各个调查 项目。纵轴尺度必须从0开始,表示各个项目相应 的数据,而且要等距,否则会改变各对比组间的 比例关系。 2宽度:各直条的宽度应相等,各直条的间隔 也应一致。条间隔应为条宽的一半或等宽。 3排列:直条一般可按高低顺序排列,以便于 比较。但如果各指标间需要有一定的顺序时,也可按 规定的顺序排列。 注意:复式条图中组内各直条排列次序要前后一致,并加以图例。,2). 百分条图(percent bar graph) 百分条图:适用于构成比资料。 用矩形长条的面积表示事物全部,而用其中各段 表示各构成部分。 绘制百分条图时应注意以下几点: 1将全体数量绘制成一长条,长度和宽度可以任 意选择,将长条全长分为10格,每格代表10%,总长 为100%。,3将直条全长按构成比分为几段,在图上标出各部分构成比的数值,并用图例说明各部分的名称。 4两种或多种类似的构成比资料相互比较时,可以绘制两个或多个长度、宽度都相等的直条,在同一起点上依次平行排列,各直条之间留有一定空隙,一般为直条宽度的一半。,表2-8 两种脱落牙再植效果,3). 圆图(circle graph or pie graph),圆图:是一种构成图,适用于构成比资料。 注意以下几点: 1)先绘圆,将构成比乘以3.60,即得各构成部分所占的圆心角的度数。 2)以相当于时钟的9点或12点的位置为起点依次排列各个扇形。 3)扇形内要注明简要文字和百分比。 4)两种或多种类似的构成比资料相互比较时,可在同一水平线或同一竖线上作直径相等的圆图,并注意各构成部分排列次序要一致。,4. 线图(普通线图 line graph),线图:适用于连续性变量的资料。 用线段的升降来表示统计指标的变化趋势,如某事物在时间上的发展变化,或某现象随另一现象变迁的情况。 绘制线图时应注意以下几点: 1)横轴代表分组标志,纵轴代表统计指标。横轴和纵轴都是算术尺度。,2)相邻两点用直线连接,也就是说图线应按实际数字绘制成折线,而不能任意修改为光滑曲线。 3)同一图内不应绘制太多的曲线,一般不宜超过4-5条。若有几根线,应用不同颜色或不同图线表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论