卫生统计学第八版李晓松第一章数据分布的描述_第1页
卫生统计学第八版李晓松第一章数据分布的描述_第2页
卫生统计学第八版李晓松第一章数据分布的描述_第3页
卫生统计学第八版李晓松第一章数据分布的描述_第4页
卫生统计学第八版李晓松第一章数据分布的描述_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

卫生统计学,欧春泉南方医科大学,第一章数据分布的描述,目录,第一节:数据分布表与直方图,第二节:集中位置,第三节:变异程度,第四节:箱式图,第五节:数据核查与离群值,01,02,03,04,05,05,06,第六节:分类变量的常用统计图,重点难点,频数分布表与直方图的编制原则和方法集中位置和变异程度的常用指标及其适用条件基本箱式图和箱式百分位数图的绘制和作用常用的逻辑核查方法离群值的探索和处理方法各种图形的适用条件,第一节数据分布表与直方图,采用SF-36自测健康量表测得118名慢性鼻窦炎患者的生命质量评估总分如下:,(一)频数分布表,第一节数据分布表与直方图,1.频数表的编制方法(1)找出最小值和最大值,本例为10与92。(2)计算全距(range,R):最大值与最小值之差,本例R=9210=82。(3)确定组距:相邻两组之间的距离,组距=全距/组段数,通常组段数取812组。本例共设9个组段,组距取10。(4)确定组段的上、下限:每个组段的起点为下限(lowerlimit),终点为上限(upperlimit)。每个组段均包含组段的下限值,最后一组的组段写出上限值。(5)列表整理:计算频数、频率、累计频数及累计频率。,(一)频数分布表,第一节数据分布表与直方图,广州市118名慢性鼻窦炎患者生命质量评估总分的频数分布表,(一)频数分布表,第一节数据分布表与直方图,(二)直方图,第一节数据分布表与直方图,慢性鼻窦炎患者生命质量评估总分的直方图,慢性鼻窦炎患者生命质量评估总分的直方图(非等距分组造成错觉),1.分布形态分类(1)对称分布:集中位置在正中,左右两侧频数分布对称。(2)偏态分布:集中位置偏向一侧,左右两侧频数分布不对称。正偏态(positiveskewness):有小部分数据偏大、直方图呈现右侧拖尾,又称右偏态(rightskewness);负偏态(negativeskewness):有小部分数据偏小、直方图呈现左侧拖尾,又称左偏态(leftskewness)。,(三)数据分布特征,第一节数据分布表与直方图,(三)数据分布特征,第一节数据分布表与直方图,分布形态图示:,成都市238名正常居民发汞值分布直方图,(三)数据分布特征,第一节数据分布表与直方图,分布形态图示:,冠心病患者的年龄分布直方图,(三)数据分布特征,第一节数据分布表与直方图,2.集中趋势和离散趋势的描述(1)集中趋势(centraltendency):指一组数据向某一中心值靠拢的趋势,反映了一组数据中心点的位置,是频数分布表和直方图中高峰所在位置,即频数最大的组段。(2)离散趋势(dispersiontendency):部分数据偏离中心位置的变异特征。,第二节集中位置,第二节集中位置,1.集中位置(center)反映一组观察值的平均水平或中心位置。描述集中位置的常见指标有以下三种:(1)算术均数(arithmeticmean)(2)几何均数(geometricmean,G)(3)中位数(median,M),(一)算术均数,第二节集中位置,(一)算术均数,第二节集中位置,基于频数分布表数据计算慢性鼻窦炎患者生命质量评估总分的均数,(二)几何均数,第二节集中位置,1.计算方法(1)原始资料(直接法):(2)频数表资料(加权法):2.应用几何均数常用于数据呈倍数变化或对数正态分布资料的平均水平,计算几何均数时,观察值中不能有零且不能同时有正数和负数。,(二)几何均数,第二节集中位置,广州市6名3岁以上儿童接种麻疹疫苗后,麻疹IgG抗体滴度水平如下:1:200,1:800,1:800,1:800,1:3200,1:12800。计算6名儿童麻疹IgG抗体滴度的几何均数。,求G的倒数,得到6名儿童接种麻疹疫苗后麻疹IgG抗体滴度的几何均数为1:1270。,(二)几何均数,第二节集中位置,下表是262名患儿体内肺炎支原体抗体滴度水平,计算其平均抗体滴度。262名患儿体内肺炎支原体抗体滴度水平,即262名患儿体内肺炎支原体抗体平均滴度水平为1:223。,(三)中位数,第二节集中位置,(三)中位数,第二节集中位置,下表是成都市238名正常居民发汞含量测量结果,求发汞含量的中位数。,从第(5)列可知,累计有34.03%的观测值小于1.1,有60.50%的观测值小于1.5,故可判断P50在1.11.5这个组段,代入公式得:,238名居民发汞含量(g/g)的频数分布表,(三)中位数,第二节集中位置,2.中位数的应用(1)对任何资料(对称分布、偏态分布、分布未知或分布末端有极端值、不确定值)都适用。日常应用中,对称分布资料更常用均数。(2)与均数相比,中位数存在一些不足:中位数未考虑大部分观测值的实际大小,而均数充分利用了全部数据的信息;两组数据合并时,合并后的中位数不能用原来两组的中位数表达,而均数可基于两组的均数和例数用求得;均数可通过如估计截尾均数等方法进行修正,而中位数无法进行此修正。,第二节集中位置,不同分布中三种指标的大小比较,第三节变异程度,第三节变异程度,三组儿童身高特征的比较示意图,仅描述数据的集中位置还不足以反映数据完整的分布特征,第三节变异程度,1.变异(variation)一组数据中个体值之间的差异。描述变异程度的常见指标有:(1)极差(2)四分位数间距(inter-quartilerange,IQR)(3)方差(variance)(4)标准差(standarddeviation,SD)(5)变异系数(coefficientofvariation,CV),(一)极差,第三节变异程度,1.极差(range,R)也称全距,为所有观测值中最大值与最小值之差。极差越大说明数据变异程度越大。可用来反映传染病、食物中毒的最短和最长潜伏期等。2.极差的不足之处(1)仅用到最大值和最小值的信息,不能反映组内其他数据的变异情况。(2)极差与样本例数有关。一般地,样本量越大,得到较大或较小变量值的可能性越大,极差就可能越大,故样本量相差较大时,不宜采用极差进行比较。,(二)四分位数间距,第三节变异程度,四分位数间距(inter-quartilerange,IQR),IQR可看做中间一半观测值的极差R,适于偏态分布或分布未知资料,由于不受两端极大或极小数据的影响,四分位数间距比极差更为稳定,但仍未考虑每个观测值的变异。常与中位数一起使用,综合反映数据的平均水平和变异程度,写成M(P25,P75)。适于,(三)方差与标准差,第三节变异程度,方差(variance)是指所有观测值的离均差平方和的平均值,描述所有观测值与均数的平均偏离程度;标准差(standarddeviation,SD)是方差的平方根。方差:标准差:,s,(三)方差与标准差,第三节变异程度,(四)变异系数,第三节变异程度,(四)变异系数,第三节变异程度,第三节变异程度,集中位置和变异程度指标小结:,第四节箱式图,(一)箱式图,第四节箱式图,15例大骨节病患者白细胞数箱式图,1.表示中位数的横线在箱体中间位置则表明数据呈对称分布。2.中间横线靠下端则提示右偏态分布。3.中间横线靠上端则提示左偏态分布。,(一)箱式图,第四节箱式图,广州市一项关于慢性鼻窦炎患病率的横断面调查中,用SF-36量表测得所有调查对象的生活质量,所调查的1411名成年居民中有118名患有慢性鼻窦炎。以慢性鼻窦炎患者和正常人的精力评分为例,绘制箱式图。,正常人与慢性鼻窦炎患者精力评分箱式图,“”表示均数“”表示离群值,(二)箱式百分位数图,第四节箱式图,1.箱式百分位数图(box-percentileplot)结合了箱式图和直方图的功能,不仅给出了几个关键的百分位数,还描述了整个数据的分布形态。箱体中间部分最宽,越往两端越窄。2.制作方法首先将n个观测值从小到大排列,假设箱体最中间(中位数位置)宽度为w,则将数据从小到大排列后第k个观测值xk所在位置的箱体宽度为:,(二)箱式百分位数图,第四节箱式图,以下为慢性鼻窦炎患者健康评估总分同时绘制了箱式图与箱式百分位数图,箱式百分位数图呈梭型左右对称。若关于中位数上下对称则提示资料呈对称分布。,慢性鼻窦炎患者健康评估总分的箱式图(A)和箱式百分位数图(B),(二)箱式百分位数图,第四节箱式图,慢性鼻窦炎患者精力评分的箱式图(A)和箱式百分位数图(B),慢性鼻窦炎患者精力评分呈左偏态分布。箱式图显示该组数据有两个数值特别小的离群点。箱式百分位数图从箱体往下延伸出一条又长又细的线离群点。,第五节数据核查与离群值,(一)逻辑核查,第五节数据核查与离群值,1.逻辑核查的几种常用策略(1)检查变量类型和性质:变量可分为数值型变量与字符型变量。数值型变量只能包括数字、小数点和负号,个别情况也包括作为千位分隔符的逗号,不能含有字母或文字。(2)核查变量值范围:检查每个变量的取值范围。例如:一个人的体重不能为负数;出生月份应在112之间;某成年男性的身高值低于140cm或者高于210cm也值得怀疑。(3)有效值检查:检查观测值是否为事先定义的数值之一。例如:录入性别时,事先规定用1表示男性,2表示女性,如果数据中出现其他观测值则说明有误。,(一)逻辑核查,第五节数据核查与离群值,1.逻辑核查的几种常用策略(4)一致性检查:检查有无前后矛盾,相关问题的逻辑是否一致。出院日期早于入院日期、收缩压小于舒张压等都不符合逻辑。(5)唯一性检查:每个观察单位通常都设有一个唯一的标识号,如调查对象编号、住院号、门诊号等。根据标识号检查是否存在同一个观察单位的数据两次重复录入。(6)完整性检查:检查每一个观察单位的完整性和整个数据库的完整性。(7)交叉检查:不同来源的两个数据库中同一内容的信息应该一致。,(二)离群值的初步探索,第五节数据核查与离群值,(二)离群值的初步探索,第五节数据核查与离群值,2.核查离群值的统计手段(4)通过统计检验判断:检验偏离程度是否超出随机误差所能解释的上限。已知标准差时可用Nair检验法,未知标准差时可用Grubbs检验法、Dixon检验法和峰度-偏度检验法。(5)结合其他变量信息判断:根据儿童的身高,可初步判断其体重是否过高或者过低。根据身高所建立的体重核查规则比单纯只考虑体重的核查更为有效。,(三)离群值的处理,第五节数据核查与离群值,1.测量或者记录过程中出现错误而导致离群值,或者存在明显的逻辑错误,应予以剔除。例如:细胞培养时出现了污染或者操作失误,这时的离群值应剔除。2.无明确理由剔除离群值(1)对离群值删除前后各做一次统计分析,若前后分析结果矛盾则下结论需谨慎。(2)采取一些稳健分析(robustanalysis)的方法:中位数;对数变换:观测值大于0,夸大极小值的影响;截尾均数:是将数据按从小到大顺序排列后,两端截掉一定比例的数据后计算余下数据的均数。,第六节分类变量的常用统计图,(一)饼图,第六节分类变量的常用统计图,饼图(piechart)又称圆图,是将圆形分割成若干个扇形,扇形面积的大小表示同一个事物内部中各部分的构成比。因此,饼图主要用来描述分类变量的构成比,用于说明事物内部各组成部分所占比重。绘制饼图时应注意:各扇形通常从时钟12时处开始,按大小或自然顺序顺时针方向排列;简要注明各扇形所代表的类别和百分比。,(一)饼图,第六节分类变量的常用统计图,有研究表明大骨节病的发生可能与粮食作物真菌污染有关,为了解西藏粮食作物中的带菌情况,从尼木县随机抽取600粒青稞籽粒,培养分离出真菌3894株,各种菌属的分布见下表。,西藏尼木县青稞籽粒真菌菌属构成,西藏尼木县青稞籽粒真菌菌属构成饼图,(二)条图和百分位图,第六节分类变量的常用统计图,条图(barchart)可用直条的高度反映分类数据中每一类的频数或者频率。条图又分为单式条图和复式条图。,从我国公共卫生数据共享中心获得我国大陆2010年和2013年四种主要虫媒传染病的发病率数据,见下表。试绘制发病率的条图。我国大陆2010年和2013年四种虫媒传染病发病率(/千万人),(二)条图和百分位图,第六节分类变量的常用统计图,2013年我国大陆四种虫媒传染病发病率(/千万人),2010年和2013年我国大陆四种虫媒传染病发病率(/千万人),(二)条图和百分位图,第六节分类变量的常用统计图,百分条图(percentbargraph)的功能与饼图相同,可以将多组数据放在一起比较其构成比。对于等级数据需按照等级顺序排列,如果没有明显的逻辑关系,也可按照百分比由大到小排列。,(二)条图和百分位图,第六节分类变量的常用统计图,2001年西藏桑日县和林周县412岁儿童大骨节病监测结果,西藏林周县和桑日县412岁儿童大骨节病监测结果百分条图,(三)热图,第六节分类变量的常用统计图,热图(heatmap):用不同的颜色(或者深浅)表示观测值的大小,常用来表示疾病的时间与空间分布,生物信息学中也常用热图描述基因表达谱。,从公共卫生科学数据中心获得2013年我国大陆31个省/自治区/直辖市手足口病发病率数据,试绘制热图反映手足口病时空分布特点。,2013年我国大陆31个省/自治区/直辖市手足口病发病率的空间分布,(三)热图,第六节分类变量的常用统计图,从公共卫生科学数据中心获得2013年我国大陆31个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论