定性资料的统计描述_第1页
定性资料的统计描述_第2页
定性资料的统计描述_第3页
定性资料的统计描述_第4页
定性资料的统计描述_第5页
已阅读5页,还剩147页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

定性资料的统计描述,青岛大学公共卫生学院流行病与卫生统计学教研室姜秀波,相关概念,定性变量定性资料是指将观察单位按照某种属性或类别进行分组计数所收集的资料。 根据变量类别之间是否有顺序、等级、大小关系,分为无序分类变量(名义变量)资料和有序分类变量资料(等级资料)。定性资料常见的数据形式是绝对数。,绝对数:调查研究和实验研究得到的定性资料经过整理后,清点各类别的观察单位数而得到的数值。如某病的出院人数、治愈人数、死亡人数等。绝对数反映一定条件下某种事物的规模或水平,是计划或总结工作的依据。绝对数通常不具有可比性。因此需要在绝对数的基础上计算相对数。,例:调查得,某年小学生中流脑发病: 甲地区63例,乙地区35例。,甲地区流脑流行比乙地区严重(),如已知小学生总人数:甲地区50051人,乙地区14338人,可算出两个发病率: 甲地区流脑发病率:63/500511000= 1.26乙地区流脑发病率:35/143381000= 2.44,乙地区流脑流行比甲地区严重,(),一、定性资料的频数分布,某医院2001年住院病人5类疾病的死亡情况,疾病种类无序分类变量,针刺合谷治疗胃痛的效果,疗效有序分类变量,60.82%,23.71%,15.46%,二、定性资料的描述性指标相对数(Relative number),相对数:两个有联系的指标(数值)之比,常用的相对数指标 大致有三种类型:频率(relative frequency or proportion)强度(intensity or rate)相对比(relative ratio),主要内容,1.分类资料的描述频率和频率分布2.人时资料的描述强度3.复合指标相对比4.相对数应用中需注意的问题*注意指标计算时分子和分母的含义,1.分类资料的描述频率和频率分布,1.1 二分类资料的描述频率 当事物只有两种可能的结局时,常用频率来描述结局的规律性。如存活与死亡、患病与未患病、阳性与阴性等。 频率型指标是最常见的, 通常近似地反映某一事件出现的机会大小,如发病概率、死亡概率等。,注意:分子是分母的一部分;分子分母量纲相同;比例无量纲,取值在0,1;K是比例基数,如100%,也可取为1000、1万/1万和10万/10万等。习惯上保证计算结果的分子有1-2位整数。,例:某妇产科医生记录了1402名临产母亲的妊娠情况,结果足月产者1148例。,proportion,阳性率的本质是频率,它是对总体中阳性事件发生概率的估计。,1.2 多分类资料的描述频率分布,频率分布即构成比当事物有多于两种可能的结局时,常用频率分布来描述结局的规律性。特点:各结局的频率总和等于100%。某一结局的频率变化必然导致其它部分的相应变化。,设某事物结局为A、B、C、D、 ,其观察单位数分别为n1,n2, ,nk,计算出现某一种结局的频率(构成比,%): ,白细胞分类计数正常值范围,某医院2001年住院病人5类疾病的死亡情况,2. 人时资料的描述强度,流行病学随访研究中,不同个体被观察的时间长度经常各不相同,因此常用人时数总和表示被观察的人和时间的总和。 强度是流行病学、统计学术语。指单位时间内(如年、月、日等)某事件发生的频率。,强度型指标通常是指一段时间内的平均概率。如人时发病率的分子是新发生的事件数,分母是人时数(观察人数乘以单位时间个数)的总和,多用于大人群长时间随访的资料。,例1 在某医院的院内感染调查中,5031名病人共观察了127859人日(例均25.4日),其中有596人在医院发生感染,请计算院内感染率。,平均每天有0.47的病人在医院发生感染。,例2 某医院对同一疾病开展甲、乙两种手术治疗,分别随机抽取100名患者评价复发率。已知手术完成时间各不相同,而未复发患者的最后随访时间均为2006年1月1日。限于篇幅,在下表中仅给出部分数据,以说明此类资料的统计描述方法。,两种手术方案的复发率比较(部分数据),甲方案:1/39.5100% = 2.53%/年乙方案: 1/4.5100% = 22.22%/年,3. 复合指标相对比(ratio),概念:是两个有关联的变量A与B之比,它表示相对于B的一个(或十个、百个、千个等)单位,A有多少个单位。表现为A是B的若干倍或几分之几。,ratio,A和B可以是绝对数、平均数,也可以是相对数A和B的量纲可以相同,也可以不同A和B彼此分离,互不重叠或包含如:人口出生性别比;每千人口拥有的医生数、每千人口的病床数、每名医生的门诊工作量、变异系数等。,人口出生性别比国际上一般以每出生100个女婴相对应出生的男婴人数来表示。一般在102107之间。我国1981年第3次人口普查是108; 1989年第4次人口普查是112;2000年第5次人口普查高达116,在2008年甚至达到120.56的最高值, 2012年出生人口性别比为117.7,远超国际认同的可以容忍的最高警戒线107。,2.2.4 相对数应用中需注意的问题,1)分母数据一般不宜过小2)防止概念混淆 3)正确合并估计频率(或强度)型指标4)相对数进行比较应注意可比性,统计图表,人口统计指标,请问该说法是否正确?,例:某医生治疗了4例支气管哮喘病患者,其中3例有效,即报告有效率为75。,go back,某医院统计1985-1990年儿科住院病人疾病种类分布情况见表:,表 某医院儿科住院病人疾病种类分布情况,结论:我国少年儿童(18岁以下)的风湿性心脏病发病率约为71.4%。,某社区高血压防治干预试验(5年)前后死亡原因变化表,有人据此提出干预试验虽然可以降低充血性心力衰竭等的死亡率,但却增高了冠状动脉病和心脏病猝死的死亡率。,某市1980年和1990年五种传染病发病情况,有人据此得出1990年和1980年相比,痢疾发病下降,肝炎发病上升最明显的结论。,go back,例 某病两种疗法的治愈率()比较的资料如表,某病两种疗法的治愈率()比较,go back,()(),例:某班有男生50人,女生20人,男生英语四级通过率为80,女生四级通过率为100,请问该班四级通过率为多少?,答案1:90%。答案2:85.7%,go back,1.观察对象是否同质,研究方法(如检测手段、抽样方法)是否相同,观察的时间是否一致等。2.其他在专业上认为有意义的影响因素应接近均衡。,相对数进行比较应注意可比性,某病两种疗法的治愈率()的比较,统计图表,两种疗法的病人在疾病类型的频率分布上不一致,采用率的标准化法可消除和控制疾病类型对结果的影响。,一、医学人口统计常用指标,频率型指标,相对比型指标,人口老龄化的具体标准: 国际上通常把60岁以上人口占总人口比例达到10,或65岁以上人口占总人口比重达到7作为国家或地区是否进入老龄化社会的标准。到2015年底,青岛市60岁以上户籍老年人口161万,占总人口的20.6%。,实践中,因为一年中不断有人去世,又不断有人出生,分母的精确值很难得到。,假定当年每位去世者平均活了半年,每位出生者也平均活了半年,则粗死亡率可近似地写成,强度型指标(近似),频率型指标近似,相对比型指标,强度型指标(近似),频率型指标,二、疾病统计常用指标,频率型指标,频率型指标,强度型指标(近似),发病率(incidence rate,IR)表示一定时期内,在可能发生某病的一定人群中新发生某病的强度。 患病率(prevalence rate, PR)又称为现患率,指某时点上受检人数中现患某种疾病的频率。患病率分为时点患病率(point prevalence rate)和期间患病率(period prevalence rate)。,治愈率(cure rate)表示受治病人中治愈的频率。有效率表示受治病人中治疗有效的频率。生存率(survival rate):指病人能活到某一时点的概率。,疾病统计常用指标,三 、动态数列 动态数列,按照一定的时间顺序,将一系列描述某事物的统计指标依次排列起来,就可以观察和比较事物在时间上的变化和发展趋势,这些统计指标可以为绝对数、相对数或平均数。,相对比指标,某地19901998年床位发展动态,(一)绝对增长量,1、累计增长量,即报告年的指标与某一固定水平(基期水平)指标值差。 累计增长量=an-a0,2、逐年增长量,即报告年的指标与前一年指标之差。 逐年增长量=an-an-1,(二)发展速度与增长速度,1、定基发展速度,即用报告期指标与某一时期(固定为基期)指标之比。,2、环比发展速度,即用报告期的指标与其上一期指标之比。,某地19901998年床位发展动态,2014年2月70城市房价环比:9城市停止上涨 ,4城市开始下跌。新建商品住宅价格变动情况:(一)与上月相比,70个大中城市中,价格下降的城市有4个,持平的城市有9个,上涨的城市有57个。环比价格变动中,最高涨幅为0.7%,最低为下降0.2%。(二)与去年同月相比,70个大中城市中,价格下降的城市有1个,上涨的城市有69个。2月份,同比价格变动中,最高涨幅为18.7%,最低为下降4.1%。,2014年2月70个大中城市新建住宅价格指数,注:环比以上月价格为100,同比以去年同月价格为100,定基以2010年价格为100。,(三)平均发展速度和平均增长速度,平均发展速度是各环比增长速度的几何平均数,说明某事物在一个较长的时期中逐年平均增长的程度。,1.某医院某年住院病人中胃癌患者占5,则_。A.5是强度指标 B.5是频率指标 C.5%是相对比指标 D.5是绝对数,2.计算麻疹疫苗接种后血清检查的阳性率,分母为_。A.麻疹易感人群 B.麻疹患者数C.麻疹疫苗接种人数 D.麻疹疫苗接种后的阴性人数,3.某病患者120人,其中男性114人,女性6人,分别占95与5,则结论为_。A.该病男性易得 B.该病女性易得C.根据该资料可计算出男女性的发病人数 D.尚不能得出结论,4.定基比与环比的指标是_。A.构成比 B.平均数 C.频率 D.相对比,5.一项新的治疗方法可延长病人的生命,但不能治愈该病,则最有可能发生的情况是_。A.该病的患病率增加 B.该病的患病率减少C.该病的发病率增加 D.该病的发病率减少,统 计 图 表,统计表与统计图是统计描述的重要工具,在整个统计过程中,从实验设计或调查设计开始,直到最后分析总结,尤其是在科研论文中,表达统计结果及进行对比分析时,统计表与统计图应用更为广泛。,统计表统计表(statistical table)统计表是把统计资料和结果中的数据及统计指标用表格的形式表达,是统计描述的重要方法,也是科研论文中数据表达的主要工具。,一、制作统计表的意义,清晰地展示数据的结构、分布和特征;方便阅读、比较和计算;研究论文中可代替冗长的文字叙述。,二、统计表的制表原则,1.重点突出,简单明了:一张表,一个中心内容和一个主题。2.主谓分明,层次清楚。表述清楚:主语与谓语的选择、位置的确定。3.数据表达规范,文字、数字、线条应尽量从简。,三、统计表的结构 标题(+表序号) 标目 线条 数字 注释或备注,表1 某医院2001年住院病人5类疾病的死亡情况,标题,横标目,纵标目,四、制表的基本要求1.标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。2.标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。,横标目相当于句子的主语部分:被说明的对象,列在表的左侧。纵标目相当于句子的谓语部分:用以阐述主语具备的特征。列在表的右侧。3.线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。,4.数字:用阿拉伯数字表示。无数字用“”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。5.备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。,五、统计表的分类简单表:按研究对象的单一特征分组。标目只有一个层次,主语按一个标志排列,一般用作横标目,统计指标为纵标目。复合表:按研究对象的两个或以上特征结合起来分组。标目有两个或以上层次,主语按多个标志排列。复合表有两个或三个分组标志,一般把其中主要的或分项多的一个作为横标目,其余的则安排在纵标目或总标目上。,某医院2001年住院病人5类疾病的死亡情况,1.简单表,某病两种疗法的治愈率()比较,2.复合表,复合表是将疾病分型和治疗方法两个特征结合起来分组。,不同医院两种药物治疗帕金森病的疗效比较,六、常见不良统计表,统计表过大、内容过多;标目设置不合理,导致统计表内容表述混乱;线条过多,如出现不必要的竖线、斜线等;数字区有空项,同一指标小数位数不同、未对齐;将备注列于统计表中;统计表基本结构中要素缺失:无标题、少线条等,统 计 图,统计图(statistical graph)统计图是把数据资料以图示的形式表达。统计图利用点的位置、线段的升降、直条的长短或面积的大小等来表达统计资料和指标。,一、制作统计图的意义 将统计数据形象化,把资料所反映的趋势、多少、分布、动态和现象之间的数量关系等形象地表现出来,易于做分析比较。与统计表相比,统计图具有形象直观的特点,易于给读者留下深刻的印象;但不象统计表那样,能提供精确的数值。,二、统计图的制作原则,1.根据资料性质和分析目的正确选用适当的统计图。2.一个图通常只表达一个中心内容和一个主题,即一个统计指标。 3.绘制图形应注意准确、美观、图线粗细适当,定点准确,不同事物用不同线条或颜色表示。,刻 度,图 例,三、统计图的结构,标题:概括统计图的主要内容、时间和地点;置于图的下方;图域:除圆图外,一般用直角坐标系第一象限的位置表示图域。标目:统计图一般有横轴和纵轴,并分别用横标目和纵标目说明横轴和纵轴代表的指标和单位。一般将两轴的相交点即原点处定为0。纵横轴的比例一般以5:7为宜。,刻度:即横轴和纵轴上的坐标。刻度数值按从小到大的顺序,刻度可在内侧或外侧,绘图是按照统计指标数值的大小,选择适当的坐标原点和刻度的间隔。图例:说明图中不同颜色或线条所表达的对象。统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图例加以说明。图例可放在图的右上角空隙处或下方中间位置。,四、统计图的选择:根据资料类型和统计分析目的不同,需要用不同的统计图表达数据和统计指标值。常用的统计图有直条图、直方图、百分比条图和圆图、线图、散点图和统计地图等,还有在数据探索性分析中应用的茎叶图、残差图、箱式图,序贯分析的检验区域图,判别分析的类别分布图,聚类分析的谱系图等特殊分析图等。,五、常用统计图,1直条图(bar chart)2圆图/饼图(pie chart) 百分比条图(percent bar chart)3线图(line graph)4直方图(histogram)5其它特殊分析图 箱式图(box plot) 茎叶图(stem-leaf plot),1直条图(bar chart),用相同宽度的直条长短表示定性变量相互独立的不同类别间某统计指标值的大小。 直条图按研究对象的分组特征分单式和复式两种。,(1)单式直条图,具有一个分组因素,一个统计指标,,例 图1显示某地某年主要死因死亡率(纵标目)资料,主要死因是相互独立的不同类别(横标目),因此用直条图。该图只按死因分类,为单式直条图。,图1 某年某地主要死因的死亡率(1/10万),(2)复式直条图,具有两个或以上分组因素,一个统计指标,,图 2 某地区1952年与1972年三种疾病的死亡率比较,直条图的纵轴尺度起点必须为零示意图,2圆图和百分比条图,适合于描述定性变量的频率分布资料。圆图(pie chart)是以圆形总面积作为100%,将其分割成若干个不同面积的扇面表示事物各类别的频率。百分比条图(percent bar chart)是以矩形总长度作为100%,将其分割成不同长度的段表示各类别的频率。,例 某年某地进行婴儿死亡原因的调查,根据城市婴儿死因的构成资料绘制成图3。 从图3可见出生窒息是婴儿死亡的首位死因,出生窒息、早产和肺炎前三位死因占总死亡的60.3%,是婴儿死亡防治的重点。,图3 某年某地城市婴儿死因构成比 (%),例 图4是根据某地20世纪70年代和80年代恶性肿瘤发病登记资料绘制成的百分比条图。由图4可见不同年代主要恶性肿瘤频率分布中,鼻咽癌和肝癌频率减少,肺癌明显增加。,百分比条图特别适合作多个频率分布的比较,将不同组别,不同时间或不同地区的某分类指标的频率分布平行地绘制成多个百分比条图,可以方便地比较其各部分的频率的差异。,图4 20世纪70、80年代某地7种常见恶性肿瘤发病构成比较,3线图(line graph),线图是用线段的升降来表示数值的变化。适合于描述某变量随着另一连续性数值变量变化的趋势,最常用于描述变量随时间而变化的趋势。 普通线图:横轴和纵轴都是算术尺度。 半对数线图:横轴是算术尺度,纵轴是对数尺度,特别适宜作不同指标变化速度的比较。,例 图5是根据19902000年某沿海城市甲状腺功能亢进(甲亢)发病率资料绘制的普通线图。 图5可看出在1995年开始食盐加碘后,甲亢发病率有一突增高峰,1999年以后又逐渐下降的趋势。,图5 19902000年某沿海城市甲状腺功能亢进发病率变化趋势,图6 某地1949-1958年白喉、伤寒、副伤寒的死亡率线图,图7 某地1949-1958年白喉、伤寒、副伤寒的死亡率半对数线图,1,2,3,lgY,lg1=0,lg2=0.30,lg3=0.48,lg4=0.60,lg5=0.70, ,算术尺度,对数尺度,两者的区别:普通线图:横、纵坐标均为算术尺度。在某两个不同的时间段上,若终点相对于起点的“绝对改变量”相同,则图形上表现为相同的增幅(或减幅),直观呈现的是数量变化的态势;半对数线图:横坐标为算术尺度(如时间),纵坐标的指标值(如发病率、病死率等)则进行对数转换即对数尺度,在某两个不同时间段上,如果终点相对于起点的“相对改变量”相同,则半对数线图上表现为相同的增幅(或减幅),所以半对数线图适用于呈现事物发展变化的速度。,如:以两个观察指标和变化速度的比较为例在某一时间段当指标发生1001000的变化、指标发生10100的变化时,“绝对增长量”分别是900和90,相差较远;“相对增长量”却都是10倍于起点水平。显然,变化速度的比较所注重的正是“相对增长量”。,绝对差与对数差的比较,A/B 绝对差 相对比 对数差 (A-B) (A/B) (lgA-lgB) 1000100 900 10 lg1000-lg100=3-2=1 10010 90 10 lg100-lg10 =2-1=1 101 9 10 lg10-lg1 =1-0=1,三组数据绘制在算术(a)和半对数(b)格纸上的线图比较,注意,普通线图的纵轴一般以0点作起点,否则需作特殊标记或说明,以防给读者错误印象。标记直线的连接点时要注意,如测定值是在某时间段或数值段的,应标记在段的中点; 如测定值是在某时点或确定值的,标记在相应时点或数值上。,4直方图(histogram),适合表示连续性定量变量的频数(或频率)分布。直方图的横轴是定量变量,纵轴是频数或频率密度。以直方面积描述各组频数的多少,各面积的总和相当于各组频数之和即总例数。将各组段观察频数除以总观察例数得到各组段的频率,以各组段频率除以组距得到的频率密度作为直方图高度,绘制的直方图称为频率直方图,它以各直方面积表示各组频率,其面积的总和为1 或100% 。,注意:1.纵轴要从零点起标示。2.横轴一般以取相等组距为宜。当各组的组距不等时,必须折合成等距后再绘图。,图8 某年某地816名社区居民血清总胆固醇值的频数分布图,图9 1997年某地104例乙型病毒性脑膜炎病例的年龄分布,5其他特殊分析图 在探索性数据分析中,一些特殊的统计图对于发现数据分布特征有着重要的意义。这里介绍常用的箱式图、茎叶图。,箱式图(box plot),可以用于比较两组或多组资料的集中趋势和离散趋势。主要适用于描述偏态分布的资料的分布特征。 使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。,四分位数间距IQR,P75,P25,P50,本体最大值,本体最小值,离群值(P75+1.5IQR),极值(P75+3IQR),体重(kg),箱式图的箱子两端分别是上四分位数和下四分位数,中间横线是中位数,两端连线分别是除异常值外的最小值和最大值。另外标记可能的异常值。箱子越长,表示数据变异程度越大。箱子中间横线在箱子中点表明分布对称,否则不对称。,病人年龄,例 某地调查不同类型化妆品厂车间内粉尘数,结果绘制成图10。 图9中显示粉尘数的分布呈偏态分布.净化厂粉尘数较少,非净化厂粉尘数较多。,图10 某地不同类型化妆品厂车间粉尘数分布箱式图,茎叶图(stem-leaf plot) 将数据分离成两部分:整数部分和尾数部分,整数部分形成图的茎,尾数部分形成图的叶。 茎叶图排列方式与频数表有些相似,每行由一个整数的茎和若干叶

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论