常用医学统计方法胡国清_第1页
常用医学统计方法胡国清_第2页
常用医学统计方法胡国清_第3页
常用医学统计方法胡国清_第4页
常用医学统计方法胡国清_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020/4/26,.,1,常用医学统计分析方法基本知识,胡国清副教授中南大学公共卫生学院流行病与卫生统计学系,2020/4/26,.,2,一.统计学应用中的常见误区,2020/4/26,.,3,问题1:统计学是数字游戏?,数字形式仅是表面现象。几个示例统计学(Statistics):是一门研究数据的搜集、整理、分析的科学。更主要的是帮助人类探索未知事物规律的工具。统计学存在的必要性?,2020/4/26,.,4,几个例子,2003年湖南省省级计划生育工作的人员总数;2003年在湘雅医院出生的新生儿的平均体重;2003年中国艾滋病发病率;湖南省65岁以上人群的平均血压;,返回,2020/4/26,.,5,三个原因,人类要了解未知事物的特点或规律;如SARS的病因研究,一些恶性肿瘤的治疗方法探索,一些疾病的预防等等;差异或变异在研究总体中存在的普遍性;如全国正常人群的体重、身高、血压测量值等等。数据的表达或描述的难度。人、财、物的限制,不能够调查或检查总体中所有的观察单位,代价太大。,2020/4/26,.,6,留给统计学的问题,如何简洁地、准确地从一大批杂乱无章的数据中提炼出代表性信息?(统计描述)如何合理地由样本的信息(部分信息)推断总体的信息(总体信息)?(统计推断),2020/4/26,.,7,统计方法的主要应用,通过种种手段以最合适的方法搜集数据。采用统计指标、统计表、统计图描述数据的规律。采用合适的统计方法对数据进行分析,对整个研究的结果下结论。,2020/4/26,.,8,问题2:数据被恰当地表达了吗?,统计指标的使用准确吗?还是?各自使用的条件是什么?是万用通行证吗?率与构成比搞清楚了吗?如此计算率合适吗?统计表正确吗?统计图正确吗?,2020/4/26,.,9,2020/4/26,.,10,集中趋势的描述平均数平均数:描述一组变量值的集中位置或平均水平的指标体系。(算术)均数:对称分布,尤其是正态分布;几何均数:对数转换后呈对称分布,尤其是对数正态分布;中位数:一般偏态分布;,2020/4/26,.,11,离散趋势描述:描述一组变量值的离散趋势或变异程度的指标体系。极差:任何计量资料,是参考变异指标四分位数间距:与中位数配套用标准差:与算术均数配套用变异系数:描述对称分布(特别是正态分布)资料的相对变异程度。,2020/4/26,.,12,示例1:率和构成比的区分,2020/4/26,.,13,示例2:如某种疗法治疗5例病人5例全部治愈,则计算治愈率为5/5100%=100%,若4例治愈,则治愈率为4/5100%=80%,由100%至80%波动幅度较大,但实际上只有1例的变化。,2020/4/26,.,14,表10-3不同心理分值的冠心病危险因素水平比较,2020/4/26,.,15,统计图的误导作用,直条图的纵轴尺度起点必须为零示意图,2020/4/26,.,16,问题3:t检验、卡方检验是万能的吗?,正态分布、方差齐性的条件满足了吗?是t检验还是方差分析;是t检验还是U检验?是成组t检验还是配对t检验?是t检验,还是校正t检验,或者是非参数检验?对于计数资料,是通常的卡方检验,还是Yates校正检验,或是精确概率检验?是配对设计,还是成组设计的四格表资料?,2020/4/26,.,17,误区4:统计检验决定论与统计无用论,P值一定要小于0.05或者0.01才行吗?P值的决定因素您考虑了哪几个?统计检验判断结果与专业判断结果相比,哪个更重要?,2020/4/26,.,18,2.数据特征与统计描述基本知识,2020/4/26,.,19,计量资料的常用统计指标,描述集中趋势的特征数(选代表)描述离散趋势的特征数(代表程度)目的:简单、明了传达信息,2020/4/26,.,20,表某地150名正常成年男子红细胞数(1012/L),问题:谁能一眼看出下述数据的分布规律?,2020/4/26,.,21,一、描述集中趋势的特征数(平均指标),总称为平均数(average)反映了资料的集中趋势(centraltendency)。常用的有:1.算术均数(arithmeticmean),简称均数(mean)2.几何均数(geometricmean)3.中位数(median),算术均数(mean),符号:总体样本适用条件:资料呈对称分布,尤其是正态或近似正态。计算:(1)直接法(2)频数表法,2020/4/26,.,23,2.几何均数(geometricmean),适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料。,2020/4/26,.,24,几何均数的示例,血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。,此例的算术均数为22222问题:描述此类型资料集中趋势时,为什么倾向选用几何均数?,2020/4/26,.,25,频数表资料的几何均数,2020/4/26,.,26,3.中位数(median),定义:是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。符号:Md/M适用条件:适合各种类型的资料。尤其适合于大样本偏态分布的资料;资料有不确定数值;资料分布不明等。,2020/4/26,.,27,中位数计算公式,先将观察值按从小到大顺序排列,按以下公式计算:,注意:公式中n的含义,数据自小到大排序后的编号。,2020/4/26,.,28,频数表资料的中位数,下限值L,上限值U,i;fm,中位数Md,2020/4/26,.,29,例4-8中位数12+6x(145x50%63)/3813.5(h),2020/4/26,.,30,小结:集中趋势的描述平均数,平均数:描述一组变量值的集中位置或平均水平的指标体系。不同的分布使用不同的指标算术)均数:正态或近似正态分布的资料几何均数:对数正态分布或等比级数资料中位数:一般偏态分布,2020/4/26,.,31,离散趋势的特征数,常用指标有:1.极差或全距(Range)2.四分位数间距(Quartilerange)3.方差(Variance)4.标准差(StandardDeviation)5.变异系数(CoefficientofVariation),考试要点:表示符号、定义、适用条件、区别,2020/4/26,.,32,例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3),甲,乙,丙,2020/4/26,.,33,1.极差(Range)(全距),符号:R意义:反映全部变量值的变动范围。优点:简便缺点:只利用了两个观测值适用范围:任何计量资料,2020/4/26,.,34,2.四分位数间距,百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。四分位间距:QP75P25,P100(max)P75P50(中位数)P25P0(min),Px,2020/4/26,.,35,频数表资料的百分位数,下限值L,上限值U,i;fm,百分位数Px,2020/4/26,.,36,P256+6x(145x25%17)/468.51(h)P7518+6x(145x75%101)/3219.45(h)Q19.45-8.5110.94(h),2020/4/26,.,37,百分位数的应用,可用多个百分位数描述计量资料的分布特征,2020/4/26,.,38,3.方差,方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值,表示一组数据的平均离散情况。,2020/4/26,.,39,方差的优点和缺点,优点:利用了所有的观测数值。缺点:容易受极大值或极小值的影响;单位与原观测单位不一致。,2020/4/26,.,40,4.标准差,标准差(standarddeviation)即方差的正平方根;其单位与原变量X的单位相同。,2020/4/26,.,41,标准差的计算,2020/4/26,.,42,5.变异系数(coefficientofvariation),适用条件:观察指标单位不同,如身高、体重同单位资料,但均数相差悬殊,意义:挑选指标时变异系数越小,指标越好。,2020/4/26,.,43,变异指标小结,1极差较粗,适合于任何分布2标准差与均数的单位相同,适合于近似正态分布3变异系数主要用于单位不同或均数相差悬殊资料4平均指标和变异指标分别反映资料的不同特征,组合使用如正态分布:均数、标准差;偏态分布:中位数、四分位半间距,2020/4/26,.,44,2020/4/26,.,45,计数资料的常用统计指标,一、计数资料的数据整理二、常用相对数指标三、应用注意事项,2020/4/26,.,46,一、计数资料的数据整理,计数资料/分类资料/定性资料:按某种属性分类,然后清点每类的例数。,2020/4/26,.,47,二、常用相对数,绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。但绝对数通常不具有可比性:1.如甲、乙两个医院某病出院人数不同时,比较两医院该病的死亡人数没有意义2.如2002级附二院五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。,2020/4/26,.,48,1.率(强度相对数):某现象或某事物发生的频率或强度。率=(实际发生数/可能发生总数)比例基数比例基数:100%、1000、10000/万、100000(1/10万)等(按习惯,使结果保留1-2位小数)。频率和速率的区别:分母是否考虑了时间因素,(一)率,2020/4/26,.,49,(二)构成比构成比(结构相对数)(proportion):表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布,其计算公式为:,问题:频率相对数与构成比有何区别?,2020/4/26,.,50,相对比简称比,是两个有关指标之比,说明两指标间的比例关系。计算公式为式中指标可以是绝对数、相对数或平均数。,(三)相对比(ratio),2020/4/26,.,51,三、应用注意事项,计算相对数的分母不宜过小。率与构成比的误用。正确求平均率。进行率的对比分析时,应注意资料可比性。对样本率(或构成比)比较时应做假设检验。,2020/4/26,.,52,问题:此篇论文作者的结论?,2020/4/26,.,53,统计图表,2020/4/26,.,54,统计表(statisticaltable)是表达统计分析结果中数据和统计指标的表格形式。统计图(statisticalgraph)是用点、线、面等各种几何图形来形象化表达统计数据。,基本概念,2020/4/26,.,55,统计表的意义与制作原则,统计表的意义:统计表用简明的表格形式,有条理地罗列数据和统计量,方便阅读、比较和计算。制表原则:重点突出、层次清楚。,2020/4/26,.,56,统计表的基本结构与要求,标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。,2020/4/26,.,57,统计表的基本结构与要求,线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。,2020/4/26,.,58,统计表的基本结构与要求,数字:用阿拉伯数字表示。无数字用“”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。,2020/4/26,.,59,2020/4/26,.,60,表某省某工厂1994、1998年四项检测指标异常检出率,:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。,2020/4/26,.,61,统计表的种类,2020/4/26,.,62,1.简单表:统计表的主语只有一个层次,例1下表列出某地进行喷昔洛韦软膏治疗颜面单纯疱疹与阿昔洛韦软膏比较的随机对照临床试验结果。该表只有试验分组一个层次,属简单表。,表某年某地喷昔洛韦软膏治疗颜面单纯疱疹疗效比较,2020/4/26,.,63,2.组合表:统计表的主语有两个以层次,例2某年某地分别在城乡进行乙型肝炎病毒抗原携带者的检测,该研究的对象按城乡和年龄两个特征分层,结果列在表10-2。该表属组合表。,2020/4/26,.,64,表10-2某年某地城乡各年龄组居民乙型肝炎病毒抗原携带率分析,2020/4/26,.,65,编制统计表的注意事项,例3某地进行冠心病危险因素研究时,调查了居民的心理得分值与其它冠心病有关因素,结果列成表10-3。,2020/4/26,.,66,2020/4/26,.,67,上表存在的问题,将太多的内容放在一个表里,特别是将两种不同类型资料(计量资料和计数资料)的统计量放在同一表中。互不相容的内容分别占了不同的列,导致表中有许多空格。纵横标目倒置。内容较多,层次复杂,表格中数据罗列无条理,较难读懂。,2020/4/26,.,68,表4某年某地居民不同心理分值的冠心病危险因素水平比较,处理办法:将该表资料分别制成两个统计表,见表4和表5。,2020/4/26,.,69,表-5某年某地居民不同心理分值的冠心病危险因素水平比较,2020/4/26,.,70,问题1:请评价下表是否符合统计表制作原则,并作改正?,2020/4/26,.,71,实例分析:下表是复方猪胆胶囊治疗两型老年性慢性支气管炎的疗效比较,请指出该表所存在的问题,并予以纠正。,表,2020/4/26,.,72,表复方猪胆胶囊治疗两型老年慢性支气管炎患者疗效比较,2020/4/26,.,73,统计图,统计图的意义:统计图将统计数据形象化,让读者更易于领会统计资料的核心内容,易于做分析比较,并且可以给读者留下深刻的印象。,2020/4/26,.,74,统计图的种类:根据资料类型和统计分析目的不同,需要用不同的统计图表达数据和统计指标值。常用的统计图:直条图、直方图、百分比条图和圆图、线图、散点图和统计地图等。,2020/4/26,.,75,统计图制作的一般原则,根据资料性质和分析目的正确选用适当的统计图。必须有标题,概括统计图资料的时间、地点和主要内容。统计图的标题一般放在图的下方。,2020/4/26,.,76,统计图一般有横轴和纵轴,并分别用横标目和纵标目说明横轴和纵轴代表的指标和单位。一般将两轴的相交点即原点处定为0。纵横轴的比例一般以5:7或7:5为宜。统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图例加以说明。图例可放在图的右上角空隙处或下方中间位置。,2020/4/26,.,77,二、常用统计图,1直条图(barchart)2圆图(piechart)和百分比条图(percentbarchart)3线图(linegraph)4直方图(histogram)5统计地图(statisticalmap)6其他特殊分析图箱式图(boxplot)茎叶图(stem-leafplot)误差条图(errorbarchart),2020/4/26,.,78,1直条图(barchart),用相同宽度的直条长短表示相互独立的某统计指标值的大小。直条图按直条是横放还是竖放分卧式和立式两种,按对象的分组是单层次和两层次分单式和复式两种。,2020/4/26,.,79,2020/4/26,.,80,例10-4图10-1显示某地某年主要死因的死亡率资料,不同死因是相互独立的不连续指标,因此用直条图。该图只按死因分类,为单式立式直条图。,2020/4/26,.,81,2020/4/26,.,82,直条图的纵轴尺度起点必须为零示意图,2020/4/26,.,83,(a),(b),2020/4/26,.,84,2圆图和百分比条图,圆图(piechart)是以圆形总面积作为100%,将其分割成若干个扇面表示事物内部各构成部分所占的比例。百分比条图(percentbarchart)是以矩形总长度作为100%,将其分割成不同长度的段表示各构成的比例。圆图和百分比条图适合描述分类变量的构成比资料。问题:这两类统计图适合于什么类型的资料?尤其适合哪个统计描述指标?,2020/4/26,.,85,图10-2某年某地城市婴儿死因构成比,2020/4/26,.,86,例10-5某年某地进行婴儿死亡原因的调查,根据城市婴儿死因的构成资料绘制成图10-2。从图10-2可见出生窒息是婴儿死亡的首位死因,出生窒息、早产和肺炎头三位死因占总死亡的60.3%,是婴儿死亡防治的重点。,2020/4/26,.,87,例10-6图10-3是根据某地20世纪70年代和80年代恶性肿瘤发病登记资料绘制成的百分比条图。由图可见不同年代主要恶性肿瘤中,鼻咽癌和肝癌构成减少,肺癌明显增加。,百分比条图特别适合作多个构成比的比较。,2020/4/26,.,88,图10-320世纪70年代和80年代某地7常见恶性肿瘤发病构成比较,2020/4/26,.,89,图美国1999、2000年死于机动车事故的人员构成,2020/4/26,.,90,3线图(linegraph),线图是用线段的升降来表示数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论