




已阅读5页,还剩145页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,预防医学福医卫生统计系林征第七章:医学数据的统计描述,2,第七章提纲,数值变量的统计描述分类资料的统计描述统计图表医学统计中常见的分布及其应用,3,统计描述,统计描述就是用适当的表格、图形、数量化的指标,表达数据的数量特征,揭示其分布的规律性统计描述分为:形象化描述(统计图表)建立对资料的初步印象;数值化的描述(统计指标)给出分布规律及具体数值,4,统计描述,为什么要对资料进行统计描述?,医学研究得到的原始数据(rawdata)往往是庞大的、混乱的个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的;从总体的角度上个体值的出现是有一定规律的,即呈一定的分布统计描述的结果为进一步的统计推断提供参考,5,统计描述,统计描述的思路:,计算相应统计指标绘制合适统计图表,判断类型,获取资料,分类汇总相应统计指标绘制合适统计图表,6,一、数值变量的统计描述,例71:某地2019年随机抽查120名20岁健康男大学生身高(cm)175.7171.6172.4170.5172.3163.8172.4167.5173.6175.0178.4170.4169.9173.6172.0172.1179.1179.4173.1172.4170.4178.2172.9172.7179.6174.5174.8172.0175.8172.7170.0168.5173.8168.9179.9172.4166.5171.6177.0171.4170.3167.4174.3172.3175.3170.4171.6174.1171.6173.8162.8172.7174.0179.6166.7166.6164.3177.8182.7171.4168.9175.2176.7169.5176.3177.7172.1166.6177.1176.1171.5172.3174.2174.4173.5171.9167.4171.7179.5177.3175.3172.3174.2174.4173.5171.9167.4181.7179.5177.3166.9168.4175.2172.3172.9173.6165.3171.9169.1168.9178.2169.5172.1178.4166.6165.8171.1174.9176.7174.8168.2178.1170.5172.3172.3169.8168.1172.1180.0171.2,7,理想的描述结果,8,如何得到上述理想的结果?,频数分布表,分组划计,原始资料,9,求极差R:R=max-min确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。对于100余例的数据通常分为815组。或根据以下经验公式:确定组距:组距i是一个组的下限与下一个组段下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即iInt(max-min)组数列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值统计出各组的频数并整理成频数分布表,1.频数表,10,1.频数表,11,2.频数分布图(直方图),12,频数表与频数图的作用,频数表与频数图可以提供不同分组的观察人数、频率与频率密度观察分布范围及有无可疑值确定分布的类型:对称或不对称分布,13,289只近视眼Lasik术后1月裸眼视力,14,对称分布,该人群身高介于162183cm间以“172”组段的频数最多从“172”组段向两端逐渐减少表现出以“172”组段为中心基本对称的特点,15,不对称分布,分布不对称者称为偏态分布skewnessdistribution偏态分布又分为正偏分布和负偏分布正偏分布positiveskewness是指分布的长尾在峰的右侧,又称右偏分布rightskewed所谓负偏分布negativeskewness是指分布的长尾在峰的左侧,又称左偏分布leftskewed,16,Negativeskewness:老年人生存质量自评分,自评分,人数,17,Positiveskewness:黑色素瘤患者的生存时间,生存时间(月),人数,18,如何更具体、精确?,了解了数据分布的形态(对称与否)、是否有异常值,仅仅意味着对数据有了初步认识,尚未得到数据的“精确”特征例如:教务处得到04与05两个年级的预防医学成绩,如何判断优劣?,19,3、描述集中趋势与离散趋势的指标,集中趋势centraltendency:反映同质的群体中数据向其中心值靠拢的倾向和程度;测量集中趋势就是寻找数据水平的代表值或中心值,该值通常称为平均数离散趋势dispersetendency:反映各变量值远离其中心值的程度,体现了同质群体内部个体间的变异大小,也称为变异度,20,Part1:集中趋势指标,常见的平均数指标有:算术均数、几何均数、中位数不同分布类型的数据用不同的集中趋势指标,21,算术均数,算术均数arithmeticmean(总体均数,样本均数)简称均数,在已知各观察单位具体变量值时,可以采用直接法计算,公式如下:,22,算术均数,测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为:4.20、6.43、2.08、3.45、2.26、4.04、5.42、3.38;求其品均水平。解,23,算术均数,求120名20岁健康男大学生的平均身高资料来源于整理后的频数表,无法取得原始数据采用加权法计算加权均数,作为算术均数的近似值,24,算术均数,加权均数(weightedmean)直接法算术均数是加权均数的一个特例,25,算术均数,26,算术均数,直接法计算的均数为:172.75916666加权法计算的均数为:172.90000000二者十分接近;可见加权法计算的结果是对直接法的良好近似;而且加权法的计算较直接法稳定,简便,27,算术均数小结,它是一组数据的均衡点所在;集中趋势的最常用指标易受极端值的影响用于定量数据,不能用于分类数据和等级数据适用于服从对称分布计量资料(正态或近似正态)的集中趋势描述,28,对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了7人,6人死亡之前分别生存了5天、6天、10天、16天、25天、29天,还有一人术后30天随访时仍存活;求他们的平均生存时间?,问题:,29,中位数,中位数median:观察值排序后处于中间位置上的值对于有奇数位数的数据Me(n+1)/2位数对于有偶数位数的数据Men/2位数+(n/2+1)位数/2,30,中位数,某药厂观察9只小鼠口服高山红景天醇提取物(RSAE)后在缺氧条件下生存时间(分钟)如下:原始数据:49.160.863.363.663.665.665.868.669.0排序:49.160.863.363.663.665.665.868.669.0位置:123456789,31,中位数,求120名20岁健康男大学生的平均身高资料来源于整理后的频数表,无法取得原始数据如何计算中位数?,32,中位数,33,中位数,频数表法计算公式:,式中L50、i50和f50分别为中位数所在组段的下限、组距和频数;为小于L50各组段的累积频数,n为总例数,34,中位数,直接法计算的中位数为:172.35频数表法计算的中位数为:172.93该组数据的算术平均数为:172.76可见对于近似对称分布的数据,中位数与算术平均数是十分接近的(理论上对于完全对称分布,二者是相等的)对于偏态分布的数据,二者的关系又是如何?,35,中位数,对于例76数据,其频数分布图如左,为正偏态中位数为:15(直接法)或15.66(频数表法)算术均数为17.08算术均数大于中位数取何者更合理些?对于负偏态,二者关系又如何?取何为优?,36,中位数vs.算术平均数,4位职员月收入3000、3500、4000、4500;经理月收入2万,求该部门5位人员平均月收入?算术均数求得为7000,但是不论职员还是经理的收入均与此相区甚远,即算术均数作为这一组数据的集中位置不合理中位数求得为4000元,很好的体现了“少数服从多数”的原则:在4000附近的确人数占绝大多数,这应该是具有说服力的“集中位置”!能否总结一下为什么舍算术均数而取中位数?,37,中位数vs.算术平均数,对于偏态分布资料,算术均数受极端值的影响,偏离了“中心”位置,不再合理反映“集中点”所以对于偏态分布数据,多采用中位数反映平均水平而对于近似对称分布数据,二者均可以反映平均水平,但是算术均数对数据的变化反映较中位数灵敏,得到的指标更精确,38,正、负偏态的由来,对于正偏态数据有算术均数中位数,故算术均数减去中位数为正值,称这种数据分布为正偏态对于负偏态数据有算术均数0.98kg?,变异度间的比较问题,64,变异系数,变异系数coefficientofvariation:标准差与其相应的均值之比它反映数据相对离散程度,没有量纲消除了数据水平高低和计量单位的影响,用于不同性质数据或均数相差较大时,离散程度的比较,65,频数分布表、图,分组划计,原始资料,分布类型,数值变量统计描述小结,算术均数与标准差,对数转换,几何均数与对数值标准差的反对数,中位数与四分位数间距,66,二、分类资料的统计描述,分类变量的取值为某种属性,例如:血型(A、B、O、AB)人群中某病发生与否(发生、不发生)性别(男性、女性)视力等级(差、中、好)这些变量值无法直接进行统计运算,通常的做法是按照类别进行统计汇总,分别计算每一个类别的观察单位数,即某个分类的频数将上述频数绘制成频数分布表,67,某年某社区各年龄居民高血压患病情况,40与50年龄段为高血压的高危年龄段!,68,某年某单位各年龄居民高血压患病情况,60岁以上年龄段为高血压的高危年龄段!,69,相对数,对分类变量汇总后,通常这些频数不能直接比较;分类资料的统计描述与推断中通常使用相对数,而不是绝对数相对数指标是由两个有联系的指标之比组成,70,常用的相对数指标,比(ratio)构成比(proportion)率(rate),71,1、相对比,相对比ratio含义:两个相关联的指标之比计算公式:特点:无量纲、取值可以超过1;A与B的量纲可以相同也可以不同,但是A与B互不包含常用指标有:性别比、每千人口的医生数、动态数列分析指标等,72,2、构成比,构成比proportion含义:反映事物内部某个部分占总体的比重;分子包含在分母中计算公式:特点:无量纲、在01间取值、不独立性、可加性常用指标有:性别构成、疾病构成、年龄构成、职业构成等,73,3、率,率rate含义:反映某一时间段内,某一事件出现的机会大小(近似于一段时间内发生某事件的平均概率)计算公式:特点:多来源于随访性资料、分母中含有时间定义、取值有时会超过1(时间取半年、半月)常用指标有:发病率、死亡率、出生率等,74,应用相对数的注意事项,防止概念混淆;分析时不能以构成比代替率计算相对数的分母一般不宜过小正确地合并估计率(平均率或合计率)相对数比较时要注意可比性,75,防止概念混淆,并非所有含“率”的指标都表达是发生的可能性大小,很多情况下这些含“率”的指标是相对比例如:,76,某年某市高血压发病情况,某年某市畸胎发病情况,proportionvs.rate,77,相对数比较时的可比性,78,4、率的标准化,出现这种矛盾现象的原因在于两院不同科室病例构成不同甲院以内科病例居多,乙院却以外科病例居多,而外科病例的治愈情况较内科好得多,造成乙院的治愈人数较多,在合计时乙院的总治愈率高于甲院可见这两组资料内部的构成不同(不同的科室治愈率是不同的),可比性差,不可直接比较总治愈或合计治愈率,79,率的标准化,采用统一的标准对内部构成不同的各组频率进行调整,而后对比各组标准化率的方法称为率的标准化法调整后的率为标准化率,简称标化率(standardrate),或调整率(adjustedrate)标准化的目的是使得不同构成的各组间比较时具有可比性;其做法是对那些在各组间分布不均衡,并且可能对研究结果造成影响的因素(混杂因素)进行调整、校正,使得它们对结果的影响在各组间一致常见的混杂因素有年龄、性别、病情等,80,率的标准化,81,标准化率的计算,率的标准化的方法通常有直接与间接法两种两种方法的使用条件不同,82,直接标准化率,已知各构成组分的率时(或已知各组分的观察单位数与各组分观察阳性数),可采用该法在用直接标准化法计算标准化率(标化率)时要选择一个“标准人群”,例如:标准人口、标准年龄构成,等该标准不可随便选择,一般选用标准的方法有三种,83,直接标准化率标准选取,选择一个有代表性的、内部构成相对稳定的较大人群作为标准;例如全国人口、全省人口将要比较的两组资料合并后作为共同的标准将要比较的两组中任意一组作为共用标准,84,直接标准化率,期望生存人数ei=nipi,811,期望生存人数ei=nipi,649,使用合并的人口数Ni作为标准人口甲院标化生存率=811/1138=71.23%乙院标化生存率=649/1138=56.99%排除了两院病例淋巴结转移情况不同后,甲院的生存情况较乙院好,85,直接标准化率,直接标准化法的一般公式:求得人群不同构成标准人口ni与原构成的率pi时,标化率p:,86,标准化法的注意事项,通常在不同群体间的内部构成不同时,如果欲对它们进行相互比较,可以考虑采用标准化法常见的内部构成因素有:年龄、性别、病情等因素标准化率并不是本身的“真值”,而是以标准人口作为参考,对各被标化组进行的调整后得到的相对的“率”,仅仅反映不同的组间的相对水平,87,标准化法的注意事项,标准化率随着标准人群的不同而不同;但是标化率的大小倾向是相同的;通常的“标准人群”有前述几种情况,不可随意选择对于总体资料,经过标准化后的调整率可以直接比较;而对于样本资料,标化后的率需要作假设检验如果资料出现“交叉”情况,慎用标准化,88,三、统计图表,避免冗长的文字叙述,使要表达的内容中心突出,简单明了,便于直观分析和比较它是资料组织、整理的有力工具,方便研究者进行资料的校对,89,1、统计表statisticaltables,什么是统计表:统计表就是以表格的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系统计表结构与绘制要求:三大组成(线条、文字、数字)重点突出,简洁明了(一事一表)层次分明(避免层次过多或结构混乱),90,统计表的结构,线条文字数字,91,线条,三线到五线、只有横线,92,文字,标题标目备注,93,文字,标题(表号3w),注释,纵标目(谓语、宾语),(主语)横标目,94,数字,158.968.50.0,95,统计表格的种类,简单表:只有一个分组依据组合表:有两个或两个以上的分组依据,96,简单表,97,组合表,98,统计图,统计图的结构和绘制原则按照资料的性质与分析目的选择适当的统计图与统计表相似,构成统计图的主要有:标题(图下方)、标目(坐标轴上)、坐标轴(5:7)、图形、图例等坐标轴如果没有特殊要求最好从0开始线图中各个点的连接采用线段,不作外延,99,城、郊89-98年糖尿病死亡情况,100,线图,101,线图,用线段的上升或下降表示某事物随另外一个事物变化的趋势(普通线图)或变化的相对速度(半对数线图)绘制线图时应注意以下几点时间一般绘在横轴,指标数据绘在纵轴图形的长宽比例要适当,其长宽比例大致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断,102,普通线图与半对数线图,普通线图的纵坐标为算术尺度,刻度是等间距的;半对数线图的纵坐标为对数尺度,刻度间是等比例的(呈倍数变化)普通线图用于反映一个变量随另一个变量的变化的趋势;半对数线图则反映一个变量随另一个变量变化的相对速度,103,两种疾病15年的死亡率变化,104,线图vs.半对数线图,105,线图vs.半对数线图,将线图中的纵坐标转换为对数值,而横坐标尺度仍为算术值不变,这样的线图称为半对数线图依据对数值的特点,任意两个点纵坐标值之差可以看作相同底数的幂次之差,体现了事物发展的相对速度所以线图反映指标随时间变化的趋势和改变的绝对幅度,而半对数线图则反映变化的趋势与相对速度,106,某年某地三种疾病的死亡率,107,直条图,用宽度相同的条形的高度或长短来表示各独立分类数据的大小有单式条形图、复式条形图等形式绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图,108,某年某地120名20岁健康男大学生身高,109,直方图,用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图设定直方图下的总面积等于1,110,直方图vs.直条图,条图是用条形的长度或高度表示各类别频数的多少,其宽度是固定的,没有意义直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,不同分组间不可调换;条形图则是分开排列,通常情况下任意两个或多个条块间可以相互调换条形图主要用于展示独立分组变量的数值大小,直方图则主要用于展示定量变量的频数分布,111,两种脱落牙的再植效果,112,百分圆图,113,百分条图,114,构成图,包括百分条图和圆图分别是用矩形以及圆形内各部分的面积来表示总体或样本中各组成部分所占的比例,即内部构成问题,115,散点图,以点的密集程度和趋势表示两个变量间的关联密切程度与关联方向,116,统计图表小结,统计图表是统计描述的得力工具统计表展现精确的数值指标但不够直观;统计图令人映象深刻却不够精确两者通常一起结合使用,117,四、正态分布,最早是由法国数学家德.莫阿弗尔(A.de.Moivre,16671754)于1733年提出(TheDoctrineofChances,1738);C.F.高斯(CarlFriedrichGauss,17771855)则将其成功推导(Theoryofmotionofthecelestialbodiesmovinginconicsectionsaroundthesun,1809),用于使得正态分布广为人知,故又称为GaussDistribution许多现象都可以由高斯分布来描述:例如,在生产条件不变的情况下,抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。于是人们将正常现象的数值满足的分布称为“NormalDistribution”,118,10DeutscheMark,119,随着组段的无限细分、样本含量的无限增加,原本崎岖不平的直方图的轮廓逐渐变得平整,以至于形成一条光滑的连续曲线正态分布曲线,直方图钟形曲线,120,正如数学曲线中x与y严格的对应关系,在正态分布曲线坐标轴上的点x,y也有严格的数学对应关系:上式中,f(x)=随机变量X的概率密度函数=正态随机变量X的总体均数=正态随机变量X的总体方差=3.1415926;e=2.71828x=随机变量的取值(-x),Probabilitydensityfunction,121,随机变量xN(m,s2),如果随机变量X的概率密度函数满足:则称X服从正态分布,记作xN(,2),其中:为分布的均数,为分布的标准差。,122,方差相等、均数不等的正态分布图示,123,均数相等、方差不等的正态分布图示,1,124,正态分布的图形特征,单峰分布;高峰在均数处;两边沿横坐标轴无限延伸,理论上永远不与之相交以均数为中心,均数两侧完全对称;在ms处有拐点(在该范围内是凸的,其它范围内是凹的),表现为关于均数完全对称的钟形曲线。正态分布有两个参数(parameter),总体均数决定了正态分布的高峰位置,所以它是正态分布的位置参数;而总体标准差决定了正态分布的分布跨度,所以它是正态分布的形状参数。总体均数增大,分布向横坐标右侧平移;反之,向右平移;如果总体标准差增大,分布变得矮胖,反之变得高瘦,125,正态分布曲线下面积的含义,曲线下面积是指由分布曲线与横坐标或者横坐标上的特定区间所围成的区域的面积,曲线下面积,曲线下面积,126,正态分布曲线下面积的含义,对于连续型的计量资料,x可以取某个区间或整条数轴上的任意点值;对于横坐标轴上的任意特定点,其所对应的曲线下面积都等于0(因为线的面积等于0),127,正态分布曲线下面积的含义,设定曲线下面积等于1,对于横坐标轴上的某个区间(axb)的曲线下面积,其含义为x取该区间值时对应的概率有多大;其数值的大小用分布函数式F(X)表示,128,曲线下的面积的计算,对于任意一个区间的曲线下面积,在知道变量值x对应的概率密度函数f(x)后,都可以根据微积分的方法求出其面积的大小,129,正态曲线下的面积规律,X轴与正态曲线所夹面积恒等于1(相当于x的所有取值都在横坐标轴上)。对称区域面积相等,F(-,-X),F(+X,),F(+X,)F(-,-X),130,正态曲线下的面积规律,-3-2-+2+3,F(-,-3)=0.0013,F(-,-2)=0.0228,F(-,-1)=0.1587,F(-,)=0.5,F(-,+3)=0.9987,F(-,+2)=0.9772,F(-,+1)=0.8413,F(-,)=1,131,正态曲线下的面积规律,正态分布的一个显著特点:其曲线下面积完全决定于以标准差为单位从点x到的标准离差(标准离差的含义为标准差的倍数),132,正态曲线下的面积规律,正态曲线下面积总和为1正态曲线关于均数对称;对称的区域内面积相等对任意正态曲线,按标准差为单位,对应的面积相等-1.96+1.96内面积为95%-2.58+2.58内面积为99%,133,虽然服从正态分布的指标,只要知道均数与标准差,就可用微积分的方法求得任意范围曲线下面积,但此积分是困难的,这给实际使用带来诸多不便。例如:当=0,=1时,在(-1.96,1.96)范围内正态变量取值概率为0.95,而当=0,=1.96时,在(-1.96,1.96)范围内正态变量取值概率就不是0.95,而是0.68。这就是说P的大小不仅与区间上下限(x1,x2)有关,还与、有关,而我们不可能针对每个不同的与都制一张表供研究者参考为了制一张可供不同的、共同使用的表,考虑引进标准化变换与标准正态分布。,计算曲线下面积的问题,134,标准正态分布,标准正态分布standardnormaldistribution是均数为0,标准差为1的正态分布记为N(0,1)标准正态分布是唯一的概率密度函数:,135,正态分布转换为标准正态分布,若xN(,2),作变换:则z服从标准正态分布N(0,12),136,标准正态分布曲线下面积f(z):附表7-1,z0.000.020.040.060.08-3.00.00130.00130.00120.00110.0010-2.50.00620.00590.00550.00520.0049-1.90.02870.02740.02620.02500.0239-1.60.05480.05260.05050.04850.0465-1.00.15870.15390.14920.14460.140100.50000.49200.48400.47610.4681,137,例7-15,已知某地120名20岁男大学生的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年远程医疗服务数据传输与保密性保障合同
- 2025年PE管材进出口贸易及仓储物流一体化服务合同
- 2025年度婚姻终结财产分割与心理健康保障服务合同
- 2025年高效型数据中心安全生产与消防设备维护合同
- 2025年环保型车辆运输节能减排综合解决方案合同
- 老乡鸡面试题目及答案
- 2025年区块链赋能的版权登记与监测服务合同
- 2025年证券公司股权质押融资最高额抵押担保合同模板
- 2025年新型小微企业融资担保合同范本(电子版)
- 2025年矿山开采项目专用钩机租赁与操作培训合同
- 消化内镜进修总结汇报
- 兽医检验题库与答案
- 换电柜地租赁合同范本
- 影响安全生产的六种员工心理状态
- 儿童视角下幼儿园班级主题墙创设的策略研究
- (高清版)DZT 0432-2023 煤炭与煤层气矿产综合勘查规范
- 2023年广东中考道德与法治试卷评析
- 中小学教师违反职业道德行为处理办法
- 大学美育(第二版) 课件 第四单元:绘画艺术 课件
- (正式版)实习岗位-OFFER通知书
- 教师成长规划总结反思报告
评论
0/150
提交评论