第二章--医学资料的统计描述_第1页
第二章--医学资料的统计描述_第2页
第二章--医学资料的统计描述_第3页
第二章--医学资料的统计描述_第4页
第二章--医学资料的统计描述_第5页
已阅读5页,还剩134页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计,开始学习,医疗统计,第二章医疗数据的统计说明,主题:黄志弼,统计说明-使用适当的统计图表(表)和统计指标(如平均值、标准差、效率、治愈率等)计算数据的分布规则(图表),目的:以直观、简单的形式表示数据中的信息。广西人均健康事业费为全国排名(1998年),1999年中国农村死亡原因(%),第一节频率分布图和频率分布图,1,按频率分布图,数据,特定标准或显示分组,多组观察值数,1,2,3,A8个,B11个,C15个等,频率分布图,原始数据分组,测量数据频率分布图,系数数据频率分布图,按数量分组,按特性或属性分组,系数数据频率分布图,下表列出了甲和乙两个医院如何治疗同一病,甲和乙两个医院a医院b医院状态治疗者治愈率(%)治疗者治愈率(%)轻量级1008080.030021070.0重量30018060.0100550.0总计40026065.040026065.0,a,每分钟的脉搏数、键(cm)、重量(kg)、总胆固醇(mmol/L)、结果整数计量单位、(a)离散测量数据的频率表、变量值表示分组频率数、连续测量数据的频率表、链球菌潜伏期(时间)12-24-36-48-60-72-84-96-108-案件总数11018145442260,组标记,频率数,1,极数,2,确定编组距离和编组段,(2)确定编组距离(I):两个相邻编组段之间的距离。I=极差/10=1.7/10=0.170.2(所需i=0.15),(1)根据组段数确定示例数反映确定频率分布特性的原则,一般分为8-15组。第一个组包含最小值,最后一个组包含最大值,这决定了段组的上限和下限原则。每个段集都有上限和下限。组段的起始(最小)上限:组段的结束(最大),通常只列出下限!3,每条线段的频率根据其数值大小将所有观测分类到每个群组中。组分类频率2.5 2.7 2.9 3.1 3.3 3.5 3.7 3.9 4.1 4.3,2.5,3.9,分组方法:排序表,表21552、数据的分布特性和分布类型3、便于指标和统计分析的进一步计算4、很容易发现很大或很小的可疑值、频率分布的特征1、集中趋势:特定数值集的数据趋势2、离散趋势:通过观察数据的数值大小不相等的趋势、2、频率分布图,可以看出变量(组段)是横轴,频率或频率是垂直轴,第三,频率分布的类型对称分布偏置分布,正偏置,负偏置,正态分布,1,对称分布:集中位置(峰值)中心,左右频率分布大体对称,其中正态分布是重要的分布形式。2、偏移分布集中位置(峰值)不在中心,而是偏向一侧。(1)正偏移:集中位置(峰值)偏移较小的一侧。(2)负偏移:集中位置(峰值)偏移偏于大的一侧。对第二节重点趋势的说明,说明测量数据分布特征的指标,集中趋势指标,离散趋势指标,平均值,r,q,s,S2,CV,平均指标,一般平均指标:算术平均值,几何平均值,平均:动态、第一、算术平均值(平均值)、总体平均值、显示、采样平均值、显示。适用的数据:对称分布,尤其是正态分布的数据。算术平均值:描述同类度量数据集的平均级别。加权方法:1,计算方法:直接方法:f:频率,x是组中值=(上下限)/2,示例2.110名7岁男孩的重量(Kg)分别为17.3,18.0,平均体重。例2.2用加权方法求出了150名男孩的平均体重。注意:x是组中的值=(上限下限)/2组中的值是每个组段的平均值,2,平均两个重要要素1,每个距离差(每个观测值x和平均值的差值)的和等于0。2,距离差的平方和小于每个观测值x和随机a之差的平方和。说明平均值是一组最佳观测值。3,应用平均值。反映同质性观察值组的平均水平原始数据的分布是偏置分布,但代数转换后的分布是正态分布,2,几何平均(geometricmean,简单G),1,适用的数据:(1)等比系列数据(2)求平均水滴。平均滴数为1: 75.8,抗体倒数f倒数xlgxflgx 1:440 . 60212 . 4084133363636360880 . 90318 . 127791:11621161 . 204125 . 2861332321 . 50130 . 1020130107210.536136360564560564562 . 40829 . 6328共计75107.7676,表2.375名儿童的平均抗体效价计算表,无需组中值计算,平均抗体效价为1: 27.3。3,几何平均应用注意事项:(1)观测值不能为零;(2)观测不能同时具有正值和负值。(3)从相同数据中得出的g、3、中值(m)和百分比段(Px),(a),定义,1、中值:按从小到大的顺序排列观测值组,位置的中值为中值。在整个观测中,大于或小于中央值的观测值的数目相同。2,百分比段:按从小到大的顺序排列观察值组,将该系列显示为100幅,特定百分比段值,Px。百分位数将总观测值除以二,理论上说,x%的观测值比它小,(100-x)的观测值比它大。P50分位数,即中间值。(b)、中间和百分位数的适用范围(1)部分分布数据(2)分布未知数据(3)分布末端未确定的值数据(开放数据)百分位数用于说明数据集百分位数的级别。理论上,中值可用于描述所有分布的测量数据的平均水平,但在实际应用中经常用于偏移分布,尤其是开放数据。一个城市238名健康人的汞含量汞(g/g)为0 . 330 . 3-170 . 7-661 . 1-601 . 5-481 . 9-182 . 3-162 . 7-63 . 1-13 . 5-1从具有100分位数Px和中间数M、L:Px或M的组段的下限i:Px或M的组段的组开始,具有fx:Px或M的组段的频率数:小于l组的累计频率,M、P25、p75、,集中趋势指标选择判断阶段,数据抗体逆积g否偏差,开放m否x,是,是,一般平均意义及其应用方法; :应用平均意义的数据与几何平均增量(减)乘数(1)相同的比率数据,(2)对对数正态分布中位位置中心的观察,(1)偏置分布,(2)分布末端没有决定值(开放数据); 32,34。b组24、27、30、33、36.c组26、29、30、31、31、3、3、3的离散趋势说明a组26、28、30、32和34.b组243,优点:计算简单,意义4,缺点如下。(1)不反映每个观测值的变化;(2)样本数越大,r可能越大。(3)R取样误差大,不稳定。2,4分位数间隔(Jane Q)1,计算公式:4分位数间隔q=Q=QU-QLP25:下一个四分位数,简单QLP75:的四分位数,轴向QU2,语义:反映中间一半的观测值3,特征:(1)比r稳定,但未考虑每个观测值的变化。(2)通常用于描述偏置数据的分布。120名链球菌心绞痛患者的潜伏期,m,q=p75-p25=64.8-38.7=26.1(时间),3,弥散(整体弥散简,样本扩散收缩), (x-x)=0(偏差和);(x-x) 2 0(偏差之和),缺点:与范例数有关,1,计算公式(直接计算方法):2,意义:偏差越大,偏差越大。方差越小,方差越小。3,缺点:单位平方,使用不方便,4,标准差(总体标准差缩写,样本标准差轴证s),方差的平方为标准差。1,计算公式:2,语义:与方差相同的语义(注:n-1是自由度),3,计算方法:(1)直接方法:(2)加权方法:(2)结合平均数说明正态分布的特征。(3)结合平均数计算波动系数,结合样品含量计算标准误差,估计参考值范围。标准差,组a: 262 282 302 322=4540b组:242 272 302 332 362=4590c组:262 282 302 322=4534,150个婴儿出生体重的标准差。5,变异系数(简单CV),1,计算公式:2,用途:(1)测量单位不同的多个资料集的变异(不连续性),(2)比较平均数目不同的多个资料集的变异(不连续性),3,变异系数,高度:cm,s=4.95cm重量:kg,s=4.96kgCV身高=2.98%,CV重量=9.23%,20岁健康100名男性身高和体重的平均数量,以及,在特定地点不同年龄的儿童的高度(cm)的变化程度(cm)的变化程度(cm)。),收集用绝对日志执行的分类数据。绝对用于说明事物发生的实际水平,作为统计分析的基础,但对事物进行深入分析比较并不容易。例如:甲、乙、乙两个村子的发病率是甲村:100名发病者。乙村:300名发病者。b村比b村严重吗?甲村:人口:1000人发病者:100人发病率:10.0%。我村:人口:5000人发病者:300人发病率:6.0%。甲村比乙村严重!代数:描述事物相对水平的两个连接指标的比率,易于分析和比较分类数据。常用对数:也称为频率指标,比率、配置比、相对比率、比率(Rate)表示特定时间内可能发生某种现象的观察单位数与可能发生这种现象的观察单位总数的比率。解释现象的频率或强度。(a)、比率、k是基于比率的,可以是百分比(%)、千分率()、万分率(1/10万)或十万分率(1/10万),计算出的比率为1、具体取决于习惯或设置,出生率、死亡率、自然增长率、婴儿死亡率等使用千分率。肿瘤的死亡率是十万分之一。使用习惯:计算比率时,请注意分母和时间。只有事件可能发生的观察单位才能做分母。时间通常是年间隔、月、周等。例如,麻疹发病率=335433333343333334333343434000特定年份新发生的麻疹病例数,同一年麻疹易感子女总数,儿童总数不可,也称为构成指标的构成比例(Proportion)说明了事物中各组成部分所占的比重或分布,(b),构成费,(表4.1)资料在特定地点2000年5种慢性病的构成,1999年中国农村死亡原因构成(%),构成2个特征:1)构成比例总和等于100%或1;2)部分配置增加或减少时,其他部分配置相应减少或增加。与某医院1980年和1982年各学科病床的情况不同,由1980年1982年病床数组成,内科20050.030060.0外科10025.010020.0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论