统计描述的正确应用.ppt_第1页
统计描述的正确应用.ppt_第2页
统计描述的正确应用.ppt_第3页
统计描述的正确应用.ppt_第4页
统计描述的正确应用.ppt_第5页
已阅读5页,还剩128页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,统计描述的正确应用,张菊英 教授 四川大学华西公共卫生学院,2,一、定量资料的统计描述,定量变量 关注测定值的大小,3,定量资料的统计描述,主要内容: 定量资料的频数表 集中位置的统计描述 离散程度的统计描述,4,1.定量资料的频数表和频数分布图,揭示频数分布的特征:集中趋势、离散程度 揭示频数分布的类型:对称分布、偏态分布 便于进一步计算指标和统计处理 便于发现某些特大或特小的可疑值,5,1.1离散型定量变量的频数表,表1.1 2005年某市102名高中男生引体向 上 完成次数的频数分布,按变量的取值为分组单位,6,1.2 连续型定量变量的频数表,表1.2 2005年某市120名9岁男孩肺活量(L)频数分布,根据数据划分的组段,7,1.3 频数分布图,用图形的方法能够直观形象地表达频数分布的信息,并可与频数表互为补充 连续型定量变量的频数表可绘制成直方图,8,图1.1 2005年某市120名9岁男孩肺活量频数分布,9,2.集中位置的统计描述,集中趋势(central tendency) 一组数据向某一个位置聚集或集中的倾向 集中位置用平均数描述,10,2.1 均数与中位数,均数(mean) 适用条件:对称分布,特别是正态或近似正态分布的定量资料。 中位数(median,M ) 适用条件:偏态分布资料以及频数分布的一端或两端无确切数据资料 。,11,某市1974年留驻该市一年以上,无明显肝、肾疾病,无汞作业接触史的居民238人的发汞值(mol/kg)检测结果如表1.3的第1和3列所示。,表1.3 某市1974年238人得发汞检测结果,应采用何种指标对该数据的集中趋势进行描述?,13,均数与中位数,表1.4 不同级别医院费用比较( ,元),所使用的指标正确吗?,14,例 某实验室观察局部温热治疗小鼠移植性肿瘤的疗效,以生存日数(天)作为观察指标,共观察10只老鼠的生存日数(天)为:10,12,15,15,16,17,18,20,23,90。试描述10只老鼠生存日数的平均水平。,15,2.2 几何均数(geometric mean),适用条件:某些呈正偏态分布,但数据经过对数变换后呈正态分布的资料,也可用于观察值之间呈倍数或近似倍数变化(等比关系)的资料。,16,表1.5 75名儿童的平均抗体滴度计算表,观察值呈倍数关系,17,几何均数的应用,18,3. 离散程度的统计描述,离散度指标反映一组同质观察值的变异度; 常用的指标有全距、四分位数间距、方差、标准差和变异系数; 其值越大,表示资料的变异程度越大。,19,3.1 极差(range,简记为R),涵义:也称全距,即全部数据中最大值与最小值之差,用符号表示。极差大,说明变异程度大。 适用条件:常由于描述单峰对称分布小样本资料的变异程度或由于初步了解资料的变异程度。 缺点:只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度;,20,例 试观察三组数据的离散状况,A组:26,28,30,32,34; B组:24,27,30,33,36; C组:26,29,30,31,34。,21,将三组数据分别点在直线上,如图:,图1.2 三组数据离散状况比较,计算三组数据的极差: A组 R=34-26=8 B组 R=36-24=12 C组 R=34-26=8,A、C两组极差相同,但由图3.1可以看出两组观察值的离散程度是不同的。,22,3.2 百分位数(percentile),涵义:是指将观察值从小到大排列后处于第x百分位置上的数值,用符号表示为 百分位数是一个位置指标,其中P50为中位数,23,3.3 四分位数间距,四分位数(quartile,简记为Q) 通过P25,P50,P75这3个点将全部观察值等分为四部分,处于P25和P75分位点上的数值就是四分位数 P25下四分位数,用 表示 P75上四分位数,用 表示 四分位数间距(inter-quartile range)为上、下四分位数之间的差值,即,24,四分位数间距的适用条件,常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。,某研究者在“清醒状态下大鼠脑震荡动物模型的建 立”一文中,给出了如下的资料,请问:这样表达妥 当么?,表1.6 大鼠头部受伤后1d迷宫实验的结果,对策1 作变量变换,看资料经过变换后是否满足正态性要求 对策2 若未找到合适的变换方法,用中位数或四分位数间距,例 50例链球菌咽峡炎患者的潜伏期(小时)如下表第(1)(3)列,,表1.7 50例链球菌咽峡炎患者潜伏期(小时)的频率分布表,描述其离散程度应选用何种指标?,27,优缺点,四分位数间距较全距稳定,但仍未考虑全部观察值的变异度。,28,3.4方差和标准差,为了全面考虑每个观察值的变异情况,克服全距和四分位数间距的缺点,引入了方差 。 方差的单位是观察值单位的平方,在实际工作中使用不方便,为还原单位,将方差开平方即得到标准差(standard deviation)。总体标准差用 表示,样本标准差用S 表示。,29,方差和标准差的适用条件,正态或近似正态分布资料,30,变异系数(coefficient of variation),简记为CV 适用: 比较计量单位不同的几组资料的离散程度 比较均数相差悬殊的几组资料的离散程度,例 1985年通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm,标准差为3.0cm。 某研究者就此判断十省农村周岁女童身高的变异大于体重的变异,他的判断正确吗?,体重 身高,32,描述定量变量指标的正确选择,正态或近似正态分布的资料 均数和标准差 偏态分布的资料 中位数和四分位数间距 等比级数或对数正态分布的资料 几何均数,33,二、定性资料的统计描述,常用相对数及其应用 应用相对数的注意事项 率的标准化,34,相对数,概念:两个有关的数据或指标之比。 例:甲小学有534人,乙小学为313人, 经检查发现, 甲学校学生中患龋齿者57人, 乙学校33人, 问那所学校发现患龋齿的强度高?,35,率 构成比 相对比,常用的相对数,表2.1 某市某年各区急性传染病发生数及其相对数,相对比,构成比,率,37,1.率,概念: 说明某现象出现的频率或强度。 类型:频率(frequency) 、速率(rate),38,频率(frequency),式中k为比例基数,常取100、1000和100000/10万等。 特点:分母不引入时间因素、无时间量纲、取值在01之间 常见频率指标:发病率、患病率、病死率、治愈率等,例 为研究吸烟与肺癌的关系,某医生收集了 2003-2005年286例住院肺癌患者的吸烟史,吸烟者中肺癌患的有166例,而同时期同年龄段的1855名肺癌患者中,吸烟的有407例。试计算该资料中肺癌患者与非肺癌患者的吸烟率。 肺癌患者吸烟率=166/286100%=58.04% 非肺癌患者吸烟率=407/1855100%=21.94%,某课题组为研究白细胞减少症与工作环境的关系,用随机抽样的方法于2004年对某市企业中的四个工种共1114名工人进行了调查。依据白细胞减少症的诊断标准判断调查对象是否患者。,表2.2 不同工种的白细胞减少症患病率,41,速率(rate),式中k为比例基数,常取100、1000和100000/10万等。 特点:包含时间因素、有量纲、取值在0,+) 常见速率指标:年发病率、某病患者5年生存率,42,例 在一项随访研究中,对125人追踪随访了2年,结果有2人发生了死亡,试求其年死亡率。 年死亡率=2/(1252)100%=0.8%,观察人时数,43,率是两个数值的比,作为分子和分母的两个数值的内涵决定了所计算出来率的含义,如死亡率、发病率、病死率等。,44,在一篇报道多器官衰竭者监护效果的文章中有如下描述:“累及2个器官的20例,死亡8例,死亡率为40%;累及3个器官的10例,死亡9例,死亡率90%”。 这里把病死率错当成死亡率进行报道。,45,2.构成比,概念:说明某一事物内部各组成部分所占比重或分布, 常用百分数表示。 特点: 总体内各组构成比的总和应为1或者100%; 事物内部各组成部分构成比之间呈此消彼长。,46,表2.3 某医院2003年各科室收治住院患者的构成情况,47,3.相对比 (ratio),概念:简称比,是两个有关联的指标的比值,用以说明一个指标是另一指标的几倍或几分之几。 分类: 关系指标:有关的非同类事物指标之比,如医护人员数与病床数之比 对比指标:同类事物两个指标之比,如出生性别比,48,例 为了解新生儿的锌的营养状况,分别测量某医院足月儿以及早产儿的脐血血清锌含量,结果显示足月儿及早产儿的脐血血清锌含量的均数分别为1.85 mg/L和1.41 mg/L,则该医院足月儿与早产儿的脐血血清锌含量之比1.85/1.41=1.31,即该医院足月儿脐血血清锌含量是早产儿的1.31倍。,49,4. 应用相对数时应注意的问题,分母观察单位数不能太少 不能以构成比代率 应当特别注意不能用构成比的动态分析代替率的动态分析 对观察单位不等的几个率不能相加求平均率 相对数进行比较应注意可比性 比较样本率或构成比需作假设检验,50,4.1 分母观察单位数不能太少,某医师应用一种新的手术方法治疗了3例某病病人全部痊愈,此医师由此报道新的手术方法痊愈率为100,以前的手术方法痊愈率为70,故得出新的手术方法优于以前的手术方法。 试问该说法是否正确?,51,4.2不能以构成比代率,下表中,列出了5种心理问题,原作者根据各行数据和总患者人数50,计算出5个相对数,并称之为“百分比”,对吗?,表2. 4 病人常见的心理问题(n=50),52,某研究者“208例肺不张的病因与临床分析”研究中男性患者152例,占73%,女性患者56例,占27%,因此男性肺不张的发病率高于女性。试述该结论是否正确,并说明理由。,表2.5 某市1980年和1990年五种传染病发病情况,54,有人据此得出1990年和1980年相比,痢疾发病率下降,肝炎发病率上升最明显的结论。该结论是否正确?,55,4.3 对观察单位不等的几个率不能相加求平均率,某班有男生50人,女生20人,男生英语四级通过率为80%,女生四级通过率为100%,请问该班四级通过率为多少? 答案1:90%? 答案2:85.7%?,56,例 某医院消化内科上半年收治250例胃溃疡患者,治愈200例,治愈率为80.0%;下半年收治280例胃溃疡患者,治愈238例,治愈率为85.0%,则该消化内科全年对胃溃疡的治愈率应该是 而不是(80%+85%)/2=82.5%,57,4.4 两个率或构成比的对比应注意可比性,试验组和对照组除研究因素外,其余重要的非处理因素,如观察对象、研究方法、观察时间、地区和民族等因素应相同或相近。 两比较组的内部构成应相同或相近。,58,相对数进行比较应注意可比性,两种疗法治疗某病的死亡率如下表所示:,表2.6 两种疗法治疗某病的病死率,59,如果只比较合计病死率,似乎新疗法优于一般疗法,但当分别考察普通型病例和重型病例时,两种疗法的病死率是相同的。 原因:两种疗法治疗对象的病型构成不同,新疗法组普通型病例多而重型病少,一般疗法组却是普通型病例少而重型病例多。,60,4.5 比较样本率或构成比需作假设检验,例 为了解某校本科生体测合格率的性别差异。随机抽查了本科男生110人和女生130人,其中男生合格率为90.91%,女生合格率为78.85%,有人据此认为男生的合格率高于女生。,61,动态数列及其应用,概念:动态数列(dynamic series)是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。,62,动态数列及其应用,常用动态数列指标: 绝对增长量:累计增长量、逐年增长量 发展速度:定基比、环比 增长速度:增长速度=发展速度-1 平均发展速度: 平均增长速度:平均增长速度=平均发展速度-1,63,常用动态数列指标,绝对增长量:累计增长量、逐年增长量 发展速度:定基比、环比 增长速度:增长速度=发展速度-1 平均发展速度: 平均增长速度:平均增长速度=平均发展速度-1,表2.7 某地区19992002住院患者数发展动态,65,5. 标准化法,基本思想 采用统一的标准构成,以消除混杂因素的影响,使算得的标准化率具有可比性。 标准化法 直接法 间接法,表2.8 甲、乙两地各年龄组人口数和死亡率(),某研究者据此认为,甲地的死亡率高于乙地,他的结论是否正确?,67,5.1 直接标化法,适用条件:已知被标化组的死亡率 已知标准组年龄别人口数: 已知标准组年龄别人口构成比:,表2.10 用直接法计算标准化死亡率(),70,标准人口的选择,标准人口构成应以所在地区如某市、某县的年龄别人口构成作为标准,若不可行也可用两组各年龄别人口合计的构成比代之。 两个行政区域资料的比较中,如两个县、两个市、两个省的比较中,常以全国人口作为标准人口。,71,计算标准化率的步骤,根据现有数据的条件选用直接法或间接法 选定标准:标准组应有代表性、稳定、数据量 较大的人群 应用公式计算 样本标化率应作统计推断,72,5.2 标准化法注意事项,1. 由于选定的标准人口不同,算得的标准化率也不同,故标准化率不表示某地实际水平,仅反映资料间的相对水平。,73,表2.11 甲、乙两种疗法治疗某病的治愈率比较,74,选取两组合并人口作为标准人口,表2.12 两种疗法甲、乙两种疗法治疗某病的标准化治愈率,75,选定甲疗法组作为标准组,表2.13 两种疗法甲、乙两种疗法治疗某病的标准化治愈率,76,2. 各年龄组率若出现明显交叉,宜比较年龄组死亡率,不用标准化法;如不计算标准化率,而分别计算各分组的率,也可得出正确结论,但不能比较总率的大小。,表2.14 2000年甲乙两地某病死亡率(),如何比较两地该病的死亡率?,78,3. 一般情况下,直接法计算简便,易于了解,更为常用;如原资料中有些年龄组人口过少,致使年龄别死亡率波动较大时,宜用间接法。 4. 两样本标化率的比较应作假设检验,79,三、统计分析结果的正确表达,常用统计表与统计图 医学论文统计报告的基本要求 统计分析结果表达的常见错误,80,1. 常用统计表,统计表:以表格的形式表达科研结果中的数据 和统计指标。 优点:简洁、条理化、便于阅读比较,81,1.1 统计表的制作原则,重点突出 层次清楚 简单明了,82,1.2 统计表的基本结构,标题 标目 线条 数字,83,标题,标题是对表格内容的高度概括 时间、地点、内容 左侧加表序号,置于表的正上方,84,标目,横标目位于表头左侧,代表研究的对象 纵标目位于表头右侧 ,代表研究指标 (带单位),85,线条,三线表顶线、底线、纵标目下横线 一律不能使用竖线和斜线,86,数字,同一指标小数点位数一致,位次对齐 无数字用“”表示,缺失数字用“”表示,数值为0者记为“0”。 数字区不要插入文字,也不列备注项,某项研究比较三种治疗方法对中晚期胃癌患者的疗效,同时记录了各种毒副反应的发生情况。某医生将收集得到的资料整理成下表。,表格的标题没有准确、全面的概括表中的内容,某项研究比较三种治疗方法对中晚期胃癌患者的疗效,同时记录了各种毒副反应的发生情况。某医生将收集得到的资料整理成下表。,表格的线条太多,不规范,某项研究比较三种治疗方法对中晚期胃癌患者的疗效,同时记录了各种毒副反应的发生情况。某医生将收集得到的资料整理成下表。,横标目和纵标目的安排不合理 横标目位于表头左侧,代表研究的对象 纵标目位于表头右侧 ,代表研究指标(带单位),某项研究比较三种治疗方法对中晚期胃癌患者的疗效,同时记录了各种毒副反应的发生情况。某医生将收集得到的资料整理成下表。,备注说明不清楚,某项研究比较三种治疗方法对中晚期胃癌患者的疗效,同时记录了各种毒副反应的发生情况。某医生将收集得到的资料整理成下表。,数据表达过于复杂,不够清晰明了,92,修改后的统计表如下,错误表格示例,94,修改后的统计表如下,95,96,例,97,数值单位未注明,98,纵标目表示分组方式不当,99,2. 常用统计图,统计图:以几何图形表达科研结果中的数据和统计指标。 优点:形象、直观,100,2.1统计图的制作原则,选用适当的统计图 制图空间一般位于第一象限 准确、美观,101,2.2 统计图的基本结构,标题位于图的正下方 标目表示横轴和纵轴数字刻度的意义 刻度横纵坐标轴上的坐标尺度,横纵轴长度比例一般为5:7 或7:5 图例以平衡美观为原则,102,2.3 几种常用统计图,条图:用相同宽度的直条长短表示相互独立的统计指标的数值大小和它们之间的对比关系 条图的结构:横轴为分组因素、纵轴为统计指标 条图类型:单式条图、复式条图,103,图3.1 全国各地区1990年、2000年人口总数比较,2.3.1 条图,104,注意:条图的尺度必须从0开始,否则会改变 各对比组间的比例关系,105,例 小聪和小明竞选学生会主席。通过民意调查,小聪目前的支持率为43,小明的支持率为41,可谓旗鼓相当。小聪的竞选参谋彤彤根据调查结果绘制了一张条图(图3.2),用以反应目前两名竞争对手的支持率,并将该图作为小聪的竞选海报。请指出图3.2是否存在不妥之处,该图作为小聪的竞选海报可能产生什么效果。,106,图3.2 小聪和小明的支持率对比,纵坐标不是从0开始,于是给人的印象是小聪的支持率 比小明多约两倍的假象。,107,图3.3 1990年华东与东北地区人口数比较,图3.4 1990年华东与东北地区人口数比较,108,2.3.2 圆图,圆图:以圆的总面积表示事物的全部,将其分割成若干扇面表示事物内部各构成部分所占的比重 一般从相当于时钟12点位置作为起点,109,110,2.3.3 百分比条图,百分比条图:以某一矩形总长度表示事物的全部,将其分割成不同长度的段表示各构成的比重 ,适合描述分类变量的各类别所占的构成比 。 特别适合比较多个构成比,111,112,2.3.4 线图,线图:用线段的升降来表示数值的变化,适合于描述某统计量随另一连续

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论