方积乾《卫生统计学》1绪论和统计描述.ppt_第1页
方积乾《卫生统计学》1绪论和统计描述.ppt_第2页
方积乾《卫生统计学》1绪论和统计描述.ppt_第3页
方积乾《卫生统计学》1绪论和统计描述.ppt_第4页
方积乾《卫生统计学》1绪论和统计描述.ppt_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

卫生统计学,方积乾 中山大学公共卫生学院 医学统计与流行病学系 2015.9,第一章,统计学的若干概念,1. 总体与样本 总体(population): 大同小异的对象全体。 抽样(sampling):从研究总体抽取部分个体 样本(sample):抽取的部分个体 数据(data):观察所得资料 information data data knowledge 推断(inference) :分析样本数据,获得关于总体的知识 统计推断的工具:有关概率的理论。 推断的结论:不是完全肯定或完全否定。 关键与核心:抽样方法、样本的代表性和推断的方法,同质与变异 同质性(homogeneity) 共性,大同小异 变异(variation) 个体间差异,多样性 没有同质性就构不成一个总体; 总体内没有变异性就无需统计学。 统计学的任务: 在变异的背景上, 描述同一总体的同质性, 揭示不同总体的异质性 (heterogeneity)。,. 变量的类型 变量(variable):个体特性的数量描述 (1) 定性变量 (i) 分类变量(categorical variable) 或 名义变量(nominative variable)。 分类变量的水平(level): 用1、2、3、4、5等代码(code)表示水平。 二分类变量(binary variable), 也称0-1变量 或假变量(dummy variable) 分类变量与二分类变量相比, 信息较丰富。 (ii) 有序变量(ordinal variable) 种种可能的“取值”中自然地存在着次序。 有序变量与分类变量相比, 信息较丰富。,(2)定量变量 (i) 离散型变量 只能取整数值。 例如,手术病人数; 新生儿数 (ii) 连续型变量 可以取实数轴上的任何数值。 由测量而得到的大多属于连续型变量 例如,血压、身高、体重等 “连续”指该变量可在实数轴上连续变动。 连续型变量信息最丰富, 离散型变量次之。 变通:红细胞记数也视为连续型变量。 (数值很大, 个位数之间的差别并不重要),变量类型的转化:,连续型有序分类二值 只能由信息丰富的(高级)向信息不丰富的(低级) 转化, 不能作相反方向的转化 离散型变量常常通过适当的变换或连续性校 正后, 借用连续型变量的统计方法来分析; 连续型变量常常有意识地转化为离散型变量,以便于解释和理解某些现象。,4. 因果与联系 公共卫生领域常常要探究危险因素与疾病 之间的因果关系(causation)。 首先应当问存在不存在联系 (association) 然而,存在联系未必有因果关系 在解释统计分析的结果以及下结论时, 务必对“因果”二字慎之又慎。,5. 设计与分析 统计学方面的设计 (design)是医药卫生科研设计不可或缺的部分。 设计不仅要符合统计学原则,运用统计学方法和技术,而且,在设计的时候要明确日后用什么统计方法处理数据。 只有明确了设计的样式和分析的方法才得以进一步考虑数据应当如何收集、样本量应当多大。,学习目的与方法,(1)统计思维享用一生 (2)理解概念是首位 (3)重在理解和解释结果 (4)电脑实验 (5)考试 * 笔试:理论、方法 不记公式,无数学推导,无复杂计算 * 上机考试:已做过的电脑实验; 不编程序,第二章 定量变量的统计描述,把握数据的基本特征 为统计分析打下基础 统计表、统计图 描述性统计量,统计描述 -从数据中获取知识最直观的方法,第一节 频率分布表与频率分布图,频数分布表(frequency distribution table) 又称频数表 1. 离散型定量变量的频数分布 例2-1 1998年某山区96名孕妇产前检查次数资 料如下: 0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7,直条图(bar chart) 横坐标:产前检查次数; 纵坐标:频率, 检查k次的妇女所占的比例(%) 等宽矩形长条:高度相当于检查次数的频率,2连续型定量变量的频率分布,例2-2 抽样调查某地120名18岁35岁健康男性居民血清铁含量(mol/L),数据如下:,直方图,(1) 频率直方图 横轴:血清铁含量 纵轴:频率 矩形直条高度 = 频率, 直条高度之和= 100% (2) 频率密度直方图 横轴:血清铁含量 纵轴:频率密度 = 频率/组距 矩形直条的面积 = 频率密度 X 组距 = 频率 直条面积之和= 100% 注:组距相等时,两种直方图形状相同,图2-2 某年某地120名1835岁健康男性居民 血清铁含量频率分布,图2-3 某地居民238人发汞含量(mol/kg)分布,正偏峰分布(positively skewed distribution),负偏峰分布(negatively skewed distribution),频率密度,第二节 描述平均水平的统计指标,定量地描述集中趋势与离中趋势是统计描述 的重要内容 对于连续型定量变量,描述集中趋势常用 统计量为算术均数、几何均数和中位数。,1. 算术均数 简称均数(mean),适合描述对称分布资料的集中位置(也称为平均水平)。其计算公式为,n:样本含量 X1,X2,Xn:观察值 或 :观察值之和,例2-3 测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。 按式(2-1),算术均数为,对于偏峰分布资料算术均数不能较好地反映分布的集中趋势。,频率密度,2. 几何均数(geometric mean),适用于观察值变化范围跨越多个数量级的资料 频数图一般呈正偏峰分布,例2-5 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64, 1:64,1:128,1:512。试计算其几何均数。,3. 中位数(median),可用于各种分布的定量资料 总体中有一半个体的数值低于这个数,一半个体的数 值高于这个数。 例 1 1,1,2,2,3,4,6,9,10 n = 9 Median = 3 例 2 1,1,2,2,3,4,6,9,10,13 n = 10 Median = (3+4)/2=3.5 基于样本资料 将n例数据按升序排列,第i个数据记为 n为奇数时 n为偶数时,百分位数(percentile),总体中, 数值小于它的个体恰有X%,大于 它的个体恰有1-X % 中位数 = 样本估计:按照升序排列的数列里, 其左侧 (即小于它)的个体数在整个样本中所占百 分比为X%。,第三节 描述变异程度的统计指标,同一总体中不同个体之间的离散趋势又称为变异 (variation) 例2-10 试观察三组数据 A组:24,27,30,33,36 B组:26,28,30,32,34 C组:26,29,30,31,34 三组均数都是30,1. 极差(range),R = 最大值最小值 计算简便,但仅利用了两个数据的信息 一般,样本量n越大R也往往会越大, 不够稳定 例2-12 计算上述三组数据的极差 A组 R=36-24=12 B组 R=34-26=8 C组 R=34-26=8,2. 四分位数间距(quartile range),Q= P75-P25 P25与P75之间恰好包含50%的个体 四分位数间距Q是总体中数值居中的50% 个体散布的范围 Q越大意味着数据间变异越大,3. 方差(variance) 与标准差(standard deviation) 用于反映一组对称分布的观察值在数量上的变异程度。 总体中:,样本中:,例2-13 计算例2-10中三组数据的标准差。 A组:24,27,30,33,36 B组:26,28,30,32,34 三组均数都是30 C组:26,29,30,31,34 C组数据的变异最小,A组的最大,5. 变异系数(coefficient of variation ,CV),例2-15 1985年通过十省调查得知,农村刚满周岁的女 童体重均数为8.42kg,标准差为0.98kg;身高均数为 72.4cm,标准差为3.0cm。体重的变异大还是身高的变 异大?,体重的变异系数 身高的变异系数,用于 量纲不同的变量间变异程度的比较 或 均数差别较大的变量间变异程度的比较,第三章 定性变量的统计描述,第二节 常用相对数指标,比, 频率和 强度 广泛应用于生命统计和流行病学 尽管常常都称为 “ 率”,不可顾名思义,37,1. 比 (Ratio): 出生性别比 身体指数,38,2. 频率(Relative frequency) 特殊的“比”: 分子和分母都是“频数”; 分子是分母的一部分; 频率在0,1上取值 例,39,3. 强度(Intensity) 另一类特殊的“比” : 分母: 总的观察人年数 一定时间段内观察的 (人- 年); 分子: 一定时间段内发生的事件数 正的,但不一定限于 0,1 例,40,单位: “人/人年” 死亡率可以理解为一年内校正的死亡频率 一般而言, 强度可理解为: 单位时间内校正的频率 反映单位时间内某事件发生的频率,41,实践中,死亡率的计算,例 A 和 B 两两种疗法治愈率的比较,哪种疗法治愈率高?,43,第五节 粗率的标准化法,1. 直接标准化 (Direct standardization ),选择一个标准人口 (standard population) 例如,以两疗法治疗人数之和为 “标准人口 ” 将原治愈率应用到 “标准人口” ,期望治愈数 =?,44,标准化比 (Standard ratio) 实际患病人数/预期患病人数 间接标准化率 = 标准患病率标准化比 城市: 标准化比 = 322/305, 间接标准化率 = 42.1%1.089 = 44.6% 农村: 标准化比 = 335/353, 间接标准化率 = 42.1%0.949 = 40.0%,2. 间接标准化(Indirect standardization),小结,1. 频数表、频率分布图: 描述资料的分布特征(集中趋势与离散趋势) 分布类型(对称或偏峰) 2. 描述性统计量:定量地刻画统计分布的特征。 (1)集中趋势:算术均数、几何均数、中位数; (2)离散趋势:极差、四分位数间距、方差(标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论