统计学的基本概念及其工作步骤(ppt 44页).ppt_第1页
统计学的基本概念及其工作步骤(ppt 44页).ppt_第2页
统计学的基本概念及其工作步骤(ppt 44页).ppt_第3页
统计学的基本概念及其工作步骤(ppt 44页).ppt_第4页
统计学的基本概念及其工作步骤(ppt 44页).ppt_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本资料来源 第一章绪论 卫生统计学教研室刘洪庆Email liuhq576 Tel学习目标 1 掌握统计学基本知识 基本技能 基本概念 基本方法 建立逻辑思维方法和提高分析问题的能力 2 掌握统计工作的基本步骤 具有收集 整理 分析统计资料的系统工作能力 3 掌握统计研究资料的类型及相互转化 一 卫生统计思维进化与概念 概念Statistics Asciencedealingwiththecollection analysis interpretation andpresentationofmassesofnumericaldata Thescienceandartofdealingwithvariationindatathroughcollection classification andanalysisinsuchawayastoobtainreliableresults ADictionaryofEpidemiology 统计学 是一门处理数据中变异性的科学与艺术 内容包括收集 分析 解释和表达数据 目的是求得可靠的结果 卫生统计学 是一门应用统计学方法和原理研究卫生服务数据的收集 分析 解释和表达的学科 统计学的发展简史 卫生统计思维进化与概念 1948年 英国发表了评价链霉素治疗肺结核疗效的随机对照的临床试验报告 第一次采用生物统计方法进行临床干预试验 1948年 郭祖超教授 1912 1999 编著的 医学与生物统计方法 是我国第一部医学统计方法的教科书 统计软件实现 SASandSPSS 统计学与公共卫生的关系 统计学是得力工具 统计设计 抽样 样本量 统计方法等统计描述 群体事件的分布特征统计推断 找危险因素 评价效果 决策等历史成就 JohnGraunt WilliamFarr 寿命表 JohnSnow 霍乱发生原因 Doll和Hill 吸烟与肺癌 现代公共卫生对统计学的挑战疾病谱的变化需要新的统计方法 为了研究非感染性疾病的流行 人们发展了多因素分析 生存分析 疾病自然史的模型等现代统计方法学科交叉结合需要新的统计学方法 如 人群药物代谢动力学与现代统计学几个分支的交叉结合 包括广义线性混合效应模型 非线性混合效应模型 等级和经验Bayes方法等遗传流行病学需要遗传统计学方法 生物信息海量数据库的统计分析 卫生经济与决策的统计学方法 学点统计学 迎接新挑战 NewEnglandJ Medicine BritishMedicalJ Lancet 70 国内优秀的医学杂志多数应用的统计学知识70 为基本理论和经典统计方法 较少部分为复杂的 新发展的统计理论和技术 但出现错误最多的就是前一部分 某疾病某年各季度病人分布情况 急性中毒后合并感染组与非感染组之间的比较 卫生统计学的主要内容 统计学基本原理和方法包括资料的收集 整理和分析的基本原理和方法 医学研究设计包括观察性研究中的现场调查 病例对照研究和队列研究设计 实验研究中的临床试验 动物实验及实验室研究设计等 统计学的应用包括医学人口统计 生命统计及疾病监测与控制中常用的综合评价方法 卫生统计学包括 健康统计 卫生服务统计 医学人口统计疾病统计生长发育统计 卫生资源利用医疗卫生服务需求医疗保健体制改革 二 统计学的基本概念 总体与样本同质与变异随机变量与研究资料的类型医学研究中常用的测量尺度参数与统计量误差频率与概率 总体 样本与个体 总体 population 根据研究目的所确定的性质相同的所有观察单位的某种变量值的集合 如 调查某地1999年正常成年男子的红细胞数 则观察对象是该地1999年正常成年男子 总体就是该地1999年正常成年男子的血红细胞数 根据总体中观察单位数是否已知 分为 有限总体 有确定的时间 空间和有限个观察单位 无限总体 没有确定的时间 空间限制 观察单位数为无限 个体 individual 可以是一个人 一个动物 一个家庭 一个地区 一份样品等 是科学研究的基本观察单位 样本 sample 从总体中随机抽取的部分观察单位的某个变量的测量值所组成的集合 随机抽样 sampling 目的是用样本信息来推断总体特征 因此要保证样本的可靠性和代表性 使样本能够充分地反映总体的真实情况 这就要求抽样要遵守随机化的原则 并保证足够的样本含量 随机抽样是保证总体中每一个观察单位均有同等机会被抽取 样本含量 指样本中所包含的观察单位数 同质 homogeneity 总体中的个体具有相同的性质称为同质性 它是进行统计分析的前提 统计分析是在一定数量的观察单位的基础上进行的 这一定数量的观察单位在研究的主要方面必须具有相同的性质 比如 研究某地高血压病人的生活质量 研究对象必须是同质的 即都是同一地区的高血压病人 如果不能满足同质的要求 那么研究资料就是杂乱无章的 便不能得出有用的信息和结论 同质是相对的 研究对象只是在某一方面是性质相同的 同类的观察对象之间往往也存在着变异 比如 同一地区 同一年龄的男童的身高并非完全相同 而是千差万别 参差不齐的 这种参差不齐的情况就是变异 因个体差异引起的现象称为变异 variation 与同质的相对性不同 变异是绝对的 客观存在的 变异是生物界的基本特点 也是生物界随机现象的根本原因 统计学就是通过对变异的研究来探讨生物随机现象内在规律的一门科学 变量与随机变量 变量是指我们观察或测量到的每个观察单位的特征或指标 对观察单位的各个变量的观察结果称为变量值或观察值 因为测量不同的观察单位会得到不同的观察结果 所以称之为变量 变异是生物个体的共有特征 反映了生物个体的不确定性 在测量观察单位的变量值之前 只知道变量值所在的可能范围 并不知道其具体取值情况 比如只知道8岁男童的身高可能在50 150厘米的范围内 但不能确定某个男童的具体身高 正是因为变量的这种不确定性 概率论中将其称为随机变量 参数和统计量 在科研工作中 通过对样本中的观察单位的变量值进行统计分析所得到的统计指标称为统计量 如 样本均数 样本回归系数 样本标准差 样本率等 参数是反映总体特征的统计指标 如果样本的代表性好 那么统计量与相应的参数的数值非常接近 就可以用样本统计量来估计总体参数 所以样本的统计量也称为参数的估计值 例如用样本均数 样本回归系数和样本率来估计总体均数 总体回归系数和总体率 误差 统计学研究中 将观察值 实际值 与真实值 理论值 之差称之为误差 由于生物个体的变异性等原因使得误差在医学领域中广泛存在 误差按其产生的原因和性质可分为 过失误差系统误差随机误差不同的误差应采取不同的方法进行处理 1 过失误差 过失误差是由于观察者的错误造成的误差 比如观察者有意或无意的记录错误 计算错误 数据核查 录入错误 度量衡单位错误 甚至故意修改数据导致的错误 过失误差在统计学研究中是不允许的 必须通过加强调查 录入和分析人员的责任心 完善检查核对制度等方法来避免和消除过失误差 以保证数据和结果的真实性 2 系统误差 系统误差是由于设计人员 受试者 观察者 研究者 仪器设备 研究方法及外部环境的非实验因素等原因的影响造成的有一定的变化规律的误差 总的来说 系统误差的产生原因复杂 而且不能通过适当的统计方法来消除 所以对研究结果的影响很大 但是系统误差一般是恒向 恒量的 且有其特定的变化规律 故可以通过严格 科学的实验设计将其减小或控制在最小范围之内 3 随机误差 随机误差是排除过失误差 系统误差之后尚存在的误差 它由多种无法控制的因素引起的 大小和方向是随机变化的 尽管随机误差是不可避免的 但其以零为中心呈正态分布 所以可以利用概率统计学的方法对随机误差进行估计 随机误差包括抽样误差和随机测量误差两类 抽样误差是在随机抽样研究中 由于抽样而引起的样本统计量和总体参数之间的差异 抽样误差的大小主要取决于个体之间变异程度的大小和样本含量的多少 变异程度越大 样本含量越小 抽样误差就越大 反之亦然 随机测量误差指在同一条件下对同一观察单位的同一指标进行重复测量所产生的误差 由于医学技术水平的限制 随机测量误差目前也是无法避免的 只能尽量提高仪器设备的准确性和精密性来控制随机测量误差在容许的范围之内 频率与概率 频率 某单位配蜂刺脱敏药 陆续试用于被蜂刺的患者 共计200人 其中180人用药后症状减轻 有效率80 200 0 90或90 这个数字是从反复实验与实际观察得来的 那么对于另一个接受此治疗的病人 预计脱敏得可能性约为90 就是说若有蜂刺患者10人使脱敏药 预计约9人可能有效 比值180 200是频率 用数学语言来表示 在n次随机试验中 随机事件A发生k次 记fn A k n 则称fn A 为随机事件A在n次试验中出现的频率 实践证明 当实验次数n逐渐增多时 fn A 在一个常数附近摆动 摆动的幅度随着n的增大将愈来愈小 而逐渐稳定下来 这个常数是客观存在的 称为事件A的概率 记作P A 概率表示随机事件发生可能性的大小 频率稳定性是定义事件的概率的客观基础 它揭示了隐藏在随机现象中的规律性 这种规律性就是通常所说的统计规律性 实际应用中 常用n 时的频率作为概率的估计值 随机事件概率的大小在0与1之间 P值越接近1 表示某事件发生的可能性越大 P值越接近0 表示某事件发生的可能性越小 P 1 表示事件必然发生 P 0 表示事件不可能发生 他们是确定性的 不是随机事件 但可把他们看成随机事件的特例 统计分析中的很多结论都是带有概率性的 习惯上将P 0 05 称为小概率事件 表示在一次实验或观察中该事件发生的可能性很小 可以视为很可能不发生 三 统计工作的基本步骤 1 研究设计 design 资料的收集 整理和分析的全过程进行总的设想和安排2 collectionofdata 采取措施取得准确可靠的原始数据要求 准确 及时来源 1 统计报表 2 经常性工作记录 3 专题调查或实验 3 整理资料 sortingofdata 净化原始数据 利于计算和分析4 分析资料 analysisofdata 计算指标 反映特征 揭示规律 统计描述 descriptivestatistics 利用统计指标 统计图表等 对资料的数量特征及其分布规律进行测定和描述 统计推断 inferentialstatistics 包括如何抽样 以及如何由样本信息推断总体特征 四 研究资料的类型 定量变量 数值变量 计量资料定性变量 分类变量 计数资料 1 定量变量 计量资料 数值变量资料 定量变量是用仪器 工具或其它定量方法进行测定或衡量所取得的数据 其变量值是定量的 表现为大小不等的数值 可以由区间尺度 比数尺度测得 定量变量一般带有度量衡单位 如身高 cm 体重 kg 白细胞计数 109 L 血压 kPa 龋齿个数等 由一组同质的定量变量所组成的资料称为计量资料 计量资料的各个观察值之间有量的区别 没有性质的不同 2 定性变量 计数资料 分类变量资料 其变量值是定性的 表现为无不相容的类别或属性 一般由名义尺度测得 定性变量的属性指标的分类是无序的 这是定性变量与顺序变量的区别所在 由同质的定性变量组成的资料称为计数资料 计数资料是按照事物的属性分组 然后清点各组的观察单位个数得到的资料 各观察单位之间一般没有量的区别 但有质的不同 计数资料的变量值只能代表事物的某些属性或分类 不能反映程度上的差别 定性变量的分类 如果变量只有相互独立的两种属性 称为二分类变量 这是最简单的数据类型 如性别有男或女 检查乙肝表面抗原的携带情况 有阳性或阴性 给小白鼠注射药物 其结局有生存或死亡等 如果变量的观察结果表现为相互独立的多种属性 称为多分类变量 比如血型分为相互独立的四类 A型 B型 O型和AB型 肺癌可分为腺癌 鳞癌 腺鳞癌 未分化癌 类癌和支气管腺癌等 各类之间只有性质的不同 没有大小和程度上的差别 顺序变量 等级资料 顺序变量的观察结果由顺序尺度测得 顺序变量可以体现程度上的不同 但是不能精确地测量相邻的两个变量值之间的差别 由同质的顺序变量组成的资料称为等级资料 它是介于计量资料和计数资料之间的半定量观察结果 通常有两个以上的等级 等级资料也是先将观察单位按照某种属性或某个标志分组 然后清点各组观察单位的数目得来的 但是所分的各组之间有等级的顺序 各个类别之间存在着大小和程度上的差别 这一点不同于计数资料 3 连续型资料和离散型资料 连续型资料理论上在任何两个连续型数据之间都还有无穷多个数据 只要测量仪器足够精确 连续型数据可以精确到小数点后第无限位 比如体重 在60 1和60 2kg之间理论上存在着无限多个数据 离散型资料往往是一种计数 比如心率 脉搏 儿童龋齿个数 血小板数 某年某地交通事故死亡人数等 这种计数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论