流行病学数据的分析处理方法.ppt_第1页
流行病学数据的分析处理方法.ppt_第2页
流行病学数据的分析处理方法.ppt_第3页
流行病学数据的分析处理方法.ppt_第4页
流行病学数据的分析处理方法.ppt_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十五章 流行病学数据的分析处理方法, 数据分析前的准备工作 数据分析方法的选择指南 不同研究类型的数据分析方法 数据的表达与报告方法 数据分析中存在的问题,天马行空官方博客:/tmxk_docin ;QQ:1318241189;QQ群:175569632,第一节 流行病学数据分析前的准备工作,一、原始数据的检查 在数据分析前需要对原始的流行病学调查研究数据进行一次审查,发现可能存在的错误、遗漏的研究变量取值和其他问题,并采取相应的措施进行处理。 例如: 若在调查表中发现有缺失的数据,可以通过电话再次询问研究对象、查阅有关的记录、应用储存的血液标本重新检测或再次取样等措施进行补充。 若发现逻辑错误,也要及时改正。需要对调查问卷进行编码或者对已编码的问卷进行核查,避免重复和遗漏。,二、选择合适的数据管理和数据分析软件 常用的数据管理软件 Microsoft FoxPro、Microsoft Access、Microsoft Excel 这些数据管理软件也具有简单的数据分析功能,Excel的数据分析功能更强,不仅可实现描述性统计,还可以做t检验、方差分析、相关回归分析等。 数据分析软件 SAS(Statistical Analysis System)和SPSS(Statistical Package for Social Science),它们均具有很强的数据分析和数据管理的功能。,三、数据的计算机录入 编号:给每一个调查表或调查对象一个编号以识别录入的数据与调查表或调查对象的对应关系 常使用阿拉伯数字1、2、3等给每份调查表按照顺序编号,这样有利于以后对输入的数据进行检查、核对与修改错误。,定义变量名称: 命名:可以应用中文、拼音、也可以应用英文,但以使用拼音或英文为好,这样可以方便输入。 注意:变量名应简短、易懂易记。 如对性别、年龄、身高、体重可以使用gender, age, height 和weight进行命名。 对名称较长的变量,可以使用简写,如wt表示weight、ht表示height。 标记或说明:有些数据管理和分析软件可变量进行标记或说明,避免时间长久了而忘记数据库中的变量名字,如对上述Wt可标记为“weight”。,变量数量化 如果调查表的设计是编码式的,则此步骤可省略,直接将变量取值编码的结果输入计算机。 若不是编码式的调查结果,则需要对变量的取值结果进行编码。,变量的类型 1、字符型(character type): 输入字符如中文或英文 2、数值型(numerical type): 以数值的形式输入 3、日期型(data type): 按照规定的格式输入日期数值,天马行空官方博客:/tmxk_docin ;QQ:1318241189;QQ群:175569632,变量数量化时应注意: (1)除日期型变量外尽量使用数值型变量 (2)某些数值变量(numerical variable)可直接输入变量的取值,如研究对象的身高、体重、血压水平等。 (3)分类变量(categorical variable)及有序变量(ordinal variable)则可将其取值进行量化,然后再输入计算机。,如:分类变量种族 白人1 黑人2 西班牙裔人3 亚太裔4 其它种族5 注意: 分类变量在进行多因素分析时,必须转换成哑变量(dummy variable),不能直接将前述的取值1、2、3、4、5放入方程中进行分析。,有序变量的数量化顺序合理,则可以直接进行分析 如:教育程度 文盲:0 小学:1 中学:2 高中及中专:3 大学:4 硕士及以上:5,四、数据的检查与核对 (一)检查数据库结构 数据库样本数(观测数)、变量数、变量名称及定义等。 (二)检查各变量的取值情况 查看变量取值范围,有无逻辑错误:如性别应有两个取值,若有2个以上的取值,说明存在错误 。 对数据变量要检查其最小值(minimum)、最大值(maximum)、均数(mean)、中位数(median),并查看是否有异常取值(outlier),如极小值及极大值。,五、数据的整理 (一)数据分组 分类变量:按其原有的分类进行分组,若有必要,可将性质相近或差别不大的类别进行合并。,天马行空官方博客:/tmxk_docin ;QQ:1318241189;QQ群:175569632, 数值变量: 按照其实际的生理、病理或临床意义分组,如对于体重指数可以按照低体重、正常体重、超重和肥胖进行分组。 按使用的方便程度和专业上惯用的方法分组,如年龄在某一个合适的范围内每5岁或10岁分成一组。 按分位数分组,即首先找出四分位数(quartile)或五分位数(quintile)的界值,然后应用这些界值将研究对象平均分成4组(每组25%的研究对象)或5组(每组20%的研究对象)。,(二)数据的转换 1、非正态数据的变量转换 原理: 正态分布 参数检验(parametric test) 非正态数据非参数检验 (non-parametric test) 如:秩和检验 检验:正态性检验、方差齐性检验 方法:对数变换,平方根变换或倒数变换,2、分类变量转换成哑变量 原理: 分类变量是二分类尺度及顺序尺度,则可直接应用其原有的数量化数值。 名义尺度因为各类别间没有顺序关系,在进行不同分析(包括多元分析、logistic回归、Cox回归等)时,不能使用原始的计算机录入数值,必经进行变量转换。即将该变量转换成(水平数-1)个哑变量,再将这些新转换的变量放入多因素模型中。,方法: 例如:将种族原始取值转换成哑变量(新变量) 表1. 分类变量转换成哑变量的方法,六、确定拟分析的因变量和自变量 因(应)变量(dependent variable):是指影响疾病的发生或健康状况的分布的变量,是原因变量 、已知变量、x变量。 自变量(independent variable):是指随因变量的变化而发生变化的变量,是结果变量、预测变量、y变量。,意义 有助于选择拟研究的变量,对调查表的设计具有指导作用 可以指导数据分析方法的选择: 因变量是分类变量,采用2检验,logistic回归分析等。 因变量是数值变量,采用t检验、方差分析,协方差分析、多元回归等 。 模型的建立 :自变量( y )放在模型的左侧,因变量(x )放在模型的右侧。,如:欲评价不同治疗方法(口服药物、注射胰岛素及膳食控制)对糖尿病人的治疗效果(血糖水平),分析时要求调整病人的性别、年龄和病程的影响。 血糖水平(自变量y)= 治疗方法(因变量x)+其它协变量 (covariate,性别、年龄和病程) 如分析脂蛋白(a)与冠心病发生的关系。 冠心病(自变量y)=脂蛋白(a)(因变量x),七、缺失数据(missing data)的处理 缺失数据:是指其测量结果缺失。 问卷调查:遗漏出生日期和年龄,调查结束后又无法补救 实验室检测:血脂或血糖因为血清量不足或研究对象拒绝采血而致,处理 补救处理方法: 分析时仅用无任何缺失数据的样本:损失样本量 对缺失数据进行合理的赋值:人为赋值 数据分析处理件软处理 :SAS自动分析处理 如一个数据库中有性别和年龄等变量,性别有10个缺失数据,年龄有3个缺失数据: 分析性别时不包括性别缺失的10个个体 分析年龄时不包括缺失年龄的3个个体 当分析中(如多因素分析)共同使用了性别和年龄时,分析的实际样本数量是性别和年龄这两个变量均不含缺失数据的样本,第二节 流行病学数据分析方法的选择指南,一、流行病学数据的分析程序 数值变量 正态性检验 正态 数据转换 非正态 参数检验 非参数检验 图1. 数值变量的分析程序,单因素分析 2检验 分类变量 分层分析 多因素分析 logistic回归分析 Cox回归分析 其它分析方法 图2. 数值变量的分析程序,二、根据研究设计类型选择 (一)成组比较的设计 两组比较:t检验或2检验 病例对照研究 多组比较方差分析、行列表2检验 分级的病列对照研究数据的分析 (二)配对(自身实验前后)设计 配比的t检验、2检验 配对的病例对照研究方法进行数据,(三)重复测量的设计 在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果,在接种后的2周、4周、6周和8周测定抗体滴度 重复测量的方差分析方法 (四)多因素设计 自变量是数值变量:多元回归分析方法、协方差分析方法 自变量分类变量:logistic回归分析方法、判别分析方法、聚类分析方法,三、根据变量的类型选择 表2. 不同变量类型的数据分析方法选择,表3. 不同研究设计和数据类型的数据分析方法选择,第三节 不同流行病学研究类型的数据分析方法,一、描述性研究 (一)现况研究 分布描述:患病率、危险因素流行率、数值变量分布 探讨因素:相关回归分析、2检验、t检验、方差分析、多因素分析、人群归因危险度 (二)生态学研究 同现况研究 (三)筛检 筛检试验的真实性和可靠性 人群中疾病、健康状况、危险因素筛选结果分析方法:同现况研究,二、分析性研究的数据分析方法 (一)病例对照研究 病例对照研究数据 成组设计 配比设计 粗OR分级OR剂量反应 分层OR 分级OR剂量反应 (趋势2检验) (趋势2检验 ) 分层OR 混杂与效应修饰分析 混杂与效应修饰分析 图3. 病例对照研究数据的分析程序,(二)队列研究 队列研究数据 人时、发病密度/累积发病率 粗RR、AR、AR%、PAR及PAR% 分层RR、AR、AR%、PAR、PAR% 分级RR、AR、AR%、PAR、PAR 图4. 队列研究数据的分析程序,三、实验研究的数据分析方法 干预组与对照组某疾病发病率、危险因素的暴露率及数值变量均值水平的差异,检验方法同前述 效果指数、保护率,第四节 流行病学数据的表达与报告方法,一、数据的报告顺序 1、按分析顺序 描述兴结果:如人口学数据(性别、年龄、职业、文化程度,居住地)、某病发病率/患病率、危险因素流行率、数值变量的集中趋势及变异情况 单因素分析结果 多因素的分析结果 2、按变量的特点及逻辑顺序 按某疾病的人群、地区及时间的分布特征 按个人生活方式因素、家族遗传因素、社会心理因素、实验室及体格检查结果等顺序,二、非正态数据的表达与报告 1、未进行变量转换: 报告中位数、最小值及最大值 报告中位数、25%分位数、75%分位数、最小值及最大值 报告均值、中位数再配合以上的变异指标 2、进行变量转换数据 报告原始值 报告其转换值,三、数据表达与报告中图、表及文字的使用 合理 生动活泼、简洁明了 协调好三者关系 如用盒状图(均值、25%分位数、7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论