版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
流行病学数据的分析处理方法1第1页,课件共35页,创作于2023年2月流行病学数据分析前的准备工作
一、原始数据的检查
在数据分析前需要对原始的流行病学调查研究数据进行一次审查,发现可能存在的错误、遗漏的研究变量取值和其他问题,并采取相应的措施进行处理。若在调查表中发现有缺失的数据,可以通过电话再次询问研究对象、查阅有关的记录、应用储存的血液标本重新检测或再次取样等措施进行补充。若发现逻辑错误,也要及时改正。需要对调查问卷进行编码或者对已编码的问卷进行核查,避免重复和遗漏。2第2页,课件共35页,创作于2023年2月
二、选择合适的数据管理和数据分析软件常用的数据管理软件
MicrosoftFoxPro、MicrosoftAccess、MicrosoftExcel
这些数据管理软件也具有简单的数据分析功能,Excel的数据分析功能更强,不仅可实现描述性统计,还可以做t检验、方差分析、相关回归分析等常用的数据分析软件
SAS(StatisticalAnalysisSystem)和SPSS(StatisticalPackageforSocialScience),它们均具有很强的数据分析和数据管理的功能3第3页,课件共35页,创作于2023年2月
三、数据的计算机录入
(编号、定义变量名、变量数量化)编号:给每一个调查表或调查对象一个编号以识别录入的数据与调查表或调查对象的对应关系(唯一性)使用阿拉伯数字1、2、3…等给每份调查表按照顺序编号,这样有利于以后对输入的数据进行检查、核对与修改错误。可以给编号以时间、地区、单位、调查对象编号等,如:200501(济南)02(历下)0001(调查对象)4第4页,课件共35页,创作于2023年2月
定义变量名称:命名:可以应用中文、拼音、也可以应用英文,但以使用拼音或英文为好,这样可以方便输入。注意:变量名应简短、易懂易记:如对性别、年龄、身高、体重可以使用gender,age,height和weight进行命名。对名称较长的变量,可以使用简写,如wt表示weight、ht表示height。标记或说明:有些数据管理和分析软件可变量进行标记或说明,避免时间长久了而忘记数据库中的变量名字,如对上述Wt可标记为“weight”。5第5页,课件共35页,创作于2023年2月
变量数量化
如果调查表的设计是编码式的,则此步骤可省略,直接将变量取值编码的结果输入计算机。
若不是编码式的调查结果,则需要对变量的取值结果进行编码(数量化)。
6第6页,课件共35页,创作于2023年2月
常见变量的类型
1、字符型(charactertype):
输入字符如中文或英文
2、数值型(numericaltype):
以数值的形式输入
3、日期型(datatype):
按照规定的格式输入日期数值
4、逻辑性(logicaltype):
7第7页,课件共35页,创作于2023年2月
变量数量化时应注意:(1)除日期型变量外尽量使用数值型变量(2)某些数值变量(numericalvariable)可直接输入变量的取值,如研究对象的身高、体重、血压水平等。(3)分类变量(categoricalvariable)及有序变量(ordinalvariable)则可将其取值进行量化,然后再输入计算机
8第8页,课件共35页,创作于2023年2月
如:分类变量——种族白人—1黑人—2
西班牙裔人—3亚太裔—4
其它种族—5注意:
分类变量在进行多因素分析时,必须转换成哑变量(dummyvariable),不能直接将前述的取值1、2、3、4、5放入方程中进行分析。
9第9页,课件共35页,创作于2023年2月
有序变量的数量化顺序合理,则可以直接进行分析如:教育程度文盲:0
小学:1
中学:2
高中及中专:3
大学:4
硕士及以上:510第10页,课件共35页,创作于2023年2月
四、数据的检查与核对(一)检查数据库结构数据库样本数(观测数)、变量数、变量名称及定义等。(二)检查各变量的取值情况查看变量取值范围,有无逻辑错误:如性别应有两个取值,若有2个以上的取值,说明存在错误。对数据变量要检查其最小值(minimum)、最大值(maximum)、均数(mean)、中位数(median),并查看是否有异常取值(outlier),如极小值及极大值。
异常值若影响显著时应删除11第11页,课件共35页,创作于2023年2月
五、数据的整理(一)数据分组分类变量:按其原有的分类进行分组,若有必要,可将性质相近或差别不大的类别进行合并。如教育程度。数值变量:按照实际的生理、病理或临床意义分组,如体重指数:低体重、正常体重、超重和肥胖
12第12页,课件共35页,创作于2023年2月
按使用的方便程度和专业上惯用的方法分组,如年龄在某一个合适的范围内每5岁或10岁分成一组。按分位数分组,即首先找出四分位数(quartile)或五分位数(quintile)的界值,然后应用这些界值将研究对象平均分成4组(每组25%的研究对象)或5组(每组20%的研究对象)。13第13页,课件共35页,创作于2023年2月
(二)数据的转换1、非正态数据的变量转换原理:
正态分布——参数检验(parametrictest)
非正态数据——非参数检验(non-parametrictest)
(不是对原始数据检验)如:秩和检验(是对原始数据的秩次检验)检验:正态性检验、方差齐性检验方法:对数变换;平方根变换;倒数变换
14第14页,课件共35页,创作于2023年2月
2、分类变量转换成哑变量原理:分类变量是二分类尺度及顺序尺度,则可直接应用其原有的数量化数值。
名义尺度因为各类别间没有顺序关系,在进行不同分析(包括多元分析、logistic回归、Cox回归等)时,不能使用原始的计算机录入数值,必经进行变量转换。即将该变量转换成(水平数-1)个哑变量,再将这些新转换的变量放入多因素模型中。15第15页,课件共35页,创作于2023年2月
方法:例如:将种族原始取值转换成哑变量(新变量)
表1.分类变量转换成哑变量的方法
新变量.种族原始取值(x1)x1-1x1-2x1-3x1-4白人10000黑人21000亚太裔30100西班牙裔人40010其它种族50001新变量以白人为参照,X1-1表示黑人与白人比较,依此类推16第16页,课件共35页,创作于2023年2月
六、确定拟分析的因变量和应变量因(自)变量(independentvariable):是指影响疾病的发生或健康状况的分布的变量,是原因变量、已知变量、x变量。应变量(dependentvariable):是指随因变量的变化而发生变化的变量,是结果变量、预测变量、y变量。
应变量是在自变量作用下产生反应的变量17第17页,课件共35页,创作于2023年2月
意义有助于选择拟研究的变量:对调查表的设计具有指导作用可以指导数据分析方法的选择:
因变量是分类变量:采用Χ2检验,logistic回归分析等。
因变量是数值变量:采用t检验、方差分析,协方差分析、多元回归等。有助于模型的建立:应变量(y)放在模型的左侧,因变量(x)放在模型的右侧。18第18页,课件共35页,创作于2023年2月
例1.
欲评价不同治疗方法(口服药物、注射胰岛素及膳食控制)对糖尿病人的治疗效果(血糖水平),分析时要求调整病人的性别、年龄和病程的影响。
血糖水平(应变量y)=治疗方法(因变量x)+其它协变量
(covariate,性别、年龄和病程)例2.
欲分析脂蛋白(a)与冠心病发生的关系。
冠心病(应变量y)=脂蛋白(a)(因变量x)
19第19页,课件共35页,创作于2023年2月
七、缺失数据(missingdata)的处理缺失数据:是指其测量结果缺失。
产生的原因:问卷调查:遗漏出生日期和年龄,调查结束后又无法补救实验室检测:血脂或血糖因为血清量不足或研究对象拒绝采血而致过去处理:仅用无缺失的数据进行分析—损失样本量缺失数据“合理”赋值—人为赋值不一定合理20第20页,课件共35页,创作于2023年2月
现在处理
数据分析处理件软处理:SAS自动分析处理
如一个数据库中有性别和年龄等变量,性别有10个缺失数据,年龄有3个缺失数据:分析性别时不包括性别缺失的10个个体分析年龄时不包括缺失年龄的3个个体当分析中(如多因素分析)共同使用了性别和年龄时,分析的实际样本数量是性别和年龄这两个变量均不含缺失数据的样本21第21页,课件共35页,创作于2023年2月流行病学数据分析方法的选择一、流行病学数据的分析程序
数值变量
正态性检验正态数据转换非正态参数检验非参数检验
图1.数值变量的分析程序
22第22页,课件共35页,创作于2023年2月
单因素分析Χ2检验分类变量分层分析多因素分析logistic回归分析
Cox回归分析其它分析方法
图2.分类变量的分析程序
23第23页,课件共35页,创作于2023年2月
二、根据研究设计类型选择(一)成组比较的设计两组比较:t检验或Χ2检验多组比较:方差分析、行×列表Χ2检验病例对照研究:按其分析方法分析分级的病列对照研究:按其分析方法分析(二)配对(自身实验前后)设计配比的t检验、Χ2检验配对的病例对照研究方法进行数据
24第24页,课件共35页,创作于2023年2月
(三)重复测量的设计
在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果,在接种后的2周、4周、6周和8周测定抗体滴度:重复测量的方差分析方法
(四)多因素设计自变量是数值变量:多元回归分析方法、协方差分析方法自变量分类变量:logistic回归分析方法、判别分析方法、聚类分析方法25第25页,课件共35页,创作于2023年2月
三、根据变量的类型选择
因变量
应变量(y)(x)数值变量分类变量有序变量数值变量相关分析,多元回归分析t检验,方差分析,协方差分析,多元回归分析相关分析,多元回归分析分类变量t检验,方差分析,logistic回归分析,判别分析,聚类分析Χ2检验,logistic回归分析Χ2检验有序变量方差分析,logistic回归分析,判别分析,聚类分析Χ2检验,logistic回归分析相关分析,Χ2检验生存时间生存分析表2.不同变量类型的数据分析方法选择26第26页,课件共35页,创作于2023年2月表3.不同研究设计和数据类型的数据分析方法选择
研究设计类型变量类型
两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分析线性回归Pearson相关系数分类变量Χ2检验Χ2检验配对Χ2检验列联表相关系数
有序变量Mann-Whitney秩和检验Kruskal-Wallis分析(成组设计多个样本比较的秩和检验)Wilcoxon符号秩和检验(配对设计差值的符号检验)Spearman相关系数生存时间生存分析27第27页,课件共35页,创作于2023年2月不同流行病学研究类型的数据分析方法一、描述性研究(一)现况研究分布描述:患病率、危险因素流行率、数值变量分布探讨因素:相关回归分析、Χ2检验、t检验、方差分析、多因素分析、人群归因危险度(二)生态学研究同现况研究(三)筛检筛检试验的真实性和可靠性人群中疾病、健康状况、危险因素筛选结果分析方法:同现况研究28第28页,课件共35页,创作于2023年2月(一)病例对照研究
病例对照研究数据成组设计配比设计粗OR→分级OR→剂量反应分层OR分级OR→剂量反应
(趋势Χ2检验)(趋势Χ2检验
)分层OR混杂与效应修饰分析混杂与效应修饰分析
图3.病例对照研究数据的分析程序
二、分析性研究的数据分析方法29第29页,课件共35页,创作于2023年2月(二)队列研究
队列研究数据
人时、发病密度/累积发病率
粗RR、AR、AR%、PAR及PAR%分层RR、AR、AR%、PAR、PAR%
分级RR、AR、AR%、PAR、PAR
图4.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年九三学社社章社史知识竞赛试卷及答案(一)
- 城市政务数据整合与智慧化平台构建可行性研究报告2025
- 2026年航空航天材料性能与应用测试题
- 2026年个人职业素养提升及工作方法题库
- 2026年人工智能算法研究与模型构建考试题
- 民法期末复习试题(含答案)
- 环境与资源保护法期末考试试题及答案
- 4s店客户经理考核制度
- 2025年奇台县幼儿园教师招教考试备考题库含答案解析(必刷)
- 2025年唐山海运职业学院单招职业适应性考试题库附答案解析
- 高考全国乙卷物理考试卷含解析及答案
- 海尔集团预算管理实践分析
- 污水池清理作业安全应急预案方案
- 2025年中国电信招聘笔试大纲及备考指南
- 制造业自动化设备调试操作手册
- 莫兰迪工作总结计划
- 2025租房合同范本下载(可直接打印)
- 2025年智能焊接机器人产业发展蓝皮书
- 中建总进度计划编排交流汇报
- 2025年四川省成都市中考英语真题(原卷版)
- 分级护理标准2025版解读
评论
0/150
提交评论