




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,现场调查数据的处理分析SurveyDataAnalysis,寇长贵(副教授)Telail:koucg流行病与卫生统计学教研室吉林大学公共卫生学院,.,主要内容,常用统计学软件介绍调查数据的分析策略Logistic回归介绍实习,.,研究设计,设计“问卷”,实施调查,收集数据,分析资料,结果解释,撰写论文,分析数据,数据录入,数据管理,.,EpiInfoSASSTATASPSSEpiCalc,数据分析,常用统计分析软件,.,SAS,.,SAS系统全称为StatisticsAnalysisSystem,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。在英美等国,能熟练使用SAS进行统计分析是许多公司和科研机构选材的条件之一。缺点:高昂的价格、不太友好的界面、非统计学专业人员不容易上手!,.,STATA,.,Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件,由美国计算机资源中心(ComputerResourceCenter)研制。从1985至1998的十四年时间里,已连续推出1.1,1.2,1.3,1.4,1.5,及2.0,2.1,3.0,3.1,4.0,5.0,6.0等多个版本,通过不断更新和扩充,内容日趋完善。它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,又在许多方面别具一格。Stata融汇了上述程序的优点,克服了各自的缺点,使其功能更加强大,操作更加灵活、简单,易学易用,越来越受到人们的重视和欢迎。Stata的突出特点是只占用很少的磁盘空间,输出结果简洁,所选方法先进,内容较齐全,制作的图形十分精美,可直接被图形处理软件或字处理软件如WORD等直接调用。,.,SPSS,.,SPSS是软件英文名称的首字母缩写,原意为StatisticalPackagefortheSocialSciences,即“社会科学统计软件包”。最近,伴随SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已决定将之英文全称更改为StatisticalProductandServiceSolutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在作出重大调整。20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。缺点:SPSS采用VB编制,计算速度也远远慢于其他统计软件;其输出结果虽然漂亮,但不能和WORD等常用文字处理软件直接兼容。这些都可以说是SPSS的致命伤。多水平统计模型等问题方面存在一定问题,.,EpiInfov3.3,/epiinfo/downloads.htm,.,开发:(1)WHO的AIDS病全球控制小组(2)CDC流行病学室免费获得(1)(2)http:/www.epiinfo.it/epiinfo3.asp最新版本:EpiInfoTMVersion3.3,.,基本流程,空白调查表,编码,建立调查表(.Qes)MakeView,生成数据库,生成逻辑检查文件(.Chk)Check,Data1,Data2,原始资料,比较,修改,Enter(.Rec),双重输入,Validation,Analyze统计分析,.,.,.,.,.,.,.,选择合适的数据管理与分析软件SAS、SPSS、Epi-Info、STATA录入后数据的检查错误,遗漏的研究变量取值采取补救措施更改,再次询问,查阅档案,重新检测,调查数据的分析策略,.,数据的检查与核对检查数据的结构观测数,变量名称、数量检查各变量的取值情况取值范围数值变量最小值(minimum),最大值(maximum)均值(mean),中位数(median),发现异常值(outlier)分类变量其它发现异常的方法:图示法,回归诊断等,调查数据的分析策略,.,数据的整理数据的分组分类变量/有序变量按照实际的类别进行分组若有必要和合理,可将性质相近的类别合并数值变量按照实际的生理,病理,临床和公共卫生意义分组分位数分组四分位数(quartiles),五分位数(quintiles)使用的方便程度/专业惯例分组例:年龄在某一适宜范围内每5或10岁一组,调查数据的分析策略,.,数据的转换非正态数据的变量转换正态性(normality)检验Univariate过程Q-Qplot对数、平方根和倒数变换分类变量转换为哑变量,数据的整理,调查数据的分析策略,.,确定拟分析的自变量和因变量研究设计阶段有助于选择拟研究的变量,指导问卷设计,调查数据的分析策略,.,普查数据分析思路,统计应调查人数、实际调查人数,描述漏查率和应答率;描述调查对象的社会人口学特征,如性别、年龄、民族等基本构成。计数资料采用构成比(百分比)描述,计量资料采用均数标准差描述;统计调查人群的总体指标,根据数据类型,分别描述总体的患病率、感染率等频率指标,或总体计量数据的集中和离散趋势指标(均数标准差、百分位数等);按社会人口学特征或暴露与否分组,统计、描述疾病和健康状态相关频率指标;或按疾病有无描述暴露的构成比;并进行分层和对比分析。,.,抽样调查数据分析思路,一般描述:包括抽样方法、设计样本量、调查样本量、应答率和样本人群的社会人口学特征等。统计描述:计算有关统计指标,包括患病率、感染率、暴露率等频率指标及其95%的可信区间,计量资料的均数、标准差或百分位数等。结合频率指标,通过图表或文字,按时间、地区和人群描述疾病或健康状态的分布。可先按某个因素分层描述,再按多个因素综合描述。关联分析:对暴露和疾病的关系可作初步的关联分析如计量资料的比较采用t检验或方差分析(ANOVA),率的比较采用2检验或u检验。也可选择适当的自变量和因变量进行多因素分析,关联的统计推断采用2检验或Logistic回归分析。,.,病例对照研究,.,病例对照研究数据分析思路,描述性分析:一般性描述:首先描述病例和对照的来源、样本例数、匹配比例等,然后描述研究对象的一般特征,如性别、年龄、职业、出生地、居住地、疾病类型等。均衡性检验:比较病例组与对照组上述因素是否齐同,检验其可比性。计量指标的比较采用t检验;计数指标的比较可采用2检验。,.,病例对照研究数据分析思路,推断性分析:比较病例组和对照组之间研究因素暴露比例的差异,推断暴露和疾病之间是否存在统计学关联(2检验),计算关联强度(OR)及其95的可信区间。,.,病例对照研究数据分析思路,推断性分析:比较病例组和对照组之间研究因素暴露比例的差异,推断暴露和疾病之间是否存在统计学关联(2检验),计算关联强度(OR)及其95的可信区间。,.,病例对照研究数据分析思路,推断性分析:比较病例组和对照组之间研究因素暴露比例的差异,推断暴露和疾病之间是否存在统计学关联(2检验),计算关联强度(OR)及其95的可信区间。多因素分析:在病例对照研究中采用多因素分析往往可以比较容易地分析多个因素与疾病的联系、联系程度以及各因素之间的相互关系。目前经常使用的有条件和非条件Logistic回归模型。,.,病例对照研究数据分析注意事项,下结论时要慎重,不能下因果结论;病例对照研究设计的资料通常直接采用Logistic回归模型进行分析,以控制和分析混杂作用和交互作用。通常采用条件Logistic回归分析1:1或1:M个体配比资料,非条件Logistic回归分析则用于成组设计资料。表格数据可用EpiInfo软件或EpiCalc软件分析,可计算2值、OR值、OR95%CI,也可进行分层分析、分级分析、趋势性2检验。,.,干预效果评价,流行病学实验性研究范畴,.,基线调查,分析结果提出干预措施,实施干预,再次调查,一定时间,比较分析,评价效果,复习文献,干预效果评价,流行病学实验性研究范畴,.,干预效果评价,数据分析思路研究对象完成干预情况,组间可比性分指标比较干预前后的效果,指标多少,决定的结果部分篇幅的大小,.,流行特征(疫情资料)分析,分析思路总体流行强度时间分布地区分布人群分布病原体或传播媒介分布情况人群免疫状况,.,37,病例分析,.,38,病例分析(caseseries),数据分析一般思路病例的社会人口学特征主要临床症状及体征分布情况主要临床类型构成实验室或物理仪器诊断情况治疗与用药及疗效预后和随访的结果可以按某种特征进行分组,进行比较分析,变化多端,.,Logistic回归,Logistic回归是一个较好的,目前常用的,控制混杂因素的多因素分析方法。Logistic回归中y呈现为二值变量形式。如发病与不发病,死与活,成功与失败,阳性与阴性,等等。当应变量只取二个数值时常记为1与0,在SAS的logistic回归中最好记成1与2。Y=1:反应,如:发病,死亡,成功Y=2:不反应,如:不发病,存活,不成功,.,Y:反应变量(responsevariable)X:协变量(covariate),解释(explanatory)变量,伴随变量等,X可以呈现二值变量的形式,也可以计量的或等级的指标。logistic回归是一种概率模型。设P为Y呈现反应值为1的概率,P=P(Y=1),则Q=1-P,为呈现非反应值的概率,Q=P(Y=2)。P与各协变量Xi之间的关系可用下式表示。,Logistic回归,.,发病的概率:P=exp(b0+b1x1+bmxm)/1+exp(b0+b1x1+bmxm)不发病的概率:Q=1-P=1/1+exp(b0+b1x1+bmxm)P/(1-P)=exp(b0+b1x1+bmxm)定义y=lnP/(1-P)为logit变换,它是比数的自然对数值,则有y=lnp/(1-p)=b0+b1x1+bmxm,Logistic回归,.,Logistic回归和多元回归一样,也可用逐步剔选的方法选择变量,使方程内变量都显著,方程外变量都不显著,称为逐步Logistic回归。Logistic回归模型既适用于队列研究,又适用于病例对照研究,也适用于现况调查。,Logistic回归,.,Logistic回归的应用在队列研究中用于预测:把各协变量代入方程,得到P值,即发病的概率。因素关联分析:分析哪些因素(协变量)对疾病的发生有显著作用。对各偏回归系数作显著性检验,如显著,则说明在排除其它因素的影响后,该因素与发病有显著关系。求各因素在排除其它因素的影响后,对于发病的相对危险度(或比数比)比较各因素对于发病的相对重要性:比较各标准化偏回归系数bi绝对值的大小,绝对值大的对发病的作用也大。,Logistic回归,.,如某因素Xi的偏回归系数为bi,1)则该因素Xi对于发病的比数比为exp(bi)(1)当Xi为二值变量时,如吸烟(1=吸,0=不吸)exp(bi)为吸烟对于发病的比数比(OR),Logistic回归,.,2)当Xi为等级变量时,如吸烟(0=不吸,1=少量,2=中等
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 草原文化活动方案
- 焊接员工考试题及答案
- 公司写作考试题及答案
- 高考试题及答案化学
- 幼儿园教学教案设计:安全使用筷子
- 合作合同履行与守秘保证承诺书(9篇)
- 我和妈妈的一次出游作文11篇范文
- 税务申报表格快速填写指引
- (正式版)DB15∕T 3652-2024 《沙化土地综合治理技术规程》
- 生命常常如此绿色10篇
- 2025兴业银行福建总行国际业务部交易银行部招聘若干人备考考试题库附答案解析
- 1.3 几和第几(课件)数学苏教版一年级上册(新教材)
- 1.3加与减①(课件)数学沪教版二年级上册(新教材)
- 2025至2030中国HPV相关疾病行业项目调研及市场前景预测评估报告
- 无领导小组讨论的经典面试题目及答案解析
- 许昌襄城县特招医学院校毕业生招聘笔试真题2024
- 永辉超市快消培训
- (2025秋新版)苏教版三年级数学上册全册教案
- 2025北京京剧院招聘10人考试备考试题及答案解析
- 2025至2030中国催收外包服务行业销售模式及未来营销策略分析报告
- 2025-2030矿山工程机械租赁市场商业模式与风险防控报告
评论
0/150
提交评论