第六讲:现场调查数据分析.ppt_第1页
第六讲:现场调查数据分析.ppt_第2页
第六讲:现场调查数据分析.ppt_第3页
第六讲:现场调查数据分析.ppt_第4页
第六讲:现场调查数据分析.ppt_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

现场调查技术FieldSurveySkill 寇长贵 讲师 Tel 0431 85619451Mail koucg 流行病与卫生统计学教研室吉林大学公共卫生学院 课程安排 第一讲 现场调查技术概述 设计 2学时 第二讲 现场调查问卷设计 2学时 第三讲 现场调查的抽样技术 2学时 第四讲 现场调查的访谈技巧 4学时 第五讲 现场调查问卷的数据管理 4学时 第六讲 现场调查数据的处理与分析技术 4学时 第七讲 现场调查的实施与质量控制技术 2学时 第八讲 现场调查中的综合评价方法 2学时 第九讲 现场调查研究报告的撰写方法 2学时 现场调查数据的处理分析SurveyDataAnalysis 寇长贵 讲师 Tel 0431 85619451Mail koucg 流行病与卫生统计学教研室吉林大学公共卫生学院 主要内容 常用统计学软件介绍调查数据的分析策略Logistic回归介绍实习 研究设计 设计 问卷 实施调查 收集数据 分析资料 结果解释 撰写论文 分析数据 数据录入 数据管理 EpiInfoSASSTATASPSSEpiCalc 数据分析 常用统计分析软件 SAS SAS系统全称为StatisticsAnalysisSystem 最早由北卡罗来纳大学的两位生物统计学研究生编制 并于1976年成立了SAS软件研究所 正式推出了SAS软件 在英美等国 能熟练使用SAS进行统计分析是许多公司和科研机构选材的条件之一 缺点 高昂的价格 不太友好的界面 非统计学专业人员不容易上手 STATA Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件 由美国计算机资源中心 ComputerResourceCenter 研制 从1985至1998的十四年时间里 已连续推出1 1 1 2 1 3 1 4 1 5 及2 0 2 1 3 0 3 1 4 0 5 0 6 0等多个版本 通过不断更新和扩充 内容日趋完善 它同时具有数据管理软件 统计分析软件 绘图软件 矩阵计算软件和程序语言的特点 又在许多方面别具一格 Stata融汇了上述程序的优点 克服了各自的缺点 使其功能更加强大 操作更加灵活 简单 易学易用 越来越受到人们的重视和欢迎 Stata的突出特点是只占用很少的磁盘空间 输出结果简洁 所选方法先进 内容较齐全 制作的图形十分精美 可直接被图形处理软件或字处理软件如WORD等直接调用 SPSS SPSS是软件英文名称的首字母缩写 原意为StatisticalPackagefortheSocialSciences 即 社会科学统计软件包 最近 伴随SPSS产品服务领域的扩大和服务深度的增加 SPSS公司已决定将之英文全称更改为StatisticalProductandServiceSolutions 意为 统计产品与服务解决方案 标志着SPSS的战略方向正在作出重大调整 20世纪60年代末 美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS 同时成立了SPSS公司 并于1975年在芝加哥组建了SPSS总部 缺点 SPSS采用VB编制 计算速度也远远慢于其他统计软件 其输出结果虽然漂亮 但不能和WORD等常用文字处理软件直接兼容 这些都可以说是SPSS的致命伤 多水平统计模型等问题方面存在一定问题 EpiInfov3 3 http www cdc gov epiinfo downloads htm 开发 1 WHO的AIDS病全球控制小组 2 CDC流行病学室免费获得 1 http www cdc gov 2 http www epiinfo it epiinfo3 asp最新版本 EpiInfoTMVersion3 3 基本流程 空白调查表 编码 建立调查表 Qes MakeView 生成数据库 生成逻辑检查文件 Chk Check Data1 Data2 原始资料 比较 修改 Enter Rec 双重输入 Validation Analyze统计分析 选择合适的数据管理与分析软件SAS SPSS Epi Info STATA录入后数据的检查错误 遗漏的研究变量取值采取补救措施更改 再次询问 查阅档案 重新检测 调查数据的分析策略 数据的检查与核对检查数据的结构观测数 变量名称 数量检查各变量的取值情况取值范围数值变量最小值 minimum 最大值 maximum 均值 mean 中位数 median 发现异常值 outlier 分类变量其它发现异常的方法 图示法 回归诊断等 调查数据的分析策略 数据的整理数据的分组分类变量 有序变量按照实际的类别进行分组若有必要和合理 可将性质相近的类别合并数值变量按照实际的生理 病理 临床和公共卫生意义分组分位数分组四分位数 quartiles 五分位数 quintiles 使用的方便程度 专业惯例分组例 年龄在某一适宜范围内每5或10岁一组 调查数据的分析策略 数据的转换非正态数据的变量转换正态性 normality 检验Univariate过程Q Qplot对数 平方根和倒数变换分类变量转换为哑变量 数据的整理 调查数据的分析策略 确定拟分析的自变量和因变量研究设计阶段有助于选择拟研究的变量 指导问卷设计 调查数据的分析策略 普查数据分析思路 统计应调查人数 实际调查人数 描述漏查率和应答率 描述调查对象的社会人口学特征 如性别 年龄 民族等基本构成 计数资料采用构成比 百分比 描述 计量资料采用均数 标准差描述 统计调查人群的总体指标 根据数据类型 分别描述总体的患病率 感染率等频率指标 或总体计量数据的集中和离散趋势指标 均数 标准差 百分位数等 按社会人口学特征或暴露与否分组 统计 描述疾病和健康状态相关频率指标 或按疾病有无描述暴露的构成比 并进行分层和对比分析 抽样调查数据分析思路 一般描述 包括抽样方法 设计样本量 调查样本量 应答率和样本人群的社会人口学特征等 统计描述 计算有关统计指标 包括患病率 感染率 暴露率等频率指标及其95 的可信区间 计量资料的均数 标准差或百分位数等 结合频率指标 通过图表或文字 按时间 地区和人群描述疾病或健康状态的分布 可先按某个因素分层描述 再按多个因素综合描述 关联分析 对暴露和疾病的关系可作初步的关联分析如计量资料的比较采用t检验或方差分析 ANOVA 率的比较采用 2检验或u检验 也可选择适当的自变量和因变量进行多因素分析 关联的统计推断采用 2检验或Logistic回归分析 Logistic回归 Logistic回归是一个较好的 目前常用的 控制混杂因素的多因素分析方法 Logistic回归中y呈现为二值变量形式 如发病与不发病 死与活 成功与失败 阳性与阴性 等等 当应变量只取二个数值时常记为1与0 在SAS的logistic回归中最好记成1与2 Y 1 反应 如 发病 死亡 成功Y 2 不反应 如 不发病 存活 不成功 Y 反应变量 responsevariable X 协变量 covariate 解释 explanatory 变量 伴随变量等 X可以呈现二值变量的形式 也可以计量的或等级的指标 logistic回归是一种概率模型 设P为Y呈现反应值为1的概率 P P Y 1 则Q 1 P 为呈现非反应值的概率 Q P Y 2 P与各协变量Xi之间的关系可用下式表示 Logistic回归 发病的概率 P exp b0 b1x1 bmxm 1 exp b0 b1x1 bmxm 不发病的概率 Q 1 P 1 1 exp b0 b1x1 bmxm P 1 P exp b0 b1x1 bmxm 定义y ln P 1 P 为logit变换 它是比数的自然对数值 则有y ln p 1 p b0 b1x1 bmxm Logistic回归 Logistic回归和多元回归一样 也可用逐步剔选的方法选择变量 使方程内变量都显著 方程外变量都不显著 称为逐步Logistic回归 Logistic回归模型既适用于队列研究 又适用于病例对照研究 也适用于现况调查 Logistic回归 Logistic回归的应用在队列研究中用于预测 把各协变量代入方程 得到P值 即发病的概率 因素关联分析 分析哪些因素 协变量 对疾病的发生有显著作用 对各偏回归系数作显著性检验 如显著 则说明在排除其它因素的影响后 该因素与发病有显著关系 求各因素在排除其它因素的影响后 对于发病的相对危险度 或比数比 比较各因素对于发病的相对重要性 比较各标准化偏回归系数bi绝对值的大小 绝对值大的对发病的作用也大 Logistic回归 如某因素Xi的偏回归系数为bi 1 则该因素Xi对于发病的比数比为exp bi 1 当Xi为二值变量时 如吸烟 1 吸 0 不吸 exp bi 为吸烟对于发病的比数比 OR Logistic回归 2 当Xi为等级变量时 如吸烟 0 不吸 1 少量 2 中等 3 大量 exp bi 为每增加一个等级 发病的相对危险度如大量对于不吸其发病的相对危险度为 exp 3bi 3 当Xi为连续变量时 如年龄 岁 exp bi 为每增加一岁时 发病的相对危险度如60岁相对于35岁其发病的相对危险度为exp 25bi Logistic回归 指标偏回归系数标准误P值标准偏回归系数常数项 2 87702 09540 1697 X3C2 28441 02100 02530 519452X51 01020 31470 00130 931773X61 63210 54490 00270 837360X8 0 57640 18740 0021 0 917033X90 0003860 0001860 03840 392918 Logistic回归 各指标的相对危险度 大体类型为浸润对于非浸润3年内死亡的相对危险度为 e2 2844 9 82胃癌深度级别每增加1级 e1 0102 2 75淋巴结转移级别每增加1级 e1 6321 5 11血色素每减少1g L e0 5764 1 78白细胞数每增加1000个 mm3 e0 386 1 47 Logistic回归 从标准偏回归系数的绝对值大小可得 胃癌深度级别 淋巴结转移级别和血色素对于手术后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论