




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
临床科研中数据分析的常见注意事项 1 提纲 数据处理的一般原则与基本内容统计方法选择的基本思路具体案例分析几种比较实用的方法附录 常用数据分析的SAS程序 2 第一部分 数据处理的一般原则与基本内容 3 数据处理 数据处理定义 对数据的采集 存储 检索 加工 变换和传输 基本目的 从大量的 可能是杂乱无章的 难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值 有意义的数据 组成数据管理 约占全部工作量的60 80 数据分析 约占全部工作量的20 40 4 数据处理的一般原则与基本内容 数据库设计数据录入数据管理数据审核异常 缺失 值的处理 统计整理 根据研究目的对原始数据进行科学的分类 汇总和显示 使之系统化 条理化 直观生动和反映总体的数量特征和规律 数据分析统计方法的选择统计描述与统计推断 5 离群数据的处理 离群数据严重偏离群体平均水平的数据 多为错误 如DBP 880mmHg 少量为异常的真实值可严重掩盖事实真相或扭曲两者间的关系处理原则手工处理 正态分布 3 均数 标准差 偏态分布 99 5 或 0 5 软件处理箱式图 距箱体底线或顶线距离超过箱体高度1 5 3倍者 6 缺失数据的处理 缺失值部分研究指标记录不完整 导致其值缺失后果 导致研究效率的下降数据的常见缺失机制完全随机缺失 缺失资料与完整资料的特征无显著性差异非随机缺失 缺失资料与完整资料的特征存在显著性差异 常见处理措施直接剔除 适用于缺失量极少且为完全随机缺失单独列为一类 适用于缺失量较大 且难以合理填补者缺失值填补 均数替代中位数替代最后观察值结转回归算法多重填补法 7 统计方法前提条件的检查与描述 统计学最难以掌握之处数据分析人员最应该首先掌握的技能熟悉各种统计方法的前提适用条件合理选择最合适的统计方法 8 第二部分 统计方法选择的基本思路 9 统计方法选择的核心要素 研究目的组间差异显著性检验 优效性检验 等效性检验 非劣效性检验 相互关系相关与回归 关联性分析 OR RR AR 其它设计类型完全随机设计 配对设计 随机区组设计 交叉设计 析因设计 其它设计 数据类型计量资料 分类资料 等级资料 分布特征正态分布 对数正态分布 其它偏态分布 10 统计方法选择总结 11 统计方法选择总结 续 12 统计方法选择总结 续 13 常见统计分析的错误 普查还是抽样调查 普查无统计推断随机抽样还是非随机抽样 非随机抽样不能使用普通的统计推断方法资料类型误认未能满足所选择统计的前提适用条件单因素ANOVA代替重复测量资料的方差分析 14 常见统计分析的错误 未进行数据审核数据中存在逻辑错误数据中存在异常值数据中存在过多的缺失值 15 常见统计分析的错误 统计方法选择不当选择t检验时未考虑数据的分布类型将方差分析拆分成多个t检验用单因素方差分析解决重复测量资料使用四格表卡方检验时未考虑N和T的大小使用卡方检验解决等级资料问题 使用线性回归解决非线性问题使用Logistic回归解决队列研究的资料使用普通方差分析解决协方差 多元方差分析问题多元统计时未考虑自变量的共线性主成分分析与因子分析误用其它 16 线性回归与非线性回归 17 常见统计分析的错误 结果表述不当过于看重P值的大小而忽视Power的影响片面夸大统计学意义的作用错误理解P 0 01与P 0 05的关系显著性检验包打天下优效 等效和非劣效性检验少为人知 18 常见统计分析的错误 未考虑多重共线性回归模型中两个或两个以上的自变量彼此相关多重共线性带来的问题有可能会使回归的结果造成混乱 甚至会把分析引入歧途可能对参数估计值的正负号产生影响 特别是各回归系数的正负号有可能同我们预期的正负号相反 19 多重共线性的识别 最简单的方法计算模型中各对自变量间的相关系数 并进行显著性检验 若有一个或多个相关系数显著 就表示模型中所用的自变量之间相关 存在着多重共线性如果出现下列情况 暗示存在多重共线性模型中各对自变量之间显著相关 当模型的线性关系检验 F检验 显著时 几乎所有回归系数的t检验却不显著回归系数的正负号同预期的符号相反 20 第三部分 具体案例讨论 21 案例1 ABC三组不同时点某指标的变化情况应该选用何种统计学方法 如果重复测量方差分析得出结论为差异有统计学意义 如何判断具体哪两个或多个时点间比较有统计学意义 如何判断A B C三组各时点 T0 T1 T2 T3 间不同组别的变化情况 如判断T2时点 A B C三组某指标的情况 如何两两比较 若为随机区组资料 如何进行上述问题的统计 22 重复测量设计 定义将一组或多组受试者先后重复地施加不同的处理措施 或在不同场合和时间点进行多次测量 至少两次 的研究设计配对设计是最简单的重复测量设计重复测量设计为特殊的两因素设计其中的一个因素固定为时间因素分类对每个对象在同一时间不同因子组合间测量较为少见 如裂区设计对每个对象在不同时间点上重复测量临床研究中极为常用 23 重复测量设计的方差分析 重复测量设计在临床研究中极为常见 方法详见程序 可用普通线图描述不同组别某指标随时间变化的趋势 24 重复测量设计 优点每一个体作为自身的对照 克服了个体间的变异 减少了一个差异来源 分析时可更好地集中于处理效应 每一个体作为自身的对照 所需样本量相对较小 更加经济 缺点滞留效应 Carry overeffect 前面的处理效应有可能滞留到下一次的处理潜隐效应 Latenteffect 前面的处理效应有可能激活原本以前不活跃的效应学习效应 Learningeffect 由于逐步熟悉实验 研究对象的反应能力有可能逐步得到了提高 25 重复测量设计 重复测量设计方差分析的统计前提每个处理条件内的观察都是独立的 每个处理条件内的总体分布是正态分布或多元正态分布 每个处理条件内方差齐 每个被试者的多元观测值之间存在相关 不能用单因素方差分析代替 26 重复测量设计 为何要把测自不同时间点上的数据看成是多元的呢 因为同1个体的数据重复测自同1个受试对象 它们之间往往有较高的相关性 这种相关性通常会减少误差项变异 从而使得F测验的分母变小 其后果是F检验更易于到达显著即使无效假设是正确的 换句话说 犯一类错误的概率加大了 27 重复测量设计 样本必须为进行多次重复测量的数据 可以是对同一条件下同一因变量的重复测量目的在于研究各种处理间差异是否有统计学意义的同时 研究受试着间的差异 也可以是不同条件下同一因变量的重复测量目的在于研究各处理间差异是否有统计学意义的同时 研究形成重复测量条件间的差异以及这些条件与处理间的交互效应 GLM 重复测量资料方差分析的主要手段数据结构 若干次重复测量结果作为不同因变量出现在数据文件中 28 重复测量设计 重复测量设计与随机区组设计 时间为区组因素 相同点数据结构极为相似 甚至完全一样不同点重复测量设计 的处理因素在区组 受试者 间是随机分配的 区组内的各时间点是固定的 不能随机分配 区组内的数据来自于同一受试者 随机区组设计 区组内的受试者彼此独立 处理只能在区组内随机分配 每个受试者接受不同的处理 即区组内的数据来自于不同的受试者 使用随机区组设计方差分析处理重复测量设计资料 会增大犯 类错误的风险 29 重复测量资料的方差分析 将不同时点的测量值作为不同的变量dataex12 3 inputt0 t4g cards 120108112120117111810911512612311191121191241181121112119126120112712112713312611211201181311372122121119129133212812912613514221171151111231312118114116123133213111911813512931291281211481323123123120143136312312111614512631251241181421303 procglm classg modelt0 t4 g repeatedtime5contrast 1 run 30 SAS分析结果 31 重复测量资料统计分析常见错误 重复进行各时间点不同组别间的t 或F 检验忽略个体曲线变化特征重复测量数据不满足常规曲线拟合方法所要求的独立性假设差值比较缺乏信度用差值做组间比较须慎重须与协方差分析区别开来 32 案例2 不同处理措施和时间对某一指标的影响试验对象 大鼠 每个时点宰杀一批 问题A B处理效果间有无差异 AT2 BT2间有无差异 33 案例2 研究设计重复测量设计 两因素两水平的析因设计 随机区组设计 三者的异同点是什么 34 多因素方差分析 单因素分析多因素分析线性模型方法 研究自变量与因变量间关系多元方差分析 多元回归分析和协方差分析判别函数分析和聚类分析 事物的合理分类 主成分分析 典型相关等 如何用较少的综合因素代替为数较多的原始变量 类似于人大代表的选举 35 多因素方差分析 定义把总变异按照其来源 或实验设计 分为多个部分 从而检验各个因素对因变量的影响以及各因素间交互作用的统计方法 析因设计 正交设计 嵌套设计 裂区设计等优点 效率较高可以在一次研究中同时检验具有多个水平的多个因素各自对因变量的影响以及各因素间的交互作用要求各个因素每一水平的样本必须是独立的随机样本重复观测的数据服从正态分布 且各总体方差相等 36 析因设计的几个基本概念 单独效应 少有人关注 其它因素水平固定时 同一因素不同水平间的差异 主效应某一因素各水平间的平均差别即单独效应均数主效应间相互独立可视为多个单因素方差分析交互作用当影响因子不唯一时 必要注意因子间的相互影响 如果因子间存在相互影响 称为具有交互作用 如果因子间是相互独立的 则称为 无交互影响 37 随机区组设计和两因素析因设计异同 共同点都具有两个研究因素不同点区组设计中两个因素的地位不同 研究区组因素是为了消除区组因素对处理因素的干扰 两因素析因设计中两个因素的地位相等 既要研究两个因素的主效应和单独效应 同时还要研究两者的交互效应 38 协方差分析 定义 利用线性回归方法消除混杂因素影响后的方差分析是单因素方差分析的扩展基本思想将研究因素以外的其它因素作为协变量 建立线性回归方程 并利用这种回归关系把协变量的影响扣除后再进行各组Y的修正均数间判别的假设检验 实质从Y的总变异中扣除协变量对Y的回归平方和 对残差平方和作进一步分解后再进行方差分析 以更好的评价各种处理的效应 39 协方差分析与多元线性回归 相同点协方差分析的本质就是多元线性回归不同点 侧重点不同 协侧重于分析离散变量的影响 而多侧重于连线变量的影响协方差分析兼具单因素方差分析和多元回归分析的优点在考虑连续变量影响的条件下检验离散变量对因变量的影响 有助于排除非实验因素的干扰作用 要求 各样本都来自方差齐的正态总体 各组的总体直线回归系数相等且都不为0 什么意思 此处的 对应于协变量 分析前应先进行方差齐性检验和回归系数的假设检验 若符合或经变量变换后符合上述条件 方可作协方差分析 40 自变量选择 原则应该入选的一个不能少 不该入选的一个不要注意避免自变量的共线性原因 自变量过多或过少会大幅度降低回归模型的精度自变量过少就一定程度上失去了多元分析的意义自变量共线性的存在会歪曲自变量与因变量的关系应将回归效果显著的自变量纳入方程 将不显著的自变量从方程中剔除专业人员和统计学家根据专业知识和经验确定文献提示单因素分析全局择优法逐步选择法 41 附录 常用数据分析的SAS程序 42 常用数据分析的SAS程序 计量资料集中趋势与离散趋势procmeansnnmissmedianmeanrangeq1q3varstdcvdata tmpp2maxdec 1 varyx1 x4time1 time6 classsexgroup run 配对t检验 procsortdata tmpp2 bysex procttestdata tmpp2 pairedx1 x2x3 x4 bysex run procttestdata tmpp2 pairedx1 x2x3 x4 wheresex 1 run 成组t检验 procttestdata tmpp2 varx1 x4ytime1 time6 classsex run procsortdata tmpp2 bymonth procttestdata tmpp2 varx1 x4ytime1 time6 classsex bymonth run 单因素方差分析procglmdata tmpp2 classgroup modely group lsmeansgroup pdiff run 43 常用数据分析的SAS程序 卡方检验 procfreqdata tmpp2 tablesex case chisqexpected run 相关分析 proccorrdata tmpp2 varx1 x4 withy run proccorrspearmandata tmpp2 varx1 x4 withy run 线性回归分析procregdata tmpp2 modely x
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安全员竞聘安全服务题及答案
- 2025年BIM安全管理体系建设题及答案
- 2025年建筑施工企业三类人员-B-证笔试预测题
- 2025年安全生产管理模拟题答案解析
- 2025年维修工笔试高频题库与解析
- 2025年视距内无人机面试必考题
- 2025年文物保护师初级考试题集
- 课件中时间轴
- 2025年健身教练从业资格水平考核试题及答案解析
- 2025年建筑材料工程师专业知识考核试题及答案解析
- 人教版(2025新版)七年级下册数学第七章 相交线与平行线 单元测试卷(含答案)
- 厂房消防应急预案
- 景区开发政府战略框架协议书(2篇)
- 保洁投标书范本
- “雄鹰杯”全国小动物医师技能大赛考试题库(660题)
- 实验室隐患排查培训
- 九年级化学第三单元课题1分子和原子人教新课标版省公开课获奖课件说课比赛一等奖课件
- 宠物医疗器械创新与发展
- 《路由与交换技术》教学大纲
- 4《给植物画张“像”》教学设计-2024-2025学年科学一年级上册教科版
- 森林防火条例
评论
0/150
提交评论