




已阅读5页,还剩107页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二讲 医学科研数据的提取与管理,陆军军医大学军队卫生统计学教研室 Department of Health statistics ,AMU,68752313 刘 岭,数据的质量控制 数据管理中的几个常见问题 统计分析结果与表达,主 要 内 容,三、医学统计工作的步骤,(一) 统计设计,(三) 整理资料,(二) 收集资料,(四) 分析资料,完整、准确,核查、清洗,数据的质量控制,(一)数据的来源与数据集,观察性数据,实验性数据,科研数据,观察性数据(观察性研究):卫生工作报表,病历资料 观察性研究:客观地观察、记录和描述事物规律或现象的认识活动。,实验性数据(实验性研究):临床病例资料,动物实验记录 实验性研究:人为控制实验条件或对研究对象施加一定干预措施所做的研究。,多中心临床实验或大型调查研究:样本量大,变量数多,某地2002年735例65岁以上老年人健康检查记录,数据矩阵,某地2002年735例65岁以上老年人健康检查记录,某地2002年735例65岁以上老年人健康检查记录,解释变量:指示变量、分组变量、因素、协变量、预测变量等,反应变量:表示试验效应或观测结果的指标。,注意: 变量名:英文、不超过8个字符,分类变量适当数量化处理。,(二)数据录入,数据录入是将研究收集到的各种信息转换为数据形式,输入到计算机进行保存、管理的过程。,数据审核:对收集到的原始资料进行审查与核实的过程。 真实、准确、完整、标准 制定数据编码表:使研究得到的信息数字化和标准化。 封闭性、开放性、缺失数据 建立数据库:运用专业的数据库管理软件。 数据管理、查询、修改功能,原始数据录入格式,数据录入的原则,1、方便录入:将字符变量转换成数值变量; 2、便于核查:一定要有标识变量,以方便数据的核对; 3、易于转换:录入数据时要考虑不同软件的要求; 4、利于分析:同一研究课题的结果最好录成一个数据库文件。,同一资料进行双人重复录入方法,应用程序对两个数据库进行比对,核查错误。,EpiData 特点,简单易学、实用性强 对计算机硬件要求不高 调查表设计便捷 与调查表形式一致的可视数据录入界面 数据核查功能强大且实现简便 EpiData Analysis可用于一般的统计分析与制图 数据转换功能强大,建立调查表文件,创建数据库,建立核查文件,录入数据,数据库管理,输出数据,EpiData的基本流程,数据库的导出(Data in),SPSS文件,SAS文件,DBF文件,Stata文件,REC文件,二. 数据管理中的几个常见问题,(一)数据的质量控制,1、输入信息的有效性,即幅度检查; 2、输入信息相互之间的一致性,即逻辑检查; 3、查漏:原始数据的编号与数据库的编号核对; 4、运用统计软件观察频数分布是否异常; 5、进行描述性统计,有无离群值和缺失值。,(二)变量的设置,1、连续型变量的输入:直接录入; 2、离散型变量的输入:数值化处理。,变量的设置方式:资料类型、研究目的、变量的分布形式、统计方法的应用条件。,(三)缺失值处理,缺失值主要来自资料收集中的漏报和漏填; 缺失值应控制在数据记录总量的10%以内; 注意将缺失值与“0”区分开来,缺失值一般用“.”表示; 缺失比例很小时,可舍弃;缺失比例较大时,可进行插补(不得已,慎用)。,(四)离群数据的处理,有无离群值? 频数表、箱式图或直方图可初步判断; 线性回归方法判断。,离群值(outlier)是指超出数据通常变化范围的特大值或特小值的观测值。,出现离群值的处理 在离群值附近多次抽样,了解数据的真实结构; 专业知识与统计方法结合。,(五)统计学方法的应用条件,正态性检验 方差齐性检验 多重共线性判断,统计方法的正确选择,三. 统计分析结果与表达,医学论著的基本结构,摘 要,引 言,1. 材料与方法,2. 结 果,3. 讨 论,Abstract,Introduction,Materials and Methods,Results,Discussion,目的,方法,结果,结论,4,1,2,3,引言,材料与方法,结果,讨论,摘要,正文,统计表,统计图,摘 要,目的,方法,结果,结论,4,1,2,3,与专业有关,用简介的话表达文章的目的。,交代受试对象的选取、样本量、分组方式,给出重要指标的指标值、统计分析结果,结合结果与专业目的,下专业结论,对摘要中的主要统计结果进行概述: 均数(中位数、率),标准差(标准误), P 值; 两组均数(率)之差或者OR值,95%可信区间(CI), P 值; 多个观察指标的相关系数及其P 值等。,1、目的表达不清、写法累赘; 2、方法中: 未交待受试对象的选取方式、样本量、分组方式; 实验设计缺陷,无对照组; 样本量太少,抽样误差大,结果不可靠; 3、结果中: 未给出重要指标的指标值和具体的统计分析结果; 4、结论中: 结果、结论混写; 结果不足以说明结论;,摘要表达的常见问题,未交待受试对象的选取方式、样本量; 无重要指标的指标值,以及具体的统计分析结果,无重要指标的指标值,以及具体的统计分析结果,无重要指标的指标值,以及具体的统计分析结果,不像结论,是结果的内容,实验设计缺陷:无对照组; 作者的结果不足以说明此结论。,简要说明研究背景和研究目的。 给出文献分析的综合复习结果: 如组间差别(Difference Among Groups); P 值(P-value)等。 采用循证医学的方法。,一. 引 言,统计表达,研究设计方案 (Design of Research Methods),统计分析方法及软件 (Analysis Methods and Software),目的:以使读者确认论文中所有统计分析结果的 可靠性、研究结论的合理性和实验过程的重现性。,二. 材料与方法,研究设计方案 (Design of Research Methods),研究对象的来源和选择方法,包括观察对象的基本情况 需要说明诊断标准 病例入选标准、病例排除标准、病例剔除标准、疗效评价标准。 有无失访(失访比例,不可超过20)、有无“知情同意” 评价疗效有无遮蔽(“单盲Single Blind”、“双盲Double Blind”或“多盲Multiple Blind”)等 均衡性分析结果:影响因素(如年龄、性别、病情) 样本量估计的依据(Sample Size),研究对象的来源,病例入选标准、病例排除标准、病例剔除标准、疗效评价标准,均衡性分析结果,样本量估计的依据,常用统计方法简单说明: 如 检验、t 检验、单因素方差分析(ANOVA)等; 特殊的统计方法给出相应的参考文献 一般统计计算软件给出名称 如SPSS、SAS、STATA等,EXCEL不能作为处理软件 特殊的计算软件要给出软件的过程名,统计分析方法及软件 (Analysis Methods and Software),研究设计方案中的问题,“材料与方法”统计表达的常见问题,对随机化分组方法不做任何说明。,观察对比的研究未给出反映均衡性的统计指标,试验的样本量非常小,但不说明任何理由,组间例数相差很大,均衡性差,但不做任何说明,对随机化分组方法不做任何说明。,试验的样本量非常小,试验的样本量非常小,分组说明欠合理,计算相对数的分母太小,计算的相对数不稳定,不能反映客观事实。,实验设计有缺陷:无对照组,组间例数相差过于悬殊,组间例数相差过于悬殊,观察对比的研究未给出反映均衡性的统计指标,没有采用的统计学方法,却在方法中进行了描述,统计分析方法中的问题,太过笼统,未写明采用的具体的统计学方法,没有统计学方法的介绍,无统计推断,太过笼统,未写明数据描述形式以及采用的具体的统计学方法,太过笼统,未写明数据描述形式以及采用的具体的统计学方法,无统计软件名称及版本,且不应该有参考文献,采用了的统计学方法,却没有在资料与方法中进行了描述。,没有采用的统计学方法,却在资料与方法中进行了描述。,无统计推断(通过样本对总体下结论,存在抽样误差),统计表达,统计图表 (Statistical Graphs & Tables),P 值的表达 (Suitable Expression of P),统计指标 (Statistical Indexes),数据精度 (Numerical Precision),三. 结 果,统计表的应用: 三线表 自明性,统计图表,统计图的应用: 根据资料类型和目的选择正确的统计图,统计表的内容要丰富:制表的目的是为了对统计结果进行对比分析,若指标过少,则不易凑统计表。,1,统计表要重点突出:一般一张统计表只表达一个中心内容,若包含内容过多,可分制成若干张统计表。,2,统计表要有“自明性” :即主谓分明,层次清楚。为此,标目的处理是决定统计表质量的关键。横标目常为第一主辞,纵标目为第二主辞,切忌位置混乱,互相混杂,使读者难以识别。,3,制表注意事项,统计图的选择,表的内容过少,在文章中描述清楚即可。,表的逻辑性与自明性较差,统计表的自明性,统计图错误:随时间变化应该采用线图,传统表达 P 0.05 记为“NS”, P0.05 记为“*”, P0.01 记为“*”,提倡表达 提倡报告精确 P 值,P 值的表达,P 值大小只能说明统计学意义的“显著”,不说明实际效果的“显著”。对于P值的解释一定要结合专业知识。,P0.05,就不能说“T1期表达率比T2-3期高”,P0.001,不表示差异很大!只表示“有差异”这个结果很可靠。,相关系数保留3位小数; 检验统计量,如Chi-square值、t值保留3位小数即可;,数据精确度,计量资料的统计指标(均数、标准差、标准误、中位数、百分位数等)的保留小数位数,应该与原始数据的保留小数位数相同,小数位数一致;,计数资料的百分比保留1位小数,一般不超过2位小数;病死率、发病率按惯例选择比例基数,如1000,10000/万,10万/10万等,或自行选择合适的比例基数,使率的表达至少有1位整数。,原则:选择最恰当的统计指标准确描述资料的特征。,非正态分布 (Non-normal Distribution),计量资料 (Measurement Data),正态分布 (Normal Distribution),计数资料 (Count Data),率或比 (Rate or Ratio),统计指标,计量资料,用“ ”描述,非参数检验,误用t检验、ANOVA或卡方检验处理,统计分析方法中常见的问题,将重复测量数据处理,误用t检验或ANOVA处理,配对设计处理,误用完全随机设计处理,将多个组比较的ANOVA,误用t检验处理,统计学方法错误!多组均数比较不能两两采用t检验,会导致假阳性错误概率增大,应该采用方差分析,两两比较采用LSD法。,方差分析误用成t检验,方差不齐,应该采用非参数检验,既然用中位数进行描述,统计学方法就应该采用非参数统计,而非t检验,此为等级资料,应该采用非参数检验,将重复测量数据处理,误用t检验或ANOVA处理,将重复测量数据处理,误用t检验或ANOVA处理,完全随机设计,配对设计,配对设计处理,误用完全随机设计处理,配对设计处理,误用完全随机设计处理,分组有误:正常黏膜组织30例与结肠癌组织76例中的30例,属于配对数据,而非独立样本数据。,两两比较,检验水准要调低,为0.05/10=0.005。 luminalB型(HER2-)与HER2过表达型比较 =7.253,P=0.0070.005,差异无统计学意义。,统计解释,P 值的解释 (Interpretation of P),关联的解释 (Interpretation of Association),因果的解释 (Interpretation of Causation),r 值的解释 (Interpretation of r),四. 讨 论,P 值大小只能说明统计学意义的“显著”,不说明实际效果的“显著”。对于P值的解释一定要结合专业知识。 临床疗效“显著”的处理:当观察例数很少时,P值可能很大(统计“不显著”)。 临床疗效“不显著”的处理(如新药比对照药有效率仅提高了0.1%),当观察例数很大时,P值可能很小(统计“显著”)。,P 值的解释,P0.001,不表示差异很大!只表示“有差异”这个结果很可靠。,2019/9/26,99,某部队在进行防化演练时考查新、旧防护服对化学战剂的防护效果。随机抽取15名战士穿上新防护服,其余28名战士仍穿旧防护服,演练后检查两组战士战剂反应的发生率,资料见下表,问两组战士战剂反应的发生率有无差别?,全国调查的调查结果,学龄前儿童营养性贫血患病率为23.5%。某医院为了解当地学龄前儿童营养性贫血情况,对当地1396例学龄前儿童进行了抽样调查 ,查出营养性贫血患儿363例,患病率为26.0%。问该地学龄前儿童营养性贫血患病率是否高于全国平均水平?,r 值的大小表示相关的密切程度; P 值的大小表示r 值的可靠程度;,r 值的解释,1、相关系数没有单位,其值为-1r1。 2、r值为正表示正相关,r值为负表示负相关。 3、r绝对值大小代表相关关系的密切程度。 4、P值表示r值是否有统计学意义。,研究相关,论文中却报告了回归方程。,线性相关与回归分析的常见问题,只关心相关系数的假设检验有无显著性,而不关心相关系数有无实际意义。,不对相关系数作假
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 冬季施工环保与噪音控制措施
- DB62T 4158-2020 杂交构树青贮饲料技术规程
- 四川省自贡市富顺三中、代寺学区2019-2020学年七年级上学期期中考试地理试题
- 高中阶段艺术活动总结报告
- 五年级品德与社会个性发展计划
- 校舍安全保障体系及职责分配
- 小学二年级语文新学期学习计划
- 小学六年级班级活动复习计划
- 在线教育平台教务人员工作指南
- 基础设施建设封顶仪式流程
- 2025-2030中国个人征信行业发展现状调研及前景预测分析研究报告
- 2025农业银行笔试题库及答案
- CNG场站应急处置方案
- 民宿装修合同协议书
- 《新能源汽车电气系统》教学设计 任务1 新能源汽车充电系统认知
- 河南省青桐鸣大联考普通高中2024-2025学年高三考前适应性考试语文试题及答案
- 第22讲 杠杆 滑轮 2025年中考物理专题复习(广东)课件
- 2025年BIM技术在工程项目风险管理中的应用研究报告
- 转让汽修店铺合同协议
- 山东省烟台市、德州市、东营市三市东营2025年高考适应性考试烟台德州东营二模英语试卷+答案
- 护理带教教学课件
评论
0/150
提交评论