26年随访数据录入规范解读_第1页
26年随访数据录入规范解读_第2页
26年随访数据录入规范解读_第3页
26年随访数据录入规范解读_第4页
26年随访数据录入规范解读_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

26年随访数据录入规范解读演讲人作为参与本项城市慢性病前瞻性队列研究全程数据管理工作22年的研究人员,我亲眼见证了1997年第一批研究对象入组至今,26年随访过程中数据录入规范从建立到迭代完善的全过程,也亲眼见过因为不遵守规范导致数据偏倚、结论推翻的教训,更切身体会到规范录入对这项跨度近三十年的研究的核心价值。长期随访研究的核心生命力在于数据质量,而录入规范是数据质量的第一道,也是最重要的一道防线。接下来我将从规范制定的背景意义、核心模块规则、跨周期特殊要求三个层面,对26年随访数据录入规范做全面解读。0126年随访数据录入规范的制定背景与核心意义021长期前瞻性队列研究的属性决定了录入规范的核心地位1.126年随访数据的科学价值依赖高质量原始录入我们这项队列是国内最早建立的城市中老年慢性病前瞻性队列,1997年入组时共纳入12586名35-65岁的健康居民,到2023年刚好完成26年随访,超过52%的研究对象已经出现研究终点事件,这些数据是探索暴露因素与慢性病发病因果关联最珍贵的本土资源。原始录入错一步,后续研究偏十步,我印象最深的是2015年我们团队做基线血压与肺癌发病关联分析时,初始结果得出了“高血压显著增加肺癌发病风险”的阳性结论,but敏感性分析中我们发现,有3个街道片区的录入员是刚参加工作的实习生,误将血压单位kPa当成mmHg录入,所有血压数值整体偏差了7.5倍,异常值直接拉高了效应量。我们花了整整两周重新核对所有原始问卷修正数据,最终结论才回归真实。那次事件之后,我们重新梳理了全周期的录入规范,我也从此认定,录入规范不是可有可无的流程要求,是整个研究的生命线。1.2高人员流动性的研究场景要求规范统一降低偏倚26年的时间里,我们研究团队的核心人员换了四批,基层调查员换了不下十批,不同人员的操作习惯、判断标准都存在差异,如果没有统一的录入规范,每一批人员按自己的习惯录入,最终整合出来的数据就是一团乱麻,根本无法用于分析。2.1人员迭代需要统一规范消除个体差异我刚进组的时候,带我的王老师已经快退休了,他习惯用“0”作为缺失编码,而刚招来的研究生习惯用“999”作为缺失编码,如果没有统一规则,整合数据时就会把缺失和真实数值混淆,整个数据的逻辑就乱了。统一录入规范本质上就是给不同代际的研究人员一套统一的“工作语言”,不管谁来做,都按同一个标准输出。2.2存储介质变迁要求规范保障数据一致性26年里,我们的数据存储介质发生了三次大变化:最早是纸质问卷手写记录,后来用五笔输入法录入到dBase数据库,2005年之后换成Excel文件管理,2010年之后上线了结构化线上录入系统。每一次转库迁移,都要靠统一的录入规范才能保证数据不变形、不失真。2.3终点事件的异质性要求规范统一判断标准26年随访中,研究对象的结局涵盖了发病、死亡、失访等多个类型,死因也涉及上百种不同疾病,不同调查员对终点的判断尺度不一,必须靠录入规范统一标准,避免终点错分偏倚。033规范录入对后续研究的多层支撑作用3.1是原始数据可重复、可追溯的基础当前医学研究对可重复性要求越来越高,所有录入环节都遵守规范、留下痕迹,后续任何研究人员都可以追溯原始数据、重复分析过程,这是研究科学性的基本保障。3.2是大样本整合与数据共享的前提近年我们和国内另外三个大型慢性病队列开展整合分析,正是因为我们26年一直坚持统一录入规范,才能快速完成数据对接,不用花大量时间重新梳理编码标准,大大提高了研究效率。过渡:明确了为什么要强调26年随访录入规范之后,接下来我们进入核心部分,拆解全流程各模块的具体录入规范要求。0426年随访数据各模块录入核心规范拆解051基础信息模块录入规范1基础信息模块录入规范基础信息是匹配不同随访轮次数据的核心依据,必须严格遵守以下规则:1.1唯一识别码录入规则唯一识别码是研究对象的终身标识,入组时统一分配,规则为“前2位入组年份+中间3位片区代码+后4位个人序号”,录入时必须一字不差照搬,任何情况下都不能修改、重编。我遇到过两名同姓名同片区的研究对象,2012年随访时录入员误编了同一个识别码,直到2021年整理死亡数据时才发现问题,我们花了一周时间翻查所有原始入组材料才分开,这个教训提醒我们,识别码录入后必须双人交叉核对,绝对不能出错。1.2固定人口学信息录入规则性别、出生日期、民族这些固定信息,仅在基线入组时录入一次,后续随访除非有官方证件证明原始录入错误,否则不允许修改。确需修改的,必须保留原始录入值,新增修改备注,标注修改原因、修改时间、修改人姓名,不允许直接覆盖原始数据。1.3联系方式与住址信息更新规则26年中研究对象迁居、换号是常事,每次随访更新联系方式时,必须保留旧的联系方式,新增新联系方式,不允许删除旧信息,新信息标注“更新日期”,失效的旧信息标注“已失效”。我2018年追踪一名失访10年的研究对象,就是靠1998年录入的旧手机号找到了他老家的亲戚,最终成功完成随访,这件事让我明白,不随意删除旧信息本身就是最重要的规范之一。062暴露因素信息录入规范2暴露因素信息录入规范暴露因素是队列研究分析的核心,分为固定暴露和动态暴露两类,规则各有不同:2.1基线固定暴露信息录入规则基线收集的吸烟史、饮酒史、家族病史等固定暴露,必须严格按照问卷定义录入,绝对不能按照录入员的主观判断修改。比如我们对“吸烟者”的定义是“一生中累计吸烟≥100支”,哪怕受访者说自己很少抽,只要累计够100支就必须录入“是”,不能因为录入员觉得“抽的少不算吸烟”就改成“否”。所有数值型暴露必须统一单位,收缩压统一用mmHg、身高统一用cm、体重统一用kg,录入前必须先核对单位再填数值,数值保留位数严格按要求执行,不允许随意增减。2.2随访动态暴露信息录入规则每次随访收集的当前血压、血糖、吸烟饮酒状态、用药情况等动态暴露,必须对应本次随访的时间节点录入,不能跨节点错放。如果存在信息缺失,必须按统一编码录入“缺失”,标注缺失原因,绝对不能用基线值或者上一轮随访值填充。我见过不少研究团队为了减少缺失率,随意用历史值填充缺失数据,最终导致暴露测量偏倚,得出错误的关联结论,这个问题我们必须绝对避免。2.3新增突发暴露信息录入规则随访过程中遇到预设问卷之外的突发暴露,比如新发传染病感染、新确诊的罕见病等,必须按原有编码规则新增独立条目,标注暴露发生时间(精确到月份),明确填写疾病名称、诊断依据,不能随意归类到“其他疾病”项中只录入“有”。073结局事件信息录入规范3结局事件信息录入规范结局事件是队列研究的终点,录入准确性直接决定研究结论的可靠性:3.1结局确认级别必须同步录入所有结局事件必须先确认级别再录入,1级为金标准确认(有病理报告、出院小结、死亡证明等官方材料),2级为家属口述确认,3级为间接推断确认,不同级别必须标注清楚,不能全部混为“确认结局”。我们做分析时,敏感性分析会排除2级、3级确认的结局,保证结论的可靠性,如果录入时不标注,后续整理根本无法区分。3.2结局发生时间必须精确录入结局发生时间要求精确到天,不能只录入年份或者月份,如果确实无法确定具体日期,就录入能够确认的最早时间,同时标注“日期不确定”,绝对不能随意编造日期。生存分析中,结局时间哪怕错一个月,都可能导致风险比发生显著性变化,这个细节绝对不能大意。3.3失访信息必须规范标注失访不是无信息,必须录入最后一次联系到研究对象的时间,同时标注失访原因:是迁居失联、拒绝随访还是非研究终点死亡,不同原因分开标注,不能全部笼统录入“失访”。084录入过程质量控制规范4.1录入前必须完成完整性核对录入前必须先核对原始问卷的完整性,缺页、漏填、字迹模糊的,必须先联系原调查员核实清楚再录入,绝对不能猜测着录入。我刚工作的时候曾经把手写的“160cm”看成“180cm”,直到做异常值筛查才发现,这个小小的错误让我们多花了大半天核对,所以我一直要求团队,存疑必须核实,绝对不猜。4.2双人双录入规则必须严格执行所有批次的问卷必须由两名录入员独立录入,录入完成后比对差异,不一致的地方核对原始问卷修正,不允许一名录入完另一名直接抄录。我们团队要求,双录入的不一致率必须低于0.5%,超过的整批重新录入,很多人觉得这个要求太苛刻,但是对于26年的长期研究来说,这就是给数据质量买保险。4.3所有修改必须留存痕迹任何情况下的修改,都必须保留原始数据,标注修改人、修改时间、修改原因,线上系统保留操作日志,离线数据保留专门的修改记录表,绝对不能直接覆盖原始数据。26年跨度很长,过十年之后谁都不记得当时的情况,有痕迹就能追溯,这是对数据负责。4.4录入完成后必须做异常值筛查每一批数据录入完成后,必须马上做异常值筛查,数值型变量超出合理范围的,必须马上核对原始录入,是录入错误就修正,确实是真实数值就保留标注,不允许把异常值留在数据库里不处理,时间长了就找不到原因了。过渡:以上我们梳理了单次录入各模块的核心规范,而26年随访是跨周期的持续性工作,数据迁移整合过程中有很多特殊问题需要专门的规范约束,接下来我们具体说明。091不同介质数据的迁移录入规范1.1纸质问卷电子化迁移规范早期入组的纸质问卷电子化迁移时,必须严格保留原始编码,不允许随意重新编码。如果需要适配新的编码体系,必须新增一列新编码,保留原始编码列,不能删除原始数据。比如原来吸烟状态编码是1=从不、2=曾经、3=现在,新编码如果调整为0=从不、1=曾经、2=现在,必须保留原始列,不能直接修改原有数值。1.2不同数据库格式的转换规范从旧格式转换为新格式时,必须保证数值和标签对应一致,转换完成后必须随机抽取不少于10%的样本核对,确认无误后才能入库。我们2017年把所有旧数据转到线上系统时,抽核500份样本就发现3%的样本标签对应错误,性别编码1本来是男,转完之后变成了女,还好及时发现修正,否则整个研究结论都会错。1.3新旧编码体系的对接规范比如疾病编码从ICD-9更新为ICD-10,必须提前制作统一映射表,每一个旧编码对应明确的新编码,保留原始编码列,新增映射后的新编码列,不允许直接修改原始编码。102多轮随访数据的整合录入规范2.1唯一识别码交叉核对规则多轮数据整合的第一步就是按唯一识别码匹配,匹配不上的样本必须逐一核对原始材料,找到错配原因,不能直接删除匹配不上的样本。我们每年整合数据都会遇到十几个匹配不上的样本,大部分都是录入时编号输错了一位,修正后就能匹配,直接删除就会丢失样本,影响样本量和结论的代表性。2.2冲突信息的处理规则不同轮次录入的信息出现冲突时,必须以有官方证明材料的信息为准,比如基线录入出生日期是1950年,10年后随访受访者说自己是1952年出生,必须要求提供身份证核对,按身份证信息修正,同时留存修改痕迹,不能随意保留其中任意一个数值。2.3新增变量的纳入规则后续随访新增的变量,整合入库时必须按变量类型排序放在数据库末尾,同步更新数据字典,明确标注变量定义、单位、编码规则,不能随意插入原有变量列,打乱原有数据结构。113数据共享前的收尾录入规范3数据共享前的收尾录入规范26年数据整理完成后用于共享时,必须完成两项规范操作:一是补全完整的数据字典,每一个变量都要有明确的说明,保证任何外部研究人员都能看懂变量含义;二是按要求完成隐私脱敏,删除姓名、身份证号、具体门牌号等个人隐私信息,仅保留唯一识别码,保护研究对象隐私。过渡:以上我们从规范的背景意义、核心模块要求、跨周期特殊规则三个维度,全面解读了26年随访数据录入的全流程规范,最后我们对核心思想做总结提炼。总结26年随访数据录入,不同于普通横断面研究的一次性录入工作,它是一项跨越三十年、连接几代研究人员的系统性工程,所有规范的核心本质不是对操作的束缚,而是给这项

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论