26年随访数据质控要点解读_第1页
26年随访数据质控要点解读_第2页
26年随访数据质控要点解读_第3页
26年随访数据质控要点解读_第4页
26年随访数据质控要点解读_第5页
已阅读5页,还剩29页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

26年随访数据质控要点解读演讲人作为国内某大型慢性病前瞻性队列研究的核心成员,我全程参与了本队列从1997年建队到2023年共计26年的随访数据管理工作,亲眼见过不少长期队列因为早期质控缺位,几十年积累的数据最终无法用于科学分析,也亲身踩过不少跨周期质控的坑,今天我结合自身经验,对26年随访数据的质控要点做系统解读。首先需要明确,26年跨度的长期随访质控,和1-3年的短期临床研究质控有着本质区别,我们先从基础认知层面梳理核心逻辑,再逐层拆解全流程质控要点,最后梳理常见误区与优化方向。0126年长期随访数据质控的基础认知02126年随访周期的质控特殊性126年随访周期的质控特殊性短期研究的质控属于「点式质控」,仅需要把控入组、干预、终点几个关键节点即可,而26年的长期随访属于「链式质控」,每一个环节都是链条上的一环,任何一环断裂,整个链条的价值都会大打折扣。我刚入队参与工作时,第一批入组的1247例受试者中,就有37例因为早期登记时错写了一个街道的名称,赶上90年代末城市拆迁改造,第一次全随访就找不到人,后来我们花了两年时间对接户籍部门才找回19例,剩余18例永久失访,这个教训我到现在都记得——早期哪怕一个很小的质控疏漏,跨了几十年根本没办法弥补。03226年随访质控的核心目标226年随访质控的核心目标很多人认为长期随访质控的目标是「零失访、零缺失」,实际上这并不现实,26年的社会变迁下,一定会有失访和缺失,我们的核心目标其实有两个:第一是保证核心变量的真实性,尤其是终点事件(发病、死亡)、核心暴露因素的信息不能错,假数据比没有数据危害更大;第二是控制系统偏倚,失访不能集中在某一类人群,比如不能说所有高血压患者都失访了,这样最终分析出来的结论一定会偏离真实情况。043全流程质控意识的必要性3全流程质控意识的必要性我接触过不少研究者,认为质控是数据收集完成后才需要做的工作,就是清洗一下异常值而已,这个认知完全错误。26年随访的质控,从你设计研究方案、入组第一个受试者的时候就已经开始了,一直到最后一次数据分析完成,质控都贯穿始终,没有任何一个阶段可以放松。通过上文的梳理,我们明确了26年长期随访质控的特殊性、核心目标与基本意识,接下来我们沿着随访的全流程,逐层拆解每个环节的具体质控要点。051入组基线阶段的前置质控1入组基线阶段的前置质控基线是26年随访的根基,我们26年走下来最大的体会就是:基线质控花十分力气都不算多,根子歪了,后面再怎么补都长不直。1.1入组排除标准的刚性质控长期随访的样本量从来都不是越多越好,符合纳入排除标准的样本才是有效的。刚建队的时候,我们有年轻研究助理为了完成入组任务,放宽了「本地区常住5年以上」的要求,入组了7个搬来不到1年的流动人口,结果不到5年这7个人全部搬离,直接永久失访,还给后续的失访偏倚控制带来了不必要的麻烦。从那之后我们明确要求:入组排除标准是刚性红线,任何人不能放宽,每一例入组都必须核对户口本或居住证,研究助理签字确认,谁违规谁负责,从源头上减少了后续的失访风险。1.2基线核心变量的溯源质控核心变量指的是年龄、性别、基础疾病史、核心暴露因素这些会影响研究结论的变量,不能完全依赖受试者的自述,必须溯源。我印象很深的一例:入组时受试者自述没有糖尿病,基线空腹血糖也在正常范围,直到入组后第6年我们对接当地电子病历才发现,他入组前3年就已经确诊2型糖尿病,只是一直没吃药控制,自己也没当回事,所以没告诉我们。如果这个核心变量没校正,我们后续分析糖尿病与心血管疾病的关联,就会出现明显的偏倚。后来我们明确要求:所有核心变量必须有溯源记录,仅能提供自述的必须标注「未溯源」,数据分析时分层处理,从源头上保证核心信息的准确性。1.3知情同意的持续化质控很多研究者认为知情同意入组的时候签一次就结束了,但是对26年的长期随访来说,知情同意是一个持续的过程。26年间,受试者可能会更换联系方式、丧失民事行为能力,甚至身故,不同阶段都需要重新确认知情同意。我们在2012年伦理审查的时候发现,有17例已经罹患阿尔茨海默病的受试者,一直没有更换监护人签署知情同意,当时我们花了3个月时间,逐个上门找家属重新签署,不仅符合伦理要求,也保证了后续随访的合法性。现在我们的规则是:每一次面对面随访都要重新确认知情同意,每5年重新签署一次知情同意书,受试者状态发生变化的,第一时间更换签署人,这个环节看似麻烦,实则是长期随访合规性的基础。基线前置质控完成后,接下来就是横跨26年的随访实施阶段,这个阶段的动态质控是最考验功力,也是出问题最多的环节,我们具体来看。062随访过程中的动态质控2.1失访风险的前置管控质控失访是长期随访最大的敌人,我们队列26年下来总失访率控制在17.8%,远低于国际同类队列的平均水平,核心经验就是把失访管控做在失联之前。我们给每一位受试者建立信息档案的时候,要求至少留三个不同维度的联系方式:本人手机号、直系亲属手机号、常住地居委会或单位联系人联系方式,每次随访都第一时间更新联系方式;同时我们和当地派出所、居委会、医保中心建立了长期联动机制,只要受试者户籍变更、联系方式更新,我们能第一时间获取信息。我印象很深有一例受试者,2008年举家搬到新疆克拉玛依,我们通过户籍联动拿到了新地址,一直随访到现在,要是等他原来的手机号停用了我们再找,根本不可能找得到。2.2不同随访节点的差异化质控我们队列的安排是每年一次电话随访、每5年一次面对面全面体检随访,不同节点的质控重点完全不同:年度电话随访的核心是终点事件排查,只要受试者报告新发疾病或死亡,我们必须去对应的医疗机构拿到诊断证明或死亡证明,绝不可以只凭电话记录就录入终点,这么多年我们排查出了13例假阳性终点,避免了对数据的干扰;而5年一次的全面体检随访,质控核心是检测方法的一致性,比如抽血用的试管规格、离心时间、-80℃冰箱的储存温度,26年来我们都保持一致,哪怕原来的试管厂家停产,我们也会先做新旧产品的一致性验证,确认没有系统偏差后才更换,就是为了避免不同批次检测结果的偏差影响后续分析。2.3研究人员更替的交接质控26年下来,我们研究团队换了三批研究助理、两任项目负责人,人员更替是长期队列必然会遇到的问题,交接环节最容易出质控漏洞。我2005年刚接项目的时候,上一批交接的联系方式有超过三分之一打不通,就是因为交接的时候没有核对,后来我们建立了严格的交接质控流程:每次人员更替,新负责人必须在3个月内,给所有在访受试者全部打一遍核对电话,确认基本信息和联系方式,核对无误后签字确认;所有纸质材料全部扫描归档,电子数据做云端加本地双备份,最后由第三方研究人员做10%的抽样复核,确认无误后才算完成交接,从那之后再也没有出现过交接后大面积联系方式失效的问题。2.4多源数据的交叉匹配质控现在我们有了很多外部数据资源可以用,比如国家死因监测库、医保报销数据库、区域电子病历平台,这些数据可以和我们自己随访收集的数据交叉核对,大大提升数据真实性。我们每年都会把在访受试者的名单去标识化后,和死因监测库比对,这么多年下来,一共找到了29例我们随访没有发现的死亡病例——很多家属不愿意主动告知研究者身故信息,通过外部数据匹配就能补全这些信息;对于新发疾病,我们也会把随访报告的终点和医保住院记录、电子病历诊断做比对,确认终点的真实性。当然,所有交叉匹配都严格遵守隐私保护要求,全程去标识化,符合伦理规范。随访完成、数据收集上来之后,最后一道关口就是数据存储与清洗阶段的终性质控,这一步决定了最终数据能不能用、好不好用。073数据存储与清洗阶段的终性质控3.1多版本数据的溯源管理质控26年间,我们每完成一次随访就更新一版数据,每一次修正错误就出一个新版本,很多长期队列只保留最终版数据,原始版本和修改记录都丢了,过十几年再看数据,根本找不到错误的来源,也没法重复分析。我们从建队开始,所有版本的原始数据、修改记录都完整保存,每一次修改都明确记录:修改人、修改时间、修改的变量、修改原因,任何人要调用数据都可以溯源,这保证了研究的可重复性,也是科学研究最基本的要求。3.2异常值的识别与归因质控长期随访下来,什么异常值都可能碰到,比如收缩压260mmHg、BMI11.8、年龄13岁入组慢性病队列,碰到异常值不能直接删除,必须先溯源找原因。我们有一次碰到一例连续三次随访血糖都超过30mmol/L,一开始我们以为是录入错误,去查原始采血记录和检测报告,发现这个受试者确实是难治性2型糖尿病,一直控制不佳,这个数值是真实的,如果我们贸然删除,反而会带来偏倚。我们现在的规则是:异常值先标记,再溯源,能修正的修正,确认真实的保留,确认错误的删除,所有操作都留痕,绝不允许私自删除异常值。3.3缺失值的分层处理质控26年的随访不可能没有缺失,我们不追求零缺失,但是要对缺失做分层处理:核心变量比如终点事件、核心暴露因素有缺失,能补的必须想尽办法补,补不上的直接归为失访,绝不允许随便插补;非核心变量比如饮食调查的某一个分项、生活方式的次要变量有缺失,可以根据情况用多重插补处理,并且必须在研究报告中明确说明缺失比例和处理方法,绝对不能为了数据好看隐瞒缺失,更不能随便插补核心变量,否则整个研究结论的可信度就荡然无存。讲完全流程的质控要点,我们再结合这么多年的经验,梳理一下长期随访质控中常见的认知误区,以及未来可以优化的方向。0826年长期随访质控的常见误区与优化方向091常见认知误区1.1重终点收集轻过程变量质控很多研究者为了快点出结果,把所有精力都放在终点事件的收集上,过程中的暴露变量、中间变量错了也不修正,结果最后分析出来的结果偏离真实值,都找不到问题出在哪里。我们26年的体会是,终点对了过程错了,结果一定是错的,过程变量的质控一点都不能放松。1.2重数据补全轻真实性校验有些研究者为了降低失访率和缺失率,为了数据好看,随便补填缺失值,或者只电话问一句就记录终点,不去核实,结果假终点、假数据太多,最终研究结论完全不可信,这种情况我们见过不止一次,几十年的随访就白费了。1.3重信息化改造轻人工复核现在很多队列都用上了电子数据录入系统、APP线上随访,很多人就觉得不需要人工复核了,实际上电子录入也会出错,手滑输错、选项跳错都是常有的事。我们现在保持着每次录入后10%抽样复核的规则,每年都能查出2%左右的错误,信息化是提高效率的工具,人工复核才是质控的最后一道防线。102长期随访质控的优化方向2.1建立动态更新的标准化质控手册很多队列在建队的时候写一次质控规则,之后几十年都不更新,实际上26年间,研究技术、伦理要求、管理规范都在变,碰到新问题解决了就要更新规则。我们的质控手册每年更新一次,新的问题、新的要求都加进去,不管谁来做这项工作,都有章可循,不会因为人员更替出现质控断层。2.2依托数字技术实现实时质控原来我们都是所有数据收集完了再做质控,很多错误几个月甚至几年后才发现,现在我们可以把质控规则嵌入数据录入系统,碰到异常值当场报警,录入人员当场核对修正,比如录入年龄超过110岁、收缩压超过280mmHg,系统直接不让通过,当场核对,大大提高了质控效率,也减少了后续纠错的成本。2.3构建受试者参与的共益质控模式原来质控都是研究者单方面的工作,受试者只是配合,现在我们和受试者建立了长期的信任纽带,我们每年给受试者反馈体检结果,提醒他们慢性病管理,有了新的研究成果也会同步告知,受试者有任何变化都会主动联系我们更新信息,不仅降低了失访率,也大大提高了数据的准确性,实现了研究者和受试者的双赢。总结回到我们今天的主题,26年随访数据的质控,本质上是一场跨越数十年的科学长跑,没有一劳永逸的方法,也没有可以偷懒的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论