版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
26年随访数据科研应用指引演讲人各位从事流行病学、慢性病防控、医学科研的同道大家好,我是本组26年随访队列从启动之初就参与全程的核心成员,从1997年第一次入户入组到今天整理完最新一轮的随访数据,整整26年,我亲眼看着这组数据从一摞摞纸质问卷,变成支撑近30项国家级科研项目、发表40余篇中英文学术论文的核心资源,也亲眼见过很多同行拿到长期随访数据后,因为对长期数据的特征不熟悉,要么做出来的结果偏倚过大,要么浪费了宝贵的时间维度信息。今天我就以第一视角,结合26年和这组数据打交道的实际经验,梳理26年随访数据的科研应用全流程指引。0126年随访数据的基本认知与核心价值021我与本组26年随访数据的渊源1我与本组26年随访数据的渊源1997年我刚从公共卫生学院硕士毕业进入课题组,当时我们团队计划在北方某城市社区开展高血压防控的长期观察研究,整个组三个人花了八个月时间,完成了11238名35岁以上常住居民的入组,包括问卷调查、体格检查、血样低温留存。那时候我年轻,每天骑自行车走街串户,很多入组的老人当时和我父母年纪差不多,现在我都快退休了,最初入组的老人还有不到15%在世。这26年我们坚持每两年随访一次,中间经历了三次数据载体更换、两次社区行政区划调整,光补访失访对象就开展了三次大规模行动,这组数据每一个数字背后,都是一代科研人和研究参与者共同的时间沉淀,这是我对这组数据最深刻的切身感受。2.1完整覆盖暴露到结局的因果时间链大多数慢性非传染性疾病的潜伏期从几年到几十年不等,比如动脉粥样硬化从病理改变到发生心血管事件往往需要10年以上,肿瘤从癌前病变到临床确诊也普遍超过5年,短期随访只能捕捉暴露和早期生理改变,只有超过20年的长期随访才能完整看到从暴露到终点结局的整个过程,这是横断面研究、5年以内的短期随访根本无法实现的。2.2能够捕捉人群生命历程的异质性健康轨迹同一个危险因素,在不同年龄阶段进入人群,对终身健康的影响完全不同,只有长期随访才能跟踪不同个体从健康到疾病的整个发展轨迹,区分不同暴露时间、不同暴露强度带来的异质性效应,为精准防控提供依据。2.3为罕见迟发结局提供足够的统计效力老年痴呆、终末期肾病这类迟发罕见结局,短期随访累积的病例数太少,根本达不到统计效力要求,26年的随访可以积累足够多的终点病例,支撑可靠的统计学分析。03326年随访数据的核心科研定位326年随访数据的核心科研定位长期队列随访的本质,就是给特定人群保留一份带时间维度的健康档案,它的核心价值就是回答“暴露因素经过多长时间、会产生什么样的长期健康效应”这个只有时间能回答的问题,这是任何模拟数据、短期研究都无法替代的。经过对26年随访数据核心价值的梳理,我们明确了这类数据的不可替代性,接下来,我将从实践角度介绍应用26年随访数据开展科研必须完成的前置准备工作,这是保障研究结果可靠的基础。226年随访数据科研应用的前置准备工作041原始数据的溯源清洗与标准化处理1.1分阶段数据的格式统一与信息补全26年随访的数据往往来自多个阶段,最初是纸质手写记录,后来是电子表格,再后来是标准化的关系型数据库,不同阶段的变量编码、格式都不一样,我见过很多初学者上来就直接把不同阶段的数据拼在一起用,结果因为编码规则不统一,近20%的核心变量出现错配,最后结果完全偏离真实情况。我们当初整理这组数据的时候,花了整整18个月,把所有纸质问卷重新双人双录,逐份核对研究者手写的修改批注,对因为档案搬迁丢失的3%的问卷,通过社区卫生服务中心的居民健康档案补回了其中85%的核心信息,最后才完成全队列的格式统一。对于不同阶段测量方法更新的变量,一定要做校正,比如我们入组前10年用水银血压计,要求休息10分钟测量,最近10年用经过校准的电子血压计,测量流程也做了微调,我们就用重叠测试的1000名对象的结果做了回归校正,把不同阶段的血压值统一到同一个参考标准上,这个步骤绝对不能省略。1.2失访数据的偏倚评估与处理26年随访不可避免会出现失访,我们这组数据现在总的失访率大概是28%,这个在全球长期队列里已经是非常好的结果,但失访带来的偏倚必须规范处理。首先要对失访原因做分层归类,我们通常把失访分成三类:第一类是研究对象终点死亡,第二类是迁出本地区失访,第三类是可联系但拒绝继续随访,不同失访原因的偏倚方向不一样,不能一概而论。然后根据研究问题选择合适的处理方法:如果失访是完全随机的,失访率低于10%,可以直接用完整病例分析;如果失访率在10%-30%,推荐用多重插补或者逆概率加权来校正偏倚;如果失访率超过30%,必须做敏感性分析,明确说明失访对结果可能带来的不确定性。1.3核心变量的一致性校验除了测量方法的一致性,还要注意终点定义的一致性,26年里我们对心梗、糖尿病这些终点的定义,从最初的WHO1985版标准更新到了2010版、2020版,开展研究时必须统一用同一个标准重新判定所有终点,不能把不同标准的终点混在一起统计,这是初学者最常犯的错误之一。052研究问题与数据资源的匹配性评估2研究问题与数据资源的匹配性评估不是所有科学问题都适合用本组26年随访数据来回答,拿到数据的第一件事不是着急跑回归分析,而是验证研究问题和数据资源的匹配性。2.1暴露变量的时间匹配性校验如果你要研究儿童期肥胖对成年心血管病的影响,我们这组数据是从35岁开始随访,没有儿童期的暴露数据,就不匹配,绝对不能硬做,强行做出来的结果也不可靠。2.2协变量覆盖的完整性评估如果你的研究需要控制居住地PM2.5的长期暴露,我们这组数据没有收集不同居住地的环境监测数据,那你要么通过公开环境数据库匹配对应地址的暴露信息,要么就要调整研究问题,不能故意漏掉关键协变量。2.3终点事件的样本量预估算哪怕是26年随访,如果你研究的是非常罕见的结局,比如青年早发卒中,累积的病例数可能只有几十例,不足以支撑可靠的统计分析,提前估算样本量,可以避免做无用功。063伦理与合规性准备3.1原始知情同意的范围核查当初入组时签署的知情同意,有没有允许二次分析,有没有允许使用留存的生物样本,这些都要提前核对,如果研究内容超出了原来知情同意的范围,必须重新提交伦理审查获批后才能开展。3.2数据的去标识化处理不管是自己使用还是合作研究,都必须去掉所有能识别研究对象身份的信息,保护参与者隐私,这是科研工作的底线。3.3知识产权与合作约定如果是公开共享的队列数据,要遵守原队列的成果署名约定,如果是合作获得的数据,要提前明确知识产权归属,避免后续成果产出时出现纠纷。完成所有前置准备工作后,我们就可以结合26年随访数据的特征,开展针对性的科研应用,接下来我将介绍目前最核心的几个应用场景和对应的方法指引。0726年随访数据的核心科研应用场景与方法指引081慢性病病因学研究中的因果推断1慢性病病因学研究中的因果推断这是长期随访数据最核心的应用方向,也是其他研究无法替代的。1.1生命历程流行病学的暴露临界窗识别我们团队前些年做过一项中年高血压暴露与老年痴呆风险的研究,就是利用26年的随访数据,把整个随访期分成45-55岁、55-65岁、65岁以上三个年龄段,分别分析不同年龄段的高血压暴露对痴呆风险的影响,结果发现45-55岁的高血压暴露,会让老年痴呆风险升高62%,而65岁之后的高血压暴露,校正混杂后没有统计学意义,这个结果给高血压防控的最佳干预窗口提供了本土证据,要是没有26年的长期随访,根本不可能得到这样的结论,当初我们整个组拿到结果的时候,都特别感慨时间给我们的馈赠。1.2累积暴露效应的剂量反应关系分析很多危险因素对健康的影响是长期累积的,不是单次测量就能反映的,比如我们做BMI累积暴露与2型糖尿病的关系研究,用每两年一次的BMI测量值,计算每个研究对象26年的累积BMI暴露量,结果发现累积BMI每升高10个单位年,糖尿病风险升高18%,这个结果比单次BMI测量的分析更准确,更能反映长期肥胖的真实效应,这也是只有长期随访数据才能做到的。1.3结合多组学数据的因果推断本组26年随访的数据留存了入组时的血样,目前已经完成了近5000例样本的基因型检测,我们可以用孟德尔随机化方法,进一步控制混杂和反向因果的影响,得到更可靠的因果效应估计,比横断面研究的关联结果可信度高得多。092疾病长期风险预测模型的开发与验证2.1适配本土人群的长期风险模型构建目前国内常用的心血管病风险预测模型,很多都是基于国外的短期随访数据开发的,不太适合中国人群的发病特征,我们利用26年的随访数据,开发了中国35岁以上人群心血管病20年风险预测模型,纳入了符合国人特征的危险因素,预测精度比引进的国外模型高12%左右,现在已经被多个省级疾控中心用于高危人群筛查。2.2长期随访数据的模型验证规范开发长期风险模型,不能用随机分割数据集的方法做内部验证,因为长期数据存在时间趋势,我们推荐用时间分割法,把前15年随访的数据作为训练集,后11年的数据作为验证集,这样得到的验证结果更符合真实应用场景,外部验证一定要用不同地区的独立队列,不能用同一个队列的子样本,不然会高估模型的预测效果。103公共卫生干预政策的长期效果评估3.1干预措施的滞后效应识别我们这个队列在1999年的时候,做过一项为期3年的社区高血压综合干预,当时纳入了2000名高血压患者作为干预组,2000名作为对照组,3年干预结束之后,我们只发现干预组的血压控制率升高了18%,当时大家都觉得这就是主要研究结果了,直到去年我们整理26年的完整随访数据,才发现干预组的20年后痴呆发生率比对照组低23%,卒中发生率低19%,这就是干预的长期滞后效应,短期评估根本不可能发现,这个结果也给社区高血压防控的长期收益提供了非常有力的证据,论文发表后也得到了公共卫生领域的广泛关注,那时候我真的感慨,长期随访的价值,就是时间给我们的礼物。3.2健康不公平的长期轨迹分析我们用26年的数据做过不同教育水平人群的健康差距研究,发现入组时教育程度在小学及以下的人群,26年后的心血管病发生率是大专及以上人群的2.3倍,而且这个差距从入组开始一直在扩大,不是短期内形成的,这个结果给健康扶贫、慢性病防控的资源倾斜提供了非常扎实的证据。114方法学研究的真实测试数据集4方法学研究的真实测试数据集现在很多新的统计学方法,比如时间依赖的因果推断方法、轨迹聚类方法、竞争风险模型,都需要真实的长期随访数据来验证方法的可靠性,模拟数据太过理想,反映不了真实数据的缺失、偏倚、测量误差等问题,本组26年的数据已经被国内三个方法学团队用来测试新的统计模型,都得到了非常有价值的结果,这也是长期随访数据对科研方法创新的重要贡献。26年随访数据虽然价值极高,但应用过程中也有很多容易踩的误区,接下来我将结合实践经验,梳理常见的误区和质量控制要点。121变量处理层面的常见误区1.1忽略长期随访的测量偏倚校正我们反复提到不同阶段测量方法、标准会发生变化,很多人拿到数据直接用,不做校正,最后结果偏倚很大,这是最常见的错误。1.2把时间依赖混淆当成固定协变量处理很多初学者分析暴露对结局的影响,把中间随访测量的协变量当成固定协变量放在模型里,没有用边缘结构模型或者时间依赖Cox模型处理,最后得到的效应估计是偏的,这个一定要特别注意。1.3过度相信失访插补的结果插补只是减少偏倚的手段,不是真的得到了真实数据,不管用什么方法插补,都必须做敏感性分析,比较完整病例分析和插补后的结果,看结果是不是稳定,如果结果差异很大,一定要明确说明研究的不确定性。132因果推断层面的常见误区2.1把关联直接推论为因果哪怕是长期随访数据,也存在未观测到的混杂,不能拿到阳性关联就直接说“某某因素导致某某疾病”,一定要措辞严谨,说明研究的局限性。2.2忽略竞争风险的影响研究长期结局的时候,很多研究对象会发生竞争事件,比如你研究糖尿病发生风险,很多研究对象在得糖尿病之前就因为心血管病死亡了,如果你不处理竞争风险,就会高估糖尿病的发生风险,得到错误的结论。2.3数据挖掘导致的多重比较偏倚26年随访数据变量多、时间点多,很多研究者不提前注册研究假设,到处做分组分析找阳性结果,这样得到的结果很多都是假阳性,一定要提前明确研究问题,校正多重比较,避免假阳性结果。143质量控制的核心要点3质量控制的核心要点第一,所有分析步骤都要留痕,26年的数据处理步骤多,一定要把每一步的清洗、校正、分析代码都保存下来,方便重复验证,也方便后续数据更新。第二,必须公开核心研究特征,发表论文的时候一定要明确写出随访时长、总失访率、不同组的失访率、数据处理方法,不能隐瞒这些关键信息,让同行判断结果的可靠性。第三,明确结果的外推范围,比如本组数据是北方城市社区的35岁以上人群,不能直接推广到南方农村人群,也不能直接推广到青少年人群,一定要说清楚研究结果的适用范围,这是科研诚信的基本要求。总结梳理完全流程的应用指引后,我们回到26年随访数据科研应用的核心本质:26年随访数据从来不是一堆存
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年白山市社区工作者招聘考试备考试题及答案详解
- 2026年楚雄市气象系统事业单位人员招聘考试备考试题及答案详解
- 2026广东江门市花木有限公司招聘1人考试备考试题及答案解析
- 能源经济职业发展路径
- 2026年二季度浙江台州市市直事业单位选聘考试备考试题及答案解析
- 2026年朝阳市卫生行政系统事业单位人员招聘考试备考试题及答案详解
- 2026内蒙古包头青山宾馆事业部招聘考试备考题库及答案解析
- 2026年东营市农产品检测中心人员招聘考试备考试题及答案详解
- 2026广东清远市阳山县医疗卫生共同体总医院招聘编外工作人员98人笔试备考题库及答案解析
- 2026恒丰银行西安分行社会招聘1人考试参考题库及答案解析
- 河南四市2025-2026学年高三5月质量检测(许济平洛四模)历史试卷
- 2026卢旺达旅游业开发潜力研究行业现状及行业发展
- 2026年纪律审查证据收集及谈话笔录制作与外查取证要求题库
- 2026四川成都市公共交通集团有限公司招聘储备人才等岗位备考题库含答案详解(突破训练)
- 2025西安建筑科技大学辅导员招聘考试真题
- AI赋能配电网数字化转型-从状态感知到智能决策
- 2026年中国宠物行业白皮书 消费版
- 2026年乡镇卫生院招聘考试题库及答案
- 运城运城市2025年市直事业单位选调23人笔试历年参考题库附带答案详解(5卷)
- 2026年云南省临沧市初中学业水平模拟检测数学试卷(含答案)
- 无人机组装与调试职业技能等级标准
评论
0/150
提交评论