版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
202X26年肿瘤登记随访数据对接指南演讲人2026-04-29XXXX有限公司202X对接开展前的核心准备工作01对接实施过程中的核心操作规范02对接后的质量控制与成果归档03目录我从事基层肿瘤登记随访工作已经近30年,全程参与了本地区从1998年启动全人群肿瘤登记以来,连续26年数据的积累、整合与多次对接工作。26年的长周期跨度,数据分散在纸质档案、单机Excel表格、不同版本的登记信息系统中,存在标准不统一、标识不一致、信息缺失断裂等诸多问题,我本人也经历过错配病例、丢失数据、标准错位等多个教训,逐步总结出了一套符合全人群肿瘤登记要求的对接规范。本文将从对接前准备、对接实施操作、对接后质控归档三个层面,循序渐进梳理全流程对接要求,为同领域工作者提供可落地的操作参考。XXXX有限公司202001PART.对接开展前的核心准备工作对接开展前的核心准备工作长周期数据对接的核心难点在于跨时间维度的标准差异与数据碎片化,正式对接前的准备工作是否充分,直接决定后续对接效率与数据质量,我历次对接的经验显示,准备阶段投入30%的工作量,能减少后续70%的纠错成本。1全周期原始数据的溯源梳理26年的肿瘤登记数据会存在多种存储形式,必须先完成全量收集与分类整理,不能遗漏任何一批原始数据。1全周期原始数据的溯源梳理1.1不同阶段数据的分类归集我地区1998-2005年的数据以纸质登记本为主,仅做了初步手工录入;2006-2015年的数据存储在多台工作单机的Excel文件中;2016年至今的数据存储在全国肿瘤登记中心统一的信息系统中。准备阶段首先要按年度完成全量归集,纸质档案要逐一拍照扫描留存电子副本,零散Excel文件要合并成初步的原始数据集,系统数据要按要求全量导出,所有原始数据不能直接修改,仅做只读备份,这是我吃过亏后定下的铁规则——早年我曾直接修改原始数据,后来发现错误已经找不到原始记录,这个原则必须坚守。1全周期原始数据的溯源梳理1.2核心身份标识的预标准化处理跨26年,居民身份标识存在明显变化:早期登记使用15位身份证号,部分农村患者仅登记了出生日期与户籍地,后期统一使用18位身份证号,还有部分患者改过姓名、换过身份证号。准备阶段首先要完成身份标识的初步统一:15位身份证号统一按规则升为18位,缺失身份证号的病例,要提前匹配本地区公安部门提供的户籍底册,尽可能补全核心身份信息,对确实无法补全的,标注清楚缺漏原因,不能留空。1全周期原始数据的溯源梳理1.3肿瘤分类编码的跨版本预映射26年间我国肿瘤登记先后使用过ICD-9、ICD-10、ICD-11三个版本的肿瘤分类编码,不同时期登记的相同肿瘤可能对应不同编码,同一编码也可能对应不同肿瘤分类。准备阶段要提前制作跨版本编码映射表,把所有旧编码统一转换成当前要求的ICD-10编码,对存在歧义的编码,提前整理出来,标记待复核,不能直接按默认映射转换,我曾碰到过把淋巴瘤编码错转换成良性肿瘤的情况,就是直接默认转换导致的错误。2对接规则的统一预设定正式对接前必须统一所有纳排、分类、判定规则,避免对接过程中规则摇摆导致的标准混乱。2对接规则的统一预设定2.1纳排标准统一明确本地区肿瘤登记的覆盖范围,26年间行政区划可能调整,要统一以当前的覆盖常住人口为标准,迁出区域的病例做好标注,划入区域的历史病例补充纳入,对非本地户籍的临时就诊病例,明确排除,不能混入本地人群数据。2对接规则的统一预设定2.2随访结局分类校准不同时期随访记录对结局的描述不统一,早期有的记录写“找不到人”“外出”,后期统一分为“存活”“死亡(肿瘤相关)”“死亡(其他原因)”“失访”四类,准备阶段要提前把所有旧的描述分类校准,明确失访的判定标准:最后一次随访后超过5年未获得结局信息,且无法联系到患者或家属,方可判定为失访,不能把短期未随访直接算作失访。2对接规则的统一预设定2.3核心时间节点判定规则统一明确发病日期以病理确诊日期为准,无病理诊断的以首次临床诊断日期为准,死亡日期以死亡证明或户籍注销日期为准,所有病例的时间节点统一按这个规则判定,避免同一个病例多个时间节点的混乱。3对接团队的分工与权责划分长周期数据对接工作量大,单靠个人完成很容易出现错漏,必须按环节分岗,明确权责:3对接团队的分工与权责划分3.1原始数据审核岗由熟悉本地区历史登记情况的工作人员担任,负责原始数据的溯源、缺漏信息排查,对所有存疑的原始记录提前核实,确保原始数据的准确性。3对接团队的分工与权责划分3.2数据对接操作岗负责具体的匹配、清洗、转换操作,严格按照预设规则开展工作,对所有修改做好记录,不能随意更改预设规则。3对接团队的分工与权责划分3.3质控复核岗由资深肿瘤登记人员担任,负责全流程的质量抽查,对匹配结果、清洗结果逐一复核,最终对数据质量负责。完成所有前期准备工作后,我们进入正式对接实施环节,这是整个对接工作的核心,直接决定最终数据的质量,接下来我结合多年实操经验,对核心操作规范逐一说明。XXXX有限公司202002PART.对接实施过程中的核心操作规范对接实施过程中的核心操作规范26年长周期数据对接的核心是实现分散数据的连续化、标准化整合,要按照从粗到细、先匹配后校正的顺序逐步推进。1多源数据的匹配对接多源数据匹配要分层次推进,不能一开始就用模糊匹配,避免错配率过高。1多源数据的匹配对接1.1核心标识精确匹配首先以18位身份证号为核心标识,对所有年度的病例做精确匹配,同一个身份证号对应多个病例的,先标记出来,待后续核实是否为重复登记,精确匹配能解决80%以上的匹配问题,效率最高,错误率最低。1多源数据的匹配对接1.2未精确匹配病例的模糊匹配对没有身份证号、身份证号错误无法精确匹配的病例,采用多维度模糊匹配:以姓名拼音、出生日期、性别、户籍地四个维度做相似度评分,相似度超过90%的标记为疑似匹配,所有疑似匹配的病例必须逐一人工核对原始档案,不能直接认定为同一病例。我早年就遇到过本地区同一个村子有两名同姓名、同出生日期的男性,先后都得了肺癌,模糊匹配直接认定为同一人,直到最后质控比对死亡日期才发现错误,所以模糊匹配后的人工复核是必须的,不能省略。1多源数据的匹配对接1.3未匹配病例的溯源排查对模糊匹配后仍然无法匹配的病例,要回到原始纸质登记本,查找患者的工作单位、家属姓名、住址等信息,联系社区卫生服务中心的防保人员协助核实,尽可能确认患者身份,确实无法溯源的病例,单独归档,不能强行匹配混入数据集。2时间维度的连续化校正匹配完成后,要对同一个病例的跨周期信息做连续化校正,保证信息的完整性与准确性。2时间维度的连续化校正2.1重复登记病例的剔除同一个病例多次登记是长周期数据中最常见的问题,患者先后在不同医院就诊,不同医院都会上报,就会出现重复记录。剔除规则为:保留信息最完整、确诊时间最准确的记录,剔除重复的疑似病例、补充报告的冗余记录,剔除后要保留所有原始记录的编号,标注清楚剔除原因,方便后续溯源。2时间维度的连续化校正2.2随访结局的动态校正同一个病例不同时期的随访结局可能不一致,比如早期记录为失访,后期通过全死因登记数据找到了死亡信息,要以最新的核实后的结局为准,更新结局与对应的时间节点,不能保留旧的错误结局,所有更新都要标注信息来源,比如“2022年全死因登记数据更新死亡日期”。2时间维度的连续化校正2.3疾病进展信息的整合部分病例随访过程中会出现复发、转移、第二原发肿瘤等情况,这些信息分散在不同年度的随访记录中,对接时要统一整合到同一个病例的信息中,不能只保留首次登记的信息,漏掉后续的进展信息,这些信息对肿瘤生存分析非常重要。3对接后的初步数据清洗匹配校正完成后,要对整体数据做清洗,处理异常值与缺失值,实现标准化。3对接后的初步数据清洗3.1异常值的识别与处理常见异常值包括:发病日期晚于死亡日期、年龄超过105岁、肿瘤编码不在现有分类范围内、性别编码错误等。对异常值,首先溯源原始数据,能修正的修正,无法修正的核心异常(比如发病日期晚于死亡日期),无法修正的标记为缺失,不能强行保留错误数据。3对接后的初步数据清洗3.2缺失值的分级处理对缺失值按核心程度分级处理:性别、出生日期、发病日期、肿瘤部位、随访结局这些核心字段缺失,必须千方百计溯源补全,确实补不全的才做缺失标注;吸烟史、家族史、治疗方式这些非核心字段缺失,直接标注缺失即可,绝对不能为了数据完整性随意填补,我之前见过为了好看,把所有缺失吸烟史都填为“不吸烟”,最后做出来的发病风险分析结果完全偏离实际,这个错误一定不能犯。3对接后的初步数据清洗3.3数据格式的标准化转换所有字段统一按照全国肿瘤登记中心的要求转换格式,日期统一为YYYYMMDD格式,分类变量统一用标准编码,数值型变量不能混入文本符号,最终输出符合要求的标准数据集格式。完成初步对接与数据清洗后,并不意味着对接工作结束,长周期数据的质量控制和长期归档,是对接工作不可或缺的收尾环节,直接决定数据能不能长期安全可用,接下来我们介绍对接后的质控与归档要求。XXXX有限公司202003PART.对接后的质量控制与成果归档1分层级的质量控制长周期数据对接必须建立三级质控体系,确保数据质量符合要求。1分层级的质量控制1.1一级操作复核由对接操作岗自行抽取不低于10%的病例,从匹配、编码、时间节点各个环节重新核对,错配率超过2%的,要重新梳理全量数据,错配率低于1%的才算合格。1分层级的质量控制1.2二级逻辑校验由质控岗对核心流行学指标做逻辑校验,计算各年度的发病率、死亡率、年龄段分布,和之前的趋势做比对,如果某一年度指标波动超过10%,要全面排查是不是漏报、重复登记或者对接错误,找到波动原因,不能直接保留异常结果。1分层级的质量控制1.3三级外部交叉验证把对接完成的数据和本地区全死因登记数据、医保报销数据、癌症筛查数据做交叉比对,计算漏报率,漏报率超过5%的,要补充排查未登记病例,重新对接,直到漏报率符合国家要求。2对接成果的安全归档26年的数据是非常宝贵的公共卫生财富,必须做好长期安全存储。2对接成果的安全归档2.1隐私保护处理公开存储和使用的数据必须按照个人信息保护法的要求做去标识化处理,去掉姓名、身份证号、具体住址、联系电话这些可识别个人身份的信息,仅保留内部研究用的唯一编码,原始标识信息单独加密存储,仅授权专人调取。2对接成果的安全归档2.2多介质异地备份我早年经历过工作硬盘损坏,丢失了三年的原始数据,花了半年时间才从纸质档案重新补录,这个教训让我定下了多备份的规则:原始电子数据和对接完成的数据,要同时做三份备份:单位本地服务器备份、异地离线硬盘备份、加密云备份,每一年都要检查备份的可用性,避免存储介质损坏导致数据丢失。2对接成果的安全归档2.3对接过程文档留存整个对接过程的所有文档,包括准备阶段的规则、对接过程的修改记录、质控的结果,都要整理成完整的对接报告,和数据一起归档,后续十年二十年哪怕当时做对接的人已经换岗,后来的工作人员也能清楚知道数据的来龙去脉,不会误用数据。3对接数据的应用拓展对接完成的26年连续数据,核心用途包括三个方面:一是为本地区肿瘤负担的长期监测提供基础,清晰呈现本地区不同肿瘤的发病死亡变化趋势;二是为肿瘤病因学研究、干预措施效果评价提供连续的研究数据,我地区之前完成的肺癌发病趋势研究,就是用这套对接完成的26年数据,结果明确显示控烟政策实施后肺癌发病增速的下降,为本地癌症防控提供了有力支撑;三是为本地癌症防控政策的制定、防控资源的分配提供科学依据。总结以上就是我结合26年肿瘤登记工作实践,梳理的长周期肿瘤登记随访数据对接的全流程规范。26年肿瘤登
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 瑞金社区工作者招考真题及答案2025
- 泰安市教师招聘笔试题及答案
- 遂宁市专职消防员招聘考试题及答案
- 绥化市专职消防员招聘笔试题及答案
- 剧本写作题库及答案
- 医学26年:糖尿病研究进展解读 查房课件
- 26年霍奇金淋巴瘤NGS检测落地细则
- 商丘市专职消防员招聘考试题及答案
- 踝部开放性损伤伴脱位护理查房
- 2026年生物制药质量CAPA管理工具应用:从合规到风险管理的实践指南
- 2026春统编版语文 24 大禹治水 教学课件
- 2026年高考英语作文高分全景备考体系:模板 + 万能句型 + 实战指南
- 拍卖公司绩效考核制度
- 2026及未来5年中国漆器工艺品制造行业市场行情动态及投资前景分析报告
- 2025年广东省职业病诊断医师考试(职业性化学中毒)在线题库及答案
- 2026年及未来5年市场数据中国福州市养老机构行业市场发展现状及投资规划建议报告
- 2026年中国化工经济技术发展中心招聘备考题库及1套完整答案详解
- 2026年中职3D打印技术基础试题含答案
- 2025年注册验船师资格考试(B级船舶检验专业基础安全)测试题及答案
- TCCIIA0004-2024精细化工产品分类
- 学生间的冲突与调解策略研究
评论
0/150
提交评论