流行病学的数据利用_第1页
流行病学的数据利用_第2页
流行病学的数据利用_第3页
流行病学的数据利用_第4页
流行病学的数据利用_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

流行病学的数据利用一、流行病学的数据利用:从“数据为本”到“价值凸显”的背景逻辑(一)流行病学的本质:以数据解码健康密码流行病学究竟是什么?有人说它是“公共卫生的望远镜”,有人说它是“疾病的侦探”——其实更准确的定义是:研究人群中疾病与健康状况的分布规律及影响因素,并据此制定防治策略的科学。而这一切的核心,就是“数据”。举个最简单的例子:要知道某地区肺癌的患病率,你得收集该地区所有医院的肺癌确诊病例数,再除以该地区的总人口数;要知道吸烟是不是肺癌的危险因素,你得对比吸烟者和不吸烟者的肺癌发病率——这些结论不是拍脑袋来的,是数据“说”出来的。可以说,没有数据,流行病学就失去了灵魂。我曾问过一位从业20年的疾控中心流行病学家:“你觉得流行病学最有成就感的时刻是什么?”他说:“当我用数据找出某场疫情的传播源,或者用数据证明某条干预策略有效时——那种感觉就像‘破解了一道拯救生命的谜题’。”没错,数据就是流行病学的“谜题线索”,而利用数据就是“解题的过程”。(二)时代之变:公共卫生需求与技术发展的双重驱动为什么现在“流行病学的数据利用”突然成了热词?答案藏在两个“变”里:第一,公共卫生需求的“升级”。过去,我们的公共卫生重点是“应对传染病暴发”(比如SARS、禽流感);现在,我们面临“传染病+慢性病”的双重挑战——慢性病(高血压、糖尿病、癌症)占我国居民死亡原因的80%以上,而传染病的输入性风险(比如新冠、猴痘)依然存在。要应对这种“全人群、全周期”的健康需求,传统的“经验型防控”已经不够了,必须靠“数据驱动的精准防控”。比如,要预防高血压,我们得知道“本地区哪些人是高危人群?(肥胖?高盐饮食?家族史?)”“哪些干预措施最有效?(减盐?运动?药物?)”——这些问题,只有数据能回答。第二,技术发展的“赋能”。过去,流行病学的数据处理靠“笔+计算器+Excel”;现在,大数据、云计算、人工智能来了——医院的电子病历、手机的定位数据、电商的销售数据(比如某地区口罩销量突然激增)、社交媒体的讨论数据(比如“最近感冒的人好多”),都能成为流行病学的“数据源”。比如,新冠疫情中,用手机定位数据追踪密接者的轨迹,用机器学习模型预测疫情的发展趋势,用大数据分析找到“疫情传播的关键节点”——这些都是技术给数据利用带来的“质变”。(三)现实之问:为什么数据利用成为流行病学的核心命题?有一次,我在某基层疾控中心调研,看到工作人员桌上堆着厚厚的监测报表——“这是上个月的传染病报告表,这是慢性病随访表,这是死因监测表”。我问:“这些数据都分析过吗?”他摇摇头:“太多了,没时间做深入分析,能完成上报任务就不错了。”这其实是很多地方的现状:数据“收集了”,但没“用起来”。而我们面临的现实问题是:

-要预测流感暴发,需要“实时的监测数据+历史的流行规律数据”;

-要制定糖尿病干预策略,需要“本地区的患病率数据+高危因素数据+干预效果数据”;

-要应对输入性传染病,需要“全球的疫情数据+本地的人口流动数据”。如果这些数据只是“躺在硬盘里”,而不是“活起来”,流行病学就无法发挥“预防为主”的作用——这就是为什么我们必须强调“数据利用”:数据的价值,在于被使用,而不是被存储。二、流行病学数据利用的现状:成绩与痛点并存(一)数据来源的“多元化”:从传统监测到“万物皆数据”现在的流行病学数据,早已不是“单一的监测报表”,而是“多源数据的融合”:1.常规监测数据:“打底子”的基础数据

这是最传统的数据源,包括:

-法定传染病报告系统:每一家医院都要向疾控中心报告法定传染病(比如新冠、乙肝、肺结核),这是我们掌握传染病流行情况的“基本盘”;

-慢性病监测系统:比如高血压、糖尿病的随访数据,记录患者的血压/血糖控制情况、服药情况;

-死因监测系统:通过死亡证明收集居民的死亡原因(比如“死于脑卒中”“死于肺癌”)。2.专题调查数据:“针对性”的深度数据

比如全国卫生服务调查(每5年做一次),通过问卷调查了解居民的健康状况、卫生服务需求(比如“过去一年有没有去过医院?”“有没有买过慢性病药物?”);再比如队列研究(比如追踪某一群人几十年,观察他们的健康变化),比如英国的“白厅研究”,追踪了1万多名公务员的健康状况,发现“工作压力大的人更容易得冠心病”——这些数据能帮我们找到“疾病的根本原因”。3.大数据:“无孔不入”的新型数据

这是最近几年最火的数据源:

-医院电子病历(EMR):包含患者的诊断、检查结果、治疗方案,能帮我们分析“某类疾病的治疗效果”;

-手机定位数据:比如新冠疫情中,用手机的GPS数据追踪密接者的轨迹,快速找到“谁和确诊病例接触过”;

-电商数据:比如某地区的体温计销量突然增加3倍,可能提示“流感要暴发了”;

-社交媒体数据:比如微博、微信上“感冒”“发烧”的关键词突然增多,能帮我们“早期预警”传染病流行。(二)数据利用的“场景化”:从应急响应到日常防控的延伸数据利用的价值,藏在一个个“具体的场景”里:场景1:应急响应——疫情中的“数据战”

新冠疫情是数据利用最“出圈”的场景。比如:

-实时追踪:用手机定位数据+传染病报告数据,快速找到密接者(比如“确诊病例昨天去过超市,我们要找到所有当时在超市的人”);

-模型预测:用SEIR模型(susceptible-暴露-exposed-感染-infected-康复-recovered)预测疫情的发展趋势,比如“未来7天某地区会新增100例确诊病例”,提前储备医疗资源;

-资源分配:用确诊数+人口密度数据,把口罩、呼吸机分配到最需要的地方(比如“某区确诊数最多,先给他们发10万只口罩”)。场景2:日常防控——慢性病的“精准管理”

比如某地区的慢性病监测数据显示:“本地区高血压患病率是25%,其中60岁以上老人的患病率是40%,而且80%的患者盐摄入量超标”——于是,疾控中心开展了“减盐行动”:在社区举办“低盐饮食讲座”,给居民发“盐勺”(每勺2克盐),还和超市合作,推广“低钠盐”——一年后,该地区高血压患者的盐摄入量下降了30%,血压控制率提高了20%。场景3:健康促进——“治未病”的提前干预

比如某小学的体检数据显示:“30%的学生视力低下,20%的学生肥胖”——于是,学校开展了“护眼行动”(每天做眼保健操,减少手机使用时间)和“运动计划”(每天下午增加1小时户外活动),一年后,学生的视力低下率下降了10%,肥胖率下降了8%——这就是数据利用的“预防价值”:在疾病发生之前,就把风险“扼杀在摇篮里”。(三)数据利用的“痛点”:那些未被解决的现实困境虽然成绩不少,但数据利用依然有很多“堵点”:1.数据“散”:信息孤岛严重

比如某地区的医院和疾控中心“数据不通”——医院的电子病历数据存在自己的系统里,疾控中心要查某患者的传染病史,得打电话给医院要,医院再导出Excel表格发过去,往往要花1-2天时间;再比如公安的人口数据和疾控的监测数据不通,疾控中心不知道“本地区有多少流动人口”,导致传染病监测“漏网”(比如流动人口中的传染病患者没被统计到)。2.数据“乱”:标准不统一

比如某地区的慢性病监测数据,有的医院用“高血压”,有的用“原发性高血压”,有的用“高血压病”——疾控中心整理数据时,得手动把这些名称归成一类,容易出错;再比如年龄的记录,有的医院写“35岁”,有的写“1988年出生”,有的写“35”(没写单位)——数据格式不统一,根本没法做统计分析。3.数据“废”:利用效率低

很多地方的data是“收集了但不用”:比如某疾控中心有10年的流感监测数据,但只做了“每年的患病率统计”,没分析“流感的流行规律”(比如“每年11月是流感高发期”),也没做“预测模型”——结果,某一年11月流感突然暴发,疾控中心没提前准备疫苗,导致很多人发病。4.数据“险”:隐私保护难

比如某医院把患者的电子病历数据上传到云端,结果被黑客攻击,泄露了1万多名患者的姓名、身份证号、诊断结果——这不仅侵犯了患者的隐私,也让公众对“数据利用”产生了不信任;再比如,用手机定位数据追踪密接者,可能会泄露个人的出行轨迹(比如“某人昨天去了酒吧”),导致被网暴。三、数据利用困境的深层分析:从“信息孤岛”到“能力短板”的根源(一)数据管理的“碎片化”:标准不统一与共享机制缺失为什么数据会“散”?核心原因是“没有统一的管理体系”:

-不同机构有不同的“数据标准”:医院用的电子病历系统是厂商开发的,每个厂商的格式都不一样;疾控中心用的监测系统是自己开发的,和医院的系统“不兼容”;

-没有“共享的制度保障”:比如,没有法律规定“医院必须把传染病数据共享给疾控中心”,有的医院怕“泄露患者隐私”,有的怕“影响自己的利益”(比如担心数据被用来考核),所以不愿意共享;

-缺乏“共享的技术平台”:很多地方没有统一的数据共享平台,数据传输靠“邮件+Excel”,效率低还容易出错。(二)技术能力的“不平衡”:传统方法与大数据的碰撞为什么数据利用效率低?因为“技术能力跟不上数据的增长”:

-基层人员“不会用”:很多基层疾控人员只会用Excel做“求和、平均数”,不会用回归分析找“影响因素”(比如“为什么某地区的高血压患病率高?是因为盐吃得多还是运动少?”);更不会用机器学习、大数据分析工具(比如Python、R语言);

-先进技术“不落地”:高校和企业开发了很多“高大上”的模型(比如流感预测模型),但这些模型需要“实时的监测数据”“精准的人口数据”,而基层没有这些数据,导致模型“没用武之地”;

-技术与需求“脱节”:有的企业开发模型时,没和疾控人员沟通,模型的“输出结果”不是疾控人员需要的(比如模型预测“未来一周会有流感暴发”,但没说“需要储备多少疫苗”)。(三)意识与制度的“滞后性”:从“重收集”到“重利用”的观念转变为什么很多数据“躺在硬盘里”?因为“观念没跟上”:

-“重收集,轻利用”:很多公共卫生机构把“收集数据”当成“任务”,认为“只要上报了就行”,没人去想“这些数据能用来做什么”;

-制度“没激励”:比如绩效考核只考核“数据上报的及时性”,不考核“数据利用的效果”——工作人员自然没有动力去做深入分析;

-领导“不重视”:有的领导认为“公共卫生就是‘扫扫健康码、打打疫苗’”,不知道“数据利用能帮我们省钱、省时间”(比如提前预测流感暴发,能减少医疗费用支出)。(四)隐私与安全的“平衡难”:数据利用的“紧箍咒”为什么有的机构“不敢用数据”?因为“怕踩隐私的红线”:

-法律“管得严”:《个人信息保护法》规定“处理个人信息要取得个人同意”,但流行病学的数据往往是“批量处理”(比如分析1000名高血压患者的数据),不可能一个个去问“你同意我用你的数据吗?”;

-隐私“易泄露”:比如数据存储在服务器上,容易被黑客攻击(比如2021年某医院的电子病历数据被黑客窃取,泄露了10万多名患者的信息);

-公众“不信任”:有的公众认为“数据会被用来做坏事”(比如卖给保险公司,提高保费),所以不愿意配合数据收集(比如不愿意填写健康问卷)。四、提升数据利用效率的核心措施:从“破局”到“融合”的路径(一)统一标准:让数据“会说话”的基础要解决“数据乱”的问题,首先得“统一语言”——制定全国统一的公共卫生数据标准:

-数据元标准:比如,“高血压”的诊断名称统一用“原发性高血压”(ICD-11编码:I10),“年龄”统一用“周岁”,“地址”统一用“省-市-区-街道”的格式;

-数据质量标准:比如,法定传染病的漏报率不能超过5%,错报率不能超过2%;慢性病随访数据的“完整率”要达到90%(比如100名患者中,90名有完整的随访记录);

-数据格式标准:比如,所有数据都要存成“CSV格式”(一种通用的文本格式),方便不同系统之间的传输。举个例子:以前某地区的疾控中心要整合3家医院的传染病数据,得花3天时间整理(因为每家医院的格式都不一样);现在统一了标准,只要1小时就能把数据导入系统——标准统一了,数据才能“打通”。(二)打通壁垒:构建跨部门的数据共享生态要解决“数据散”的问题,必须“打破信息孤岛”:

-建平台:由卫生健康委牵头,建一个“公共卫生数据共享平台”,整合疾控中心、医院、公安、交通、市场监管等部门的数据——比如,公安的人口数据(知道“本地区有多少流动人口”)、交通的卡口数据(知道“有多少人从疫情地区来”)、市场监管的“超市销售数据”(知道“某地区的口罩销量有没有增加”),都能放到这个平台上;

-定规则:明确“哪些数据可以共享”“怎么共享”“谁有权限访问”——比如,“传染病确诊数据”可以共享给疾控中心和卫生健康委,但不能共享给企业;“人口数据”可以共享给疾控中心,但要去掉“姓名、身份证号”等个人信息;

-给激励:对“积极共享数据的机构”给予奖励(比如经费支持、表彰),对“不共享的机构”进行问责(比如扣绩效考核分)。比如某省的“公共卫生数据共享平台”,整合了10个部门的数据,在新冠疫情中,疾控中心用这个平台“1小时内找到所有密接者”——数据共享了,效率才能提升。(三)技术赋能:用“智慧工具”激活数据价值要解决“不会用”的问题,必须“提升技术能力”:

-培训基层人员:开展“流行病学数据分析”培训,比如教基层人员用R语言做“回归分析”,用Python做“大数据可视化”,用Excel做“数据透视表”——比如某疾控中心的培训,让基层人员学会了用“数据透视表”快速计算“不同年龄组的高血压患病率”;

-开发“傻瓜式”工具:和企业合作,开发“简单易用”的分析工具——比如“流感预测小程序”,基层人员只要输入“本周的流感确诊数”“本地区的人口数”,就能自动生成“未来一周的流感暴发风险”;

-引入“外脑”:和高校、科研机构合作,开展“数据利用研究”——比如某疾控中心和某大学合作,用“机器学习模型”分析电子病历数据,发现“某类药物对糖尿病患者的肾损伤更小”,于是把这个结论写进了“糖尿病治疗指南”。(四)质量管控:让数据“靠谱”是利用的前提要解决“数据质量差”的问题,必须“把好数据的入口关”:

-两级审核:比如,医院的医生上报传染病数据后,医院的“公共卫生科”要审核一遍(比如“有没有漏报?有没有错报?”),然后疾控中心的工作人员再审核一遍;

-自动预警:用人工智能技术“监测数据异常”——比如某地区的流感确诊数突然增加10倍,系统会自动报警,提示工作人员“快去核查,是不是有暴发?”;

-定期评估:每季度开展“数据质量评估”,比如检查“漏报率”“错报率”,对数据质量差的机构“责令整改”(比如某医院的漏报率达到10%,疾控中心会要求他们“重新核查所有病例”)。(五)隐私保护:在“利用”与“安全”之间找平衡要解决“不敢用”的问题,必须“保护隐私”:

-匿名化处理:去掉数据中的“个人标识符”(比如姓名、身份证号、手机号),只保留“性别、年龄组、地区”等聚合信息——比如分析“某地区的糖尿病患病率”,用“18-44岁女性”“45-59岁男性”这样的分组,而不是“张三(女,30岁)”;

-差分隐私技术:在数据中加入“少量噪声”(比如把“某患者的血糖值是7.0mmol/L”改成“7.1mmol/L”),让黑客“无法识别个人信息”,但不影响“总体分析结果”(比如“本地区糖尿病患病率是10%”还是准确的);

-明确“公共利益”边界:只有“为了公共卫生目的”(比如疾病监测、预防干预)才能使用个人数据,不能用于“商业目的”(比如卖给保险公司)。五、数据利用的实践指导:让每一份数据都“用对地方”(一)对公共卫生机构:建立“全流程”的数据利用体系公共卫生机构的“数据利用”,要走“收集-清洗-分析-反馈”的全流程:

-收集:明确“要什么数据”——比如要研究“某地区的肺癌患病率”,就得收集“该地区所有医院的肺癌确诊数据”“该地区的总人口数据”;

-清洗:去掉“异常值”(比如“年龄150岁”的记录)、“重复值”(比如同一个患者被报了两次)、“缺失值”(比如“没有诊断结果”的记录)——比如某疾控中心的“数据清洗”,把1000条数据中的50条异常值去掉,保证数据的准确性;

-分析:用“合适的方法”——比如描述性统计(算患病率、发病率)、分析性统计(找影响因素)、模型预测(预测暴发);

-反馈:把分析结果“告诉需要的人”——比如把“流感暴发预测”反馈给卫生健康委(让他们准备疫苗),把“高血压高危人群名单”反馈给社区卫生服务中心(让他们开展干预),把“健康提示”反馈给公众(比如“最近流感高发,要戴口罩”)。(二)对基层:用“接地气”的方法挖掘数据价值基层的“数据利用”,不用“高大上”,要“实用”:

比如某社区卫生服务中心的“高血压管理”:

-收集“本社区500名高血压患者的随访数据”(包括血压值、盐摄入量、运动情况);

-用Excel做“数据透视表”,发现“60岁以上的患者中,70%盐摄入量超标”;

-开展“减盐干预”:给这些患者发“盐勺”(每勺2克),举办“低盐饮食讲座”,上门测量血压;

-3个月后,这些患者的盐摄入量下降了25%,血压控制率提高了18%——基层的“小数据”,能解决“大问题”。(三)对研究者:探索“跨领域”的数据融合研究研究者的“数据利用”,要“融合多源数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论