医疗大数据分析应用平台_第1页
医疗大数据分析应用平台_第2页
医疗大数据分析应用平台_第3页
医疗大数据分析应用平台_第4页
医疗大数据分析应用平台_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医疗大数据分析应用平台医疗大数据分析应用平台产品解决方案(初稿)本应用平台产品的总体方案思路是:基于目前医疗服务机构及相关机构已有的 HLI、NHLI、HIS 等有关系统形成并积累的医药医疗大数据和信息,采用最新的大数据技术、云计算技术、BI 和数据挖掘技术,形成对医疗行业具有新视角、全方位、智能性、预测性、可视性的深层次展示分析效果(Insight) ,揭示医疗行业整体规律和内在发展趋势,揭示患者个体的独有特质并形成个性医疗,将医疗行业的宏观大势与每个患者的微观个体定性定量描述有机结合,达到支撑和形成医疗行业新应用场景和新服务模式。 “医药医疗大数据”是具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,但需要新计算处理模式。1. 背景介绍根据国际著名分析机构 Gartner 给出的定义:大数据就是那些具有规模大、速度快、种类多三大特征的数据资产。大数据分析从海量数据中筛选出有用的信息,然后通过各种手段将信息转化为洞察力,从而做出正确决策,并最终推动业务发展。通过一系列分析处理,大数据可以帮助企业制定明智且切实可行的战略,获取前所未有的客户洞察,支持客户购买行为,并构建新的业务模式,进而赢得竞争优势。随着人们的生活水平不断提高,健康也越来越受到家庭的关注。2009 年 2 月 27 日,我国卫生部公布的第四次国家卫生服务调查结果显示,截止至 2008 年,我国居民脑血栓,糖尿病,高血压等慢性病病例数达到 2.6 亿,占全国总人数的 20%,其中高血压病人对自身疾病的知晓率只有 30%,同时这些病人中的治疗率只有 25%,控制率仅为 6%,糖尿病病人中,能坚持做到规范治疗的也只有 33%。由此我们可以看出,建立科学、规范、高质量的慢性病管理策略,实现对人体慢性病的监护具有重大的意义。通过慢性病的早期诊断和监护,不仅能提前预防和控制各种疾病,还能帮助他们合理用药,减少医药开支。另一方面,我国公共医疗卫生资源紧缺,城乡医疗卫生资源的差距比较大,城市人口平均拥有的医疗卫生资源是农村人口的 2.5 倍以上,比如,占全国总人口近 70%的农村拥有全国医疗卫生资源的 30%,而占全国总人口 30%的城市却占有全国医疗卫生资源的 70%,优质的医疗卫生资源集中分布在城市,尤其是大城市。因此,实现城乡之间的医疗卫生资源共享成为丞待解决的重要问题。同时,随着国家积极倡导“3521”医疗系统建设,我国医疗领域信息化程度得到了很大的提高,预计在全国会出现上百个医疗数据中心,每个数据中心都将承载近 1000 万人口的医疗数据,数量多、更新快且类型繁杂,使医院数据库的信息容量不断膨胀,这就产生了医疗大数据。医疗大数据通常具有以下特征:(1) 数据巨量化: 区域医疗数据通常是来自于拥有上百万人口和上百家医疗机构的区域,并且数据呈持续增长的趋势。依照医疗行业的相关规定,患者的数据通常至少需要保留 50 年。(2) 服务实时性: 医疗信息服务中会存在大量在线或实时数据分析处理的需求。例如: 临床中的诊断和用药建议、健康指标预警等。(3) 存储形式多样化: 医疗数据的存储形式多种多样,例如各种结构化数据表、非( 半) 结构化文本文档、医疗影像等。(4) 高价值性: 医疗数据对国家乃至全球的疾病防控、新药研发和顽疾攻克都有着巨大的作用。因此,如何在海量的医疗大数据中提取信息的能力正快速成为战略性发展的方向,通过大数据分析挖掘出有价值的信息,将对疾病的管理、控制和医疗研究都有着非常高的价值。目前,大数据、云计算是已经普及并成为 IT 行业的主流技术。国内外都已经进入了大数据、云计算的研究热潮,同时大数据、云计算技术也逐渐成熟,大规模区域医疗信息系统和大型数据中心的建立也在同时进行。而云计算是大数据成长的驱动力,与此同时,由于医药医疗大数据越来越多,对云计算的需求日益增长,所以二者是相辅相成的。随着医疗数据的急剧增长,如何充分利用这些数据,运用大数据、云计算技术,搭建合理先进的数据云服务平台,为广大患者、医务人员、科研人员提供服务和协助,必将成为未来信息化工作的重要方向。“大数据时代”已经降临, “大数据”正在对每个领域都造成影响。在商业、经济及其他领域中,决策行为将日益基于数据和分析的结果,而非基于经验和直觉;而在公共卫生、经济发展和经济预测等领域中, “大数据”的预见能力也已经崭露头角。2012 年 3 月,美国政府公布了 “大数据研发计划” (Big Data Research and Development Initiative) 。该计划的目标是改进人们从现有的海量和复杂的数据中获取知识的能力。其中,与医疗卫生领域相关的有生物传感 2.0、虚拟实验室环境(VLE ) 、癌症基因组图谱(TCGA)、神经科学信息框架(NIF)、患者报告结果测量信息系统(PROMIS) 等 10 余项。2014 年美国的公共数据开放项目 OpenFDA 上线之后,先导项目开放了 “300 万份药物不良反应报告” ,这些数据是 2004 至 2013 年间被提交给 FDA 的药物不良反应和医疗过失记录。对医疗机构来说,不良反应和医疗过失记录起到的是长远的贡献作用,能减少医疗悲剧的重现。根据我国居民第三次死因调查报告显示,脑血管病已成为居民的第一死因。脑卒中发病率正以每年 8.7%的速率上升,我国每年用于治疗脑血管病的费用约在 100 亿元以上。2014 年,GE 医疗中国联合国家卫生计生委脑卒中防治工程委员会(脑防委)启动了“脑卒中行动 ”合作战略。GE 医疗“脑卒中行动”的法宝之一就是大数据。尤其是 GE 构建的三级筛查网络,对双侧内膜增厚的高危人群检出率提升了近 10%。GE 搭建的脑卒中信息管理系统可以与医院 Lis 和 His 系统全面对接,记录患者的基本信息、初筛信息、复筛信息、用药信息、实验室检查、体格检查信息及其随访信息等,全面跟踪患者的诊治流程。还可以与PACS 系统对接,全面记录患者的影像学信息,实现患者影像信息的共享。同时,可对患者全流程疾病影像信息回顾,减少患者重复检查的负担,协助医生对患者疾病信息的全面判断。在上述这些大背景下,本公司提出并计划研发“医疗大数据分析应用平台”(以下简称“本平台” )产品,以期为我国医疗卫生实现数字医疗、智慧医疗、健康医疗发挥重要作用。从而达到:服务模式(以患者为中心,形成居民健康全过程服务) ,从被动到主动;医疗模式(以预防为主,人人享有基本医疗卫生服务,将医疗卫生工作重点由后治前移到预防保健) ,从治病到防病;诊疗模式(避免各自为政,实行上下联合,专业分工) ,从排斥到联动;数据模式(从业务系统数据向整体数据转变,改变过去的数据不统一、不互通、不共享) ,从隔离到整体;技术模式(采用各种新技术手段,包括大数据、云计算、物联网、移动互联等,形成技术合力) ,从简单到综合的转变。2. 产品愿景形成充分发挥大数据技术的,针对医疗医药行业的,能充分适应医疗卫生信息特征的大数据分析应用支撑平台,通过大数据分析,达到发现知识、发现规律、预测未来,将医疗卫生行业推进进入大数据时代提供技术可行性。3. 产品定位本平台以医疗卫生行业的整体数据架构(数据模型、数据构成、数据关系)为基础和标准,以对应的医疗卫生业务数据为输入,通过大数据技术,形成针对医疗卫生行业中不同机构、角色和业务活动的智能化应用,因此本平台不是代替已有医疗卫生信息化系统,而是在多个方面强化已有医疗卫生信息化系统,包括任意查询、即兴分析、业务增强、规则约束、预测未来、发现知识,并提供互动性、及时性、预知性、洞察性,从而达到实现智慧医疗的目标。3.1 解决的问题当前医疗卫生信息化建设的主要问题是各个区域内不同医疗机构中患者的基础信息和各种临床信息资源分散、重复、孤立,导致有效信息闲置、信息重复或不一致,很难得到有效利用。通过本平台实现国家医疗卫生信息化规划中“4631-2”的三大基础数据库,即电子健康档案数据库、电子病历数据库和全员人口个案数据库的应用落地;通过本平台实现智慧医疗的核心部分,即医疗卫生服务体系的智能化,使医疗卫生的各种应用提升水平;通过本平台为“看病难、看病贵”的解决提供科学定量判断依据、对比分析依据和方案效果评价依据;3.2 达到的效果本平台预期部署到云平台上运行,采用 SOA 的理念进行架构开发,通过分层将公共大数据算法模型封装为服务,对业务应用提供服务,同时平台业务应用也是服务的形式存在,即应用单位不再需要购买部署自己的服务器硬软件环境,只需要开通相应服务就可以了。各个应用单位根据自己的业务需要定制服务,平台支持“开通即用”服务模式,为实现业务应用集成,本平台将对外支持 Web Service 方式的接口服务。本平台希望将医疗卫生的智慧功能应用普及到业务角色和过程的方方面面,包括医生(包括专科医生、全科医生、保健医生等) 、患者(包括慢性病患者、潜在患者等) 、管理者(包括医疗管理者、医疗保险管理者、医药监管管理者、公共卫生管理者等) 、医药经营者(药品研发、药品生产、药品物流、药品零售等)以及商业医疗保险经营者(健康险、大病险、医疗意外险等) 。4. 产品理念医疗卫生、健康保健、医药器械形成的海量数据就象一座待开发的金矿,利用大数据技术、云计算技术、物联网技术和便携设备技术的最新成果,将给医疗卫生事业带来全新革命性的改变,明显解决看病难和看病贵的问题,达到医疗卫生资源配置分布合理、大病小病治疗各司其职、疾病预防治疗有机结合、公民健康保健全过程覆盖。5. 总体思路通过建立医疗卫生大数据的统一标准和规范,形成可被相关业务应用所利用的医疗卫生大数据源和交互机制,在此基础上,首先形成专题大数据应用,这些应用具有跨部门和组织机构的通用性,并具有良好的稳定性,因为这些应用是面向医疗卫生专题的;基于专题大数据应用,根据医疗卫生相关部门和组织机构的业务要求,可开发形成各种业务大数据应用,并且随着平台的推广,积累的医疗卫生业务大数据应用的实例将会越来越多,并最终形成不同方向的最佳应用样例。个人 个人生命全周期个人疾病全周期 个人 健康 全周期医生 医疗卫生服务药品医药供应链诊断处方治疗招投标采购物流 支付个 人 ( 患 者 、 亚 健 康 )医 疗 卫 生 服 务 机 构医 药 生 产 经 营 企 业医 疗 卫 生 管 理 机 构医 疗 保 险 机 构公 共 卫 生 服 务 机 构医 药 监 管 机 构患 者 分 析疾 病 分 析用 药 分 析费 用 分 析健 康 分 析药 品 分 析安 全 风 险 分 析资 源 分 析效 果 分 析医疗卫生 大数据源 专题大数据应用 业务大数据应用5.1 对接数据源,获取医疗卫生大数据医疗卫生大数据中心为本平台进行医疗卫生大数据分析提供数据源,但不在本平台范围内,并平台只是开发提供一套与该数据中心的数据读取接口,并具有监控数据读取情况汇总统计和异常提示功能。该数据中心的定位:整合区域内不同医疗机构中患者/健康人群的各种临床诊疗数据、健康数据,在相对集中的逻辑/物理环境中,构建一个以存储和处理患者/健康人群诊疗信息为核心,覆盖多学科、多专业的面向区域内主要卫生行政主管部门、临床医疗机构和社会公众的医学(医药、医疗、健康)信息资源共享机制-区域性医学数据中心。区域性医学数据中心的建设以行政业务处理、医疗、预防、保健、康复为服务主线,以健康人群和患者的医疗活动需求为基础。区域卫生数据中心通过制定标准的数据接口,建立基于广域网的信息交换、数据采集和传输机制,对区域内医疗卫生信息数据进行采集、传输、清洗和汇总,将医院、社区、医药企业以及公共卫生机构的各类数据、系统有机地整合起来,生成区域的卫生大数据。5.2 对获取的医疗卫生大数据预处理机制医疗卫生大数据预处理主要完成对已接收数据的辨析、抽取、清洗等操作,目的是将数据按统一的格式提取出来,然后再转化,集成,载入数据仓库的工具 (ETL ) 包括:抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的;清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项。 因此要对数据通过过滤“去噪”从而提取出有效数据。5.3 建立医疗卫生大数据的存储机制虽然关系型数据库系统(RDBMS)在安装和使用上仍然占有主要地位,但毋庸置疑,非关系型数据库 NoSQL 技术已经成为今天发展最快的数据库技术。NoSQL是对数据库系统的总称,在某种程度上,它的性能和用途可能完全不同。目前除了关系型数据库外,还主要存在有以下四种 NoSQL 数据管理系统:键值数据库:当数据以键的形式访问时,比如通过国际标准书号 ISBN 找一本书,键值数据库是最理想的。在这里,ISBN 是键,书籍的其他信息就是值。必须知道键才能查询,不过值是一堆无意义的数据,读取之后必须经过翻译。文档数据库:该数据库以文档的形式管理和存储数据。有点类似于键值数据库,但文档数据库中的数据有结构。与键值数据库中值是一堆无意义的数据不同,文档数据库中数据以文档的结构被描述,典型的是 JavaScript Object Notation (JSON)或 XML。文档存储数据库中的数据可以通过定义的任何模式进行查询,但键值数据库只能通过它的键进行查询。列式数据库:也被称为列式存储或宽列存储,一改之前行式存储的方式,对数据进行列式存储。在传统关系型数据库中,数据经常以行来访问。以列式管理记录的 NoSQL 数据库可以管理大规模的动态列。因为没有固定的模式,所以列名和键可以变换。列式数据库适用于不经常写的情况,要满足 ACID(原子性、一致性、隔离性和持久性)的要求并不难,而且模式是变化的。图型数据库:图型数据库关注值与值之间的关系,用图型的数学概念存储数据。图型数据库用带有点、边缘和属性的图的结构表示和存储数据。在图型数据库中,每一个元素都包含一个直接的指向它毗邻元素的点,所以也就不需要索引查找。每个种类的 NoSQL 数据库都有适用的不同类型的应用程序和用例,这就涉及到一个 NoSQL 社区常用的一个话题,即多样持久性,或者说根据数据库处理应用程序需求的不同,使用不同的数据库系统,用于不同的应用程序和用例。5.4 医疗卫生大数据的处理和分析算法分类和形成 技术分类方法 根据挖掘任务:分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等; 根据挖掘对象:可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网 Web; 根据挖掘方法:可分为:机器学习方法、统计方法、神经网络方法和数据库方法。 主要处理和分析技术 预言处理:用历史预测未来; 挖掘规律处理:了解数据中潜在的规律; 关联分析:查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构; 序列模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论