医疗大数据解决方案.doc_第1页
医疗大数据解决方案.doc_第2页
医疗大数据解决方案.doc_第3页
医疗大数据解决方案.doc_第4页
医疗大数据解决方案.doc_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

. 方案文本部分内容来源于网络,有侵权请联系删除! 医疗大数据解决方案 与信息系统的耦合度为零的数据才是合格的大数据与信息系统的耦合度为零的数据才是合格的大数据 全国 97.8 万家医疗机构的信息系统基本上都是用关系数据库而建立的,然 而要对关系数据库中的数据进行挖掘非常困难。大数据并不是小数据之和,关 系数据库系统不适合处理大数据。发明专利技术(发明申请号 201310495041.8)医学信息的结构化存贮方法非常适合处理医疗大数据。 . 方案文本部分内容来源于网络,有侵权请联系删除! 目目 录录 医疗大数据解决方案 .1 第第 1 章章 概要概要.4 1.1 名词定义.5 第第 2 章章 医医疗疗大数据面大数据面临临的挑的挑战战.7 2.1 医疗大数据与医院信息系统之间的具有本质的差异.7 2.1.12.1.1 小问题放大万倍就会大的吓人.9 2.2 医疗大数据面临八大难题 .10 2.3 国家大数据标准工程堪比“两弹一星”.14 2.4 医疗行业的信息系统顶层设计为何难产.15 2.5 大数据挖掘中的问题:大数据的关键不在于大而在于如何挖掘.16 2.5.12.5.1 我国医疗行业每年产生多少数据.16 2.5.22.5.2 挖掘关系数据库系统所产生的医疗数据非常困难.17 2.5.32.5.3 仅患者与数据的对应关系就是一个大问题.18 2.6 关系数据库理论的致命伤 .19 2.6.12.6.1 关系数据库中的数据在大数据环境中为何变成无意义的数据.19 2.6.22.6.2 关系数据库系统是一种完全封闭的系统:外来数据无法入住.22 2.6.32.6.3 关系数据库中的数据与数据系统密不可分.22 2.6.42.6.4 关系数据库中的数据与数据结构密不可分.23 2.6.52.6.5 关系数据库中的数据与应用程序密不可分.23 2.6.62.6.6 关系数据库中的数据一旦脱离相应的系统就成了无意义的数据.24 2.6.72.6.7 关系数据库无法实现病历信息的结构化存贮.24 2.6.82.6.8 关系数据库中的数据都是“方言”,大数据需要的是“普通话” .24 2.7 关系数据库如何处理国家医疗大数据中数万个数据库、数千万张表.25 2.8 大数据之梦十年后成真 .26 2.8.12.8.1 信息化社会由概念到比较成熟用了 30 多年时间.27 2.8.22.8.2 千年虫问题的启示 .27 2.8.32.8.3 大数据工程远比千年虫问题复杂.28 2.8.42.8.4 五年之内(2020 年前)医疗大数据只是纸上谈兵.29 2.9 必须开发新型的软件工具才能对医疗大数据进行高效挖掘.29 第第 3 章章 发发明明专专利:医学信息的利:医学信息的结结构化存构化存贮贮方法方法.30 3.1 在了解医学信息的结构化存贮方法时的注意事项.31 3.2 医学信息的结构化存贮方法 .32 3.3 数据的完整性是大数据的根本 .38 3.3.13.3.1 大数据的策略:以适当的数据冗余而使数据易识别.38 3.3.23.3.2 一个事物的数据 .40 3.3.33.3.3 事物分类.40 3.3.43.3.4 关系数据库的缺陷:关系.42 3.3.53.3.5 数据的可识别性 .46 3.3.63.3.6 数据的多样性 .48 3.3.73.3.7 元数据及国际元数据标准非常重要.48 3.3.83.3.8 大数据的关键:让数据自己说话.49 3.3.93.3.9 大数据的策略:用数据代替程序.51 3.4 与信息系统的耦合度为零的数据才是合格的大数据.52 3.5 医学信息的结构化存贮方法与关系数据库的对比.55 3.6 应用医学信息的结构化存贮方法的注意事项.55 . 方案文本部分内容来源于网络,有侵权请联系删除! 3.7 超大表化问题:分为多张表 .56 3.8 关系数据库中的二维表是数据不具独立性的一个根本原因.56 3.9 “万能数据结构表”存放病历信息的例子 .56 3.10 医学信息的结构化存贮方法实现互联互通非常简单.58 3.11 结构化录入病历信息的例子:症状的结构化.58 第第 4 章章 独立数据独立数据库库在医在医疗疗大数据方面的大数据方面的优势优势.61 4.1 大数据中最重要的就是查询 .61 4.2 超大表问题.61 4.2.14.2.1 自动调整表的长度 .62 4.2.24.2.2 自动查询多张表 .62 4.3 用独立数据库实现国家医疗大数据的存贮处理.63 4.3.14.3.1 独立数据库如何处理国家医疗大数据中数十万个数据库、数千万张表.63 4.3.24.3.2 疾病、症状的相关数据 .65 . 方案文本部分内容来源于网络,有侵权请联系删除! 第第 1 章章 概要概要 关系数据库理论存在很多很严重的问题,例如,用关系数据库系统所设计 出的信息系统都是孤岛型系统,难以实现系统之间的互联互通;在大数据时代, 人们发现,对全国 97.8 万家医疗机构所产生的医疗数据进行挖掘非常困难,当 前的大多数医疗信息系统都是用关系数据库系统而设计的。 用关系数据库系统所设计出的信息系统之所以难以互联互通,孤岛问题严 重,根本原因在于“异构数据”。医学信息的结构化存贮方法中的“万能 数据结构表”可以存贮各种各样的数据,也可说用医学信息的结构化存贮方 法所设计出的信息系统所产生的数据都是“同构”的,不存在“异构数据” 的问题。关系数据库理论先天不足,不可能解决“异构数据”问题。 医院信息系统所处理的数据只是某家医院所产生的某些特定的数据(可称 作小数据)。医疗大数据所要处理的数据是全国 97.8 万家医疗机构所拥有的数 十万个医疗信息系统所产生的数据,这些数据存贮在数千万张表中,这些系统 由不同的开发商所开发,各系统的数据结构各不相同。每家医院的信息化工作 都涉及几十个厂家,每个厂家的数据、标准、采集、存储都不一样。因此,即 便是在一家医院,都会出现很多孤岛,整个医疗行业的信息孤岛问题更严重。 各家医院信息系统的标准、接口都不同,这成为利用率低、共享难的原因之一。 不仅如此,数据种类的多样化也为数据标准的制定和应用带来了挑战。 小数据的特点是数据的类型和数据都是有限的,在处理数据前能事先确定 数据的类型。而大数据的数据特点是 “多样性 (Variety)”,在处理数据时很 难先事先确定数据的类型,甚至不能确定数据的类型。目前关系数据库在数据 处理中占据统治地位,而关系数据库在处理数据时事先要确定数据的类型,因 此,在处理数据类型不能事先确定的大数据时,关系数据库就遇到了难以逾越 的障碍。 医疗大数据与医院信息系统所产生的数据具有本质的差别。现有的各种信 息系统所处理的数据都是小数据。目前人们只是认识到大数据重要性,大数据 还只是处于概念阶段。大数据梦想将在 10 年后梦想成真,5 年之内,难有突破 . 方案文本部分内容来源于网络,有侵权请联系删除! 性进展。 国家医疗大数据所面临的最大难题:当前的医疗信息系统不能适应医疗大国家医疗大数据所面临的最大难题:当前的医疗信息系统不能适应医疗大 数据的实际需求,需要对现有的信息系统进行彻底的改造才能适应大数据时代数据的实际需求,需要对现有的信息系统进行彻底的改造才能适应大数据时代 的潮流。然而,要彻底改造全国现的医疗信息系统,所花费的代价是非常高昂的潮流。然而,要彻底改造全国现的医疗信息系统,所花费的代价是非常高昂 的!的! 关键词:数据与系统的耦合度、万能数据结构表、独立数据库、医疗大数 据、数据的独立性、数据的完整性、数据的可识别性、事物分类。 联系人:樊梦真 136 6086 7965 QQ:269779216 269779216 1.11.1名词定义名词定义 数据与系统的耦合度:数据与系统的耦合度越高,数据对系统的依赖程 度就越高。当数据对系统的依赖程度比较高时,数据一旦脱离了原有 的系统就变成了无意义的数据。大数据的数据来源于成千上万家单位 的系统,因此,大数居中的数据应该是与系统的耦合度为零的数据, 否则就需要很多的应用程度来解读数据,这会增加数据处理的难度、 成本。 万能数据结构表:由发明专利技术“医学信息的结构化存贮方法”在模 仿大脑记忆、联想的基础上而所提出的一种新型数据结构,可以在同 一张表中存贮各种各样的数据。 独立数据库:由发明专利技术“医学信息的结构化存贮方法”而建立的 数据库即可称为独立数据库。独立数据库与关系数据库有本质的差异。 数据的独立性:数据的独立性是由发明专利技术“医学信息的结构化存 贮方法”所提出的概念,是指数据不信依靠数据库系统、不依靠数据 . 方案文本部分内容来源于网络,有侵权请联系删除! 结构、不依靠注释、不依靠应用程序而独立地表达出某种含义。关系 数据库中的数据不具有独立性,需要借助于注释、数据结构、应用程 序才能解读数据的含义。 数据的完整性:数据的完整生是由发明专利技术“医学信息的结构化存 贮方法”所提出的概念,是指数据不信依靠数据库系统、不依靠数据 结构、不依靠注释、不依靠应用程序而完整地表达出某种含义。关系 数据库中的数据不具有完整性,需要借助于注释、数据结构、应用程 序才能解读数据的含义。 数据的可识别性:在班、组这样的小环境中可以用每个人的姓名而区分 出每一个人,然而在全国范围内,由于人数太多,很多姓名都有重名 现象,因此仅靠姓名就不能准确无误地识别出每一个人。大数据时代 以前的关系数据库中的数据只是应用于某个机构内部,因此各个数据 就容易识别,然而如果把关系数据库中的数据放到大数据环境中,那 么这些数据就成了不可识别的数据。在大数据时代,需要通过数据的 独立性、数据的完整性而确保每一个数据都是可识别的。 在医疗大数据中,各个医疗数据分别由各家医疗机构所产生、拥有。 事物分类:事物分类是由发明专利技术“医学信息的结构化存贮方法” 所提出的概念。大数据时代以前的信息系统的最终用户是通过应用程 序而看到各种数据,最终用户并不直接与数据库中的数据打交道,数 据库中的数据需要通过应用程序解读后最终用户才能读懂。在大数据 时代,大数据中包含成千上万家机构的数据,因此,大数据中的每一 个数据库是由哪家机构所产生,数据库中各表中所存贮的数据是什么 等等都是非常重要的信息,只有搞清楚这些信息,才能正常解读各数 据的真实含义。在“万能数据结构表”中,“信息系统的名称、数据 库的名称、表名”是以“事物分类”的形式存贮在表中,其目的是让 数据具体独立性、完整性,以此确保各数据在大数据中具有可识别性。 . 方案文本部分内容来源于网络,有侵权请联系删除! 第第 2 章章 医疗大数据面临的挑战医疗大数据面临的挑战 本章内容提要:大数据并不是小数据之和,大数据与小数据有本质的差异。 关系数据库只适合于处理小数据而不适合处理大数据。用关系数据库来处理大 数据时会遇到很多难以克服的困难。五年之内(2020 年前)大数据难以取得根 本性突破,大数据之梦十年之后才能梦想成真。维基百科关于大数据的定义也 明确指出当前的主流软件工具不能高效地处理大数据,要高效处理大数据必须 开发新的软件工具。目前的大多数信息系统所产生的数据都存贮在关系数据库 系统中。关系数据库中的数据的一大特点(或者说一大问题)就是“数据严重 依赖于数据库系统及应用程序”,当关系数据库系统中的数据脱离了相应的数 据库系统及应用程序后,这些数据基本上就成了难以阅读的无用数据。 2.12.1医疗大数据与医院信息系统之间的具有本质的差异医疗大数据与医院信息系统之间的具有本质的差异 如果把全国各家医院所产生的数据全部集中上传到国家医疗大数据中心, 这些数据的数据量一定会非常庞大,这些数据能不能称为国家医疗大数据?按 维基百科对大数据的定义:“大数据是指所涉及的数据量规模巨大到无法通过 目前主流软件工具,在合理时间内达到获取、处理的数据。”这些数据可以称 为国家医疗大数据。 维基百科的定义也明确地说明了把全国各家医院全部集中起来的“数据量 规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、处理”。为 什么不能处理呢? 例如,患者就医时,医生非常关心患者的病史。医生能否从国家医疗大数 据中心获得患者在全国任意一家医院就医时的所有病历呢?假设全国各家医院 的所有信息系统所产生的数据都已全部集中在国家医疗大数据中心,而且医生 具有获得这些数据的权限。 截至 2014 年 3 月底,全国医疗卫生机构数达 97.8 万个,其中:医院 2.5 万个,基层医疗卫生机构 91.8 万个,专业公共卫生机构 3.2 万个,其他机构 0.3 . 方案文本部分内容来源于网络,有侵权请联系删除! 万个。 全国按 2.5 万家医院计算,一家医院按 4 个信息系统计算,全国共有 10 万 个医院信息系统,这些信息系统所产生的数据存贮在数千万张表中。 医疗大数据应该说是永久有用的,可用来研究人类疾病的历史变化情况。 因此,国家医疗大数据应是整个国家数年内、数十年内所产生的全部数据的总 和,甚至需要存贮数百年、数千年。国家医疗大数据所涉及的信息量是一般的 医院信息系统的数据量的数万倍、数十万倍以上。 医生要想获得患者以往的病史数据,就必须从数据千万张表中查询患者的 病史数据。了解关系数据库理论者都知道,如果说仅有表中的数据,没有相应 的软件工具,那么,从数千万张表中查询数据,即使最优秀的程序员,在目前 的技术条件下,一周的时间内肯定查不出来患者的所有病史数据。因为程序员 在查询数据前,首先要搞清楚如下问题: 1、这些数据分别是哪家医院所产生的? 2、这些数据分别是什么样的数据库系统产生的? 3、这些数据分别存贮在哪些表中? 4、各张表的结构是什么? 5、表中会含有大量的代码,各个代码的含义是什么? 6、同一数据库中会有多张表,这些表之间的关系是什么? 7、各张表中所存贮的是什么数据?数据的类型是什么? 国家医疗大数据文件中含有数千万张表,一张表详细情况说明基本上要用 一页复印的信息量来描述,共需数千万页复印纸才能描述清楚全部表的基本情 况。 面对全国 97.8 万家医疗机构,2 万多家有一定规模的医院,数万个医院信 息系统,数千万张表,程序员在一周的时间内肯定搞不清楚上述问题。 从理论上而言,只要有数据,程序员可以查询到任何需要信息,然而由于 国家医疗大数据的数据量太大,数据关系太复杂,数据结构太多、数据类型太 多、不标准的数据太多,结果是太难太难。 处理小数据时并未感到关系数据库有什么不足之处,在大数据时代人们已 认识到关系数据库系统不适合处理大数据。 . 方案文本部分内容来源于网络,有侵权请联系删除! 2.1.12.1.1小问题放大万倍就会大的吓人小问题放大万倍就会大的吓人 国家医疗大数据并不是把全国各家医院所产生的数据全部集中在一起就可国家医疗大数据并不是把全国各家医院所产生的数据全部集中在一起就可 以称作是合格的医疗大数据。如果仅是把全国各家医院所产生的数据全部集中以称作是合格的医疗大数据。如果仅是把全国各家医院所产生的数据全部集中 在一起,而没有处理这些数据的应用程序,那么,这些数据也没什么用处。在一起,而没有处理这些数据的应用程序,那么,这些数据也没什么用处。 目前不是没有大数据,而是有很多大数据,然而人们不能高效地对这些数 据进行处理。 到目前为止,还没有成功处理上万家医疗机构所产生的医疗大数据的成功 案例。 大数据比小数据大多少倍?目前没有明确的定义,应该说真正的大数据要 比小数据大一万倍以上,最少也应大一百倍以上。 大数据的大表现在:一是数据量大(是小数据“万倍以上”),二是数据 类型多(是小数据“万倍以上”),三是所涉及到的单位多(是小数据“万倍 以上”),四是所涉及到的用户多种多样(是小数据“万倍以上”),五是对 数据的需求多种多样而且不确定(是小数据“万倍以上”)。 在处理大数据时,会有很多的“万倍以上”的问题。 3 岁小朋友都可以数清楚自已家里有几口人,然而全国有多少人?由于人 数十分庞大,全国人口普查就成了一项十分艰巨的大工程。自有人类以来,还 无人能够数百之百准确地数清楚全球在某段时间内的人数。大家都认为当今的 计算机技术已非常先进,然而时至今日,全球、全国的人口普查都做不到百分 之百准确。我国历次人口普查都要花费大量的人力、物力。 宇宙之中有多少个星球体?谁也数不清,因为整个宇宙实在是太大了,宇 宙中的星球数量实在是太多了,谁也数不清,永远也数不清。 事物的数量大到一定程度后一项非常简单的工作就会变成一项非常艰巨的 大工程。 小数据所处理的数据犹如小朋友数家里的人数,大数据所处理的数据犹如 全国人口普查。 大数据的特点:小数据中的小问题一旦放大万倍就会大的吓人!在大数据大数据的特点:小数据中的小问题一旦放大万倍就会大的吓人!在大数据 处理中,会遇到数量众多的小问题。处理中,会遇到数量众多的小问题。 当前的绝大多数信息系统都是用关系数据库系统而建立的。在设计数据库 . 方案文本部分内容来源于网络,有侵权请联系删除! 系统时,设计人员习惯于用代码来表示各种数据,例如一些设计人员人用数字 “0”来代表女性、用“1”代表男性),有的用“M”来代表男性、“F”来代 表女性。全国各行各业拥有数千万个信息系统,其中的数千万张表中拥有人的 性别这种字段。在当前的情况下,人们是用数据抽取的方法来而使性别这种字 段中的数据全部转换为统一的、标准的数据,例如统一为“男”、“女”。要 把全国数千万张表中的性别数据全部转换为统一的数据,就是一项非常艰巨的 系统工程。 要真正建立起国家医疗大数据,要解决很多个数量十分庞大的小问题。 大数据一般比小数据大数万倍、数十万倍,小数据中的小问题一旦放大数 万倍、数十万倍就会大的吓人! 在小数据时代,人们所设计的信息系统只是用来处理某个机构、某个部门 内部的某个局部问题进行统计、分析,一个信息系统中只有几张表、几十张表。 在大数据时代,人们更关注全国,甚至全球范围内的对所有事物进行统计、 分析,涉及到数百万、数千万个信息系统、数亿张表。 小数据是为机构内部的人员所使用,是从机构的角度看问题,而大数据而 是从全国,甚至全球来考虑问题。 对医疗行业而言,全国拥有近 97.8 万家医疗机构,数百万从业人员,为全 国 13 亿人服务。 目前商业智能所处理的还只是一家企业内部的数据,人们已感到对企业内 部的数十个信息系统中的数据进行处理已非常困难,而大数据所要处理的是整 个行业的数据,比商业智能复杂数万倍。 大数据=价值大=困难大=问题大=代价大 2.22.2医疗大数据面临八大难题医疗大数据面临八大难题 当前国内的各家医院的各种信息系统都是为了满足自己的需求而开发的, 可以比较好地满足各家医院自己的各种需求,并发挥出了重要的作用。然而, 当人们从国家医疗大数据的角度来考虑问题时,就会发现要从全国的所有医疗 机构的所有信息系统中挖掘出有价值的信息实在是大难了!主要有下述八大难 . 方案文本部分内容来源于网络,有侵权请联系删除! 题。 1、各自为政:各家医疗机构各自为政,都想要别人的的数据,都不希望自 己的数据共享给他人。到目前为止,医疗数据都存贮在各家医疗机构内部,从 各家医疗机构获得数据非常难。 2、数据不标准:医疗行业还未建立全国统一的、标准化、规范的数据,各 家医院的医疗数据各不相同。数据不标准问题是影响大数据处理的一个重大问 题,在大数据时代,各行各业的数据标准化工作是大数据的一项非常重要的基 础工作,这项基础工作搞不好,大数据挖掘工作不可能搞好。医疗行业的数据 标准化工作也是一项工程量巨大的系统工程,需要大量的医务人员共同参与才 能完成。国内还未做好这项基础工作。数据不标准、不规范,会严重影响数据 挖掘的结果。【数据不一致可以有多种情况,如数据类型不一致,随意缩写造 成的不一致,计量单位不一致等。当从多个不同的数据源整合数据时,由于定 义的不同,更容易产生数据不一致问题。在不同的数据源中,相同类型的信息 可能表现为不同的格式。例如,电话号码通常定义为字符型数据,但在有些数 据源中可能将定义数值型数据,因此应将其标准化。典型的例子是字段“性别” ,一些人用数字“0”、“1”、“2”来表示“不清”、“男”、“女”。而在 其它数据库中,可能直接用“不清”、“男”、“女”来描述。另一种情况是 字段值在不同的数据源中不一致,如“出生地”可能分别使用“上海”、“沪” 、“上海市”、“沪市”、“SHANGHAI”、“SH”等表示上海市出生的人。解 决这一问题首先应该进行标准化,然后根据标准逐步消除数据不一致的问题。 】 3 业务及业务流程不标准:要对全国的某个行业的大数据进行分析统一, 行业内的业务及业务流程的标准化工作也是一项非常重要的工作,否则,各个 机构的数据也就会百花齐放、各不相同,不利于分析统计。 4、数据多样性(Variety)【数据结构不标准、不统一】:全国有 97.8 万家 医疗机构,这些机构的全部信息系统有数十万个,这些系统由不同的开发商所 开发,各系统的数据结构不尽相同。【每家医院的信息化工作都涉及几十个厂 家,每个厂家的数据、标准、采集、存储都不一样。因此,即便是在一家医院, 都会出现很多孤岛,更别说整个医疗行业了。各家医院信息系统的标准、接口 都不同,这成为利用率低、共享难的原因之一。】 . 方案文本部分内容来源于网络,有侵权请联系删除! 5、数据与数据库系统、应用系统密切不可分:关系数据库系统中的每一个 数据都要先定义数据结构才能入住数据库。信息系统的最终用户所看到的数据 都需要应用程序的解读,最终用户看不懂关系数据库中的数据。 6 不能实现医学信息的结构化存贮:医学信息非常复杂,医务人员习惯于 用自然语言编写各种医学档案,例如医生都是用自然语言编写病历。然而,计 算机很笨,不能理解自然语言,因此只有把医学信息结构化之后进行存贮,才 能用计算机进行处理。而当前的众多医学信息都未能很好地进行结构化存贮。 7、信息孤岛:各家医院的各个信息系统不能实现全国互联互通。 8、老系统升级改造难题:当前的信息系统都是小数据系统,不适应大数据 时代的需求,然而要对现有的信息系统进行全面改造也是非常困难的,其代价 也是非常高昂的。【为什么要升级改造?因为当前的各家医院的信息系统所产 生的数据各不相同,数据不标准、不规范。要对大数据进行处理,必须确保全 国各家医疗机构的信息系统所产生的数据是统一的、标准的、规范的医学标准 数据。只有这样,才能高效处理大数据。】 从理论上而言,医疗大数据挖掘很简单,只要懂关系数据库,基本上就能 对医疗大数据进行挖掘。然而,要想对全国近百万个医疗机构、数十万个信息 系统的全部数据进行高效地挖掘,所面临的挑战是非常严重的。 如何解决八大难题? 1、各自为政:这个问题必须国家卫生和计划生育委员会以行政命令的方式 来解决,强制要求各医疗单位实时地把各种医疗信息上传到国家医疗大数据中 心。若没有强制的行政命令,不可能建立起合格的国家医疗大数据。 2、数据不标准难题:此难题涉及到的数据量太大、工程量太大。国家卫计 委及很多人士虽说早就注意到此问题的存在,然而直到目前还未从根本上解决 医疗行业的数据标准化问题。此问题不从根本上解决,那么医疗大数据的挖掘 就等于说大话。医疗行业数据标准化工作是大数据挖掘的基础工作。此问题应 该由国家卫计委组织业内外力量来解决,解决此问题需要 3 至 5 年的时间。有 了国家医疗大数据标准之后,还需要用标准的医疗数据去代替现有的不标准的 . 方案文本部分内容来源于网络,有侵权请联系删除! 医疗数据,而此项工作的工作量也是非常巨大的。标准化工作是不赚钱的基础 性工作,商业机构没有从事这项工作的动力,应该由国家卫计委来解决。 3 业务、业务流程不标准:目前全国各医疗机构的业务及业务流程并不标 准,因此,各医疗机构所产生的数据也各不一样。要建立国家医疗大数据,就 必须道先对全国医疗机构的业务流程进行标准化处理,这也是一项工程量巨大 的基础性系统工程。这项工作也应该由国家卫计委来解决。此项工作最快需要 三至五年的时间才能完成。 只有解决了上述三项基础性问题,才能够建立起国家医疗大数据这个大 厦的坚实地基,否则医疗大数据只能是空中楼阁。由于上述三个因素 牵涉到全国各个医疗机构的方方面面,非常复杂,十年之内很难看到 真正的国家医疗大数据的曙光。 下述 4 个问题属于技术问题,关系数据库理论解决不了这 4 个问题,可由 发明专利技术“医学信息的结构化存贮方法”从技术上加以彻底解决: 4、数据多样性(Variety)【数据结构不标准、不统一】:目前关系数据库占 据统治地位,绝大多数信息系统都是用关系数据库而建立的。医院的各种信息 系统中,多数也是用关系数据库系统而建立。例如,目前国内医疗行业的 HIS 系统是由多个开发商所开发,各家开发商所用的数据库系统不一样,所用的数 据结构结构及数据类型也不一样。因此,如果要对全国各家医疗机构的 HIS 系 统中的数据进行分析,那么首先就要把各种数据全部转换为同一的数据结构, 然后才能对数据进行分析统计。然而要对全国近百万个医疗机构的数十万个、 数百万个信息系统中的数据进行转换,也是一项工程量巨大的系统工程。另一 外很重要的问题是,所有这些信息系统中的数据要转换为哪一种统一的、标准 的数据结构,也是需要国家卫计委制定相应的标准、规范。 5、数据与数据库系统、应用系统密不可分。 6 不能实现医学信息的结构化存贮:医学信息非常复杂,用关系数据库不 能实现病历信息的结构化存贮。有人用 XML 实现病历信息的结构化存贮,然而 XML 只适合处于少量数据,不适合对全国的病历信息的处理。 7 信息孤岛。 . 方案文本部分内容来源于网络,有侵权请联系删除! 8 信息系统改造:现有的医疗信息系统就犹如广州的城中村,广州的城中 村虽有一定的作用,然而城中村与广州这样的国际化大都市非常不协 调。改造广州城中村的最佳方案就是推倒重建,局部的修补是没用的。 然而要全部推倒重建,所花费的资金是非常巨大的。 2.32.3国家大数据标准工程堪比国家大数据标准工程堪比“两弹一星两弹一星” 大数据工程,标准先行。 国家大数据标准的工程的工程量要比“两弹一星”的工程量大。 国家大数据标准涉及到每一个行业,也涉及到各种各样的业务。大数据标 准涉及数据的标准化、数据结构的标准化、业务的标准化、业务流程的标准化。 大数据标准化工作完成之后还要对现有的信息系统进行改造,这种改造的 工程量及代价也是非常高昂的。目前的信息系统所产生的数据不适应大数据的 需求。 历史对秦始皇统一文字、统一度量衡、统一货币的评价非常高:功惠千秋。 大数据所面临的问题也犹如秦始皇时代所面临的“文字不统一、度量衡不统一、 货币不统一”问题。因此,要解决大数据所面临的问题,也需要由秦国、秦始 皇那样强大的机构、领袖人物以行政命令的形式强制推行,才能从根本上解决 问题。 大数据八大难题中的五大难题(各自为政、数据不标准、业务流程不标准、 数据多样性(Variety)【数据结构不标准、不统一】、信息孤岛)与秦始皇曾经 遇到的问题有些类似。 为解决千年虫问题,全球花费了超千亿美元的资金。彻底砸烂小数据而建 立大数据新环境的代价远远超过千年虫问题。千年虫只是解决一个时间数据的 问题,而彻底砸烂小数据建立大数据新环境则涉及到几乎所有信息系统的所有 数据! 小数据:只要能满足自己需求,能解决自己的问题即可。 大数据:不只是满足自己的需求、解决自己的问题,还要考虑他人的需求。 . 方案文本部分内容来源于网络,有侵权请联系删除! 重点是如何让他人能够找到所需要的数据。 要让他人、大家找到所需要的数据,最重要的是大家都要遵循相同的标准, 大家都讲普通话,而不是方言,这犹如泰始皇统一六国后的“书同文”的标准 化改革。 当前在处理大数据时的首要工作就是数据抽取(ETL: “Extract”、“ Transform” 、“Load”,“抽取”、“转换”、“装载”),其实数据抽取工 作也类似“秦始皇的书同文”,只是数据抽取并未能真正象秦始那样从根本上 解决书同文问题。要使大数据真正做到“书同文”,需要象秦始皇那样从根本 上解决问题。而真正实现大数据“书同文”时,就不再需要数据抽取。 与当前人们所提到的大数据相比,关系数据库所处理的数据则是小数据。 大数据中的数据是数万家、数十万家以上的各中机构中各种数据的总和。而关 系数据库所处理的小数据则是一家机构或几家机构中的部分数据。 当我们面对数十万个、数百万个以上的信息系统中的数据(大数据)时, 就会发现,我们面临很多挑战:“(维基百科对大数据的定义)无法在可承受 的时间范围内用常规软件工具进行捕捉、管理和处理”。也就说明用关系数据 库系统已“无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理” 大数据。 在小数据时代,信息系统的用户是通过应用程序而查到自己所需要的数据, 而信息系统对关系数据库中的数据进行处理后而以用户能够理解的形式展现给 用户。然而,在大数据时代,这种方法行不通了。因为在小数据时代,我们所 要处理的数据是有限的、可确定的,而在大数据时代,我们所要处理的数据是 无限的,不确定的数据。 秦始皇之所以能使“书同文”成为现实,是因为他拥有至高无上的权威; “两弹一星”之所以能成功,关键在于“两弹一星”关系到国家的生死存亡, 国家大力支持。大数据的成败与国家的支持是分不开的。 2.42.4医疗行业的信息系统顶层设计为何难产医疗行业的信息系统顶层设计为何难产 国家卫生和计划生育委员会几年前就注意到了医疗行业信息系统顶层设计 的重要性,并希望从根本上解决此问题,但至今未能从根本上实现医疗行业信 . 方案文本部分内容来源于网络,有侵权请联系删除! 息系统的顶层设计。 为什么要进行顶层设计?因为当前的各种医院信息系统存在严重的问题, 信息孤岛问题严重,不能互联互通。 顶层设计建立在医疗数据标准化、医疗业务流程标准化的基础之上。而如 今医疗数据标准化、医疗业务流程标准化这两个基础工作还未做好,因此顶层 设计就不可能有结果。 技术上的原因:关系数据库理论的先天不足。 客观原因:问题非常复杂、牵涉面太广、所需资金非常巨大。 顶层设计非常难,比顶层设计更难的是有了顶层设计之后再对全国的医疗 信息系统进行全面更新换代。 2.52.5大数据挖掘中的问题:大数据的关键不在于大而在于如何挖掘大数据挖掘中的问题:大数据的关键不在于大而在于如何挖掘 如果把全国 97.8 万个医疗卫生机构所产生的数据全部存贮到国家医疗大数 据中心,这些数据可以称作是“国家医疗大数据”,然而这样的数据并不能称 作是真正合格的“国家医疗大数据”,因为,对这样的数据的挖掘非常困难, 从这些数据中挖掘出有用数据的代价非常高,犹如沙里淘金,大海捞针。 大数据不是小数据之和。大数据的关键不在于大,而在于挖掘。只有可以 让大家高效挖掘、任意挖掘的大数据才是真正合格的大数据。 2.5.12.5.1我国医疗行业每年产生多少数据我国医疗行业每年产生多少数据 国家医疗大数据的概况:截至 2014 年 3 月底,全国医疗卫生机构数达 97.8 万个,其中:医院 2.5 万个,基层医疗卫生机构 91.8 万个,专业公共卫 生机构 3.2 万个,其他机构 0.3 万个。 仅按全国拥有 2.5 万家医院、每家医院 4 个信息系统计算,全国约有 10 万 个以上的医院信息系统,每个信息系统按 20 张表估算,全国共拥有 200 百万张 表。 除了存贮在关系数据库系统中的数据外,还有其它类型的数据:XML、音 . 方案文本部分内容来源于网络,有侵权请联系删除! 像、文本等。 国家医疗大数据的数据量估算:南京军区南京总医院目前拥有 5 台存储设 备,2 台专用于 PACS,其中 HIS、LIS、EMR 等数据 3T,病案缩微数据 12T,PACS 数据 120T 左右,每个月的数据增长为 2T 左右,每年产生的数据量: 24T/年。国家医疗大数据的数据量估算=2.5 万家(未计小医疗机构的数据) *24T/年=60 万 T/年。 国家医疗大数据的数据量估算:6 万 T/年至 100 万 T/年。 2.5.22.5.2挖掘关系数据库系统所产生的医疗数据非常困难挖掘关系数据库系统所产生的医疗数据非常困难 如果全国 97.8 万家医疗机构以镜像的方式把所有数据都上传到国家医疗大 数据中心,那么该如何对这些数据进行挖掘? 全国共有 97.8 万家医疗机构,这些医疗机构所拥有的信息系统有 10 万个 以上,这些医疗机构所拥有的数据库有 10 万个以上,这些数据库中的表有 200 万张以上。这些医疗机构的数据存贮在数十万个以上的文件夹中(存贮 XML、 音像、文本等数据)。患者病史可能是患者自出生以来的所有情况,病史数据 可能存贮在几十年的数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论