大数据分析及其在医疗领域中的应用_邹北骥_第1页
大数据分析及其在医疗领域中的应用_邹北骥_第2页
大数据分析及其在医疗领域中的应用_邹北骥_第3页
大数据分析及其在医疗领域中的应用_邹北骥_第4页
大数据分析及其在医疗领域中的应用_邹北骥_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第 7 期2014 年 4 月 10 日计 算 机 教 育Computer Education中图分类号:G64224大数据分析及其在医疗领域中的应用邹北骥(中南大学 信息科学与工程学院,湖南 长沙 410083摘 要:互联网和物联网技术的快速发展给数据的上传与下载带来了前所未有的便利,使得互联网上 的数据量急剧增长,由此产生了针对大数据的存储、计算、分析、处理等新问题,尤其是对大数据的 挖掘。文章分析当前大数据产生的背景,阐述大数据的基本特征及其应用,结合医疗领域,论述医疗 大数据分析的目的、意义和主要方法。 关键词:大数据;物联网;医疗;大数据挖掘1 大数据早已存在,为何现在称之为大 数据

2、时代 计算与数据是一对孪生姐妹,计算需要数 据,数据通过计算产生新的价值。数据是客观事 物的定量表达,来自于客观世界并早已存在。例 如,半个世纪前,全球的人口数量就有数十亿, 与之相关的数据就是大数据;但是在那个时代,由于技术的局限性,大数据的采集、存储和处理 还难以实现。互联网时代之前,采集世界各地的数据并让 它们快速地进入计算系统几乎是一件不可想象的 事情。 20世纪 80年代兴起的互联网技术在近 30年里发生了翻天覆地的变化,彻底地改变了人们 的工作和生活方式 1。通过互联网人们不仅可以 下载到新闻、小说、论文等各类文字数据,而 且可以轻而易举地下载到音乐、图像和视频等多 媒体数据,这使

3、得互联网上的数据流量急剧增 长。据统计,现在互联网上每分钟流入流出的数据量达到 1 000 PB,即 10亿 GB 2。推动大数据产生的另一 个重要因素是物联网技术。 近几年发展起来的物联网技 术通过给每个物品贴上标签 并应用 RFID 等技术实现了各类物品信息的快速采集 3。如新研发的各种穿 戴式设备可实时在线获取人体运动过程中的各种 数据,各类带有 USB 接口或网络接口的电子仪 器可迅速地将仪器中的数据上传到互联网并进 入计算系统 4,智能化生产过程中产生的各种数 据、 GPS 导航系统和飞机汽车等现代交通工具在 行进中产生的数据均可通过移动互联网上传。所 有这一切表明,由于互联网技术的

4、发展和物联网 技术的推动,使得原本存在的大数据可快速地进 入到计算系统,大数据时代到来了。大数据的产生也与其他领域的技术发展密 不可分。如生物遗传学领域近几年开展的一项巨文章编号:1672-5913(201407-0024-06新视点中图分类号:G642作者简介:邹北骥,男,中南大学信息科学与工程学院副院长,教授,博士生导师,教育部中南大学移动医疗重 点实验室副主任,中国计算机学会 CAD&CG专业委员会副主任,湖南省高等教育学会计算机教育专业委员会理 事长;在医学图像分析领域承担多项国家自然科学基金研究项目,主持开展基于电子病历的大数据分析项目研 发和基于移动平台的健康管理系统开发,

5、先后在国际国内外重要学术刊物和会议上发表学术论文 120余篇,其中 SCI 收录 20余篇,获得专利 2项,湖南省科技进步奖 1项,出版著作 3部。bjzou; bjzou。第 7 期 25新视点大工程人类基因组计划,要对人类 23对染 色体基因中 30亿个碱基对进行测序,其数据量 之巨大,以至于当前高性能计算机系统都难以在 可接受的时间内完成 5。高能物理实验一天产生 的数据高达几个 TB ,这些数据都在排队等待处 理,当前的计算系统已难以满足它们的处理要 求了 6。人们关注大数据的最重要原因是因为大数据 中隐藏着具有丰富价值的信息。互联网上传递的 商品订购信息反映了消费者的意向、对商品质量

6、 的评价等,于是不断地收集互联网上的这些信息 并进行挖掘分析将有助于企业分析其产品前景, 从而不断改进以获得更多利润。分布在全球各地 的气象设备采集的气象数据通过互联网汇集并通 过挖掘分析后可用于预测天气情况,来自世界各 地的地震监控仪采集的大量地下数据通过互联网 收集形成大数据,采用数据挖掘方法分析并预测 地震。大数据最早应用于电子商务领域,美国亚 马逊公司的电子商务平台每天获得大量的客户订 单和消费数据,应用机器学习和数据挖掘方法分 析这些数据,发现了商品销售中的关联性,如商 品 A 和商品 B 经常被客户同时购买,于是有意 识地将这两种商品(也许它们是毫不相干的两类 商品 摆在同一个货架

7、上,使得商品的销售量大 增。这就是典型的大数据分析的结果。因此大数 据时代我们所要做的事情就是对隐藏于大数据中 有价值的信息进行分析与挖掘,以便利用它们为 人类服务。2 大数据的特征与计算系统面临的新问题来自于各个领域的大数据尽管代表着不同的 事物,隐藏着不同的价值信息,但都具备 4个重 要特征,称为 4V 特征,即 V olume (大容量 、 Velocity (快速更新 、 Variety (多类型 和 Value (高 价值 。所谓 V olume 是指数据量极大,虽然没有 一个绝对的容量标准,但一般都在数十个 TB 以 上。 Velocity 是指数据产生和更新的速度很快, 大数据的

8、产生是一个快速的动态过程。 Variety 是 指数据的种类多,除了文字数据外,还包括图 像、图形、视频以及声音等多媒体数据。 Value 是指大数据中隐藏了具有高价值的信息,这些信 息需要通过机器学习与数据挖掘方法才可能提取 到。以医院电子病历数据为例,它是典型的大数 据。首先,电子病历的数据量大。以一个小规模 城市的数家医院形成的区域医疗系统为例,每天 门诊量和住院病人人数都在数万人以上,每人每 次的病历、检验数据可达到几个 GB ,因此每天 的数据都在几个 TB 甚至数十个 TB 以上。其次, 数据的更新速度快。每天在线检查化验的人数快 速增加,其数据也在快速更新。第三,电子病历 的数据

9、类型包括了文本、图像、图形和视频等多 类型数据。最重要的是电子病历数据中隐藏着极 有价值的医疗和医学信息。通过数据挖掘方法可 以挖掘出这些信息以便医生进一步分析患者的病 因,形成更好的治疗方案。大数据给计算机科学与技术领域带来了以下 的新问题和挑战。(1 大数据的存储。大数据一般来自互联网, 是动态的多类型数据。尽管当前的存储器容量在 不断增加,但选择一种什么样的结构来存储大数 据以便能更好地存取是一个需要解决的问题。以 电子病历数据为例,多家医院产生的电子病历数 据是集中存储于某一个医院还是分布式存储于各 家医院,这里不仅有一个管理、隐私和医院利益 的问题,也有技术上实现的问题,有待进一步研

10、 究。近几年发展起来的云存储或许是一种很好的 选择。借助于第三方提供的云存储服务,在保证 数据安全和各个医院权益的条件下,各家医院可 以将自己的电子病历数据存储到云服务器上,实 现数据共享。(2 计算系统的结构和计算模式。传统的单 机系统和分布式系统难以处理这些动态实时更新 的大数据,于是以集群方式构建的多机系统再加 上以互联网相连的云计算平台将成为大数据的有 效计算平台。分布在各地的数据需要由当地的集201426计 算 机 教 育 Computer Education群式计算平台对数据做预处理,然后通过互联网 将数据传输到数据处理中心,以更高性能的集群 式系统进行处理并将结果反馈到各个分布式

11、系统 中。近几年美国 Google 、 IBM 公司还有中国的 曙光、联想等大公司相继推出了用于处理大数据 的各种集群式计算机系统,它们可为大数据的处 理提供更好的服务。 (3 大数据的处理。如何从大数据中挖掘出 有价值的信息。大数据挖掘通过对数据分类、建 立关联以及对各类关系分析,包括典型的因果关 系分析,提取数据的特征和属性。当前以机器学 习为代表的人工智能方法可为大数据挖掘提供有 力的支持。机器学习方法是近几年人工智能领域 的热门课题,是让计算机模拟人类的学习过程。 机器通过学习获得智能分析能力。3 医疗领域中的大数据 医疗领域是最早应用计算机技术的领域之 一。从最早的伽马线成像、 X

12、光透视影像的数字 图像处理系统开始,到今天各个医院普遍应用的 医疗管理系统、辅助诊断系统、医疗专家系统和 影像系统,经历了半个多世纪的发展,形成了一 些重要的产品,如目前医院广泛应用的医院综合 管理信息系统(HIS ,如图 1所示,它是以医院 收费管理为中心的信息管理系统,将医院的人、 财、物有效地管理起来以实现资源共享和效益提 升,在一段时期为医院信息化起到了重要作用。随着医院为病人服务的理念提升,以病人为 中心的服务模式在逐步形成, HIS 系统也转化为 以电子病历为中心的管理信息系统(EMR 。它 将原有的 HIS 系统、影像系统(PACS 、检验信 息系统(LIS 、放射信息系统(RI

13、S 以及绩效 管理系统等有效地组织起来,实现医院以病人为 中心的全信息化服务,如图 2所示。特别是随着区域医疗的发展,将分布在一个 城市的若干家医院的电子病历系统通过互联网相 连接,实现数据共享,可减少患者的重复检验,减轻患者的经济负担,提高看病效率,发挥名医 院、大医院和名医、专家的指导作用。由此看到,电子病历系统所产生的数据是 大数据,它包含 3部分:电子病历数据、医学检 验数据和医学影像数据。电子病历是病人自述病 症、大夫记录产生的以文字表述为主体的数据, 它是一种非结构化的数据,如图 3所示。医学检验数据来自于医学检验设备,如血常 规检查、肝功能检验、心电图检查等,由这些医 学仪器产生

14、的数据一般是数字数据,且有标准和 规范,因此它是一种结构化的数据。影像数据来 自于影像设备,是一种以图像显示为检测结果的 医学检验装置,由它产生的数据主要是图像,是 一种非结构化数据。如 X 光照片、 MRI 核磁共振、 眼底图像摄影、 B 超影像等,如图 4所示。图 1 医院 HIS系统图 2电子病历系统第 7 期27新视点 分析一个患者一次看病的数据量,电子病历 数据和医学检验数据一般只有几百 K ,一张医学 影像数据平均为 1GB 左右,一般每个患者有 23张影像,所以一次诊断所产生的医疗数据大约为 2GB3GB。一个三甲医院平均每天就诊和住院 患者在 3万人次左右,这样一家医院一天所产

15、生 的数据约为 90TB100TB,一年按 300个工作日 计算,将会产生 30 000 TB的数据, 10家医院将 是 300 000 TB的数据。4 大夫看病的过程实质上就是数据的关 联分析过程我们来分析一下大夫诊断病人的过程。首先 是病人自述,大夫倾听并记录,接着是让病人作 各种医学检验以及必要的影像医学检验,由此获得医学检验数据和影像检验数据。大夫的脑袋就 像一台计算机,自然地将电子病历数据、医学检 验数据和影像医学数据以及医学知识、诊断经验 等关联,诊断出是什么疾病并开药或给出手术治 疗方案,这一过程可用图 5表示。然而实际上大夫看病的过程有一定的局限 性:所有的数据只是来源于这一个

16、病人;大 夫在将数据与医学知识和诊治经验关联时只是用 到了他一个人的知识和经验,即使采用联合会诊 的方式也只是用到了若干位大夫的知识和经验。 因此,疾病诊断的准确性和治疗方案的合理性会受到一定的影响。设想一下,如果医疗大数据挖掘分析系统已 经建立并在医院投入使用,大夫在诊断疾病和给 出治疗方案时,就可以将患者的所有数据录入大 数据系统。由于大数据系统的数据来自于成千上 万上百千万的患者,通过机器学习和挖掘分析方 法,大夫即可获得类似症状患者的疾病机理、病 因以及治疗方案,这有助于大夫更好地把握疾病 的诊断和治疗。5 医疗大数据的其他应用医疗大数据除了应用于疾病的辅助诊断和治 疗方案的确定外,还

17、可应用于医学研究、流行病 预测和药物副作用分析等方面。医疗大数据系统保存了成百上千万患者的全部真实数据,如患者个人基本信息,包括居住地图 3电子病历示例图 4医学影像示例图 5大夫看病的过程实质上是数据的关联分析过程201428计 算 机 教 育Computer Education信息、家族疾病史等,这些信息有助于研究某些 疾病发病的家族性和地区区域的分布性。通过大 数据系统的挖掘分析,可以得知哪些癌症会有明 显的家族遗传性,从而可进一步分析其发病与基 因变化的关系,以找到降低这种癌症发病率的方 法。通过挖掘分析大数据中疾病与地区区域的关 系,可以得知哪些疾病容易在某些地区发生,以 便进一步分

18、析该地区的环境因素与疾病发生的关 系,使得人类去有意识地改变环境,去除导致疾 病发生的诸多因素。医疗大数据系统还可以用于流行病爆发的预 测。相关部门通过分析医疗大数据的变化,获得 来自全球各地的患者出现相同或类似症状并迅速 在人群中蔓延的信息,从而可预测某些流行病的 爆发,为人类阻止或减缓流行病的发展提供依据。医疗大数据系统的另一个重要应用是药物 副作用分析。在临床用药过程中,药物使用可 能会引起病人的不良反应。这种不良反应会导致 治疗作用减弱甚至失败,严重的可能会导致患 者死亡,同时不合理用药也会使患者医疗费用 大大增加,给患者带来更多的经济负担。据文 献统计,药物不良反应的发生率:门诊病人

19、为 0.3%5.0%,住院病人为 10%20%7。来自美国 的报告显示,美国每年有 70多万人因为药物副 作用受到伤害或者死亡;一家有 700 张床位的医 院,每年因药物副作用导致的住院和门诊费用达 到 560万美元 8。因此研究药物副作用对于提高 患者疾病的治疗质量,指导临床用药以减少药物 对患者的伤害,降低药物费用以及指导新药研发 都具有重要的意义。传统的药物副作用分析主要采用临床试验 法、药物副作用报告分析法等,这些方法受到样 本数小、采样分布有限等因素影响,难以全面反 映药物副作用造成的影响。如果应用医疗大数据 库系统,可从千百万患者的数据中挖掘到与某种 药物相关的不良反应,样本数大,

20、采样分布广, 所获得结果更具有说服力。更进一步,我们还可 以从社交网中(如新浪博客、医疗网络论坛 搜索到大量人群服用某种药物的不良反应记录,通 过比对分析和数据挖掘方法,更科学、更全面地 获得药物副作用的影响。综上所述,医疗大数据具有极大的价值, 挖掘医疗大数据中的价值信息对于疾病诊断、 治疗方案确定、流行病预测、医学研究和药物 副作用分析等方面具有重要的意义。从某种意义 上讲,医疗大数据系统对于改善人类生活环境、 提高生活质量、获得更高的幸福指数均有重要 的作用。6 医疗大数据实现中的几个关键问题构建医疗大数据系统首先需要从各个医院做 起,然后通过互联网将多个医院连接在一起,实 现数据共享,

21、即形成区域医疗。在区域医疗的基 础上,再发展为城市医疗大数据、省级医疗大数 据乃至全国医疗大数据和全球医疗大数据系统。(1 实现电子病历数据的采集和存储。对大 夫作出一些规范性的要求,使电子病历记录规 范。除了病历数据外,医学检验数据和影像检验 数据的采集、存储也需要规范,同时需要建立统 一的数据库存储系统来存储电子病例数据、医学 检验数据和影像医学数据等各种类型的数据,其 中标准问题是技术实现的关键。(2 数据的结构化处理。以文本数据为主体 的病例数据是非结构化数据,需要作结构化处 理。特别是对于中文电子病历,需要进行词汇分 割、语义提取等。影像数据需要基于医学的相关 知识进行图像分析,将图

22、像中的病灶转化为结构 化的数据,包括数值数据和规范的文本数据。(3 数据库系统设计。医疗大数据的数据库 系统有别于传统的数据库系统,大数据的 4个重 要特征要求其数据库系统能更好地适应于大数据 的处理,包括适用于基于局部集群式和大规模云 计算系统等处理模式要求。(4 大数据挖掘分析方法。大数据挖掘的核 心内容是数据的特征与属性提取,并依据特征和第7期 新视点 29 属性进行分类。在此基础上将不同属性的数据类 进行关联分析,从而获得有价值的信息。可以将 机器学习方法应用于大数据的挖掘分析。 其中有价值的信息对于领域发展具有重要作用, 是未来科学发展的重要方向。医疗大数据系统目 前正处在建设和发展

23、当中,其中首要的任务是医 疗大数据的采集与获取,目前中南大学已正式立 项,在其 5 家附属医院 100 个科室着手建设临床 医学大数据采集系统。 7 结 语 大数据分析是当前计算机科学与技术领域的 热点,各个领域都有大数据,获得大数据并挖掘 参考文献: 1 李国杰, 程学旗. 大数据研究: 未来科技及经济社会发展的重大战略领域: 大数据的研究现状与科学思考J. 中国科学院院刊, 2012(6: 647-657. 2 王元卓, 靳小龙, 程学旗. 网络大数据: 现状与展望J. 计算机学报, 2013,36(6: 1125-1138. 3 孟小峰, 慈祥. 大数据管理: 概念、技术与挑战J. 计算

24、机研究与发展, 2013,50(1: 146-169. 4 埃里克·托普. 颠覆医疗: 大数据时代的个人健康革命M. 北京: 电子工业出版社. 2014. 5 涂子沛. 大数据M. 桂林: 广西师范大学出版社, 2013. 6 维克托·迈尔-舍恩伯格, 肯尼思·库克耶. 大数据时代: 生活、工作与思维的大变革M. 盛杨燕, 周涛, 译. 杭州: 浙江人民出版 社, 2013: 239-244. 7 Bates D W, Cullen D J, Laid N, et al. Incidence of adverse drug events and potential adverse drug events-implications for preventionJ. Journal of th

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论