




全文预览已结束
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2China Digital Medicine,Eec.2016,Vol.11,No.2 特别专题 Exclusive Subject 大数据在医疗卫生领域的应用与实践 医学影像大数据的存储与挖掘技术研究 吴辉群 翁霞 王磊 倪晓薇 邹如意 陈亚兰 施李丽 蒋葵 董建成 摘 要 数字化的医学影像通常使用医疗数字影像传输协议(DICOM),并通过医学影像储存与传输系统(PACS)来做储存、 传输与管理。随着医学影像愈来愈多,如何有效率地处理海量医学影像数据变成一个问题。与一般的图像大数据处理技术相 比,医学影像大数据所使用的标准和环境有所区别,值得注意。探讨了国内外医学影像大数据的存储和挖掘主要技术手段, 并结合本实验室视网膜图像大数据存储与挖掘初步开展的工作,为医学影像大数据开发人员和管理人员提供借鉴。 关键词 医学影像 大数据 分布式计算 云计算 Doi:10.3969/j.issn.1673-7571.2016.02.001 中图分类号 R319;R445 文献标识码 A Study on Big Medical Imaging Data Storage and Mining Techniques / WU Hui-qun, WENG Xia, WANG Lei, et al/China Digital Medicine.-2016 11(2): 02 to 06 Abstract Generally, digitalized medical images are stored, transmit and managed in picture archiving and communication systems (PACS) in compliance of digital imaging and communication in medicine (DICOM). With the increasing of medical images, how to deal with the large amount of medical imaging data effectively becomes a problem. Compared with general image data processing technology, the utilization of medical imaging relies on some data standards and environment, which is worthy of attention. This paper aims to explore the storage and mining techniques of medical imaging mass data in combination with our preliminary experimental work in retinal image data storage and mining, thus providing reference for other researchers. Keywords medical images, big data, distributed computing, cloud computing Fund project National Natural Science Foundation Project of China (No. 81271668); Project Supported by the Natural Science Foundation of the Colleges and Universities in Jiangsu Province (No. 15KJB310015, 14KJB310014); Prophase Preparatory Program of Scientific Research Fund of Natural Science Class of Nantong University (No. 14ZY021); Graduate Student Innovation Training Program of Nantong University (No. YKC15056); College Student Innovation Training Program of Nantong University (No. 2015143) Corresponding author Department of Medical Informatics, Institute of Digital Medicine, Medical School of Nantong University, Nantong 226001, Jiangsu Province, P.R.C. 1 前言 数字化的医学影像是使用医疗数字影像传输协议(Digital Imaging and Communication in Medicine,DICOM),透 过医学影像储存与传输系统(Picture Archiving And Communication System,PACS)来做储存、传输与管理,解决胶 片储存、人力资源问题,提供影像调阅的实时性与方便。但随着产生的医学影像愈来愈多,不同医疗信息系统间对分享 基金项目:国家自然科学基金(编号:81271668);江苏省高校自然科学研究项目(编号:15KJB310015,14KJB310014);南通大学自然 科学类科研基金前期预研项目(编号:14ZY021);南通大学研究生创新训练计划项目(编号:YKC15056);南通大学大学生创新训练 计划项目(编号:2015143) 通讯作者:南通大学医学院医学信息学系,南通大学数字医学研究所,226001,江苏省南通市启秀路19号 南通大学医学院医学信息学系,南通大学数字医学研究所,226001,江苏省南通市启秀路19号 中国数字医学2016 年第 11 卷第 2 期 3 特别专题 Exclusive Subject 大数据在医疗卫生领域的应用与实践 医疗图像的选择受到限制。通过光盘 (compact disks,CD)和虚拟专用网 (virtual private networks,VPN)传 输医学图像的方式短期内不会消失, 但云端解决方法的引进已开始将关键 诊断图像的成像方式转换成分布式, 如何有效处理医学影像大数据变成一 个问题。 2 医学影像的大数据特点 大多数临床数据被卫生保健机构 收集到各自系统里,系统间不能实现 互操作,给数据利用带来一定不便。 云端运算有着高扩充性、灵活性、低 成本且随时随地存取,使用者只需透 过因特网就能得到云端运算的服务资 源。而云端平台数据库的设计用来部署 在低成本的硬件上使用的分布式运算档 案系统,适用于处理像医学影像这样的 大量数据1。采用共同的平台和系统, 遵循健康信息交换(health information exchange,HIE)协议,以及基于标准 的界面能够实现医疗系统之间的互操 作。美国德克萨斯的一个医疗保健系统 正在使用先进的工作流管理来提高图像 交换效率。通过实施路由规则和自定义 工作流管理,该健康系统可以在一个月 内推动20万个影像检查到不同的医学数 字影像和通讯目的地。另外,医学影像 管理不仅是将患者影像存在数据库里, 还需借助一系列相应的信息工具更好地 利用影像数据,实现在病人整个护理过 程中的数据传输、共享和分析。该过程 需要一种安全和可扩展的方案,能够适 应不断发展的网络和提高图片数据的利 用效率。 3 医学影像大数据存储系 统架构 对影像大数据进行复杂计算,对 处理器的浮点运算能力、I/O性能、 内存容量以及带宽都要求较高,单台 计算机或超级计算机,因构架扩展的 局限性或高额的经济成本,已无法 满足需求。因此需要高速的运算性 能、良好的兼容性及可扩展性的计 算机集群。集群主要由计算节点、 存储节点、管理节点、集群辅件组 成。其中存储节点是存数据的一组硬 盘,Hadoop框架中采用HDFS存储 大、中、小图片。将图片名和图片元 数据作为键值对,放入 HBase中存储,并进行数据查询,避 免图片重复存储,便于将来管理;设 计了图片URL,将图片存储信息设定 在图片URL中,通过解析URL快速定 位存储图片组块(Block)的数据节 点(DataNode)和域(Field)。将 图片元数据存放在HBase中,解决海 量数据扩容和快速检索问题。计算 节点负责运算,通过Infiniband网络 (IB网络)连接存储节点来完成运算 数据的读取和存储,通过HDFS的冗 余备份和心跳检测保证存储数据的安 全性,通过设定负载均衡策略,保证 各个存储节点的运行稳定。采用心 跳(heartbeat)检测判断名字节点 (NameNode)健康状况,解决了 NameNode单点的安全隐患。针对 图片大小,对大图片采取并行读取, 提高大图片存取效率,且能通过配置 文件的修改动态更改图片大小设定。 管理节点通常是终端机,提供监控管 理界面,查看各节点存储空间运行状 态。HAproxy采用RoundRobin负载 均衡算法,分载前端用户请求的压 力到每个web图片服务器上。而集群 辅件是包括IB网络(IB交换机、线材 等)、千兆以太网络(千兆以太网交 换机、线材等)、机柜(Rack)、 电力分配单元(power distribution unit,PDU)等一些东西。以医院成 像设备生成一副影像为例,在用户发 起图像写入请求后,应用服务器使用 Redis和HAProxy构建缓存区和负载 均衡,通过负载均衡模块的过滤, 首先来到应用服务器排队等待进入 HDFS存储系统,通过NameNode分配 DataNode进行存储,图片写入过程中 先确定写入Block,再确定Sequence File,系统将二者的ID组合命名为图片 的系统内名称。DICOM图片元数据保 存在HBase,同时元数据也保存在由 Redis构建的缓存系统中(见图1)。 除Hadoop框架,供应商中立归档系 统(Vendor Neutral Archive,VNA) 是一种新的存储影像和文档规范,使 医疗信息在整个生命周期中能够被查 询、存储和检索,对于区域影像中心 的建设具有重要意义。标准的文件格 式和第三方访问接口是其重要内容, 以患者为中心,存储来自不同PACS系 图1 本实验室分布式视网膜图像PACS设计框架模型 4China Digital Medicine,Eec.2016,Vol.11,No.2 统的海量图像2-3。 4 医学影像大数据的处理 大数据技术能够更好地收集、存 储和保护图像数据。传统的图像数据 管理大都采用表+实体的方法,图像数 据以二进制文件形式存放于指定的计 算机目录下,用标准的SQL语言可以 在相关的数据库查询图像的文本标签 属性,但由于医学影像大数据存储的 结构发生改变,需要有新的技术来进 行处理4-6。 分布式存储促使对存储数据的并 行处理,数据结构一般是Key-value 型数据库,Redis也提供了键(Key) 和键值(Value)的映射关系。除常规 的数值或字符串,Redis的键值还可 以是以下形式之一:列表(Lists)、 集合(Sets)、有序集合(Sorted sets)、哈希表(Hashes)。键值的 数据类型决定了该键值支持的操作。 Redis支持诸如列表、集合或有序集 合的交集、并集、查集等高级原子操 作。目前,Google和亚马逊这种拥有 大数据的公司采用NoSQL语言的 方式去获取数据,采用Map/Reduce框 架进行图片业务处理的编程实现,针 对大数据上传后的批量处理和存储优 化制定相应策略。除像素数据外的所 有数据都是从每个文件中读取。硬件 方面也需要专业的网络设备,如高速 网络监控和防火墙设备通常使用被称 为现场可编程门阵列和三元内容可寻 址储存器的硬件。现场可编程门阵列 是可以被配置为高性能专用任务的可 定制集成电路。三元内容可寻址储存 器类似于高速缓冲存储器,但在多重 匹配的情况下,它的芯片允许用户指 定打破僵局的规则。例如,三元内容 可寻址储存器存储兴趣子网地址的范 围以及现场可编程门阵列执行专门的 任务,如匹配数据包内容的正则表达 式和基于三元内容可寻址储存器和其 他分析结果的路由。现场可编程门阵 列还发现使用数据仓库中的数据分析 引擎可以执行过滤和硬盘中数据流的 其他任务。在图像处理方面,国内遥 感图像处理的研究人员已经设计和开 发了基于Hadoop的海量图像数据管理 系统,可以实现基于Map/Reduce的 Sobel边缘检测和图像并行直方图提取 等图像处理操作7。 5 医学影像数据特征挖掘 目前大数据技术主要是对网页数 据与日志数据进行整理、交叉分析、 比对,从而对数据进行深度挖掘,为 用户提供个性化的迭代分析能力。随 着非结构化数据的特征提取(指纹、 图像、语音自动识别、基因数据比对 等),以及半结构化数据的内容检 索、理解(语义分析)等技术的不断 进展,图像大数据挖掘的研究也日益 深入。图像数据挖掘的主要目标是从 中提取出图片的自身特征,包括语 义、质量、关联度、实体义项等。以 往那些以结构化为主的数据形式,不 再能满足图像分析所需,面向知识本 身的数据模型逐步建立起来,这些 模型能够支持用户的任务与决策,还 可以支持数据自动与其任务标的、属 性相结合,对图像背后隐藏的需求进 行挖掘,并通过与周边环境信息进行 关联计算。Deng等人8研究了基于 Hadoop系统的大规模海量图像数据管 理问题,希望计算机能模仿人类的视 觉系统,建设世界上最大的视觉数据 池 ImageNet,里面包含了1400万经 过标签分类的材料,囊括五花八门的 图像。对于医学影像数据挖掘,目的 是要从大规模的图像集中提取或挖掘 出有用的医学信息或知识9。国内崔 彤哲等人曾设计开发通过集成计算机 智能分析算法影像信息系统计算出肺 结节体积、最大与最小截面等关键信 息,辅助医生快速发现肺小结节。从 大规模图像集的角度,图像挖掘涉及 到图像获取、图像存储、图像压缩、 多媒体数据库等领域。从挖掘出有用 的信息和知识角度,又涉及到图像处 理和分析、模式识别、计算机视觉、 图像检索、机器学习、人工智能、知 识表现等领域。国内外许多研究机构 已在针对视网膜图像、人脑图像、细 胞图像、皮肤癌图像等进行医学图像 数据挖掘工作,并取得了较好的研究 成果10-12。Ramos-Pollan等人利用网 格技术为乳腺癌计算机辅助诊断,通 过构建存储乳房钼靶检查特异性和临 床数据网格,训练机器学习分类器在网 格计算能力,将临床医生工作流程和IT 系统有效地集成13。我们实验室针对慢 性病通常会合并眼底改变表现,选择视 网膜图像作为研究对象,开发出一系列 图像特征提取算法,并设计出图像特征 数据库(见图2)。 6 分布式计算框架 随着分布式计算技术的研究不断 拓展,分布式计算也在生物医学信息 学领域得到应用14。除前面所提的 Hadoop框架,Storm针对在线业务 而存在的计算平台,如统计某用户的 交易量、生成为某个用户的推荐列表 等实时性高的需求实时处理模型,将 数据以流(Stream)的方式,并按 照拓扑(Topology)的顺序,依次处 理并最终生成结果。另外,Spark和 GraphLab都是非常成功的分布式计 算框架。Spark提出弹性分布式数据 特别专题 Exclusive Subject 大数据在医疗卫生领域的应用与实践 中国数字医学2016 年第 11 卷第 2 期 5 集(resilient distributed datasets, RDD)的概念并赋予其一系列的转换 (transformation)和动作(action) 接口,用户可以自行组合成不同的算 法或应用。而GraphLab可以将机器 学习问题转化成图计算的方式,相比 Spark更侧重于计算性能。不过用户 需要首先将问题转化成GraphLab的 模型,这会影响开发效率。国内企业 开发的Paracel分布式计算框架基于参 数服务器范式,针对机器学习算法设 计,支持数据和模型的并行,为用户 提供简单易用的通信接口,比Map/ reduce式的系统更加灵活。2013年, Dea等人开发了训练框架DistBelief, 将巨大的深度学习模型分布存储在全 局的参数服务器中,计算节点通过参 数服务器进行信息传递,很好地解决 了随机梯度下降等算法的分布式训练 问题15。本课题组也尝试利用现有的 Map/reduce框架,对慢性病信息系统 中集成的视网膜图像进行特征挖掘和 疾病建模(见图3)。 7 讨论 随着电子健康档案(electronic health record,EHR)系统中的数据 越来越多,不少研究人员开始利用大 数据技术研究EHR16。Ko等利用大 数据技术从EHR中预测运动神经元疾 病的严重程度,并取得了66%的准 确度17。2014年,美国EHR系统进 入到有意义应用(meaningful use) 的第二个阶段,按照要求,30%的医 学图像诊断医嘱必须电子化,10%的 影像结果必须集成到EHR中,临床工 作站要能方便的进行医学图像及其报 告浏览。针对目前医学图像的存储标 准为DICOM,本文主要对大数据环境 下DICOM图像的存储、集成和数据挖 掘进行探讨。类似的,Medrano等也 对海量研究中的心脏图像进行分析, 通过开发相应的自动心脏图像分析程 序,发现心脏健康问题18,类似的研 究能够为个性化医疗诊断和治疗带来 重要意义19。 高科技医疗仪器检查被视为造 成医疗费用上涨的重要因素。因为不 同医院制度与规范的差异,某些情况 下会做重复性检查,如急诊或病人转 院等,造成浪费,尤其是核磁共振成 像、计算机断层扫描等检查费用高昂 的项目。此外也会增加诊断决策的 时间,可能造成治疗延误。为遵守 HIPAA(Health Insurance Portability and Accountability Act)规则,美国 医疗单位必须保持至少两份图像数据 存档。通过云计算解决方案,可以使 数字存储的价格降低。在云端存储病 人数据最安全的方法之一是分裂合并 技术。这项技术通过从成像数据中去 除受保护的健康信息来使图像研究匿 名。这些受保护的健康信息被分别加 密储存,进而创造一个互联网安全的 影像学研究,因此加强对医学影像大 数据的研究和应用对降低医疗诊治费 用具有重要意义。 对图像挖掘,图像特征库上的数 据挖掘模型包括处理非结构化,不经 过术语映射和尺度变换、旋转,不经 图2 图像数据特征数据库框架 图3 视网膜图像挖掘算法的Map-reduce框架 特别专题 Exclusive Subject 大数据在医疗卫生领域的应用与实践 6China Digital Medicine,Eec.2016,Vol.11,No.2 参 考 文 献 过不同场景分解的特征;以及颜色、 形状、纹理、空间特征等图像特征。 在视网膜图像数据挖掘方面,Quellec 等利用眼底图像对其中的特征进行挖 掘,结合临床文本信息对糖尿病眼病 进行鉴别,大大降低了眼底筛查的医 生工作量20,对医疗人力资源的节省 具有重要意义。尽管大数据技术对海 量影像数据的管理有重要作用,但传 统数据库的许多成果,如SQL语言、 索引技术等都值得图像数据库借鉴。 在近期研究中21,旨在通过开发不 同的视网膜图像处理程序,提取图像 中定量的特征,形成DICOM结构化 报告(DICOM structured report, DICOM-SR),利用现有的遵守 DICOM协议的PACS系统数据库进行 存储,为后期DICOM数据仓库建立和 利用现有工具进行挖掘提供了条件。 随着医疗成像设备的发展,医 学图像种类和数量越来越多,一些针 对大规模医疗图像集进行医学图像信 息提取的研究已经在许多医学领域开 始。随着技术的发展,智慧卫生、精 准医疗等概念能最终落地,造福人类 健康。 参 考 文 献 1 Rascovsky SJ,Delgado JA,Sanz A,et al.Informatics in radiology:use of CouchDB for document-based storage of DICOM objectsJ. Radiographics,2012,32(3):913-927. 2 Branz K.Transitioning to a vendor- neutral image archiveJ.Health Manag Technol,2013,34(6):16-17. 3 Maluf M,Rajendran J.Storing radiology images in the reform era:what CFOs need to knowJ.Healthc Financ Manage,2012,66(2):78-82. 4 Wang S,Pavlicek W,Roberts CC,et al.An automated DICOM database capable of arbitrary data mining (including radiation dose indicators for quality monitoringJ.J Digit Imaging,2011,24(2):223-233. 5 Langer SG.A flexible database architecture for mining DICOM objects:the DICOM data warehouseJ.J Digit Imaging,2012,25(2):206-212. 6 Langer SG.Challenges for data storage in medical imaging researchJ.J Digit Imaging,2011,24(2):203-207. 7 徐昌荣,王聪颖.基于Hadoop集群的Sobel 边缘检测J.江西理工大学学报,2013,34 (3):38-41,74. 8 Deng J,Dong W,Socher R,et al.ImageNet:A Large-Scale Hierarchical Image DatabaseC. CVPR,2009. 9 Wang S,Pavlicek W,Roberts CC,et al.An automated DICOM database capable of arbitrary data mining (including radiation dose indicators) for quality monitoringJ.J Digit Imaging,2011,24(2):223-33. 10 Antonie M,Zaiane OR,Coman A.Application of Data Mining Techniques for Medical Image ClassificationC.The Second International Workshop on Multimedia Data Mining(MDM/KDD2001),San Francisco,CA,USA 11 Hsu W,Lee ML,Goh KG.Image Mining in IRIS: Integrated Retinal Information System (Demo)C.ACM SIGMOD International Conference on the Management of Data,2000. 12 Megalooikonomou V,Davataikos C,Herskovits EH.Mining lesion deficit associations in a brain image databaseC. KDD,San Diego,CA USA,1999:13. 13 Ramos-Pollan R,Franco JM,Sevilla J,et al.Grid infrastructures for developing mammography CAD systemsC.Conf Proc IEEE Eng Med Biol Soc,2010:3467-3470. 14 Ekanayake J,Gunarathne T,Qiu J.Cloud technologies for bioinformatics applicationsJ. IEEE Transactions on Parallel and Distributed Systems,2011,22(6): 998-1011. 15 Dea J,Corrado GS,Monga R,et al.Large scale distributed deep networksC. Advances in Neural Information Processing Systems,2012. 16 Ross MK,Wei W,Ohno-Machado L.Big data and
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 贵州省毕节市大方县2024-2025学年七年级下学期期末试卷英语试题(含笔试答案无听力)
- 2025年政治经济学专业考试试卷及答案
- 2025年经济学原理与应用能力考试试题及答案
- 毛笔书法技法课件
- 度初中数学5月月考卷-相似小题-1431952016946944-874-A4
- 医疗设备组装防滑工艺考核试卷及答案
- 陶瓷釉料搅拌均化工艺考核试卷及答案
- 信号干扰源排查工艺考核试卷及答案
- 合成气生产工艺模拟工艺考核试卷及答案
- 铜材压延模具验证工艺考核试卷及答案
- 医院绩效考核指标体系设计与实施
- GB/T 3690-2017织物芯输送带全厚度拉伸强度、拉断伸长率和参考力伸长率试验方法
- 影视动画风格研究课件
- 国际结算-苏宗祥主编
- 八年级地理上册【省份轮廓图】汇总考试题
- 变更风险识别、评估记录表参考模板范本
- 五年级语文阅读理解十篇(含答案)
- DB45T2053-2019 重质碳酸钙单位产品能源消耗限额
- 焊研威达埋弧焊机小车A系列说明书
- 有机热载体锅炉安装工程施工方案完整
- 常规保养双人作业流程新模板汇总
评论
0/150
提交评论