已阅读5页,还剩9页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
论文 引用格式:倪明选,张黔,谭浩宇,等.智慧医疗从物联网到云计算.中国科学:信息科学, 2013, 43:515528, doi: 10.1360/112012-616 中国科学: 信息科学2013年第43卷第4期: 515528 智慧医疗从物联网到云计算 倪明选x,张黔x,谭浩宇x,罗吴蔓x,汤小溪y x 香港科技大学计算机科学与工程系, 香港 y 新元素医疗技术开发有限公司, 深圳 518057 * 通信作者. e-mail: nicse.ust.hk 收稿日期: 20121107; 接受日期: 20130226 摘要新型信息化技术是解决中国医疗服务需求的关键手段.智慧医疗是医疗信息化的重要研究 方向,它融合了物联网、 云计算与大数据处理技术,以“感、 知、 行”为核心,旨在建立一个智能的远 程疾病预防与护理平台. “感”即以物联网技术为基础,利用多种传感器实时跟踪各种生命体征数据 并通过无线网络技术传送到医疗数据中心,然而如何能够长期、 精确、 便捷、 及时、 无创地采集各种 人体关键生命体征数据是一个巨大挑战; “知”即利用大数据存储与处理平台,应用数据挖掘和知识 发现理论对医疗历史数据进行建模与分析,如何从大数据信息中挖掘关键生理特征,可靠、 快速、 高 效地发现早期疾病和预测健康风险,也是一个巨大挑战; “行”即将实时跟踪与历史数据的分析结果, 通过云服务的方式提供给医务人员作为诊疗参考,或为终端用户直接提供医疗护理方案,如何建立 有效的数据模型以实现大规模复杂健康查询的快速和准确响应,同样也是一个巨大挑战.本文将讨 论“感”、“知”、“行”所面临的技术挑战,并探讨解决这些挑战的可行方案. 关键词物联网云计算大数据处理智慧医疗 1引言 近年来, “看病难,看病贵”已成为中国医疗卫生事业亟待解决的难题.由于中国人口众多,总体医 疗资源相对匮乏,高速的经济发展还将带来人口老龄化、 慢性病增长快、 亚健康比例高等诸多问题,只 有利用信息化技术深度改变现有的医疗服务模式,提高医疗资源利用率,方能从根本上破解这个难题. 因此, 2009年的新一轮医疗改革方案 1 明确提出要“建立实用共享的医药卫生系统”,以医疗信息化 作为支撑新一轮医疗改革的支柱. 目前,中国医疗信息化发展态势良好. 60%70%的县级以上医院应用了医院管理信息系统; 10% 20%的城市医院探索建立临床信息系统;区域卫生系统也在少数地区进行了区域试点.但是,面对医 疗资源有限、资深医生有限、医院床位有限、高质服务有限等诸多挑战,仅依靠传统的信息管理系统 是远远不够的.例如,目前城市中有大量的亚健康人群,他们由于工作繁忙和医院排队现象严重等原 因,不愿到医院做常规检查,因此无法得到及时有效的医疗服务,导致最终患病,或者小病拖成大病之 后再去医院就诊.如果能够对亚健康人群及时预警,防患于未然,减少此类人群的发病率,不仅对他们 的健康有助益,也能够减轻医院的压力.又如,目前医院门诊接诊的病人中,有85%以上患有常见病 或多发病,而需要诊治的病人数量巨大,导致医生工作紧张,无法在此类病人的诊断上花费太长时间. 倪明选等: 智慧医疗 从物联网到云计算 最终的结果是患者不满意,医疗资源也没有得到充分利用,专家们无法将主要精力与时间集中于解决 复杂病例,或者危急重患者.此外,对于患者而言,由于信息的缺乏,他们难以找到正确的医院和医生 看病;优质医疗资源集中在大城市,使得偏远地区的患者看病成为体力劳动.其结果往往是得了小病 之后不愿找医院看病,拖成大病之后高额的医疗费用又成为了沉重的负担. 为了帮助解决“看病难,看病贵”的问题,本文提出了一套融合物联网、 云计算与大数据处理技术 的新型解决方案智慧医疗.智慧医疗以“感、知、行”为核心,旨在建立一个智能的远程疾病预 防与护理平台. “感”即以物联网技术为基础,利用多种传感器实时跟踪各种生命体征数据并通过无线 网络技术传送到医疗数据中心,然而如何能够长期、精确、便捷、及时、无创地采集各种人体关键生 命体征是一个巨大挑战; “知”即利用大数据存储与处理平台,应用数据挖掘和知识发现理论对医疗历 史数据进行建模与分析,如何从大数据信息中挖掘关键生理特征,可靠、 快速、 高效地发现早期疾病和 预测健康风险,也是一个巨大挑战; “行”即将实时跟踪与历史数据的分析结果,通过云服务的方式提 供给医务人员作为诊疗参考,或为终端用户直接提供医疗护理方案,如何建立有效的数据模型以实现 大规模复杂健康查询的快速和准确响应,同样也是一个巨大挑战.本文将讨论“感”、“知”、“行”所面 临的技术挑战,并探讨解决这些挑战的可行方案. 2智慧医疗概览 智慧医疗是一种以患者数据为中心的医疗服务模式,主要分为3个阶段:数据获取、知识发现和 远程服务.其中,数据获取由医疗物联网完成,知识发现主要依靠医疗云强大的大数据处理能力进行, 远程服务由云端服务与轻便的智能医疗终端共同提供.这3个阶段周而复始,形成了智慧医疗中“感、 知、 行”的循环(如图1). 我们以产检为例来说明智慧医疗的一个典型应用场景.假设从怀孕到生产的过程中,一名孕妇需 要进行12次产检,那么在整个怀孕过程中,该孕妇至少需要从家到医院往返12次.实际上,孕妇的大 部分常规检查(宫缩、胎心、胎动等)都可以借助仪器完成.采用智慧医疗模式,该孕妇只需要在第1 次和最后1次快生产时去医院产检,其余10次在家中自助完成,并将信息传输到医院,由医生做出检 查报告.在这种情况下,该孕妇从家到医院的往返次数减少了约80%. 从上面这个例子我们可以看出,智慧医疗模式具有解决“看病难,看病贵”问题的潜力.一般而言, 与传统的医疗服务模式相比,智慧医疗主要有如下优点: 1)利用多种传感器设备和适合家庭使用的医疗仪器,自动地或自助地采集各类人体生命体征数 据,在减轻医务人员负担的同时,能够更频繁地获取更丰富的数据. 2)采集的数据通过无线网络自动传输至医院数据中心,医务人员利用数据提供远程医疗服务,能 够提高服务效率、 缓解排队问题并减少交通成本. 3)数据集中存放管理,实现数据广泛共享和深度利用,从而能够对大量医疗数据进行分析和挖掘, 有助于解决关键病例和疑难杂症. 4)能够以较低的成本对亚健康人群、 老年人和慢性病患者提供长期、 快速、 稳定的健康监控和诊 疗服务,降低发病风险,间接减少对稀缺医疗资源(如床位和血浆)的需求. 实现智慧医疗的关键是物联网技术和云计算技术.这两大技术的连接点是海量的医疗数据,或称 为“医疗大数据”.医疗物联网中,数目众多的传感器和医疗设备源源不断地产生各类数据.这些数据 516 中国科学: 信息科学第 43 卷第 4 期 图 1智慧医疗体系结构概览 figure 1an overview of smart healthcare 规模庞大,增长速度很快,传统的数据库技术已无法有效地对其进行管理和处理,因此在智慧医疗中, 我们引入了云计算技术.专用于医疗服务的云计算平台能够以较低成本实现高效和可扩展的医疗大数 据存储与处理,并且可以通过互联网为用户提供方便快捷的医疗服务. 不同于目前已有的医疗信息化系统,智慧医疗强调数据的广泛采集和深度利用.数据的广泛采集, 即利用各种手段,不受时间与地点约束地采集各类数据.虽然现有的电子病历系统能够以数字化方式 保存患者所有在医院进行的检查与就诊记录,但这些数据是非常有限的.智慧医疗利用物联网技术随 时随地采集各种人体生命体征数据并自动保存.其数据量比人工录入电子病历的数据量高出数个数 量级.数据的深度利用,即使用数据挖掘和机器学习等技术从数据中发现隐藏的知识,例如患者的血 氧饱和度变化周期、 心率异常检测、 生命体征关联变化模式等.由于涉及的数据种类繁多且规模庞大, 这些知识难以凭借医生的经验以人工方式获得.此外,应用大规模数据处理技术,能够同时分析所有 患者的记录,帮助医生诊疗疑难杂症. 以下将对智慧医疗中的医疗物联网技术和医疗云计算技术分别进行阐述. 3医疗物联网 一般地说,物联网即通过射频识别 (radio frequency identifi cation, rfid)、传感器、二维码、全球 定位系统等各种装置,按照约定的协议,将任何物品与互联网连接起来,实现人与物体、 物体与物体之 间的通信与互动 2. 其概念最早是由mit auto-id实验室于1999年提出,随着近10年来传感器、 终 端计算设备、 高速无线网络等相关技术的快速发展,物联网已开始深刻地改变人类的生活方式. 医疗服务是物联网最具潜力的应用之一.在医疗物联网中, “物”包括医生、病人、关注健康的人 群、 医疗器械、 药品等; “网”即医疗和健康管理的工作流程; “联”即通过信息交互,将与医疗有关的 517 倪明选等: 智慧医疗 从物联网到云计算 图 2远程监护平台工作原理 figure 2remote monitoring platform “物”编织成具备智能的医疗“网”的过程.本节我们将通过几个应用实例来说明医疗物联网如何优化 医疗服务的工作流程,并指出其中的技术难点. 3.1远程监护平台 远程监护平台能够自动采集多项生命体征数据,自动将数据上传至医院控制中心,实时分析数据 并预警,并由医生提供远程医疗服务.利用多种便携设备,数据的采集可以不受时间与地点限制.远程 监护平台的工作原理见图2.我们研发的远程监护系统能够监护心脏功能、 排尿、 血压、 血糖、 睡眠等 多方面的疾病 3. 以下将具体描述心脏功能实时监护系统和睡眠监护系统. 3.1.1心脏功能实时监护系统 世界卫生组织(world health organization)指出,心血管疾病(cardiovascular disease, cvd)导致 了近三成的死亡,是全球死亡首因.据其估计,仅在2008年,就有1730万人死于cvd;而由于预防措 施不足和医疗服务缺乏等原因,超过80%的cvd死亡发生在中低收入国家;到2030年,每年将会有 2360万人死于cvd.在中国, cvd患者已超过2.7亿,其导致的死亡占到了全部死亡的一半左右. 根据北京急救中心的统计,超过70%的cvd发病于患者家中或工作地点,而由于得不到及时的 救助和护理,这类发病非常容易导致患者死亡.因此,针对cvd,需改变传统的以治疗为主的思路,转 而以预防为主,即通过医疗物联网技术,为高危人群提供不间断监护与发病预警. 目前,医院多利用静态或动态心电图(electrocardiogram, ecg)仪器来记录并编集分析人体心脏 在活动和安静状态下的心电图变化.但是,传统的仪器设备携带不便,不利于长时间收集数据,并且数 据只能存储于仪器内,因此只有在数据采集完成后方能进行数据分析,无法为患者提供实时反馈.针 对这些问题,我们设计了一套心脏功能实时监护系统 4. 这套系统包括3个组成部分:心电图收集器、 手机和医疗服务中心.心电图收集器是一种高精度、小体积、低功耗、高度自动化的便携设备,能够 测量心率等生命体征数据,并通过蓝牙通信技术将数据传输至手机.然后,手机再将数据通过无线网 络实时传送给医疗服务中心.医疗服务中心的软件收到数据后,将发现的异常状况报告给医生和患者. 518 中国科学: 信息科学第 43 卷第 4 期 最后,医生通过手机对患者进行远程服务,提示风险并给出建议.此外,利用手机本身的计算能力,可 以为患者提供实时的心电图分析,并能有效管理历史数据.值得指出的是,我们设计的自动分析软件 能够检测出超过20种心电图异常模式,并能够根据具体情况调整参数,实现针对具体患者的个性化 (personalized)服务. 3.1.2睡眠监护系统 阻塞性呼吸睡眠暂停综合症(obstructive sleep apnea syndrome, osas)是指睡时上气道塌陷阻塞 引起的呼吸暂停、 通气不足、 伴有打鼾、 睡眠结构紊乱等多种病征. osas是一种非常流行的疾病,在 40岁以上的成年人中,约有25%50%是osas患者. osas可导致睡眠时窒息,是一种可快速致死 的疾病.全世界每天有3000人死于睡眠时窒息,占全部突发性死亡的1/5. 对于重度osas患者,主要有两种治疗手段.第1种治疗手段是利用外科手术,移除造成阻塞的 部位,如部分小舌和软腭.这种方法的缺点是给患者造成较大痛苦,且容易复发.第2种治疗手段是 让患者睡眠时带着cpap(continuous positive airway pressure)呼吸机,在呼吸暂停症状出现时,进行 强制呼吸.这种方法的主要缺点包括呼吸机价格昂贵和面具佩戴造成睡眠不适等.对于轻度与中度的 osas患者,尚无有效的治疗方式,患者往往等到病情严重时才会去医院就医.此外, osas的诊断也 是非常困难的.医院一般用多频道睡眠记录仪详细记录患者睡眠中的多项生物物理指标的变化情 况.这种方法需要在病人身体上连接有线探头,操作十分复杂,检测成本高昂,并且检测过程可能会给 患者造成身体和精神压力,影响患者的睡眠.据统计,在osas患者中, 83%的男性以及93%的女性 因缺乏合理有效的检测手段而错过了最佳治疗时间. 为弥补传统诊疗手段的不足,我们设计了一套远程无线睡眠监护系统 5. 远程无线睡眠监护系统 与心脏功能实时监护系统相似,能够在患者家中实时检测患者睡眠时的各项体征 6, 并通过蓝牙将数 据发送至手机,进而通过无线网络将数据传输至医院控制中心.当检测到患者出现睡眠呼吸暂停的症 状时,系统会自动通知医生.然后,医生通过网络远程控制患者家中的可调节枕头的高度与仰角,改变 患者的睡眠姿势,最终使患者恢复自主呼吸.可调节枕头对中轻度osas患者有很好的疗效,患者在 家中就可以得到高质量的治疗. 检测睡眠呼吸暂停的原理是分析动脉血氧饱和度(blood oxygen saturation, spo2)和心率变化的 模式.患者停止呼吸时,由于新鲜空气无法进入体内, spo2会降低.当一段时间内, spo2的值都较低 时,即有可能出现了呼吸暂停症状(如图3).另外,当呼吸暂停时,较低的氧气水平导致副交感神经活 跃转化为交感神经活跃,进而使心跳频率发生变化.因此,心率的周期性变化也可用于判断是否出现 呼吸暂停(如图4).值得一提的是,通过分析心率频谱,可以进一步判断出呼吸暂停的类型.一般地, 当频谱规则而稳定时,可认为是出现了中枢性呼吸暂停;当频谱没有明显的规律时,可认为是出现了 阻塞性呼吸暂停(如图5).由此可见,通过远程睡眠监控得到的数据可以有效地帮助医生诊断病情.而 可调节枕头能在不影响睡眠的前提下,让患者在第一时间得到专业的医疗服务 7(如图 6). 3.2医疗设备管理 随着科技的进步,现代医疗服务越来越依赖于先进的医疗设备.科学合理地购置、使用以及维护 数量庞大的医疗设备,有效规划与管理各种医疗资源,对提高疾病的诊断率和治愈率,改善医院的运 作效率从而降低运作成本,提升医疗服务的社会效益和经济效益具有举足轻重的重要作用. 现阶段,医疗设备的管理主要借助纸质文档进行人工记录与配置.其主要缺陷在于无法实时追踪 519 倪明选等: 智慧医疗 从物联网到云计算 图 3呼吸暂停的指标一: 动脉血氧饱和度 (spo2) figure 3apnea indicator: spo2 图 4呼吸暂停的指标二: 心率变化 figure 4apnea indicator: heart rate 图 5阻塞性和中枢性呼吸暂停的心率频谱区别 figure 5comparison of heart rate spectrum between central and obstructive apnea 520 中国科学: 信息科学第 43 卷第 4 期 图 6可调节枕头系统的实验结果 figure 6experiment results of the adjustable pillow system 设备使用情况,定位困难,并且由于人工记录设备状态程序十分繁琐,非常容易出错,造成数据不一致. 此外,纸质文档不能让管理者方便地查看医疗设备的使用历史,因此难以发现未使用的设备,造成闲 置设备无法被及时调度到需要的地方,导致了较低的设备利用率.为了加快记录速度,可对每件设备增 加条形码或rfid标识,但这种方法需要手持式或固定式的读取设备,受到读取设备功能的限制,并 且仍然无法实时跟踪设备的位置. 利用廉价的传感器设备,可以弥补现有设备管理方法的不足.具体方法是在每一件医疗设备的电 源插头处安装一个无线功率传感器.无线功率传感器可以检测出设备的用电负载和周围的无线信号强 度,并将这些数据通过无线传感器网关上传到医院数据中心.然后,数据中心根据上传的数据,利用室 内定位与机器学习技术,能够计算出设备的位置和使用情况,进而能够为用户提供云服务,包括执行 用户查询和生成所有设备使用情况的统计分析报告等功能 8. 3.3“以患者为中心”的医院工作流程管理 目前,医疗服务的主要工作流程是以医院为中心的.患者就医时,首先通过挂号排队方式配合医 生的坐诊时间;如需进行血检、尿检、ct等各种检查,则需要先交费,然后逐一到各个检查地点配合 检查;拿到医生处方后,还需要再次排队缴交药费并到药房取药.当病情复杂时,上述过程还可能会重 复多次. 这个传统流程对于患者和医院而言都是十分低效的.例如,由于每种医疗检查的需求量与耗时都 不相同,各个检查地点的排队情况是不同的.由于患者对医疗流程不了解或对医院情况不悉,在需要 进行多项检查时,难以根据具体排队情况,选择最省时省力的检查顺序.对于医院而言,某个流程环节 的低效会影响到整个医院的工作效率,如缴费窗口开启数量不足时,可能导致缴费环节的大量排队,并 使得药房、 各类医疗检查或其他相关环节流量不足,造成设备和人员的闲置浪费. 物联网技术可以改变医院工作流程,提高医疗服务的整体效率.在医院工作流程的各个环节都有 传感器设备感知实时状态并上传至医院数据中心.实时状态包括医生与护士的繁忙程度、 检查设备使 用率、排队长度、耗材存量等.患者随身携带一个移动终端,可以是安装了特定应用的智能手机,也 可以是医院提供的专用设备.这个移动终端的主要实现3种功能: 1)记录患者的就诊状态,能够以 友好的流程图示告诉患者已完成与未完成的就诊步骤,对于每个步骤还会提供包括地点和流程等详细 信息; 2)从医院数据中心得到医院的实时状态,并显示在就诊流程图上,帮助患者选择下一个就诊步 骤; 3)提供智能调度服务,综合患者的就诊状态与医院的实时状态,为患者建议一个最优化的就诊流 程.另外,家属也可配备类似的移动终端,协同帮助患者进行缴费和取药等无需患者参与的环节.这种 521 倪明选等: 智慧医疗 从物联网到云计算 “以患者为中心”的医院工作流程可以最大化地节省患者的时间,同时提高医疗人员、 设备、 场所的利 用率. 4医疗云计算 由于多种无线传感器设备已逐渐发展成熟,进入产业化阶段,数据采集已不再困难.但是,采集得 到的数据还没有实现高度共享和深度利用.如何在“感”的基础上,实现智慧医疗的“知”与“行”,已 成为了一项新的巨大挑战.具体来看,最迫切需要解决的问题主要有3个: 1)如何以渐进可扩展的方 式存储重要的生命体征数据,并保证完全可靠; 2)如何管理规模庞大和种类繁多的非结构化数据,实 现高效的复杂查询与分析,并保证结果的正确性; 3)如何从数据中挖掘出有价值的知识,并帮助医疗 专家做出智能决策.我们认为,云计算与大数据处理是应对如上问题的最重要的关键技术. 4.1面向大数据的云计算 合理有效地利用数据是提高云医疗服务质量的关键.在智慧医疗中,产生的数据不仅规模庞大,而 且结构复杂.首先,无线传感器、rfid、手机以及各种医疗设备产生的数据量十分惊人.例如,为1 亿人建立电子病历和健康日志,每年传感器产生的数据将达到pb级;每年1亿人次ct扫描将产生 5 pb左右的数据.第二,医疗数据一般包含时间与地理位置信息,包含的属性众多(例如一次体检可 以得到数百项生命体征数据),因此其存储结构与处理方式都比以web数据为代表的文本数据更复杂. 因此,为支持智慧医疗所需的多种云服务,实现医疗服务实时化和智能化,研究并应用针对医疗大数 据的存储、 管理、 处理、 分析与挖掘技术必不可少. 就云计算而言,根据美国国家技术与标准研究所的定义,云计算是将共享的信息资源,通过网络 动态按需地提供给第三方使用的技术形态和服务模式 9. 这个定义中的信息资源一词含义丰富,包括 网络带宽、 计算能力、 存储空间、 软件服务等.在这种“一切皆为服务”的理念中,云服务的提供者与 使用者有了明确的分界线.与传统计算模式相比,云计算的优点非常明显.云提供者能够通过计算资 源的规模复用实现资源高效利用,实现信息化的“规模经济”,降低了计算成本.云使用者无需管理计 算资源,降低了信息化部署与学习成本.此外,传统软件之间接口不统一,交互困难,云服务能够通过 云存储共享数据,易于整合,降低软件互操作开发成本.在智慧医疗中,医院数据中心与医疗服务平台 共同提供医疗云服务,而医生与患者则构成了云计算使用者群体. 就大数据处理而言,我们首先要明确“大数据”这个词的内涵. mckinsey global institute (mgi) 为大数据提供了一个较好的定义:当数据的规模和性能要求成为数据管理分析系统的重要设计和决定 因素时,这样的数据就被称为大数据 10. 从这个定义我们可以看到,大数据的界定不是简单地以数据 规模为标准,而要考虑数据查询与分析的复杂程度.因此,数据和大数据之间并没有一个绝对的分界. 随着数据处理技术的发展,符合大数据定义所需要的数据规模也会随之提升;同时,不同领域的数据常 见规模和可用的数据管理分析系统也会有所不同.因此,大数据在不同领域的规模可以从gb级跨越 到pb级.以目前计算机硬件的发展水平看,针对简单查询(如关键字搜索),数据量为tb至pb级 时可称为大数据;针对复杂查询(如数据挖掘),数据量为gb至tb级时即可称为大数据. 云部署的加快,对大数据解决方案产生了深刻的影响.越来越多的数据将会存储在云端数据中心, 数据的后续处理也将以云计算的方式直接在云端进行.我们将这种以大数据处理为中心的云计算称为 面向大数据的云计算.面向大数据的云计算的重点在于云端需要一套完整的大数据管理与处理平台, 522 中国科学: 信息科学第 43 卷第 4 期 不仅能够存储数据,而且能够高效地将数据转化为知识,为用户提供有价值的服务. 4.2大数据管理与处理平台:挑战与现状 海量医疗数据为大数据管理与处理平台提出了诸多挑战.第一,由于数据是不断累积的,平台需具 备高可扩展性.第二,存储层应适应不同的存取访问需求.实时应用如医院的挂号和收费系统等,主要 涉及小量数据的读取与写入,要求后端存储能够快速读写;复杂应用如医疗历史数据挖掘等,涉及大 量数据的读取(一般不涉及写入),要求后端存储实现高吞吐量读取.第三,由于医疗数据关乎人的生 命,需要保证平台的高容错与高可用性,能够应对常态化的出错问题. 4.2.1存储系统 在存储系统体系结构方面,以大量廉价服务器组成无共享(shared-nothing)集群的方式逐渐成为 主流.这种体系结构易于实现高可用、 高性能、 渐进可扩展的存储系统,并且由于存储资源与计算资源 紧密耦合,在扩充存储容量的同时,计算能力也能够同步增强,能够避免“存得下,算不出”的问题.在 软件方面,文件存储是最基本的数据存储方式.文件存储的优点是访问接口简单,文件格式可以由使 用者灵活定义,因此文件存储往往作为更高级的数据管理系统的底层存储服务.目前能够存储超大规 模数据的文件存储系统包括lustre、 google fi le system (gfs)、 hadoop distributed fi le system (hdfs) 以及amazon s3等.它们的共同特点是基于无共享架构、 能够管理数百乃至数千存储节点、 自动维护 数据冗余或副本、 高并发顺序访问吞吐率等. 4.2.2数据模型 在更高级的数据管理方面,最重要的数据管理系统是以关系数据模型(relational data model)为 基础的关系数据库系统(rdbms).关系数据模型最主要的优点之一是具有与一阶逻辑体系同等强大 的知识表达能力 11, 这意味着现实中的许多查询都可以用关系代数描述.此外,使用关系数据模型, 用户能够方便地为各种对象以及对象之间的联系设计逻辑模型而无需了解数据库的实现细节.因此, 在21世纪之前,关系数据库被广泛应用于各类信息系统,如医院常用的电子病历系统、临床信息系 统、 用药管理系统、icu(intensive care unit)监护系统等. 关系数据模型虽然具有诸多优点,但要实现一个高效率的关系数据库系统却并不容易.这主要 是因为: 1)为保证关系数据模型功能的完整性,很多数据操作难以进行专门优化; 2)为保证事务处 理的原子性、一致性、分离性和持久性,带来了大量的额外开销.因此在管理大数据时,以oracle database、sql server、mysql为代表的传统关系数据库常常成为性能瓶颈.这些系统的低效不仅表 现为查询速度慢,而且数据加载与建立索引的过程也十分漫长. 由于原始数据和数据处理的中间结果大部分是非结构化(unstructured)数据或半结构化(semi- structured)数据,如网页、 日志、 文档、 图片、 视频等,传统关系数据库被认为不适用于存储这类数据, 因此需要使用其他类型的数据管理系统.现有的针对此类数据的管理系统被笼统地称为nosql数据 库 12, 按照数据模型分类,可以分为以下3种(按照数据模型由简单至复杂的顺序排列). 键值存储系统:键值(key-value)数据模型将数据表示为键与值的映射关系.所有的键 值存储系统都支持的基本操作是给定一个键,查找其对应的值.当键上可以定义比较关系时,有些系统 也支持键上的范围查询(range query).键值模型功能简单和易于实现,键值存储系统一般具有 极佳的可扩展能力和访问性能,因此多用于支持高并发的web服务查询或作为其他存储系统的高性 能缓存.目前主流的分布式键值存储系统包括amazon dynamo、redis、memcachedb等. 523 倪明选等: 智慧医疗 从物联网到云计算 列族存储系统:列族(column-family)数据模型是在键值模型基础上,将值定义为列族的集 合,每个列族可以包含多个相关属性列.与键值存储系统相比,列族存储系统支持的基本操作也是 按值查找和范围查询,但允许用户指定返回的结果中所需包含的属性列,因此更加灵活易用,并且在仅 用到小部分属性列的情况下查询性能更好.近10年来,最具代表性的大规模列族存储系统是google bigtable,类似的系统包括hbase和hypertable等. 文档存储系统:文档(document-oriented)数据模型也可视为键值模型的扩展,与列族模型不 同的是它将值定义为类似广义表的数据结构.从抽象的角度看,列族模型是一种特殊的文档模型.文 档存储系统除了支持基于键的查询,一般还允许用户指定值上的过滤条件(取决于具体系统实现),但 更为灵活的数据结构需要更多空间存储以及更长时间解析,其查询速度通常比列族存储系统慢.目前 主流的文档存储系统包括mongodb、couchdb、apache cassandra等. 相比关系数据库, nosql数据库采用了较为简单的数据模型.这样做的好处是能够为特定的查询 (如按键检索)进行优化,极大地提高查询性能,从而具备非常好的可扩展性,能够应用于超大规模的 数据.另一方面, nosql数据库仅能支持关系数据库能够支持的数据操作的一个很小的子集,例如大 多数nosql数据库不支持关联查询(join).当进行nosql数据库不支持的查询时,用户只能自行编 写代码以满足需要. 在医疗服务中产生的数据类型多样,既有适合关系数据模型描述的结构化数据,也有图片和文本 等多种非结构化数据.这种异构性为医疗大数据的管理带来了很大的挑战.许多关键业务数据要求数 据管理系统支持原子性(atomicity)、 一致性(consistency)、 完整性(isolation)和隔离性(durability),而 支持acid的关系数据库系统不适合存储非结构化数据.一种解决方案是采用两套系统分别存储结 构化与非结构化数据,但这为两种数据之间进行联接查询(join)带来了困难.例如,当要寻找某科室患 者的所有ct影像图片时,需要首先在业务数据库中查询到该科室所有患者的id,然后再到非结构化 数据库中查找图片.这种跨数据库的联接查询的执行效率不高.因此,就医疗大数据而言,需要研究一 种基于混合数据模型的数据管理系统,能够高效管理结构化数据与非结构化数据,并支持异构数据之 间的高效混合查询. 4.2.3大数据的实时查询 医疗服务对时效性的要求很高,很多查询都要求得到实时响应.智慧医疗中涉及实时查询的可大 致分为: 1)与时间有关的查询,如检索监护对象某一时间段内的全部信息; 2)与空间有关的查询,例如 检索监护对象在某个区域(如某个医院)内的全部信息; 3)与特定属性有关的查询,例如检索监护对象 的血压变化历史和用药记录等; 4)综合查询,例如检索监护对象在某段时间和某个区域内的某项生命 体征数据. 高效实时查询的关键是必须预先了解查询类型并建立所需的索引.当数据规模非常大时,现有数 据库采用的索引技术基本能够满足数据检索的实时性需要,但在索引的创建与更新的性能方面有较大 不足.例如,我们的测试结果表明,用一台运行postgresql的服务器为200万条数据(约1 gb)在一 个空间属性上创建r-tree索引,用时约为20分钟;在此基础上再次插入40万条数据(约0.2 gb),用 时约为60分钟.根据这个结果,当数据产生的速度大于960万条/天时,即使服务器的全部计算资源 都用于维护索引,索引的更新速度仍将落后于数据产生的速度.而如果1个医疗传感器每15秒产生 1条测量数据, 1万个这样的传感器每天将产生超过5000万条数据.这意味着现有的索引更新方法无 法胜任医疗大数据处理的需求.此外,是一种常用的避免更新索引的方法是在插入新数据之前删除索 引并在之后重新创建索引,但这种方法不能从根本上解决问题,因为随着数据不断累积,重新创建索引 524 中国科学: 信息科学第 43 卷第 4 期 所用的时间越来越长,最终会比更新索引的速度更慢. 因此,为满足大数据实时查询的需要,现有的索引技术必须加以改进,将索引的创建与更新速度提 高至少一个数量级.索引更新速度慢的一个重要原因是数据逐条添加时引发了多次随机小量写操作, 因此首先需要重新设计索引结构,使其能够批量添加数据(bulk-insertion),尽量用顺序写入大块数据 取代随机写入小块数据.另外,需要设计索引的并行创建与更新算法,使索引的创建与更新能够在无 共享架构中水平扩展. 4.2.4大数据的复杂分析 在智慧医疗中,有很多复杂的数据分析查询,以下仅举几例: 1)医疗数据统计,如统计历年慢性病 比例变化和各地区心脑血管疾病分布等; 2)相似联接查询(similarity join),如根据ct成像图片,寻找 相似的病例与诊断,寻找骨髓移植匹配等; 3)医疗数据挖掘与预测,如寻找亚健康状况与职业、性别、 年龄等因素的联系和预测下一个月各类药品的需求等.这些复杂分析查询的主要特点有: 需要读取大量数据,所需计算时间长; 查询灵活多变,难以预测; 涉及多学科交叉,需要医疗、 统计、 计算机等各领域的专业人士协作完成. 传统关系数据库与nosql数据库难以胜任复杂的数据分析,其原因主要有两个.首先,它们在维 护数据库的原子性、一致性、分离性和持久性方面花费了巨大的开销 13, 而在进行复杂的数据分析 时,数据往往是静态的,因此这些开销是不必要的.第二,它们的存储与索引结构是为数据的随机读写 与频繁更新而设计,没有为大量数据的读取进行专门优化. 目前,对大数据进行复杂分析的工具主要有两大类.一类是并行分析型数据库,另一类是基于 mapreduce 14 的数据分析工具. 分析型数据库基于关系数据模型,与传统关系数据库相比,其存储结构与查询算法为数据读取进 行了专门优化,如用列式存储(column-store)替代行式存储(row-store).目前主流的并行分析型数据 库的有vertica和greenplum等.这些数据库提供的用户接口是与传统关系数据库相同的结构化查询 语言(sql).这种实现方式降低了用户的学习成本,但也带来了两个问题.首先,虽然关系数据模型能 够进行扩展以表示非结构化数据,但由于数据种类繁多,目前缺少足够有效的理论与工具将非结构化 数据转化为结构化数据;第二,一些复杂的数据分析难以直接用sql描述,即使能够用sql描述,其 执行效率也比专门编写的过程化分析程序要低得多. mapreduce是google于2003年提出的一种新的基于无共享架构的并行计算范式.与传统并行 计算范式(如mpi)相比, mapreduce简化了并行数据处理算法的设计与实现,使用者仅需根据查询 需要定义map和reduce两个函数,无需关心并行执行过程中的任务调度、资源管理以及出错处理等 问题. mapreduce最初是为处理google的海量文本数据的简单分析算法而设计.随着apache hadoop 项目提供的mapreduce开源实现在学术界与工业界广泛使用, mapreduce编程模型被证明十分灵 活 15. 我们不仅可以在其上构建分析型数据库(如hadoop hive),而且能够实现常用的数据挖掘与机 器学习算法程序库(如apache mahout). 从大数据分析性能的角度看,数据库专家们对并行分析型数据库与mapreduce的优劣曾经有过 长达数年的争论 16. 随着对两者研究的深入,目前已取得的主要共识有: 对于简单的结构化查询,当计算节点较少时(100台或以下),并行分析型数据库由于采取了更优 化的存储结构与查询算法,性能明显优于mapreduce; 525 倪明选等: 智慧医疗 从物联网到云计算 当计算节点较多时,此时计算节点出错的概率很高,并行分析型数据库在出错时往往需要重新 执行整个查询,性能会受到较大影响,而mapreduce的设计从一开始就将常态化的出错问题纳入考 虑,因此能够轻松扩展到数千台节点; 并行分析型数据库必须预先加载数据,而数据加载的时间通常十分漫长,因此对于日志分析等 仅需读取一次数据的任务并不合适; mapreduce比并行分析型数据库的应用更广泛,如能够处理非结构化查询,实现复杂的数据挖 掘算法; 尽管编程模型简单,但mapreduce仍需要专业人员进行编程工作,并行分析型数据库的使用成 本比mapreduce低. 从严格意义上看,并行分析型数据库与mapreduce并不具备直接可比性.前者是包含查询语言、 逻辑数据模型、并行执行引擎、物理存储结构等一整套机制的实现,而后者仅与前者中的并行执行引 擎的角色类似.整合二者的优点,可以构建出更为强大的数据分析工具,这也是数据库领域一个活跃 的研究方向.例如,为了保证高容错性, mapreduce将计算的中间结果保存在磁盘上,这样做带来了巨 大的开销,影响了查询的执行效率.并行分析型数据库为了保证高效,采用pipeline机制,即上一步的 结果在内存中产生后直接通过网络推送到下一步的计算单元.由此可以得出一个构建高效可扩展的分 析型数据库的思路,即在pineline机制的基础上,同时将中间结果写入磁盘.事实上,二者的融合已经 在目前最新的数据分析工具(如google tenzing)中得到体现. 无论是并行数据库还是mapreduce,都致力于解决机器的执行效率问题.在对医疗大数据进行复 杂分析时,医疗专家的知识与智能在整个分析过程中起着至关重要的作用.但是,要求医疗专家同时 精通分析型数据库的使用甚至编写mapreduce程序,是不现实的.因此,如何在这些复杂的数据分析 系统之上,提供一个具备良好可视化与互动功能的交互界面,是帮助医疗专家发掘医疗大数据价值的 关键. 5总结 智慧医疗是以“感、 知、 行”为核心的智能远程疾病预防与护理平台. “感”的挑战在于如何长期、 精确、 便捷、 及时、 无创地采集各种人体关键生命体征数据; “知”的挑战在于如何从大数据信息中挖 掘关键生理特征,可靠、快速、高效地发现早期疾病和预测健康风险; “行”的挑战在于如何建立有效 的数据模型以实现大规模复杂健康查询的快速和准确响应.智慧医疗需要融合物联网、云计算、大数 据处理等多种技术.如今,医疗物联网发展日趋成熟,已进入产业化阶段,而面向大数据的云计算尚面 临诸多挑战.为了最终实现智慧医疗,我们需要在医疗大数据的存储、 管理、 处理、 分析等方面寻求突 破,设计并实现一套完整的医疗大数据管理与处理平台. 参考文献 1cpc central committee and the state council. opinions on deepening the health care system reform. 2009 2atzori l, iera a, morabito g. the internet of things: a survey. comput netw, 2010, 54: 27872805 3new element medical ltd., co. remote wireless health surveillance platform. =22 2 new element medical ltd., co., shenzhen 518057, china *e-mail: nicse.ust.hk abstractinformation technology is a key to solve chinas growing demand for satisfactory medical services. smart healthcare, which is an integration of various information technologies including internet of things (iot), cloud computing, and big data processing, aims at building a remote disease prevention and care platform. there are three core components in smart healthcare: data acquisition, knowledge discovery, and remote service. data acquisition is the process of monitoring vital signs using various medical sensors and uploading the data to a medical datacenter via wireless networks.though data acquisition is based on mature technologies of iot, great care must be taken in continuously collecting v
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 调和胆气的中医护理方法
- 产教融合型企业的“金融+财政+土地”组合政策激励效应评估-基于2024年产教融合型企业申报材料与地方政策文本的制度逻辑分析
- 血小板低的长期护理策略
- 重度子痫前期的护理个案管理
- 预防医学与护理
- 南京音乐教育试题及答案
- 海藻制醇工规程竞赛考核试卷含答案
- 飞机起落架附件装调工安全素养强化考核试卷含答案
- 化工单元操作工道德知识考核试卷含答案
- 燃气具零部件制作工安全意识强化考核试卷含答案
- 2026年绍兴市社区工作者(专职网格员)招聘考试试卷1含答案解析
- 第22课 《太空一日》课件(内嵌视频 ) 2025-2026学年统编版语文七年级下册
- 2026年安宁疗护护理考核试题及答案
- 2026年新疆维吾尔自治区事业单位考试真题及答案
- 医疗机构静脉用细胞毒性药物调配操作质量管理工作规范
- 2025年度中国展览数据统计报告
- 2025年兰州市事业单位《综合基础知识》真题及答案解析
- 2025-2026学年下学期九年级浙江省温州中考一模语文试卷(含答案)
- 2026入团考试新手备考专属题库及完整答案
- 仓库高处坠落事故案例分析
- 营销部门地推人员岗位职能与考核细则
评论
0/150
提交评论