云计算与大数据改变医疗卫生.ppt_第1页
云计算与大数据改变医疗卫生.ppt_第2页
云计算与大数据改变医疗卫生.ppt_第3页
云计算与大数据改变医疗卫生.ppt_第4页
云计算与大数据改变医疗卫生.ppt_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

云计算与大数据改变医疗卫生 黄晓琴 博士,目录,医疗卫生信息化进展与数据特点,云计算与大数据的发展,云计算与大数据改变医疗卫生,大数据案例共享,5,华为简介,1,150,000 员工,16 研发中心,45 培训中心,28 联合创新中心,170+ 国家,15 地区部,70,000 研发员工,华为概览,全球领先 ICT 解决方案供应商,上海研究所 8500人 (专注无线技术),发展历程及客户,39.6,智能手机:5200万 移动宽带:4450万 家庭终端:2440万 云服务:8000万 (2013年情况),持续创新投入,目录,医疗卫生信息化进展与数据特点,云计算与大数据的发展,云计算与大数据改变医疗卫生,大数据案例共享,5,华为简介,1,云计算的驱动:海量信息和超低成本,大数据的“前世今生”,自然杂志出版专刊“Big Data”,奥巴马政府“国家大数据战略”,纽约时报:大数据时代降临,2008年,2013年,2010年,2009年,2012年,2011年,Science刊登专刊“Dealing with Data”,Nature Physics上出版专刊“Complexity”,欧盟智慧城市建设预算上升至3.65亿欧元,欧洲信息学与数学研究协会会刊ERCIM News上出版专刊“Big Data”,麦肯锡:大数据是一种全新资产类别,IBM推出业内首个大数据平台,经济学人特别报告数据,无所不在的数据,Google研究总监发表了 The Unreasonable Effectiveness of Data 一文,2001年Gartner首提“BIG DATA”定义 2003年Google公布三篇论文,奠定技术基石 2006年Apache Hadoop项目独立发展 2008年学术界开始关注大数据 2011年企业界相关产品问世,Hadoop1.0.0版本发布 2012年美国国家战略 2013年大数据时代到来,Oracle:NoSQL数据库+大数据机,1955年MIT首提“人工智能” 1960、70年代神经网络发明 1980年代专家系统 1989年数据挖掘提出 1990年 高精度SVM算法 1998年 Google 2000年 互联网数据挖掘 2014年 大数据时代到来,大数据的“大” 数据间的关联 啤酒和尿布 数据挖掘的瓶颈- 阿里和高德,由于数据量过于庞大,在同样的约束条件下(性能和成本),使用传统的IT技术无法完成数据的管理和分析,满足4V(Volume、Variety、Velocity、Value,即容量大、种类多、流量快、价值高)指标的数据称为 大数据,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。,大数据起源与定义,“大数据”概念是Gartner公司的分析师Doug Laney在2001年一篇论文中提出的;后在2012年重新定义:,存量: 客户挽留, 价值提升 业务拓展: 数据就是力量,业界成功经验的借鉴,发展方向:数据对内与业务紧密融合,对外通过开放营造价值链。 架构支撑:互联网企业已完成从传统数据仓库到大数据架构的技术转型。 组织支撑:互联网企业组织中数据科学家及分析师的作用凸显。,1,组织定位:数据工厂 2、数据平台部180人做数据分析,T4专家组60多人;数据集中、应用开发分散 3,内部结算,快,灰度上线; 4,机器5千+,日处理并发SQL5万+,日处理1P数据,60%应用2秒内;,1,通过数据分析结果优化搜索算法,提升搜索转化率带来8百万美金的收益; 2,搜索部门200多数据分析师、40多数据科学家,占75%,技术人员占25%,人力结构保障了数据知识的发现;,11,重视全网数据整合的价值发现,重视数据分析梯队建设,目录,医疗卫生信息化进展与数据特点,云计算与大数据的发展,云计算与大数据改变医疗卫生,大数据案例共享,5,华为简介,1,医疗卫生信息化进展,信息安全,- 11 -,在HIT领域以健康档案、电子病历为核心的区域卫生信息平台建设,无疑为大数据技术应用带来了前所未有的机会。,医疗卫生数据特点,异构性,医疗数据类型的多样化。包括数值型数据、类别型数据、图像、文字、信号、语音、视频。加大了知识发现的难度,使开发基于医疗数据库的通用软件系统较为复杂。,海量性,医疗工作自身的特点,如病情观察的不可间断、各种医疗检查结果纷繁复杂以及存有大量的医学文献专著等。高科技的医学检查设备(如SPEC、MRI、PET等),每天都会产生数千兆字节数据。,数学特征不显著,数据特性不显著。医疗数据混合了文字、图形等非数值型数据,使得数据挖掘人员并不能很好的找到可以反应数据间联系的模型。,难以发掘知识,主观性试验和诊断会带有主观性,难以发掘知识。同一个领域的顶尖专家都会对对方的诊断带有异议,这就会难以整合。,标准化危机,在医学界,很多概念都没有规范,例如一个简单的概念,“结肠腺癌,转移到肝”,都有很多的表达形式,再如有的中药有很多别名。,伦理性、社会性、 法律性,数据归属权问题、数据安全问题、法律诉讼问题等。,1,2,3,4,5,6,医疗卫生大数据分析的步骤、技术、平台和工具,数据驱动的科学方法: 步骤一:制定各种数据的标准、功能标准、传输标准 步骤二:进行信息化建设,收集数据、建立数据仓库、建立大数据仓库 步骤三:算法研究。这里面有N种数据挖掘算法,然后可以自动搜索大数据,同时可能做10种、20种、100种的假说,不同的算法去自动检索不同知识的存在。 步骤四:知识发现。通过自动化的过程可以在同样的大数据里挖掘出各种各样的可能潜在的知识, 步骤五:验证和结论。最后通过统计方法得到进一步验证和结论。,相关技术: 数据抽取、数据存储、数据处理 统计分析、数据挖掘、排序学习 模型预测、结果呈现 语义匹配 短文本对话,平台和工具: 自然语言处理工具(分词、词性标注、专名识别、语法分析、语义角色标注)(中、英文) 自然语言处理、信息处理应用工具(索引与检索、语义匹配、规则引擎、用户信息模型、对话管理,社会媒体数据处理,信息抽取) 机器学习工具(分类、结构预测、排序学习、匹配学习) 语言知识库、一般知识库,三个关心的问题: 数据挖掘的流程化 关联: 目标驱动 人工智能: 模型的通用性和自适应性,大数据的技术分析方法,1、可视化分析:直观的呈现大数据特点 2、统计分析:差异分析、相关分析、 偏相关分析、距离分析、回归分析、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析、bootstrap技术等等 3、数据挖掘算法: 分类、估计、预测、相关性分组或关联规则、聚类、描述和视化、复杂数据类型挖掘(Text, Web ,图形图像视频音频等)。 3、预测性分析:预测模型、机器学习、建模仿真 4、语义引擎: 非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到足够的人工智能以足以从数据中主动地提取信息。 5、数据质量和数据管理:,目录,医疗卫生信息化进展与数据特点,云计算与大数据的发展,云计算与大数据改变医疗卫生,大数据案例共享,5,华为简介,1,大数据分析对医疗卫生领域带来巨大变化,麦肯锡在其报告中指出,排除体制障碍,大数据分析可以帮助美国的医疗服务业一年创造3000亿美元的附加价值。 大数据给我们带来了一个新的数据驱动的科学研究方法去发现、证实医疗卫生领域我们人类无法知道的知识和智慧,用它为我们服务。,1、解决传统的不知道的问题:通过“黑盒子”的办法挖掘出潜存的知识和智慧; 2、花费是低的:建成大数据仓库就可以挖掘潜在的知识; 3、数据可重复利用,高产出的过程:随着算法研究,运算能力提高,就可以一直去运行,分析; 4、解决更多的问题:带来方法学上的科学研究方面,是一个巨大的变革,可能更支持,从传统、宏观上解决更多的问题。,医疗行业大数据的应用场景分析,比较效果研究找到针对特定病人的最佳治疗途径 临床决策支持系统提高工作效率和诊疗质量,更智能,对非结构数据的分析能力 医疗数据透明度医疗从业者、医疗机构的绩效更透明,间接促进医疗服务质量的提高 病人远程监控慢病管理效果分析,从对慢性病人的远程监控收集数据,分析结果,确定今后的用药和治疗方案 病人档案分析(高危人群分析):应用高级分析可以确定哪些人是某类疾病的易感人群 自动化系统医疗索赔欺诈性分析 基于卫生经济学和疗效研究的定价计划药品定价、医疗服务定价,国家医疗开支的降低 预测建模新药研究 提高临床试验设计的统计工具和算法通过挖掘病人数据,评估招募患者是否符合试验条件 临床实验数据的分析分析临床试验数据和病人记录可以确定药品更多的适应症和发现副作用。 个性化治疗大型数据集(例如基因组数据)的分析发展个性化治疗 疾病模式的分析帮助医疗产品企业制定战略性的研发投资决策 汇总患者的临床记录新药研究 提高临床试验设计的统计工具和算法通过挖掘病人数据,评估招募患者是否符合试验条件 公众健康改善公众健康监控,检测传染病,进行全面的疫情监测。,分类: 临床操作 付款/定价 研发 新的商业模式 公众健康,基于hadoop大数据医疗应用场景,“卸载”模式,“全量洞察”模式,“新数据”模式,现有数据系统不堪重负,非实时复杂SQL数据处理基于NoSQL技术来替换,数据样本分析+复杂模型,全量数据+多个简单模型,结构化数据为主,非结构化数据、日志数据等低价值数据整合分析,采集转换,统计分析,数据组织与查询,健康档案/电子病历对接采集,保存EHR/EMR/影像 数据仓库 信息共享,多维统计 科研,决策,统计报表 辅助决策 绩效管理,卫生大数据处理与分析的两种途径,根据医疗业务诉求确定数据处理方案,结构化数据收集 半结构化数据收集 影像数据采集 访问日志采集 XX信息采集,统计类处理 数据提取、转换类处理 数据挖掘类,聚类、分类神经网络等机器学习 影像分析与处理,建立不同主题的数据仓库或数据集市 多维分析预处理 数据项可动态扩展,HIS/CIS/PACS数据获取 用户/医生访问数据获取 医疗应用协同数据获取 可穿戴设备数据获取 XX数据获取,EHR/EMR原始数据存储 影像数据存储 数据ETL 数据挖掘分析,药物信息主题 个人健康主题 疾病信息主题 诊疗信息主题 卫生管理主题 XXX主题,医疗业务服务平台 (报表、查询、推荐等),数据采集,ETL,实时查询,数据流程,业务要求,卫生统计报表、可视化 历史病情、档案、影像快速查询 相似病历诊断推荐,Hadoop,HDFS/MapReduce,HBase,数据源,应用系统,华为FusionInsight Hadoop组成与增强,FusionInsight Hadoop管理维护,标准Linux操作系统,安全加固Linux操作系统,FusionInsight Hadoop 企业级增强,2011年据Hortorworks排名全球第七,大公司第一,华为团队社区问题/补丁贡献,华为企业级增强重点特性,易安装、易开发 易管理运维,IBM,Hadoop应用数据模型构建考虑因素,原始文件存储考虑(基于HDFS) 文件存储格式:TXT、CSV、XML 数据格式转换:医疗数据结构复杂、数据类型多,无统一标准,ETL处理困难 文件大小:HDFS缺省64M,设置合理的数据块大小,有利于提升访问性能 数据仓库表设计考虑(基于Hbase) 关联查询:业务上是否有多表联合查询的需求 多级索引:业务上是否需要多数据列同时提供索引 表Raw Key Schema设计: 读数据:业务读数,据方便,性能高,数据在存储上能连续分布,能连续或分段Scan,避免全表扫描,减少系统IO垃圾数据 写数据:IO是瓶颈,需要虑一次RPC能够写入更多的数据;以及写数据均衡,保证写并发度,提高写速度。 表Family和Column设计:合理设置、减少扩展 数据有效期:数据是否永久保存,有效期到后如何清理,减少对系统的影响,医疗数据表项示意,Hadoop集群硬件配置与选择,服务器软硬件配置要求,应用加速卡选配 PCIE-压缩解压缩卡:和hadoop无缝对接,卸载服务器CPU压缩负载 PCIE-SSD卡:用于M/R数据Shuffle时中间数据的缓存,提升计算性能,计算、存储服务器数量确定 数据容量考虑 每机架服务器硬盘容量有效空间约510T(硬盘大小与配置数) 数据副本:通常设为3个拷贝 数据原始容量为XT,加上数据仓库数据量,数据总容量2.5*XT,同时建议预留40%空间 服务器数量:2.5*X*3/510 计算,I/O性能考虑: 查询类应用:并发数/响应时延等,服务器数量越多,性能线性增长 计算类应用:服务器数量多,有利于加速分布式计算 管理服务器数量确定 管理节点3个,由Zookeeper分布式选举算法决定 总数量 3管理节点(Master)+x个计算/存储节点(Slave),Hadoop集群安装与部署,1、集群安装/配置/管理涉及IP地址、硬盘分区、密码设置、系统与集群配置 2、社区版手工命令行操作,费时费力,社区版,1、软件安装向导 2、图形化向导式操作,Step by step引导; 3、参数模板化配置,快速部署;,华为FusionInsight hadoop Manager,数据采集与导入工具,从本地区卫、医疗应用系统导入 支持从不同数据源,包括文件服务器、数据库等导入 支持数据清洗、转换,华为提供ETL工具,基于Sqoop实现: 支持从File Server/DB Server导入到 HDFS、Hbase或Hive表中 同时完成数据清洗转换,图形化参数配置 DB Server可在线、离线转换,HIS/CIS DB或文件服务器,场景1:本地数据导入到HDFS,从远端医院、基层医疗机构采集数据,支持非结构化信息采集 支持远程数据采集的可靠性,节点故障,数据不丢失 性能扩展:数据量大时,支持节点水平扩展 功能扩展:支持输入、输出的插件定制(数据源、格式),场景2:远端数据采集到HDFS,华为集成开源Flume数据采集工具: 与Hadoop系统无缝集成 并实现Flume的管理(如安装/监控/告警等)与可靠性问题 注:支持数据转换,也可通过独立的MR程序完成,Hadoop应用分布式数据处理三种开发方式,适合于海量结构化与非结构化各类数据 具备复杂的业务逻辑处理:如算法 客户端采用Java编程,实现Map和Reduce Task,以及可选的Input与OutputFormat,Combine等任务,方式1:基于Map/Reduce开发,只能对结构化数据处理 客户端采用Java+HQL(类SQL)编程,无需写Map/Reduce函数 较复杂的业务逻辑采用UDF(用户自定义函数)完成,如从IP地址获取位置信息,方式2:基于Hive开发,适合于复杂的业务处理 通过定义DAG有向无环图,将多个M/R任务按一定逻辑或条件串起来实现一个完整业务 通过XML描述任务间关系,方式3:结合Oozie工作流开发,HBase数据仓库构建支撑ClusterTable与关联查询,需求:应用的关联查询,关联查询在应用中广泛存在。而Hbase是一个大表,支持有限,华为提供: ClusterTable解决方案,ClusterTable:聚簇表,为一个实际的Hbase表 SubTable:业务上一个或多个关联的子表,被聚簇到一个HBase大表中 表Raw key设计:子表本身的Key按一定规则变换成为大表RawKey 关联查询:CluterTable提供访问接口,实现多个子表间的关联查询,华为Hbase提供独有的ClusterTable表特性,符合传统关系表的业务建模习惯 降低设计和实现门槛 提供可视化数据表设计工具 支持子表间的关联查询,HBase数据仓库构建支撑二级索引,需求:多索引列,基于多列索引在应用中广泛存在 Hbase(key、value)模型,只有Rowkey索引 不支持多个列的索引,华为解决方案:华为Hbase提供高性能二级索引,无需独立的索引表,在主表中划出独立的数据空间,存储索引信息 索引表只有Key,没有value列,减少存储空间 Key信息设计包括源数据Rawkey信息,设计规则支持快速提取,主表插入数据时,同步更新一个索引表 该索引表Rowkey设计包括主表中列信息和该行的 Rawkey信息,从而能快速查询获取主表中的信息,二级索引原理,二级索引解决方案示意,基于Hadoop的医疗应用(报表/查询/BI/推荐等),HDFS (原始信息与影像数据),Hbase (健康档案、电子病历与影像索引),查询服务,推荐、预测算法,多维数据预计算,报表类应用 (综合卫生管理等),查询类应用: (健康档案/病历/区域影像查询等),BI/推荐类应用: (辅助诊断等),Hbase (分类/标签信息存储),华为:,合作方:,开源:Pentaho 商业:SAS, IBM Cognos,其它分布式软件系统开发需考虑问题,Zookeeper服务应用模型,Zookeeper内各Server角色与功能,配置管理示意:系统的配置数据都写在/conf节点,当节点信息发送变化时,自动通知watch的Client,集群管理和Master/Salve仲裁示意:client信息写入目录/group下,某个Client连接断开,节点内容变化,自动通知其它Client,同时最小编号作为Master,实现主备仲裁,需求,全局系统配置与更新 节点主备仲裁 名字服务/节点集群故障管理,解决方案,利用Hadoop分布式协调服务组件Zookeeper,卫生专网:众多机构之间快捷可靠传递,综合管理 公众服务,区卫平台,3,大量增长数据的高效存储,2,接入人口数量增长,采集信息丰富(从基本信息、健康信息到诊疗信息、医学影像等,数据量从几十TB到PB级),区域卫生大数据的共享与分析,1,经过几年建设,一些区域卫生平台积累了大量的数据,如有进行有效的共享与分析,体现数据的价值,安全:服务公众需要数据和系统安全稳定,4,信息平台承载大量居民医疗卫生关键数据,威胁来自于物理环境、网络、计算服务、应用等各层面,如何防御?,运营管理:多系统、多业务、多品牌系统,5,交换机、路由器、服务器、防火墙、虚拟化平台华为、思科、IBM、VMvare,各种机构,各种协议,各种业务,如何满足快捷可靠的传递?,带宽、计算、容量如何规划?,6,区域卫生信息化平台建设关注的几个主要问题,具备大数据能力的区域卫生云数据中心,电子政务外网,专线/运营商网络,上级平台,医院,公卫,下级平台,居民,Anti-DDOS,备份 服务器,存储区,NIP,USG,USG,核心交换机 CE12800,NE40E-X3,接入交换机E6800,机架:RH2288/RH5885 刀片:E9000,区域卫生数据中心,SVN,数据核心区,NS2120,区卫业务区,管理与安全区,门户区(DMZ),智能网卡,出口区,核心区,接入区,虚拟化平台 FusionSphere,安全设备,可靠接入卫生机构: 网络及带宽规划 接口丰富 双链路可靠接入 VPN安全接入,统一存储: 管理T/P级卫生数据 专业文件系统,记录数十亿卫生业务活动 自动高速备份与恢复技术,数据中心网络: 64T大容量,无阻塞 强大云计算支持,1000VM/s迁移速度,支持快速业务上线、业务迁移、多活数据中心构建,容灾:提供数据级、应用级、双活三种容灾方案,虚拟化云平台: 多年各行业核心应用验证可靠性 SPECvirt验证性能领先 开放兼容其他厂家硬件 系列图形化运维工具,6重防护,保障安全:边界防护,入侵检测,主机安全,应用安全,防病毒,虚拟化安全,eSight:统一运维,兼容多厂家 数据中心机房:模块化,绿色,可定制,服务器: 机架,刀片,高密服务器 13年出货国产No.1,运维:eSight,模块化机房,S5500T/S5600T/S5800T统一存储,容灾,NE,AR,卫生应用,华为全系列可扩展和高可靠的IT产品,中小企业/ 分支机构,全球,企业,E6000 Blade,X6000 for DC,ES3000 SSD Card,S2200T,S5600T,S5800T,Dorado2100 G2,N8000,UDS,Dorado5100,数据中心,存储,服务器,可扩展性/可靠性,X8000 Rack Server,FusionCube,FusionSphere,云解决方案,FusionAccess,微数据中心,模块化数据中心,集装箱 数据中心,云数据中心,ManageOne 数据中心管理,S2600T,FusionInsight,OceanStor18000系列 (HVS8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论