




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
云计算与大数据改变医疗卫生黄晓琴博士 目录 医疗卫生信息化进展与数据特点 云计算与大数据的发展 云计算与大数据改变医疗卫生 大数据案例共享 5 华为简介 1 150 000员工 16研发中心 45培训中心 28联合创新中心 170 国家 15地区部 70 000研发员工 华为概览 全球领先ICT解决方案供应商 上海研究所8500人 专注无线技术 发展历程及客户 39 6 智能手机 5200万移动宽带 4450万家庭终端 2440万云服务 8000万 2013年情况 持续创新投入 目录 医疗卫生信息化进展与数据特点 云计算与大数据的发展 云计算与大数据改变医疗卫生 大数据案例共享 5 华为简介 1 云计算的驱动 海量信息和超低成本 大数据的 前世今生 自然 杂志出版专刊 BigData 奥巴马政府 国家大数据战略 纽约时报 大数据时代降临 2008年 2013年 2010年 2009年 2012年 2011年 Science刊登专刊 DealingwithData NaturePhysics上出版专刊 Complexity 欧盟智慧城市建设预算上升至3 65亿欧元 欧洲信息学与数学研究协会会刊ERCIMNews上出版专刊 BigData 麦肯锡 大数据是一种全新资产类别 IBM推出业内首个大数据平台 经济学人 特别报告 数据 无所不在的数据 Google研究总监发表了 TheUnreasonableEffectivenessofData 一文 2001年Gartner首提 BIGDATA 定义2003年Google公布三篇论文 奠定技术基石2006年ApacheHadoop项目独立发展2008年学术界开始关注大数据2011年企业界相关产品问世 Hadoop1 0 0版本发布2012年美国国家战略2013年大数据时代到来 Oracle NoSQL数据库 大数据机 1955年MIT首提 人工智能 1960 70年代神经网络发明1980年代专家系统1989年 数据挖掘 提出1990年高精度SVM算法1998年Google2000年互联网数据挖掘2014年大数据时代到来 大数据的 大 数据间的关联 啤酒和尿布数据挖掘的瓶颈 阿里和高德 由于数据量过于庞大 在同样的约束条件下 性能和成本 使用传统的IT技术无法完成数据的管理和分析 满足4V Volume Variety Velocity Value 即容量大 种类多 流量快 价值高 指标的数据称为大数据 需要新处理模式才能具有更强的决策力 洞察发现力和流程优化能力的海量 高增长率和多样化的信息资产 大数据起源与定义 大数据 概念是Gartner公司的分析师DougLaney在2001年一篇论文中提出的 后在2012年重新定义 存量 客户挽留 价值提升业务拓展 数据就是力量 业界成功经验的借鉴 发展方向 数据对内与业务紧密融合 对外通过开放营造价值链 架构支撑 互联网企业已完成从传统数据仓库到大数据架构的技术转型 组织支撑 互联网企业组织中数据科学家及分析师的作用凸显 1 组织定位 数据工厂2 数据平台部180人做数据分析 T4专家组60多人 数据集中 应用开发分散3 内部结算 快 灰度上线 4 机器5千 日处理并发SQL5万 日处理1P数据 60 应用2秒内 1 通过数据分析结果优化搜索算法 提升搜索转化率带来8百万美金的收益 2 搜索部门200多数据分析师 40多数据科学家 占75 技术人员占25 人力结构保障了数据知识的发现 11 重视全网数据整合的价值发现 重视数据分析梯队建设 目录 医疗卫生信息化进展与数据特点 云计算与大数据的发展 云计算与大数据改变医疗卫生 大数据案例共享 5 华为简介 1 医疗卫生信息化进展 信息安全 11 在HIT领域以健康档案 电子病历为核心的区域卫生信息平台建设 无疑为大数据技术应用带来了前所未有的机会 医疗卫生数据特点 异构性 医疗数据类型的多样化 包括数值型数据 类别型数据 图像 文字 信号 语音 视频 加大了知识发现的难度 使开发基于医疗数据库的通用软件系统较为复杂 海量性 医疗工作自身的特点 如病情观察的不可间断 各种医疗检查结果纷繁复杂以及存有大量的医学文献专著等 高科技的医学检查设备 如SPEC MRI PET等 每天都会产生数千兆字节数据 数学特征不显著 数据特性不显著 医疗数据混合了文字 图形等非数值型数据 使得数据挖掘人员并不能很好的找到可以反应数据间联系的模型 难以发掘知识 主观性试验和诊断会带有主观性 难以发掘知识 同一个领域的顶尖专家都会对对方的诊断带有异议 这就会难以整合 标准化危机 在医学界 很多概念都没有规范 例如一个简单的概念 结肠腺癌 转移到肝 都有很多的表达形式 再如有的中药有很多别名 伦理性 社会性 法律性 数据归属权问题 数据安全问题 法律诉讼问题等 1 2 3 4 5 6 医疗卫生大数据分析的步骤 技术 平台和工具 数据驱动的科学方法 步骤一 制定各种数据的标准 功能标准 传输标准步骤二 进行信息化建设 收集数据 建立数据仓库 建立大数据仓库步骤三 算法研究 这里面有N种数据挖掘算法 然后可以自动搜索大数据 同时可能做10种 20种 100种的假说 不同的算法去自动检索不同知识的存在 步骤四 知识发现 通过自动化的过程可以在同样的大数据里挖掘出各种各样的可能潜在的知识 步骤五 验证和结论 最后通过统计方法得到进一步验证和结论 相关技术 数据抽取 数据存储 数据处理统计分析 数据挖掘 排序学习模型预测 结果呈现语义匹配短文本对话 平台和工具 自然语言处理工具 分词 词性标注 专名识别 语法分析 语义角色标注 中 英文 自然语言处理 信息处理应用工具 索引与检索 语义匹配 规则引擎 用户信息模型 对话管理 社会媒体数据处理 信息抽取 机器学习工具 分类 结构预测 排序学习 匹配学习 语言知识库 一般知识库 三个关心的问题 数据挖掘的流程化关联 目标驱动人工智能 模型的通用性和自适应性 大数据的技术 分析方法 1 可视化分析 直观的呈现大数据特点2 统计分析 差异分析 相关分析 偏相关分析 距离分析 回归分析 因子分析 聚类分析 主成分分析 因子分析 快速聚类法与聚类法 判别分析 对应分析 多元对应分析 bootstrap技术等等3 数据挖掘算法 分类 估计 预测 相关性分组或关联规则 聚类 描述和视化 复杂数据类型挖掘 Text Web 图形图像视频音频等 3 预测性分析 预测模型 机器学习 建模仿真4 语义引擎 非结构化数据的多元化给数据分析带来新的挑战 我们需要一套工具系统的去分析 提炼数据 语义引擎需要设计到足够的人工智能以足以从数据中主动地提取信息 5 数据质量和数据管理 目录 医疗卫生信息化进展与数据特点 云计算与大数据的发展 云计算与大数据改变医疗卫生 大数据案例共享 5 华为简介 1 大数据分析对医疗卫生领域带来巨大变化 麦肯锡在其报告中指出 排除体制障碍 大数据分析可以帮助美国的医疗服务业一年创造3000亿美元的附加价值 大数据给我们带来了一个新的数据驱动的科学研究方法去发现 证实医疗卫生领域我们人类无法知道的知识和智慧 用它为我们服务 1 解决传统的不知道的问题 通过 黑盒子 的办法挖掘出潜存的知识和智慧 2 花费是低的 建成大数据仓库就可以挖掘潜在的知识 3 数据可重复利用 高产出的过程 随着算法研究 运算能力提高 就可以一直去运行 分析 4 解决更多的问题 带来方法学上的科学研究方面 是一个巨大的变革 可能更支持 从传统 宏观上解决更多的问题 医疗行业大数据的应用场景分析 比较效果研究 找到针对特定病人的最佳治疗途径临床决策支持系统 提高工作效率和诊疗质量 更智能 对非结构数据的分析能力医疗数据透明度 医疗从业者 医疗机构的绩效更透明 间接促进医疗服务质量的提高病人远程监控 慢病管理效果分析 从对慢性病人的远程监控收集数据 分析结果 确定今后的用药和治疗方案病人档案分析 高危人群分析 应用高级分析可以确定哪些人是某类疾病的易感人群自动化系统 医疗索赔欺诈性分析基于卫生经济学和疗效研究的定价计划 药品定价 医疗服务定价 国家医疗开支的降低预测建模 新药研究提高临床试验设计的统计工具和算法 通过挖掘病人数据 评估招募患者是否符合试验条件临床实验数据的分析 分析临床试验数据和病人记录可以确定药品更多的适应症和发现副作用 个性化治疗 大型数据集 例如基因组数据 的分析发展个性化治疗疾病模式的分析 帮助医疗产品企业制定战略性的研发投资决策汇总患者的临床记录 新药研究提高临床试验设计的统计工具和算法 通过挖掘病人数据 评估招募患者是否符合试验条件公众健康 改善公众健康监控 检测传染病 进行全面的疫情监测 分类 临床操作付款 定价研发新的商业模式公众健康 基于hadoop大数据医疗应用场景 卸载 模式 全量洞察 模式 新数据 模式 现有数据系统不堪重负 非实时复杂SQL数据处理基于NoSQL技术来替换 数据样本分析 复杂模型 全量数据 多个简单模型 结构化数据为主 非结构化数据 日志数据等低价值数据整合分析 采集转换 统计分析 数据组织与查询 健康档案 电子病历对接采集 保存EHR EMR 影像数据仓库信息共享 多维统计科研 决策 统计报表辅助决策绩效管理 卫生大数据处理与分析的两种途径 根据医疗业务诉求确定数据处理方案 结构化数据收集半结构化数据收集影像数据采集访问日志采集XX信息采集 统计类处理数据提取 转换类处理数据挖掘类 聚类 分类神经网络等机器学习影像分析与处理 建立不同主题的数据仓库或数据集市多维分析预处理数据项可动态扩展 HIS CIS PACS数据获取用户 医生访问数据获取医疗应用协同数据获取可穿戴设备数据获取XX数据获取 EHR EMR原始数据存储影像数据存储数据ETL数据挖掘分析 药物信息主题个人健康主题疾病信息主题诊疗信息主题卫生管理主题XXX主题 医疗业务服务平台 报表 查询 推荐等 数据采集 ETL 实时查询 数据流程 业务要求 卫生统计报表 可视化历史病情 档案 影像快速查询相似病历诊断推荐 Hadoop HDFS MapReduce HBase 数据源 应用系统 华为FusionInsightHadoop组成与增强 FusionInsightHadoop管理维护 标准Linux操作系统 安全加固Linux操作系统 FusionInsightHadoop企业级增强 2011年据Hortorworks排名全球第七 大公司第一 华为团队社区问题 补丁贡献 华为企业级增强重点特性 易安装 易开发易管理运维 IBM Hadoop应用数据模型构建考虑因素 原始文件存储考虑 基于HDFS 文件存储格式 TXT CSV XML 数据格式转换 医疗数据结构复杂 数据类型多 无统一标准 ETL处理困难文件大小 HDFS缺省64M 设置合理的数据块大小 有利于提升访问性能数据仓库表设计考虑 基于Hbase 关联查询 业务上是否有多表联合查询的需求多级索引 业务上是否需要多数据列同时提供索引表RawKeySchema设计 读数据 业务读数 据方便 性能高 数据在存储上能连续分布 能连续或分段Scan 避免全表扫描 减少系统IO垃圾数据写数据 IO是瓶颈 需要虑一次RPC能够写入更多的数据 以及写数据均衡 保证写并发度 提高写速度 表Family和Column设计 合理设置 减少扩展数据有效期 数据是否永久保存 有效期到后如何清理 减少对系统的影响 医疗数据表项示意 Hadoop集群硬件配置与选择 服务器软硬件配置要求 应用加速卡选配PCIE 压缩解压缩卡 和hadoop无缝对接 卸载服务器CPU压缩负载PCIE SSD卡 用于M R数据Shuffle时中间数据的缓存 提升计算性能 计算 存储服务器数量确定数据容量考虑每机架服务器硬盘容量有效空间约5 10T 硬盘大小与配置数 数据副本 通常设为3个拷贝数据原始容量为XT 加上数据仓库数据量 数据总容量2 5 XT 同时建议预留40 空间服务器数量 2 5 X 3 5 10计算 I O性能考虑 查询类应用 并发数 响应时延等 服务器数量越多 性能线性增长计算类应用 服务器数量多 有利于加速分布式计算管理服务器数量确定管理节点3个 由Zookeeper分布式选举算法决定总数量3管理节点 Master x个计算 存储节点 Slave Hadoop集群安装与部署 1 集群安装 配置 管理涉及IP地址 硬盘分区 密码设置 系统与集群配置2 社区版手工命令行操作 费时费力 社区版 1 软件安装向导2 图形化向导式操作 Stepbystep引导 3 参数模板化配置 快速部署 华为FusionInsighthadoopManager 数据采集与导入工具 从本地区卫 医疗应用系统导入支持从不同数据源 包括文件服务器 数据库等导入支持数据清洗 转换 华为提供ETL工具 基于Sqoop实现 支持从FileServer DBServer导入到HDFS Hbase或Hive表中同时完成数据清洗转换 图形化参数配置DBServer可在线 离线转换 HIS CISDB或文件服务器 场景1 本地数据导入到HDFS 从远端医院 基层医疗机构采集数据 支持非结构化信息采集支持远程数据采集的可靠性 节点故障 数据不丢失性能扩展 数据量大时 支持节点水平扩展功能扩展 支持输入 输出的插件定制 数据源 格式 场景2 远端数据采集到HDFS 华为集成开源Flume数据采集工具 与Hadoop系统无缝集成并实现Flume的管理 如安装 监控 告警等 与可靠性问题注 支持数据转换 也可通过独立的MR程序完成 Hadoop应用分布式数据处理 三种开发方式 适合于海量结构化与非结构化各类数据具备复杂的业务逻辑处理 如算法客户端采用Java编程 实现Map和ReduceTask 以及可选的Input与OutputFormat Combine等任务 方式1 基于Map Reduce开发 只能对结构化数据处理客户端采用Java HQL 类SQL 编程 无需写Map Reduce函数较复杂的业务逻辑采用UDF 用户自定义函数 完成 如从IP地址获取位置信息 方式2 基于Hive开发 适合于复杂的业务处理通过定义DAG有向无环图 将多个M R任务按一定逻辑或条件串起来实现一个完整业务通过XML描述任务间关系 方式3 结合Oozie工作流开发 HBase数据仓库构建支撑 ClusterTable与关联查询 需求 应用的关联查询 关联查询在应用中广泛存在 而Hbase是一个大表 支持有限 华为提供 ClusterTable解决方案 ClusterTable 聚簇表 为一个实际的Hbase表SubTable 业务上一个或多个关联的子表 被聚簇到一个HBase大表中表Rawkey设计 子表本身的Key按一定规则变换成为大表RawKey关联查询 CluterTable提供访问接口 实现多个子表间的关联查询 华为Hbase提供独有的ClusterTable表特性 符合传统关系表的业务建模习惯降低设计和实现门槛提供可视化数据表设计工具支持子表间的关联查询 HBase数据仓库构建支撑 二级索引 需求 多索引列 基于多列索引在应用中广泛存在Hbase key value 模型 只有Rowkey索引不支持多个列的索引 华为解决方案 华为Hbase提供高性能二级索引 无需独立的索引表 在主表中划出独立的数据空间 存储索引信息索引表只有Key 没有value列 减少存储空间Key信息设计包括源数据Rawkey信息 设计规则支持快速提取 主表插入数据时 同步更新一个索引表该索引表Rowkey设计包括主表中列信息和该行的Rawkey信息 从而能快速查询获取主表中的信息 二级索引原理 二级索引解决方案示意 基于Hadoop的医疗应用 报表 查询 BI 推荐等 HDFS 原始信息与影像数据 Hbase 健康档案 电子病历与影像索引 查询服务 推荐 预测算法 多维数据预计算 报表类应用 综合卫生管理等 查询类应用 健康档案 病历 区域影像查询等 BI 推荐类应用 辅助诊断等 Hbase 分类 标签信息存储 华为 合作方 开源 Pentaho商业 SAS IBMCognos 其它分布式软件系统开发需考虑问题 Zookeeper服务应用模型 Zookeeper内各Server角色与功能 配置管理示意 系统的配置数据都写在 conf节点 当节点信息发送变化时 自动通知watch的Client 集群管理和Master Salve仲裁示意 client信息写入目录 group下 某个Client连接断开 节点内容变化 自动通知其它Client 同时最小编号作为Master 实现主备仲裁 需求 全局系统配置与更新节点主备仲裁名字服务 节点集群故障管理 解决方案 利用Hadoop分布式协调服务组件Zookeeper 卫生专网 众多机构之间快捷可靠传递 综合管理公众服务 区卫平台 3 大量增长数据的高效存储 2 接入人口数量增长 采集信息丰富 从基本信息 健康信息到诊疗信息 医学影像等 数据量从几十TB到PB级 区域卫生大数据的共享与分析 1 经过几年建设 一些区域卫生平台积累了大量的数据 如有进行有效的共享与分析 体现数据的价值 安全 服务公众需要数据和系统安全稳定 4 信息平台承载大量居民医疗卫生关键数据 威胁来自于物理环境 网络 计算服务 应用等各层面 如何防御 运营管理 多系统 多业务 多品牌系统 5 交换机 路由器 服务器 防火墙 虚拟化平台 华为 思科 IBM VMvare 各种机构 各种协议 各种业务 如何满足快捷可靠的传递 带宽 计算 容量如何规划 6 区域卫生信息化平台建设关注的几个主要问题 具备大数据能力的区域卫生云数据中心 电子政务外网 专线 运营商网络 上级平台 医院 公卫 下级平台 居民 Anti DDOS 备份服务器 存储区 NIP USG USG 核心交换机CE12800 NE40E X3 接入交换机E6800 机架 RH2288 RH5885刀片 E9000 区域卫生数据中心 SVN 数据核心区 NS2120 区卫业务区 管理与安全区 门户区 DMZ 智能网卡 出口区 核心区 接入区 虚拟化平台FusionSphere 安全设备 可靠接入卫生机构 网络及带宽规划接口丰富双链路可靠接入VPN安全接入 统一存储 管理T P级卫生数据专业文件系统 记录数十亿卫生业务活动自动高速备份与恢复技术 数据中心网络 64T大容量 无阻塞强大云计算支持 1000VM s迁移速度 支持快速业务上线 业务迁移 多活数据中心构建 容灾 提供数据级 应用级 双活三种容灾方案 虚拟化云平台 多年各行业核心应用验证可靠性SPECvirt验证性能领先开放兼容其他厂家硬件系列图形化运维工具 6重防护 保障安全 边界防护 入侵检测 主机安全 应用安全 防病毒 虚拟化安全 eSight 统一运维 兼容多厂家数据中心机房 模块化 绿色 可定制 服务器 机架 刀片 高密服务器13年出货国产No 1 运维 eSight 模块化机房 S5500T S5600T S5800T统一存储 容灾 NE AR 卫生应用 华为全系列可扩展和高可靠的IT产品 中小企业 分支机构 全球 企业 E6000Blade X6000forDC ES3000SSDCard S2200T S5600T S5800T Dorado2100G2 N8000 UDS Dorado5100 数据中心 存储 服务器 可扩展性 可靠性 X8000RackServer FusionCube FusionSphere 云解决方案 FusionAccess 微数据中心 模块化数据中心 集装箱数据中心 云数据中心 ManageOne数据中心管理 S2600T FusionInsight OceanStor18000系列
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 济南市2025-2026学年九年级下学期语文月考模拟试卷
- 2025年度财务人员年终总结2023年
- 高速公路安全施工课件
- 电脑黄金知识培训课件
- 电脑连接器培训知识课件
- 高血压药的合理使用
- 高血压的原因
- 建设工程规划选址评估服务合同
- 电脑基础知识培训
- 电脑办公普及知识培训课件
- 2025年发展对象考试试题库及参考答案
- 2025山西临汾市洪洞县招聘专职社区工作者58人考试备考试题及答案解析
- 《MySQL数据库教程》课件第一章数据库概述
- 2025年“中央八项规定”精神学习知识竞赛测试题库及答案
- 2025至2030年中国学前教育市场供需格局及未来发展趋势报告
- 1.1 空间和时间(教学课件)高中物理鲁科版必修第一册
- 桡骨茎突腱鞘炎的护理查房
- 2026届湖南省长沙市名校中考语文模试卷含解析
- 2025年中国药典培训试题及答案
- 部队兵器室管理课件
- 抖音完整种草链路
评论
0/150
提交评论