医疗大数据及相关技术PPT演示幻灯片_第1页
医疗大数据及相关技术PPT演示幻灯片_第2页
医疗大数据及相关技术PPT演示幻灯片_第3页
医疗大数据及相关技术PPT演示幻灯片_第4页
医疗大数据及相关技术PPT演示幻灯片_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医疗大数据及相关技术介绍,翟运开 博士/副教授 河南省数字医疗工程技术研究中心 副主任 数字化远程医疗服务河南省工程实验室 副主任 郑州大学第一附属医院 河南省远程医学中心 主任 中国卫生信息学会远程医疗信息化专业委员会 常委/秘书长,郑州大学硕士研究生导师 河南省五一劳动奖章获得者 河南省教学标兵、河南省技术标兵 河南省数字医疗工程技术研究中心副主任 河南省教育系统教学技能竞赛特等奖获得者 数字化远程医疗服务河南省工程实验室副主任 郑州大学第一附属医院河南省远程医学中心主任 中国卫生信息学会远程医疗信息化专业委员会常委/秘书长,教育部科学技术研究重点项目负责人。 河南省重大科技专项课题负责人

2、。 国家科技部科技惠民计划重大专项课题负责人。 参加国家科技部863项目、国家科技支撑项目、国家自然科学基金项目等5项。 获得河南省科技进步奖二等奖、河南省优秀社科成果奖二等奖、河南省自然科学学术奖一等奖等6项。 发表各类学术论文80余篇,出版专著1部,参编教材4部。 取得软件知识产权10项。,医疗信息化与远程医疗、医药电子商务与物流管理、科技创新与管理等。,翟运开 博士/副教授,目录,大数据时代 大数据带来的变革 大数据相关技术 医疗大数据 大数据时代反思,1、大数据时代左右未来十年的四大趋势,1、大数据时代数据源呈现指数级增长,IDC( International Data Corpora

3、tion )预计到2020 年,全球将总共拥有35ZB 的数据量 如果把35ZB 的数据全部刻录到容量为9GB 的光盘上,其叠加的高度将达到233 万公里,相当于在地球与月球之间往返三次,1、大数据时代大数据时代到来(1),2012年月份美国奥巴马政府发布了“大数据研究和发展倡议”(Big data research and development initiative),投资亿以上美元,正式启动“大数据发展计划” 美国政府认为,大数据是“未来的新石油”,1、大数据时代大数据时代到来(2),大数据是2012年月份的达沃斯世界经济论坛上的主题之一 该次会议还特别针对大数据发布了报告“Big da

4、ta, big impact: New possibilities for international development”,1、大数据时代大数据时代到来(3),联合国一个名为“Global Pulse”的倡议项目在2012年月发布报告 Big Data for Development: Challenges & Opportunities 该报告主要阐述大数据时代各国特别是发展中国家在面临数据洪流(data deluge)的情况下所遇到的机遇与挑战,1、大数据时代大数据时代到来(4),产业结构调整要依靠改革,进退并举设立新兴产业创业创新平台,在新一代移动通信、集成电路、大数据、先进制造、

5、新能源、新材料等方面赶超先进,引领未来产业发展。 -李克强政府工作报告2014年3月5日,1、大数据时代大数据定义,大数据至今尚无确切、统一的定义 麦肯锡(McKinsey)的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合 IDC 的定义:大数据一般会涉及2 种或2 种以上数据形式。它要收集超过100TB 的数据,并且是高速、实时数据流,1、大数据时代大数据特点4V,Volume 海量的数据规模,Variety 多样的数据类型,Value,Velocity 快速的数据流转,巨大的数据价值,目录,大数据时代 大数据带来的变革 大数据相关技术 医疗

6、大数据 大数据时代反思,2、大数据带来的变革,信息技术革命的小周期,2、大数据带来的变革新思维,个体数据的精确性不再重要,数据就是货币,数据随时间迅速折旧,数据是资产,改变“数据是稀缺资源”的世界观,数据是原材料,信息是原油,2、大数据带来的变革新方法学,多数据源的整合,描述性分析预测性和处方性分析,大数据+小算法+上下文+知识积累,数据民主化和开放数据,数据资产、数据产品和社会化分析服务的货币化,数据极大丰富前提下的新分析思维和技术,数据市场和数据定价,社会化分析服务,实时性大于绝对的精确性,2、大数据带来的变革实时精准营销,利用大数据能力可以帮助企业获得突破性回报,2、大数据带来的变革实时

7、风险控制,利用大数据能力可以帮助企业进行实时风险控制,如,银行业,2、大数据带来的变革安全检测,将安全检测与大数据融合,2、大数据带来的变革医疗大数据,目录,大数据时代 大数据带来的变革 大数据相关技术 医疗大数据 大数据时代反思,成本可承受(economically)的情况下 通过非常快速(velocity)的采集、发现和分析; 在大量化(volumes)、 多类别(variety)的数据中提取价值(value),分析的数据越全面,分析的结果就越接近于真实 能够从这些数据中获取新的洞察力,并将其与已知业务的各个环节相融合,3、大数据相关技术,3、大数据相关技术大数据带来的技术变革,3、大数据

8、相关技术大数据系统,当前大数据系统主要包括:存储、计算、分析等。,3、大数据相关技术分布式文件系统,分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。 大数据系统中常用的分布式文件系统为HDFS。,3、大数据相关技术并行计算,传统并行计算。拥有多个CPU,计算资源与存储资源分离,数据统一存放、统一读取。对于数据密集型处理,I/O将成为整个系统瓶颈。 MapReduce。由普通PC组成,考虑数据局部性原理,将数据分布至各个节点,处理时,就近读取数据。,

9、X86 服务器,X86 服务器,3、大数据相关技术实时流式计算,实时计算一般都是针对海量数据进行,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。,3、大数据相关技术数据分析流程,确定业务对象,数据准备,数据挖掘,结果分析,知识的同化,滥用缩写词 数据输入错误 数据中的内嵌控制信息 不同的惯用语 重复记录 丢失值 拼写变化 不同的计量单位 过时的编码 含有各种噪声,数据污染,格式标准化 异常数据清除 错误纠正 重复数据的清除,数据处理,大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作 目的是将数据按统一的格式提取出来,然

10、后再转化,集成,载入数据仓库的工具 (ETL) 抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。 清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项。 因此要对数据通过过滤“去噪”从而提取出有效数据,3、大数据相关技术大数据预处理技术,3、大数据相关技术大数据分析挖掘,技术方法分类 根据挖掘任务:分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等 根据挖掘对象:可分为关系数据库、面向对象数据库、

11、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web 根据挖掘方法:可分为机器学习方法、统计方法、神经网络方法和数据库方法。 重点技术 数据挖掘算法。分割、集群、孤立点分析还有各种算法让我们精炼数据,挖掘价值。这些算法要能够应付大数据的量,同时还具有很高的处理速度。 预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。 语义引擎。人工智能从数据中主动地提取信息。包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。 数据质量和数据管理。透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。,顾名思义,数据挖掘

12、就是从大量的数据中挖掘出有用的信息 数据挖掘技术投入商用的三种基础技术已发展成熟 海量数据搜集 强大的分布式并行处理技术 数据挖掘算法 知识发现(KDD):从源数据中发掘模式或联系的方法 KDD被用来描述整个数据发掘的过程, 包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(DM, Data Mining)来描述使用挖掘算法进行数据挖掘的子过程。 数据挖掘所发现的知识有以下四类: 广义知识: 指类别特征的概括性描述知识 关联知识:反应一个事件和其他事件之间依赖或关联的知识 分类知识:反应同类事物共同性质的特征性知识和不同事物之间的差异性特征知识 预测性知识:根据时间序列型数据,由历史的和

13、当前的数据去推测未来的数据。,3、大数据相关技术大数据分析挖掘之数据挖掘与知识发现,关联规则挖掘: 在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。 应用: 购物篮分析、交叉销售、产品目录设计、 loss-leader analysis、聚集、分类等。,买尿布的客户,二者都买的客户,买啤酒的客户,结论: 买啤酒和尿布的客户,占50% 在买啤酒的客户中,67%会买尿布,3、大数据相关技术大数据分析挖掘之关联分析,序列模式定义:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户

14、指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值 应用领域: 客户购买行为模式预测 Web访问模式预测 疾病诊断 自然灾害预测 DNA序列分析 工业控制,关联解决了大量数据中的“关联”关系问题 数据价值中还有非常重要的“顺序”问题,需要依靠序列,目前应用最多的是基于“时间”关系的序列,访问XX论坛15分钟后,不低于X%的用户会访问XX购物,3、大数据相关技术大数据分析挖掘之序列模式,典型应用 信誉证实 目标市场 医疗诊断 性能预测,预测分类标号(或离散值) 根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数

15、据,建立连续函数值模型,比如预测空缺值,分类,预测,比如将客户采用分类方法来判断信用卡发放的目标对象: 分类为:关注、不关注 经过不断干预训练,得到分类规则: -【年龄(2540)、职业(x,y)、收入(500010000)】-关注 由此如果获取到新的“客户信息”,即可判定其属于哪类。,此处:指预测算法;而不是广义的预测活动,已有10万人的(年龄,性别,血压)数据,建立一个函数来拟合这些数据。 预测:一位新来的病人(男,50岁),预测其血压应为X,3、大数据相关技术大数据分析挖掘之分类、预测,将物理或抽象对象的集合分组成为由类似的对象组成的多个类 同一个簇中的对象有很大的相似性,而不同簇间的对

16、象有很大的相异性,把一个给定的数据对象集合分成不同的簇(分簇完全是自动化的) 聚类与分类的不同:聚类是无监督分类法,没有预先指定的类别,疾病分析:针对1万冠心病人x个指标记录,自动进行聚类,相似的病人可以进行相似的治疗 医疗卫生管理:将医院的规模、诊治水平、工作效率等指标进行聚类分析,以提升管理水平 市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划; 地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类,举例,3、大数据相关技术大数据分析挖掘之聚类,异常检测是数据挖掘中一个重要方面,用来发现”小的模式”(相对于聚类),即数据集中间显著不同于其它

17、数据的对象。 异常的定义:异常是在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。 异常探测应用 电信和信用卡欺骗 贷款审批 药物研究 气象预报 客户分类 网络入侵检测等,药物研究:针对某种药物,有大量动物测试样本,均复合正常分布。对于极少数不符合“分布”的不良反应,却是非常值得研究和关注的。 通过对临床不良反应报告系统中的大量数据进行分析,找到各种药品的不良反应进行研究。,举例,3、大数据相关技术大数据分析挖掘之异常探测,3、大数据相关技术技术方案架构,应用运行环境,云计算管理平台 MasterOne,监测 控制 规划,运营支撑系统,云服务门户,统一服务认证,

18、SaaS 应用层,PaaS 平台层,IaaS(virtulization) 基础架构层(虚拟化),海量数据分析,云数据审计和安全,云Web服务开发部署平台,IaaS(non-virtualization) 基础架构层(非虚拟化),应用系统标准规划,云存储,Hadoop大数据应用和管理,云资源运营服务,目录,大数据时代 大数据带来的变革 大数据相关技术 医疗大数据 大数据时代反思,4、医疗大数据5大应用领域,临床业务(临床决策支持系统、远程病人监控、病人档案分析) 付款/定价(自动化系统、基于卫生经济学和疗效研究的定价计划) 公众健康(快速检测传染病,全面监测疫情) 新的商业模式(临床记录和医疗

19、保险数据集、网络平台和社区) 研发(预测建模、临床实验数据的分析、个性化治疗),4、医疗大数据健康云服务平台,个人健康数据网络化服务,1 个人健康信息云端服务,2 医疗机构云端病历存储服务、医疗机构云端医护服务,3 远程医疗健康服务,4 对个人健康数据进行分析、挖掘,4、医疗大数据大数据分析应用于疾病预防(1),疾病预防两步走,找出高风险致病因素,预防步骤,4、医疗大数据大数据分析应用于疾病预防(2),社会结构 (Social structure),物质环境 (Material factors),劳动环境 (Work),心理环境 (Psychological),社会环境 (Social env

20、ironment),健康行为 (Health behaviors),生理病态的变化 (Pathophysiological changes) 器官损害 (Organ impairment),健康 (Well-being) 罹病 (Morbidity) 死亡 (Mortality),脑 (Brain) 神经内分泌 与免疫系统 的反应 (Neuroendocrine and immune response),幼儿期环境 (Early life),遗传因素 (Genes),文化因素 (Culture),健康与社会关联,4、医疗大数据大数据分析应用于疾病预防(3),Secondary Use,1,分析

21、健康数据已成为世界趋势 美国早已在20年前开放全国住院数据供研究者使用,2,分析健康数据有助于研究新的治疗方式、疾病诊断、药物副作用、疾病间的关联性等,新的治疗方式,3,若没有完整开放健康数据将严重损害广大病人之权益,病人权益,健康数据价值,4、医疗大数据大数据分析应用于疾病预防(4),存活率追踪,就诊率追踪,防治(疫)效益追踪,族群健康追踪,健康数据分析与社会的联系 社会经济、劳动条件、 幼儿期、遗传、文化等 对健康的影响,健康数据分析与卫生政策联系 医疗、保健、防疫、 全民健保政策实施成效 的衡量、评估与建议,族群追踪应用,数据整合应用,健康数据应用,4、医疗大数据大数据分析应用于疾病预防

22、(5),Data,Data Warehouse in Value-added Management and Development Center,OLTP,OLAP,labs,procedures,gender,claims,provider,age,diagnosis,department,visit date,admissions,What diseases are treated most efficiently?,How should I budget for next year?,What adjustments should be made to maximize profit?,Information Knowledge Wisdom,What departments were filing the most claims? That were paid?,使用大数据平台提供健康信息服务,4、医疗大数据健康数据应用场景,People,Hospital,Health Examination Center,Health Management Institution,Hospital,Health Examination Cen

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论