




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医学大数据分析策略与数据挖掘,讲座人:郭秀花 博士生导师 单 位:首都医科大学 日 期:2014年11月22日,1,2,提纲,中心概况,医学大数据及其分析策略,1,中心概况,2,数据挖掘软件及其实现方法,3,数据挖掘方法简介及其应用,3,医学大数据及其分析策略,大数据(Big Data) 数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。,4,模拟式存量,数字式存量,2000年以前大部分数据是analog data (模拟式数据) 以书、报纸、录像带等存储。特点:数据量较小。2000年以后digital data (数字式数据)大大增加 以CD、DVD、硬盘等存储。特点:数据量巨大。,2000年,Source: Researchers at the University of Southern California took four years - 1986, 1993, 2000 and 2007 - and extrapolated numbers from roughly 1,100 sources of information. Credit: Todd Lindeman and Brian Vastag/ The Washington Post,大数据时代的来临,5,6,医学大数据的应用意义,生物标志物识别,利用大数据识别有关疾病发生、预后或治疗效果的生物标志物,组学研究,基因组学,表观组学,蛋白组学,代谢组学,糖基组学,等,环境因素,个体行为与各组学关联,7,公共卫生监测:,传染病监测、慢性非传染性疾病及相关危险因素监测、健康相关监测群体性预防。,医学大数据的应用意义,8,健康管理:,通过可穿戴设备对个体体征数据的实时、连续监测提供个体化疾病预防和治疗方案,医疗协同和临床决策支持:,通过建立专用数据库,调用患者的基因数据、病历信息等大量医学参考数据,辅助疾病的诊断与治疗,实现个体化诊治原则,医学大数据的应用意义,9,可视化信息:,数据与信息图像、多媒体信息可视化,更清晰有效地传达与沟通大数据包含的生物医学信息。,医学大数据的应用意义,10,在生物医学研究领域,大数据:环境气象学数据医学影像数据基因、蛋白等组学数据大型临床资料复杂的生物和环境因素研究,生物医学大数据的只要特点:高维,11,过 去,假设驱动,收集数据,分析寻找答案数据大多是结构化的,可以分析,现 在,数据驱动,挖掘寻找问题数据多是非结构化的,难以分析。,科学问题处理方式,12,传统的多元统计方法难以处理和分析医学大数据高维、非线性、非高斯等数据,采用数据挖掘方法,可以提供更高的预测精度。,常用的医学多元统计学应用受到制约,13,数据挖掘方法简介及其应用,14,数据挖掘概念,数据挖掘:是在从大量的数据中提取隐含的、事先未知的,但又是潜在有用的信息和知识的过程。,14,大数据源,定义研究问题,模型应用,建立模型,模型评估,数据准备,提取数据,15,数据挖掘方法概述,肺结节良恶性的判定是CT图像诊断肺癌中的一个难点和关键点。在实际的临床中,肺癌被确诊时80%以上已属中晚期。,16,数据挖掘方法应用实例,矢状位,冠状位,轴状位,矢状位图像库冠状位图像库轴状位图像库,三正交位成像,应用实例,17,18,03影像学检查,CT图像纹理,04,高维大数据库(变量约1000,样本336例),数据挖掘主要分类预测方法,19,19,各纹理产生30,40,50,60个子代(即纹理分别为420,560,700,840个)。每个纹理子代分布为正态分布,均值和标准差与轴位CT图像均值相近;设定每个纹理内部子代之间的相关系数为r=0.1,0.2,0.3,0.4;分别产生2组数据,设定两组各个变量均值之间的差值为d(0.01-0.1)。,Monte Carlo模拟分析结果,20,20,Monte Carlo模拟分析结果,纹理相关系数为0.1时,840个纹理值各预测模型拟合结果,纹理相关系数为0.2时, 840个纹理值各预测模型拟合结果,21,21,22,支持向量机,支持向量机(Support Vector Machine, SVM)是美国Vapnik 教授于1963年提出的。 在解决小样本、非线性和高维模式识别问题中表现出许多优势,并在一定程度上克服了“维数灾难”和“过学习”等问题。在模式识别、回归分析、函数估计、时间序列预测等领域,都得到了长足的发展。,Vapnik,最优分类(超平)面,SVM的机理是寻找一个满足分类要求的最优分类超平面 ,使得该超平面在保证分类精度的同时,能够使超平面两侧的空白区域最大化。,23,广义最优分类面,-,24,当线性不可分时,SVM的主要思想是将输人向量映射到一个高维的特征向量空间,并在该特征空间中构造最优分类面。,代替输入向量x,,则可以得到最优分类函数为:,25,Gaussian 核函数:Polynom核函数Vanilladot线性核函数双曲切线核函数Laplacian 核函数Bessel核函数,26,核 函 数,SVM中不同的内积核函数将形成不同的算法。,27,预测模型不同判别方法结果,投票法:选取多数类结果(例如:2个或者2个以上预测模型结果为恶性)作为最后病例的预测结果;并联法:只要有一个预测模型结果判断为恶性,此病人最终判断为恶性结果,否则为良性;串联法:只有3个预测模型同时判断为恶性,此病人最终判断为恶性结果,否则为良性;综合法:合并轴状位、冠状位、矢状位数据集,建立一个预测模型,其结果作为最终结果。,病例基本信息分析结果,良恶性病例人口学特征分析,不同评价方法支持向量机预测模型结果,29,利用病例人口学特征、环境遗传信息和结节形态学信息等综合性信息,建立支持向量机预测模型。,基于人口学、环境遗传和结节形态学信息建立预测模型结果,结论: 基于三正交位CT图像,结合多方面信息,采用大数据支持向量机分类分类预测方法,可以有效提高肺癌诊断正确率,辅助放射科医生进行辅助诊断肺癌。,32,数据挖掘软件及其实现方法,33,Your text,R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。,R是一个有着统计分析功能及强大作图功能的软件系统,是由奥克兰大学统计学系的Ross Ihaka和Robert Gentleman共同创立。,在R的官方网址上,选择网站镜像/mirrors.html,2,R软件,3,1,R软件,R编辑器: 编辑程序 选择运行,R Console: 运行过程 提示错误等,/,34,支持向量机R语言实现,library(kernlab) /加载支持向量机程序包/setwd(“D:ku”) /设置当前数据库路径/datayuce=read.csv(“a.csv”,header=T)/导入预测集数据/dataxunlian=read.csv(“b.csv”,header=T) )/导入训练集数据/svmModel - ksvm(as.matrix(dataxunlian1:5),as.factor(dataxunlian$x),type=“C-svc”,kernel=“rbfdot”,C=10,cross=4) )/核函数选择/pre=predict(svmModel,datayuce1:5)write.csv(data.frame(pre,class=datayuce$x, zu=datayuce$no),file=result.csv) )/输出结果到result.csv /table(pre,class=datayuce$x) /结果整理/,35,支持向量机,36,WEKA(Waikato Environment for Knowledge Analysis),37,WEKA作为一个公开的数据挖掘工作平台,用于非商业目的的研究行为,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。,38,STATA该软件是美国Computer Resource Center研制的统计软件,目前的12、13版本就可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年体育休闲广场项目初步设计评估及景观设计报告
- 药品营销团队管理制度
- 药品门店日常管理制度
- 药店医疗器材管理制度
- 药店离职卫生管理制度
- 菜肴加工卫生管理制度
- 设备团队人员管理制度
- 设备工具耗材管理制度
- 设备机房值班管理制度
- 设备电源安全管理制度
- 甲状腺癌手术治疗护理查房
- 2024-2030年中国矿用锚杆行业发展现状需求分析报告
- 护士角色转换与适应
- 《数据资产会计》 课件 第三章 数据资产的确认和计量
- 2024年-2025年农作物植保员职业技能考试题及答案
- 拍卖合同模板三篇
- 2023北京西城区初二期末(下)物理试卷及答案
- 2023-2024学年山东省烟台市高一下学期期中生物试题(解析版)
- 浅谈机械设计制造及其自动化在飞机发动机中的应用
- 2024年西北工业大学附中丘成桐少年班初试数学试题真题(含答案详解)
- 北京东城五中2025届高三(最后冲刺)历史试卷含解析
评论
0/150
提交评论