医学数据挖掘第2章ppt课件.ppt_第1页
医学数据挖掘第2章ppt课件.ppt_第2页
医学数据挖掘第2章ppt课件.ppt_第3页
医学数据挖掘第2章ppt课件.ppt_第4页
医学数据挖掘第2章ppt课件.ppt_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(Methodology&Practice),第2章数据挖掘方法和最佳实践,一、问题的提出,数据挖掘的方法越来越多、越来越复杂,如果某个环节没有做好,数据挖掘工作就可能失败。因此,掌握好方法论是学习数据挖掘的关键,根据作者多年数据挖掘经验,在国内外先进经验的基础上,发展了一套有效的习惯性方法。本章将把这些实践活动总结出的有序步骤,作为数据挖掘的方法论来展示。数据挖掘是一个自然的迭代过程,有些过程需要多次重复进行,完全跳过某个过程不一定恰当。,2,2.1为什么需要方法,数据挖掘是从过去的数据中获取知识,帮助未来更好决策。本章介绍的实践方法主要为了避免知识获取过程中出现以下两个不希望的结果:获取了不真实的知识;获取了真实但无用的知识。这就像水手要学会绕开海上的漩涡和海中的暗礁等危险一样,数据挖掘人员需要了解如何避免这些常见的陷阱。,3,2.1.1获取不真实的知识,获取不真实的知识比获取无用的知识更加危险,因为人们可能依据这些不正确的信息做出重要的决策;如果依据不正确的信息进行医学决策,那将是灾难性的。,心脏形态B超检查数据的“病变形态分类”是将二维超声测量的高血压患者心肌20个节段的厚度,与正常者的数据放在一起,用最小距离聚类分析(MinimumDistanceClusters)的方法将心脏形态分成不同的类型。,例如,高血压病程与心脏形变,从聚类分析结果中可以看出,随着高血压病程的持续,心脏的形态变化日益严重,且某些节段的厚度与病程的关系十分密切。,都是是向心性肥厚吗?,4,2.1.2获取真实但无用的知识,1.获取已知的知识,获取已知的知识确实可以给我们一个有用的提示,从技术角度来说,这表明数据挖掘工作确有成效,而且数据本身也已经相当精确,这是非常令人鼓舞的。如果数据和所应用的数据挖掘技术足以发现已知正确的事实,据此可以相信其他发现也可能为真。,建立了一棵决策树,5,2.获取不能使用的知识,卫生监督中的“知信行”模型知:知识和学习,是基础;(信:信念和态度,是动力);行:产生促进健康行为、消除危害健康行为等行为改变的过程,是目标。,培训次数增加,以上结果表明经培训后,知识得分下降,数据挖掘方法论的目的是避免获得不真实的知识,以及任何没有用的知识。更积极的理解是,数据挖掘方法论的目标是确保数据挖掘得到稳定的模型,以便将该模型用于要解决的社会、企业和医学问题。,6,2.2假设测试,1.产生假设例如:假设餐饮服务业的员工经过卫生知识的培训,在有了卫生知识的基础上,认真工作。当下次卫生监督执法检查中各项指标均为优秀。,2.测试假设假设测试是科学家和统计学家惯于花费心血研究的事情。假设是一种解释,它的正确性可以由分析数据来检验。这些数据或者仅仅由观察收集,或者由实验生成。当结果显示,用于医院做决策的这些假设是不正确的时候,假设测试是最有价值的。(“知信行”模型),7,2.3数据挖掘的方法,进行数据挖掘的时候,首先要将实际问题转化为数据挖掘问题,能否转换为恰当的数据挖掘问题是进行数据挖掘的关键。,为了尽可能避免获取不真实或者真实但无用的知识,必须采取恰当的方法。本节将数据挖掘的方法分为几个步骤,参见下图。,8,数据挖掘的方法可以简单的概括为5个步骤,定义问题:清晰地定义出业务问题,包括业务理解和数据理解,要确定数据挖掘的目的。数据准备:数据准备包括:选择数据-在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理-进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。数据挖掘和建模:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。结果分析和模型评估:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。模型的运用:将分析所得到的模型集成到业务信息系统的组织结构中去。,(亦可参照书上细化的11个步骤),9,小结,这里所说的数据挖掘和模型建立,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论