(生物医学工程专业论文)基于医学信息数据仓库的数据挖掘研究.pdf_第1页
(生物医学工程专业论文)基于医学信息数据仓库的数据挖掘研究.pdf_第2页
(生物医学工程专业论文)基于医学信息数据仓库的数据挖掘研究.pdf_第3页
(生物医学工程专业论文)基于医学信息数据仓库的数据挖掘研究.pdf_第4页
(生物医学工程专业论文)基于医学信息数据仓库的数据挖掘研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(生物医学工程专业论文)基于医学信息数据仓库的数据挖掘研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆医科大学硕士研究生学位论文 作,提取出构建数据仓库的主题。采用了微软最新推出的m i c r o s o f t s q ls e r v e r2 0 0 8 企业级的数据仓库平台构建基于h i s 的医学信息数据 仓库,s q ls e r v e r2 0 0 8 建立在s q ls e r v e r2 0 0 5 的基础之上,进一步 对各项服务进行改进,是一个完整的数据管理与商业智能平台,在性 能和可扩展性方面排在世界领先的地位。 2 运用s q ls e r v e r2 0 0 8 的集成环境b u s i n e s si n t e l l i g e n c e d e v e l o p m e n ts t u d i o 创建和使用基于医学信息数据仓库的数据挖掘模 型。该环境包括数据挖掘算法和工具,使用这些算法和工具更易于生 成用于各种项目的综合解决方案。 3 介绍了几种经典的数据挖掘算法,并运用s q ls e r v e r2 0 0 8 中 a n a l y s i ss e r v i c e s 数据挖掘组件提供的算法实现从多层次、多角度对 医学信息数据仓库中门诊部和住院部信息进行数据挖掘和分析。探讨 了在疾病监测控制、疾病预测、医院管理辅助决策等方面的数据挖掘 应用。 关键词:数据仓库,o l a p ,数据挖掘,s q ls e r v e r2 0 0 8 ,a r i aiy sis s e r v i c e s 重庆医科大学硕士研究生学位论文 t h er e s e a r c ho fd a t am i n i n gb a s e do n m e d i c a li n f o r m a t i o nd a t aw a r e h o u s e a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to f d a t a b a s et e c h n o l o g y ,i th a si n f i l t r a t e d t oav a r i e t yo fa r e a s ,i n c l u d i n gm e d i c i n e m a n yl a r g ea n dm e d i u m - s i z e d h o s p i t a l sh a v es e tu pt h e i ro w nh o s p i t a li n f o r m a t i o ns y s t e m ( h i s ) a sh i s a p p l i c a t i o n sa n dc o n t i n u o u sd e v e l o p m e n t ,t h ed a t aq u a n t i t yi nt h ed a t a b a s e r a p i di n f l a t i o n , t h ed a t a b a s es c a l ee x p a n d sg r a d u a l l ya n dt h ec o m p l e x d e g r e ei n c r e a s e sd a yb yd a y h o w e v e r ,d e s p i t et h ea c c u m u l a t i o no fal a r g e n u m b e ro fb u s i n e s sd a t a , t h er e a lv a l u eo ft h e s ed a t a h a sr a r e l yb e e n e x t r a c t e da n du s e di nc l i n i c a la s s i s t a n td i a g n o s i so rh o s p i t a l s d a i l y m a n a g e m e n td e c i s i o n - m a k i n g i nv i e wo ft h i sk i n do fs i t u a t i o n , t h i st o p i c p r o p o s e dt oe s t a b l i s ham e d i c i n ei n f o r m a t i o nd a t aw a r e h o u s eb a s e do nh i s s y s t e m i nt h i sf o u n d a t i o n ,d od a t am i n i n go nt h em e d i c a ld a t ai nm o n i t o r , f o r e c a s ta n dh o s p i t a lm a n a g e m e n ta s s i s t a n c ed e c i s i o n - m a k i n ga n dsoo n p r o v i d eac o m p r e h e n s i v ea n a l y s i sa n dd e c i s i o ns u p p o r tt o o l sf o rh e a l t h w o r k e r s ,c l i n i c a lm a n a g e r sa n dr e s e a r c h e r s t h i si s s u eh a ss t u d i e dt h ee x i s t i n gh o s p i t a li n f o r m a t i o nm a n a g e m e n t s y s t e ma n dd a t as t r u c t u r ec o m p o n e n t s u s i n gf r o n td a t a w a r e h o u s e t e c h n o l o g y , a n a l y s e ,e x t r a c t ,d e c i d et h et h e m ef r o mm a s s i v eh o s p i t a l i n f o r m a t i o nd a t a b a s ea c c o r d i n gt ot h ea c t u a ld e m a n d t h e no r g a n i z ed a t a e f f e c t i v e l y t ob u i l dd a t aw a r e h o u s em o d e l a f t e rd a t ac l e a n i n ga n d t r a n s f o r m a t i o n ,l o a dt h ed a t ao fd a t aw a r e h o u s e w ec a nd os q lq u e r i e s , s t a t i s t i cr e p o r tf o r m ,o l a pd a t aa n a l y s i sa n dd a t am i n i n ga p p l i c a t i o n se t c i tc a ne f f e c t i v e l ys e r v et h ef u l lr a n g eo fh o s p i t a lm a n a g e m e n td e c i s i o n s t h i si s s u eh a sd o n et h ef o l l o w i n gw o r k : 4 重庆医科大学硕士研究生学位论文 1 a f t e rd o i n ga l a r g en u m b e r o fd a t aa n a l y s i sa n dd a t ap r e p r o c e s s i n g w o r k , w eh a v ee x t r a c t e dt h et h e m eo fb u i l d i n gad a t aw a r e h o u s e u s i n gt h e m i c r o s o f t sl a t e s t s q ls e r v e r2 0 0 8e n t e 印r i s e - c l a s s d a t aw a r e h o u s e p l a t f o r mt ob u i l dt h em e d i c a li n f o r m a t i o nd a t aw a r e h o u s ew h i c hb a se do n h i s ,s q ls e r v e r2 0 0 8w h i c hb a s e do ns q ls e r v e r2 0 0 5 ,i sac o m p l e t e d a t am a n a g e m e n ta n db u s i n e s s i n t e l l i g e n c ep l a t f o r m ,i t h a sf u r t h e r i m p r o v e m e n to ft h es e r v i c e sa n di nt h ew o r l dl e a d i n gp o s i t i o ni nt e r m so f t h ep e r f o r m a n c ea n ds c a l a b i l i t y 2 u s et h es q ls e r v e r2 0 0 8 sb u s i n e s si n t e l l i g e n c ed e v e l o p m e n t s t u d i oe n v i r o n m e n tt oc r e a t ea n du s et h ed a t am i n i n gm o d e lw h i c hb a s e d o nm e d i c a li n f o r m a t i o nd a t aw a r e h o u s e t h i se n v i r o n m e n ti n c l u d i n gd a t a m i n i n ga l g o r i t h m sa n dt o o l s ,u s i n go ft h e s ea l g o r i t h m sa n dt o o l si sm o r e e a s i l yt og e n e r a t eav a r i e t yo fp r o j e c t sf o ri n t e g r a t e ds o l u t i o n s 3 i n t r o d u c es o m ec l a s s i cd a t am i n i n ga l g o r i t h m s ,a n du s et h ed a t a m i n i n ga l g o r i t h m sf r o ms q ls e r v e r2 0 0 8 sa n a l y s i ss e r v i c e sm o d u l et o d a t am i n ea n da n a l y s et h eo u t p a t i e n ta n di n p a t i e n ti n f o r m a t i o no ft h e m e d i c a li n f o r m a t i o nd a t aw a r e h o u s ed e e p l ya n db r o a d d i s c u s st h ec o n t r o l i nt h ed i s e a s es u r v e i l l a n c e ,d i s e a s ep r e d i c t i o n ,h o s p i t a lm a n a g e m e n ta n d o t h e ra s p e c t so fd e c i s i o ns u p p o r ta p p l i c a t i o n so fd a t am i n i n g k e yw o r d s :d a t aw a r e h o u s e ,o l a p ,d a t am i n i n g ,s q l s e r v e r 2 0 0 8 , a n a l y s i ss e r v i c e s 5 重庆医科大学硕士研究生学位论文 英文缩写 c c i s d m d t s d w h i s h o l a p l l i s 加c m i s 英汉缩略语名词对照 英文全称 c o n f i d e n c e c l i n i ci n f o r m a t i o ns y s t e m d a t am i n i n g d a t at r a n s f e rs e r v i c e d a t aw a r e h o u s e h o s p i t a li n f o r m a t i o ns y s t e m h y b r i do l a p l i r l a b o r a t o r y i n f o r m a t i o n m a n a g e m e n ts y s t e m m a j o rd i a g n o s t i cc a t e g o r i e s m a n a g e m e n t i n f o r m a t i o n s y s t e m m o l a pm u l t i d i m e n s i o n a lo l a p o l a p o l j p p a c s i u s r o c r o l a p s o n - l i n e a n a l y t i c a lp r o c e s s i n g o n l i n e t r a n s a c t i o n p r o c e s s i n g p i c t u r e a r c h i v i n g c o m m u n i c a t i o ns y s t e m 中文全称 置信度( 关联规则的) 临床管理系统 数据挖掘 数据转换服务 数据仓库 医院信息系统 表示基于混合数据组织 o l a p 实现 提升度( 关联规则的) 检验信息系统 主要诊断分类 管理信息系统 基于多维数据组织的0 l a p 现 联机分析处理 联机事务处理 a n a 医学影像存档与通信系统 r a d i o l o g yi n f o r m a t i o ns y s t e m r e c e i v e ro p e r a t i o nc u r v e r e l a t i o n a l0 l a p s u p p o r t 放射信息系统 接受器运行曲线 基于关系数据库的o l a p 实 支持度( 关联规则的) 重庆医科大学 研究生学位论文独创性声明 本人申明所呈交的论文是我本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得重庆医科犬学或其他教育机构 的学位或证书而使用过的材料,与我同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示谢意 申请学位论文与资料若有不实之处,本人承担一切相关责任。 学位论文作者签名:搦 日期群:丝挈 学位论文版权使用授权书 本入完全了解重庆医科大学有关保护知识产权的规定,即:研究生在攻读学 位期间论文工作的知识产权单位属重庆医科大学。本人保证毕业离校后,发表论 文或使用论文工作成果时署名单位为重庆医科大学。学校有权保留并向国家有关 部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。学校可以公布学 位论文的全部或部分内容( 保密内容除外) ,可以采用影印、缩印或其他手段保 存论文。 论文作者签名: 指导教师签名: 日 期: 重庆医科大学硕士研究生学位论文 基于医学信息数据仓库的数据挖掘研究 前言 近年来,随着电子信息技术的迅速发展,医院信息系统( h o s p i t a li n f o r m a t i o n s y s t e m ,h i s ) 和数字医疗设备的广泛应用,医院数据库的信息容量不断膨胀。数 据库技术的发展解决了海量数据的存储和数据检索的效率问题,却无法改变随之 而产生的“数据爆炸但知识贫乏”的现象。如何充分利用这些宝贵的医学信息资 源来为医院的决策管理、疾病的诊断和治疗提供科学的决策,促进医学分析与研 究,已成为人们关注的焦点。 数据仓库( d w ,d a t aw a r e h o u s e ) 是一个面向主题的、集成的、不可更新的、 随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。医学信息 数据仓库是数据仓库技术面向医学领域数据的具体实现。与其他企业数据仓库相 比,医学数据仓库的数据来源、数据类型和数据特征都有其特殊之处。建立医学 数据仓库是医学数据分析处理的基础,是医学信息技术发展的必然,对于医学、 医疗卫生、药物学和医学管理等领域的研究与应用都有巨大的推动作用。 数据挖掘( d a t am i n i n g ,d m ) 是一个近几年才发展起来的信息处理技术,是 从大量数据中提取出可信的、新颖的、有效的并最终能被人理解的信息的处理技 术,涉及数据库、人工智能、统计学、模式识别、可视化技术、并行计算等众多 领域知识。医学数据挖掘是一门涉及面广、技术难度大的新兴交叉学科,将数据 挖掘技术应用到医学信息数据仓库中,可以发现其中的医学诊断规则和模式,从 而辅助医生进行疾病诊断。 数据仓库与挖掘技术已在国外很多大型商业企业中得到成功应用,国内一些 企业也已开始着手这方面的投资,并得到了可喜的回报。医学作为一门具有极强 实践性、实验性和统计性的验证科学,临床医疗和医学研究已积累了大量的信息。 如何有效地存储、检索、处理和分析这些医学数据,为医学决策提供支持,需要 用到数据仓库和数据挖掘的现代技术去组织、分析和利用。因此,探索数据仓库 与数据挖掘技术在医学信息方面的应用具有重要的实用价值和广阔的发展前景。 6 重庆医科大学硕士研究生学位论文 第一部分数据仓库与数据挖掘涉及的主要技术 第一节数据仓库的相关概念 1 数据仓库的概念 随着c s 技术的成熟和并行数据库的发展,信息处理技术的发展趋势逐渐变 为从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,即为 决策目标把数据聚合在一种特殊的格式中。随着此过程的发展和完善,这种支持 决策的、特殊的数据存储即被称为数据仓库。 数据仓库概念的正式出现是2 0 世纪9 0 年代初由w h i n m o n 在其著作 b u i l d i n gt h ed a t aw a r e h o u s e 一书中提出:数据仓库是一个面向主题的 ( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳定的( n o n - v o l a t i l e ) 、反 映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策n 】。随着人们对大型 数据系统研究、管理、维护等方面的深刻认识和不断完善,在总结和集中了多种 企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企 业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合 。 主题是数据归类的标准,每个主题对应一个客观分析领域,如医院、商店等, 它可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量的历史 数据,这些数据的时限为一般为5 年至l o 年,主要用于进行时间趋势分析。数据 仓库的数据量很大,一般为i o g b 左右。它是一般数据库数据量的1 0 0 倍,大型数 据仓库甚至能够达到t b 级乜1 。 数据仓库的概念包含了两层含义,一方面,数据仓库用于支持决策,面向分 析型数据处理,但与企业现有的操作型数据库不同;另一方面,数据仓库是对多 个异构数据源历史数据的有效集成,并在集成后依据主题进行重组,存放在数据 仓库中的数据一般不再修改。 总之,数据仓库不是一个仅仅存储数据的简单信息库,而是一个“以大型数 据管理信息系统为基础的、附加在这个数据库系统之上的、存储了从企业所有业 务数据库中获取的综合数据的、并能利用这些综合数据为用户提供经过处理后的 7 重庆医科大学硕士研究生学位论文 有用信息的应用系统”b 1 。相对于传统数据库系统的重点是快速、准确、安全可靠 地将数据存进数据库中而言,数据仓库更侧重于能够准确、安全、可靠地从数据 库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。 2 数据仓库的特点 根据数据仓库的定义我们可以得出其主要特点:面向主题的、集成的、与时间 相关的、不可修改的,正是这4 个特点将数据仓库与普通的数据库区分开来。 2 1 面向主题的 面向主题指的是数据仓库中的数据是按照一定的主题域进行组织和汇总的, 这一特点与传统数据库面向应用的特点相对应。主题是一个在较高层次上将数据 归类的标准,是一个比较抽象的概念,指用户使用数据仓库进行决策时所关心的 重点方面,一般一个主题对应一个宏观的分析领域,基于主题组织的数据是存在 于被划分好的各自独立的领域中的,每个独立的领域都拥有自己的逻辑内涵。主 题在数据仓库中依然是由基于关系数据库的一系列表来实现。一个主题一般会与 多个操作型信息系统相关。 2 2 集成的 数据仓库中的数据是将多个不同数据源中的分散数据在抽取、清理的基础上 经过系统j 口- r 、汇总和整理后集成得到,集成后的数据消除了原数据的不一致性, 确保命名约定、编码结构、属性度量等保持一致,以保证数据仓库内的信息是关 于整个企业的一致的全局信息。 数据仓库与数据库存放数据的原则不一样,数据库为了保证联机处理的及时 性,要求表结构尽量简单,表内数据也要求尽量少( 如对于大量数据甚至按照年、 月分别建表) 。而数据仓库从分析角度出发,要求数据要尽量多,并且把相同主题 的数据都放在一起,这往往需要将内部相关不同表中的数据按照一定的要求集成 到事实表中。 为了保证数据存储及分析的有效性,各种事实表数据的集成必须按照规定的 条件、标准执行,并且相关的维表数据也要按照相关标准生成。如果不按照统一 8 重e 科大学研究生学位论文 离园萨:萎 l;n u 目目目莉 重庆医科大学硕士研究生学位论文 数据源出1 :是数据仓库模型的基础,是整个模型的数据源泉。通常包括内部信 息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数据和各类文档数 据;外部信息包括各类法律法规、市场信息和竞争对手的信息等等。 数据的存储与管理嗍:是整个数据仓库模型的核心。数据仓库模型的真正关键 是数据的存储和管理。数据仓库模型的组织管理方式决定了它有别于传统数据库, 同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据 仓库模型的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统 的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据 的覆盖范围可以分为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 。 o l a p 服务器陆1 :对分析需要的数据进行有效集成,按多维模型予以组织,以 便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:r o l a p 、m o l a p 和h o l a p 。r o l a p 基本数据和聚合数据均存放在r d b m s 之中;m o l a p 基本数据和聚 合数据均存放于多维数据库中;h o l a p 基本数据存放于r d b m s 之中,聚合数据存放 于多维数据库中。 前端工具嘲:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工 具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针 对o l a p 服务器,报表工具、数据挖掘工具主要针对数据仓库模型。 第二节联机分析处理( o l a p ) 技术相关原理 1 联机分析处理( o l a p ) 的定义及相关概念 1 1o l a p 的定义 6 0 年代,关系数据库之父e f c o d d 提出了关系模型,促进了联机事务处理 ( o l t p ) 的发展( 数据以表格的形式而非文件方式存储) 。1 9 9 3 年,e f c o d d 提出了 o l a p 概念,认为o l t p 已不能满足终端用户对数据库查询分析的需要,s q l 对大型 数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对 关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的 需求。因此,e f c o d d 提出了多维数据库和多维分析的概念,即o l a p “。 1 0 重庆医科大学硕士研究生学位论文 o l a p 委员会对o l a p 的定义是使分析人员、管理人员或执行人员能够从多种角 度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特 性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软 件技术 7 1 。 1 2o l a p 相关概念 满足决策支持或多维环境特定的查询和报表需求是o l a p 的目标,“维”这个 概念是它的技术核心。“维”是人们观察客观世界的特定角度,是一种高层次的类 型划分8 ,例如观察住院人数随时间推移而产生的变化情况,就是从时间的角度 来观察住院病人的分布情况,这种情况下时间是一个维,即时间维;若统计住院 病人的来源地,那么地理分布也成为一个维地理维。通过把一个实体的多项 重要的属性定义为多个维,使用户能对不同维上的数据进行比较。因此o l a p 也可 以说是多维数据分析工具的集合。 一个维一般存在细节程度不同的各个描述方面,称为维的层次阳1 ,如时间维 可以从日期、月份、季度、年等不同层次来描述,地理维可以从国家、省市、地 区等层次来描述。 维和变量的组合表示构成多维数组n 们。一个多维数组可以表示为:( 维l ,维 2 ,维n ,变量) 。如某医院住院病人数据如果是按照入院时间、来源地区、收 治科室建立起来的三维数据,加上住院费用,就组成了一个多维数组( 时间,地区, 科室,费用) 。 多维数组的取值称为数据单元。当多维数组的各个维都选中一个维成员,这 些维成员的组合就惟一确定了度量属性的一个值。那么数据单元就可以表示为: ( 维1 维成员,维2 维成员,维n 维成员,变量的值) 。 20 l a p 特性 2 1 快速性 用户对o l a p 的快速反应能力有很高的要求。系统应能在5 秒内对用户的大部 分分析要求做出反应。如果终端用户在3 0 秒内没有得到系统响应就有可能失去分 析主线索,影响分析质量。对于大量的数据分析要达到这个速度并不容易,因此 就更需要数据仓库等技术的支持。 重庆医科大学硕士研究生学位论文 2 2 可分析性 o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。用户在应用o l a p 的过程中,无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用 户所希望的方式给出报告。用户可在o l a p 平台上进行数据分析,也可连接到其他 外部分析工具( 如时间序列分析工具、成本分配工具、数据挖掘工具等) 上。 2 3 多维性 多维性是o l a p 的关键属性之一。建立的数据仓库系统必须提供对数据的多维 视图和分析,包括对层次维和多重层次维的完全支持。多维分析方式迎合了人的思 维模式,减少了混淆并且降低了出现错误解释的可能性,是分析商业数据最有效 的方法。 2 4 信息性 不论数据存储在何处,也不管数据量有多大,o l a p 系统应能及时获得信息, 并且管理大容量信息。系统需要考虑到可利用的磁盘空间大小、数据的可复制性、 o l a p 产品的性能以及与数据仓库的结合程度等诸多因素m 1 。 30 l a p 的分类 o l a p 有多种实现方法,依存储数据方式不同可分为r o l a p 、m o l a p 和h o l a p n 幻。 r o l a p ( r e l a t i o n a lo l a p ) 表示基于关系数据库的o l a p 实现。以关系数据库 为核心,以关系型结构进行多维数据的表示和存储。r o l a p 将多维数据库的多维结 构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即 对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事 实表通过主关键字和外关键字联系在一起,形成了“星型模式”。对于层次复杂 的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型 模式的扩展称为“雪花模式”。r o l a p 具有无大小限制,现有的关系数据库的技术 可以沿用,可以通过s o l 实现详细数据与概要数据的存储等特点,并且可以实时 地从源数据中获得最新数据更新,以保持数据实时性;早期的r o l a p 运算效率比 较低,用户等待响应时间比较长,现有关系型数据库通过对o l a p 的优化,包括并 1 2 重庆医科大学硕士研究生学位论文 行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、s o l 的o l a p 扩展等大大提高了r o a l p 的速度。 m o l a p ( m u l t i d i m e n s i o n a lo l a p ) 表示基于多维数据组织的o l a p 实现。以多 维数据组织方式为核心。多维数据在存储中将形成“数据立方体( c u b e ) ”的结 构,此结构在得到高度优化后,可以最大程度地提高查询性能。随着源数据的更 , 改,m o l a p 存储中的对象必须定期处理以合并这些更改。两次处理之间的时间将 构成滞后时间,在此期间,o l a p 对象中的数据可能无法与当前源数据相匹配。维 护人员可以对m o l a p 存储中的对象进行不中断的增量更新。m o l a p 专为o l a p 所设 计,支持高性能的决策支持计算、复杂的跨维计算、多用户的读写操作以及行级 的计算等,分析中数据运算效率高,但数据更新有一定延滞,且增加了系统复杂 度。 h o l a p 表示基于混合数据组织的o l a p 实现( h y b r i do l a p ) ,用户可以根据自 己的业务需求,选择哪些模型采用r o l a p ,哪些采用m o l a p 。一般来说,会将非常 用或需要灵活定义的分析使用r o l a p 方式,而常用、常规模型采用m o l a p 实现。 第三节数据挖掘技术相关原理 1 数据挖掘概念 近年来,数据挖掘引起了信息产业界和整个社会的极大关注,其主要原因是 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,造成了数据量的激 增,因此迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以 广泛用于各种应用,包括信息管理、过程控制、决策支持和科学探索等。 对于数据挖掘有两种常见的误解,一种认为数据挖掘就是商业智能,另一种 则认为数据挖掘高不可攀遥不可及,前者夸大了数据挖掘的能力,后者则夸大了 数据挖掘的难度t 1 3 1 。那么什么是数据挖掘呢? 数据挖掘是商务智能应用中较高层 次的一项技术,是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提 取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程1 1 4 1 。 利用数据挖掘用户将可以更加方便地发现数据的规律,用户可以利用这些规律对 某些符合特征的数据作出预测。 1 3 重庆医科大学硕士研究生学位论文 2 数据挖掘的功能 数据挖掘是一门综合应用机器学习、模式识别、统计学、智能数据库、知识 获取、数据可视化、高性能计算、专家系统等多个领域知识的学科技术,通过预 测未来趋势及行为,做出前摄的、基于知识的决策。目前主要有以下五类功能1 1 5 2 - 1 自动预测趋势和行为 数据挖掘可以自动在大型数据库中寻找预测性信息,应用数据挖掘技术可以 使需要进行大量手工分析的问题迅速由数据本身直接得出结论。数据挖掘的这一 功能最常见的应用是市场预测问题,数据挖掘可以通过分析以往的销售数据来寻 找未来投资中回报最大的用户,还可以预报破产以及预测对指定事件最可能作出 反应的群体。 2 2 分类 分类就是按照分析对象的属性、特征,建立不同的组类来描述事物。分类可 以把大量数据分成多个类别,而分类的依据就是这些事例中的属性。一个典型的 例子是西方国家的电信公司经常有可以让客户免费试用一段时间的促销活动,而 有些客户经常在多个电信商之间来回选择免费试用服务而永远不会转成长期客 户。数据挖掘技术可以通过用户最近几期的家用账单、收入、职业等来进行分类, 帮助这些电信公司在客户申请试用服务的时候筛选出那些有可能反复选择免费试 用的客户,从而减少成本支出。数据挖掘中有很多算法可以进行分类,例如遗传 算法、决策树、贝叶斯算法等。 2 3 聚类 聚类是将数据库中的记录划分为一系列有意义的子集,概念上与分类有类似 之处,也是将大量实例分成多个类别,但聚类是根据属性值的相似程度自动汇聚 成不同的类别,相对于分类更加自动。分类在执行前就已经有了明确的类别,例 如前面所说的两种客户试用后会选择的和试用不购买的,而聚类在分析前还 不知道有多少分类,而是通过不断的迭代使得各分类之间的边界更加清晰,然后 再分析这些分类之间的差别,因此常把分类称为有监督的算法,而聚类则被称为 无监督的算法n 印。 1 4 重庆甚科大学碗士研宄生学位论文 2 4 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量 的取值之间存在某种规律性,那么其中一个变量就能通过其他变量进行预测,这 就是关联“”。关联可分为简单关联、时序关联、因果关联。关联分析是指搜索事 务数据库中的所有细节或事务,从中寻找重复出现概率很高的模式或规则。关联 分析的目的是为了挖掘隐藏在数据问的相互关系,其生成的规则带有可信度。 2 5 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏 差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与 模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结 果与参照值之间有意义的差别。 3 数据挖掘的一般流程 数据挖掘的过程股由六个阶段组成,如图2 所示,这些阶段之间的顺序并 不是线性的,为了取得好的数据挖掘结果常常有必要反复重复这些步骤,究竟f 一步要执行哪个阶段或者哪一个特定的任务,取决于每一个阶段的结果。 等转豢匣罐羼 田2 数据挖掘艘藏程 f i 醇t h e g e n e r a lp o f d a t a m i n i n g 3 1 确定业务对象 在开始数据挖掘之前最重要的一步就是定义业务对象和r 解相关资料。挖掘 的最后结果是不可预测的,但要探索的问题应是有预见的。如果缺少对待解决问 题的明确定义和相关背景知识,就不能为挖掘准备资料,也很难正确地解释得到 的结果。园此。要充分发挥数据挖掘的价值,必须要对目标有清晰明确的定义, 有对数据挖掘项目得到的结果进行衡量的标准和对整个项目预算合理性的解释。 l5 重庆医科大学硕士研究生学位论文 3 2 数据准备 数据准备包括了对数据的选择、预处理和清洗等工作。确定业务对象后,需 要搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖 掘应用的数据。然后研究所选数据的质量,保证其适合于挖掘应用,为进一步的 分析作准备。在选择数据后,要对数据进行预处理和清洗,解决数据的冗余、缺 值,数据定义不一致等问题。此外,为了得到更好的结果,数据准备和数据挖掘 工作可能需要不断的反复进行。因此,数据准备工作大概要花去整个数据挖掘项 目的5 0 - - - 9 0 的时间和精力。 3 3 数据的转换 将准备好的数据转换成一个真正适合挖掘算法的分析模型是数据挖掘成功的 关键。模型的建立从数据分析开始,首先选择变量,然后从原始数据中构建新的 预示值,接着从数据中选取一个子集或者样本来建立模型,最后转换变量,使之 和建立模型的算法一致。建立模型是一个反复的过程,要仔细考察不同的模型以 判断哪个模型对定义的问题最有用。 3 4 数据挖掘 对所得到的经过转换的数据进行挖掘。除了选择合适的挖掘算法外,其余工 作一般由挖掘工具自动完成。 3 5 结果解释与评估 当得出数据挖掘结果后,必须评价他的结果、解释他的价值。使用的分析方 法一般应根据数据挖掘操作而定,通常会用到可视化技术。 3 6 知识的发现和应用 数据挖掘的结果经验证之后,可以提供给分析人员做参考,由他们通过察看 和分析结果之后提出行动方案建议。还可以将分析所得到的知识集成到业务信息 系统的组织结构中去,使数据挖掘得到的知识发现可以在决策分析中得到应用n 盯。 1 6 重庆医科大学硕士研究生学位论文 4 数据挖掘与数据仓库、o l a f 的关系 4 1 数据挖掘和数据仓库 大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据 集市中。数据挖掘库可以是数据仓库的一个逻辑上的子集,而不一定是物理上单 独的数据库。只有在数据仓库的计算资源很紧张的前提下才有必要建立单独的数 据挖掘库。从数据仓库中直接得到进行数据挖掘的数据有许多好处,数据仓库的 数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过, 那么很可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致的问 题都已经被解决了。 4 2 数据挖掘和在线分析处理( 0 l a p ) o l a p 是决策支持领域的一部分。传统的查询和报表工具是用于告知用户数据 库中都有什么,o l a p 则更进一步预测下一步会怎么样和如果用户采取这样的措施 又会如何。用户首先建立一个假设,然后用o l a p 检索数据库来验证这个假设是否 正确。也就是说,o l a p 分析师是建立一系列的假设,然后通过o l a p 来证实或推翻 这些假设来最终得到自己的结论。o l a p 分析过程在本质上是一个演绎推理的过程。 但是如果分析的变量达到几十或上百个,那么再用o l a p 手动分析验证这些假设将 是一件非常困难和痛苦的事情。 数据挖掘不是用于验证某个假定的模式( 模型) 的正确性,而是在数据库中 自己寻找模型,在本质上是一个归纳的过程。例如分析师想用数据挖掘找到引起 贷款拖欠的风险因素。数据挖掘可能帮他找到高负债和低收入是引起这个问题的 因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比如年龄。 数据挖掘和o l a p 具有一定的互补性。在利用数据挖掘出来的结论采取行动之 前,有必要验证一下如果采取这样的行动会给公司带来什么样的影响,那么o l a p 工具能回答这些问题。 而且在知识发现的早期阶段,o l a p 工具还有其他一些用途。可以探索数据, 找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都 能帮助用户更好的理解数据,加快知识发现的过程n 钉。 1 7 重庆医科大学硕士研究生学位论文 5 数据挖掘算法的类型 s q ls e r v e r2 0 0 8 中的a n a l y s i ss e r v i c e s 模块可以实现的常见算法类型有伽1 : ( 1 ) 分类算法:基于数据集中的其他属性预测一个或多个离散变量。分类算 法的一个典型应用是m i c r o s o f t 决策树算法。 ( 2 ) 回归算法:基于数据集中的其他属性预测一个或多个连续变量,如利润 或亏损。回归算法的一个典型应用是m i c r o s o f t 时序算法。 ( 3 ) 分割算法:将数据划分为组或分类,这些组或分类的项具有相似属性。 分割算法的一个典型应用是m i c r o s o f t 聚类分析算法。 ( 4 ) 关联算法:查找数据集中的不同属性之间的相关性。这类算法最常见的 应用是创建可用于市场篮分析的关联规则。关联算法的一个典型应用是m i c r o s o f t 关联算法。 ( 5 ) 顺序分析算法:汇总数据中的常见顺序或事件,如w e b 路径流。顺序分 析算法的一个典型应用是m i c r o s o f t 顺序分析和聚类分析算法。 1 8 重庆医科大学硕士研究生学位论文 第二部分医学信息数据仓库的构建 第一节s q ls e r v e r2 0 0 8 医学信息数据仓库平台 1s o ls e r v e r2 0 0 8 数据仓库架构 图3 $ q ls e r v e r2 0 0 8 数据仓库架构 f i 9 3s q ls e n ,e r2 0 0 8d a t aw a r e h o u s e s t r u c t u r e s o ls e v e r2 0 0 8 的集成环境b u s i n e s si n t e ll i g e n c ed e v e l o p m e n ts t u d i o 含 有o l a ps e v e r 和o l a pm a n a g e r 等存储和管理多维数据立方体的工具,p i v o t t a b l e s e r v i c e s 、e x c e l 、v i s u a lb a s i c 等显示数据的工具和在需要时转换数据的工具 d t s 。s q ls e v e r2 0 0 8 数据仓库平台的分析系统能够有效利用系统多个不同的组成 部分。同时s q ls e v e r2 0 0 8 还提供了o l ed b 、s o ls e r v e rd a t at r a n s f o 瑚a t i o n s e r v i c e s 、s o ls e r v e r 多维数据库、o f f i c e2 0 0 7 和m i c r o s o f tr e p o s i t o r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论