




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘技术在医院信息系统中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北电力大学硕士学位论文 摘要 数据仓库、o l a p 和数据挖掘是计算机科学的一个技术热点。很多行业都将这些 技术应用到自己的信息系统中,取得了明显的效果,但是医院信息系统中对于数据 的处理还多限于“增”、“删”、“改”、“查”等操作,这些操作属于医学数据库的低 层次应用,缺乏对数据的集成和深层分析,更谈不上对医学知识的自动获取。本文 设计并实现了基于三层b s 模式的分布式体系架构的医院信息分析系统e s s e n t r i s a n a l y t i c ss y s t e m 。它以医院信息系统的数据库为主要数据源,使用数据仓库、o l a p 和数据挖掘技术,不仅从企业管理的角度为医院管理者提供智能的分析方法和途 径,而且还从医学研究的角度为医院研究人员提供了新的手段和视角。 关键词:医院信息系统,数据仓库,o l a p ,数据挖掘,分布式 a b s t r a c t d a t aw a r e h o u s e ,o l a pa n dd a t am i n i n ga r eo n eo fh o ts p o t sf o rt h ec o m p u t e r s c i e n c e m a n yi n d u s t r i e sa p p l i e dt h e s en e wt e c h n o l o g i e st ot h e i ri n f o r m a t i o ns y s t e m , a n dg a i n e dr e m a r k a b l eb e n e f i t s b u tt h eo p e r a t i o n so fh o s p i t a li n f o r m a t i o ns y s t e ma r e l i m i t e dt oa d d i n g ,d e l e t i n g ,u p d a t i n ga n ds e a r c h i n ge t c t h e s eo p e r a t i o n sa r eo n l y f u n d a m e n t a la p p l i c a t i o n sf o rd a t a b a s eo fh i s s ot h e ya r ew e a ko ni n t e g r a t i o na n dd e e p l e v e l a n a l y s i s o nd a t a n e e d l e s st om e n t i o nt h e i r i n a b i l i t y t oa u t o m a t i c a c q u i r e k n o w l e d g e t h i sp a p e rd e s i g n e d a n d i m p l e m e n t e dd i s t r i b u t e dh o s p i t a l i n f o r m a t i o n a n a l y t i c ss y s t e m ,w h i c hb a s e do nt h r e e l a y e rb sm o d e l i tu s e sh o s p i t a li n f o r m a t i o n s y s t e m sd a t a b a s ea sm a i nd a t as o u r c e ,a n da p p l i e sd a t aw a r e h o u s e ,o l a pa n dd a t a m i n i n gt e c h n o l o g i e st op r o v i d en o to n l yi n t e l l i g e n ta n a l y t i c a lm e t h o da n da p p r o a c hf o r h o s p i t a lm a n a g e r sf r o me n t e r p r i s em a n a g i n gp o i n to fv i e wb u ta l s on e wm e a na n da n g l e o fv i e wf o rh o s p i t a lr e s e a r c h e r sf r o mr e s e a r c h i n gp o i n to fv i e w n a nj u n h o n g ( c o m p u t e ra p p l i c a t i o na n dt e c h n o l o g y ) d i r e c t e db yp r o lq il i n h a i k e yw o r d s :h i s ,d a t aw a r e h o u s e ,o l a p ,d a t am i n i n g ,d i s t r i b u t e d 声明 本人郑重声明:此处所提交的硕士学位论文数据挖掘技术在医院信息系统中的应 用,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和取得 的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 学位论文作者签名: 鞠:呈纽 e t 期;! i 兰:i 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、 并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或其它复制手 段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为 目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播学 位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:匈罪纽 日 期:尘 :芝 导师签名:血 日期:12 :i :巴 华北电力大学硕士学位论文 第一章引言 1 1 课题的提出以及国内外发展现状 医疗业在人类社会中起着举足轻重的作用。随着计算机技术在各个行业和领域 的渗透,医疗业也基本实现了信息化,很多公司推出了自己的医院信息系统。随着 时间的推移,医院信息系统中积累了大量的一线数据,这些宝贵的信息资源对于医 院的管理、疾病的诊断和治疗以及医学研究都有着很高的价值。然而,目前大多数 医院对于数据的处理仅限于录入、修改、删除、统计和查询等操作。这些操作属于 医学数据库的低层次应用,缺乏对数据的集成和深层分析,更谈不上对医学知识的 自动获取。因此提高对这些信息资源的利用水平,为医院将来的发展、提高管理和 医疗水平提供全面、准确和及时的决策依据,已经成为迫切需要解决的问题。在这 种背景下,以医院信息系统的数据库作为主要数据源,利用数据仓库技术、o l a p 技 术和数据挖掘技术实现智能的医院信息分析系统就变得尤为重要。 通过构建全院数据仓库和多维立方体,使用在线分析处理( o n l i n ea n a l y t i c a l p r o c e s s i n g o l a p ) 技术和数据挖掘( d a t am i n i n g ) 技术,可对医院信息系统中的 数据进行多方面、多层次的综合分析,从而提高对全院信息资源的利用水平。数据 仓库可以从分布在各处的数据源中抽取数据、清洗数据和装载数据( e t l ) 。o l a p 技 术和数据挖掘技术利用存储在数据仓库中的数据完成各种集成分析和挖掘工作,从 中发现管理或医学知识,并以直观易懂的形式将结果展示给最终用户,为医务人员 的工作提供了正确、及时、有用的信息。 目前数据挖掘产品很多,如s a se n t e r p r i s em i n e r ,s p s sc l e m e n t i n e ,w e k a , n c rt e r a d a t aw a r e h o u s em i n e r ,i b md b 2i n t e l l i g e n tm i n e r ,s q ls e r v e r 数据 挖掘组件,o r a c l e 数据挖掘组件,i s o f ta c ,d b m i n e ra n a l y t i c a ls y s t e m 等等。 每个产品都有其独特之处。s a s 公司使用自己的过程模型s e m m a ( s a m p l e ,e x p l o r e , m o d i f y 。m o d e l 。a s s e s s ) 实现了一个完整的k d d 过程。在数据挖掘任务中,通过基 于图标的指向和单击g u i 来产生过程流。此外,e n t e r p r i s em i n e r 包括很多工具来 进行装袋、提升、筛选、可视化、归因、过滤、转化和模型评估。它同时具备文本 挖掘的特点。c l e m e n t i n e 最独特的地方就是它在1 9 9 4 年开创的用来进行数据挖掘 的g u i 方法。通过使用描述按钮,用户可以创建带有描述其功能使用的数据。每一 个按钮表示整个k d d 过程中的一个步骤。这些按钮包括数据访问、数据预处理、可 视化和模型化。c l e m e n t i n e 可以提供对w e b 挖掘应用的支持。c l e m e n t i n e 使用一 个客户一服务器模型来挖掘大的数据集。在适当的时候,服务器将数据访问要求转 华北电力大学硕士学位论文 化为s q l 查询,这样就能访问关系数据库。并通过c l e m e n t i n ep u b l i s h e r 将方案 导出并在c l e m e n t i n e 外发布。d b m i n e r 可以通过多种数据源来访问数据,包括 m i c r o s o f ts q ls e r v e r ,e x c e l 。o l e d b 和其他可以用o d b c 访问的关系数据库。用 户可以使用d m s q l 接口或是g u i 接口。界面通过m ss q l 服务器的o l a p 可以浏览数 据的立体视图。n c r ,i b m ,o r a c l e ,s o ls e r v e r 可以直接在数据库上进行挖掘。上 述这些产品都是挖掘机或者挖掘组件,不是需要系统的数学专业的知识就是需要系 统的计算机专业的知识,对用户的高要求势必是交互界面的不友好产生的。 国内没有专门的挖掘机或者挖掘组件产品。但在应用方面从事研究的人员很 多医疗业是近年来数据挖掘研究较活跃的一个领域。目前还没有较成熟的产品和 实施方案,只有少数医院信息系统提供决策支持功能。 1 2 论文涉及的主要工作 本文以医院信息系统c c lc l i n i c a ls y s t e m 的数据库为主要数据源,围绕着建 立全院数据仓库并在此基础上做o l a p 分析和数据挖掘来讨论数据仓库技术、o l a p 技术和数据挖掘技术的。最终实现基于三层b i s 模式的分布式体系架构的医院信息 分析系统e s s e n t r i sa n a l y t i c ss y s t e m ( 这里e s s e n t i r s 一词是c c i 公司创造的, 英文中并无此单词) 。 鉴于医院信息系统中数据关系的复杂性,本文首先以一些主要的主题为例,依 据现有c c i 陷中的数据,说明数据仓库的建立过程;并在此基础上,提供o l a p 应 用,使得用户可以从各种角度灵活查询和分析数据;最后使用数据挖掘技术对用户 所关心的相关主题的问题提供信息。本文重点研究以下内容: 数据预处理:c c id b 是c c lc l i n i c a ls y s t e m 独有的数据库管理系统,它是一 个多维时序数据库管理系统。经过近十多年的使用,数据库中积累了大量数据,随 着c o lc i i n i c a ls y s t e m 中新的应用的添加,数据库中存在着很多数据不一致,不 完整的情况,并且由于医疗数据的特殊性,例如很多数据项是用自然语言描述的, 这就对数据挖掘工作的开展带来了问题,因而必须对数据先进行预处理,例如将自 然语言规范法( 有相应的国际标准,例如s n o m e d - c t ,l o i n c 和u m l s 等) ,即对数 据进行抽取、转换和清洗。 建立数据仓库:对g d r ( c c id b 的o r a c l e 镜像数据库) 中的表进行分析,划定 主题域并确定维和粒度。概念模型确定后,结合o r a c l e 中的逻辑模型创建关系表, 并在其上建立o l a p 立方,度量和维。 对数据仓库中的数据作o l a p 分析和数据挖掘分析:数据仓库建立后,依据具 体应用,结合o r a c l e 中的o l a pa p i 和o d ma p i 软件包所提供的数据访问接口和数 据挖掘算法调用接口,通过o l a p 和d a t am i n i n g 引擎访问并分析数据仓库中的数 2 华北电力大学硕士学位论文 据,最后通过t o m c a tw e b 服务器和j f r e e c h a r t 软件包将分析挖掘所得到的结果以 可视化的形式通过w e b 浏览器展现给最终用户。 几个数据挖掘算法的尝试:在前几步的基础上,利用e s s e n t r i sa n a l y t i c s s y s t e m 已有的功能,对用户通常关心的几个问题做出分析,得出有用的信息,并展 现最终结果。 下一步工作展望:数据仓库并不是一项新的技术,而是许多技术的一种新的应 用方式,一开始很难确定最理想的数据仓库解决方案,只能较粗糙地定义主题域、 粒度和维“1 。待到使用一段时间后,才能发现原有方案的优势和不足。再者针对同 一问题可以使用的数据挖掘方法不止一种,究竟哪种算法适合此类问题,或者说一 种挖掘算法在哪些领域有优势都是下一步要解决的问题,因为最终用户并不是计算 机或数学领域的专业人员,他们需要的是成品。 1 3 采用的开发平台 本系统使用o r a c l el o g 作为数据仓库服务器,通过a n a l y t i cw o r k s p a c e s 实 现多维数据存储。由于数据仓库上操作的特殊性,多是涉及大量数据的查询和分析 操作,加上用户的需要,以及o r a c l e 对j a v a 语言的支持。系统决定使用b s 结构, 并以j a v a 语言作为主要开发语言,考虑到与原有系统( c c ic l i n i c a ls y s t e m ) 的兼 容性,系统决定通过c o r b a 实现分布式应用。本系统使用t o m c a t 作为w e b 服务器, 使用j f r e e c h a r t 软件包展现分析和挖掘得到的结果。 3 华北电力大学硕士学位论文 2 1 数据仓库 第二章医院信息系统涉及的主要技术 各行业信息化的加速发展,将各企业带入了一个信息爆炸的时代。人们积累的 数据越来越多,激增的数据中隐藏着许多重要的知识。现有的数据库系统不适合提 供对其中的数据进行复杂查询和分析的功能,导致了“数据爆炸但知识贫乏”的现 象。因此,在信息处理过程中,产生了与现有处理过程所采用的数据库系统有很 大差异的数据环境需求。数据仓库不能取代传统数据库系统的作用,它是应新的需 求而出现的,为新需求提供服务的”。 2 1 1 数据仓库的概念与特征 目前,数据仓库一词尚没有一个统一的定义,著名数据仓库专家w h i n m o n 在 其著作b u i l d i n gt h ed a t aw a r e h o u s e 一书中给出如下定义:数据仓库( d a t a w a r e h o u s e ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳 定的( n o n v o l a t i l e ) 、反映历史交化的( t i m ev a r i a n t ) 数据集合,用于支持管理决 策。从w h i n m o n 关于数据仓库的定义中,可以发现数据仓库具有这样一些重要的 特性3 儿”: 1 面向主题。它表示数据仓库中数据组织的基本原则,是与传统数据库面向应 用相对应。主题是在较高层次上将数据综合归类进行分析利用的抽象,是用户使用 数据仓库进行决策时所关心的重点方面。一个主题通常与多个操作型信息系统相 关。 2 集成。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之 间相互独立,并且往往是异构的,而数据仓库中的数据是在对原有分散的数据库抽 取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致 性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 3 相对稳定。操作型数据库中的数据通常实时更新,数据根据需要及时发生变 化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询, 一旦某个数据进入数据仓库以后,一般情况下会被长期保留,也就是数据仓库中一 般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载和刷新。 4 反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据 仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点( 如开始应用数 据仓库的时点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历史 4 华北电力大学硕士学位论文 和未来趋势做出定量分析和预测。 2 1 2 数据仓库的概念结构 如果从数据仓库的概念结构看,应该包含数据源、数据准备区、数据仓库数据 库、数据集市知识挖掘库以及各种管理工具和应用工具。数据仓库在创建后,首 先要从数据源中抽取所需要的数据到数据准备区,在数据准备区中经过数据的净化 处理,再加载到数据仓库数据库中,最后根据用户的需求将数据发布到数据集市 知识挖掘库或数据仓库进行决策查询分析或知识挖掘n 1 。 图2 - 1 数据仓库概念结构 2 1 3 数据仓库的数据组织结构 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级和高 度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步 的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级。由 此可见数据仓库中存在着不同的综合级别。一般称之为“粒度”。粒度越大,表示 细节程度越低,综合程度越高。 华北电力大学硕士学位论文 2 2o l a p 技术 2 2 1o l a p 的基本概念 图2 - 2 数据仓库数据组织结构 o l a p 是数据仓库系统的主要应用。它是使分析人员、管理人员或执行人员能够 从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企 业特性的信息( 维数据) 进行快速、稳定一致、交互地存取,从而获得对数据的更 深入了解的一类软件技术”m 。 o l a p 的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心 是“维”这个概念,因此o l a p 也可以说是多维数据分析工具的集合。 维是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个 维( 时间维、地理维等) 。 维层次是人们观察数据的某个特定角度( 即某个维) 还可以存在细节程度( 粒 度) 不同的各个描述方面( 时间维:日期、月份、季度、年等) 。维一般包含着层 次关系,这种层次关系有时会很复杂。例如,一个企业在考虑其产品的销售情况时, 通常从时间、地区和产品等不同角度来深入观察产品的销售情况。在这里,时间、 地区和产品就是维。 维成员是维的一个取值。是数据项在某个维中的位置的描述( 某年某月某日) 。 多维数组是维和变量的组合表示为:( 维。,维:,维。,变量) 。 6 华北电力大学硕士学位论文 数据单元是多维数组的取值。 2 2 2o l a p 多维数据结构 o l a p 多维数据结构有超立方结构( h y p e r c u b e ) 和多立方结构( m u l t i c u b e ) 两 种。超立方机构指用三维或更多维来描述一个对象,每个维彼此垂直。数据的测量 值发生在维的交叉点上,数据空间的各个部分都有相同的维属性( 收缩超立方结构。 这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维) 。多立方 结构即将超立方结构变为子立方结构。面向某一特定应用,对维进行分割,它具有 很强的灵活性,提高了数据( 特别是稀疏数据) 的分析效率。 2 2 3o l a p 的数据存储方式 o l a p 有多种实现方法,依据数据存储方式的不同可以分为r o l a p 、m o l a p 和 h o l a p 三种”。 r o l a p ( r e l a t i o n a lo l a p ) 是基于关系数据库的o l a p 实现。以关系型结构进 行多维数据的表示和存储。r o l a p 将多维数据库的多维结构划分为两类表,一类是 事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来 存放维的层次、成员类别等维的描述信息。维表和事实表通过主键和外键关联起来, 形成了“星型模式”或“雪花型模式”。 m o l a p ( m u l t i d i m e n s i o n a lo l a p ) 是基于多维数据组织的o l a p 实现。使用多 维数组存储数据。多维数据在存储中形成立方结构( c u b e ) 。 h o l a p ( h y b r i do l a p ) 是基于混合数据组织的o l a p 实现。如底层是关系型的, 高层是多维矩阵型的。这种方式具有更好的灵活性。 由一些分析数据可知,当查询现有立方中的数据时,r o l a p 花费的处理时间最 多,要求的磁盘空间最大。h o l a p 花费的处理时间最少,要求的存储空间最小,m o l a p 的处理时间比h o l a p 略长,但比r o l a p 要好上很多但是h o l a p 不存储源数据的副 本,当需要对源数据的某些信息进行分析时,而该立方中又没有对应的聚合数据时, 必须从关系数据库中检索数据,这时需要花费大量的时间。应根据实际情况选择合 理的数据仓库实现方案。 2 2 4o l a p 多维数据分析 多维分析( m u l t i d i m e n s i o n a ld a t aa n a l y s i s ,m d d a ) 是指用切片、切块、钻 取、旋转等分析方法剖析以多维形式组织起来的数据,使用户能从不同角度、不同 侧面观察数据,从而深入了解数据中隐藏的信息。 1 切片和切块( s l i c ea n dd i c e ) 在多维数据结构中,按二维进行切片,按三维 7 华北电力大学硕士学位论文 进行切块,可得到所需要的数据。 2 钻取( d r i l l ) 包含向下钻取( d r i l l - d o w n ) 和向上钻取( d r i l l u p ) 上卷 ( r o l l u p ) 操作,钻取的深度与维所划分的层次相对应。上钻是在某一维上将低 层次的细节数据概括到高层次的汇总数据,或者减少维数;下钻则相反,它从汇总 数据深入到细节数据进行观察或添加新维。 3 旋转( r o t a t e ) 转轴( p i v o t ) 通过旋转可以得到不同视角的数据。旋转式变 换维的方向,即在表格中重新安排维放置。 2 3 数据挖掘技术 2 3 1 数据挖掘的概念 随着数据库技术的发展,数据量呈现指数级增长趋势,而人类从现有的庞大的 数据中获取的知识量却在以相对缓慢的趋势增长。人类面临着数据丰富,而知识贫 乏的尴尬境地。现有的数据量超出了人类的理解能力,人类虽然掌握了先进的分析 理论,但是人脑却没有能力处理如此庞大的数据量。人类需要有效的工具来发掘隐 含在大量数据背后的有用知识。 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知 识的过程。作为一门交叉学科,数据挖掘集成了许多科学领域中成熟的理论和技术, 包括数据库技术、数理统计、模式识别、人工智能等。与传统的知识发现技术相比, 数据挖掘一般与数据库结合紧密,更加侧重于对海量数据的多种模式的自动发现, 有着更广阔的应用前景”1 。 2 3 2 数据挖掘的一般过程 如图2 3 所示,数据挖掘的一般过程可分为四个阶段: 1 目标确定:了解应用的范围,预先准备相关的知识,了解最终用户的目标。 2 数据准备:数据准备阶段为模式发现阶段提供高质量的输入数据。主要包括 以下步骤: ( 1 ) 数据选择:从各种数据库、文件和非电子数据源中获取数据。 ( 2 ) 数据净化和预处理:正确剔除或修正错误数据。统一数据量纲。提取时间 序列信息。 ( 3 ) 数据变换和压缩:依据将要使用的分析方法,转换数据表示格式。提取数 据特征来表示数据,降低数据的维数。 3 模式发现:模式发现是数据挖掘过程的核心阶段,该阶段运用各种数据挖掘 8 华北电力大学硕士学位论文 算法,通过对历史数据的分析,得到供决策使用的各种模式与规则。 4 知识表示和评价:将挖掘出来的模式与规则以直观、容易理解的方式呈现给 用户。评价和筛选挖掘出来的模式与规则。 2 3 3 数据挖掘的主要功能 图2 - 3 数据挖掘的一般过程 1 关联分析: 连接分析,也称作亲和力分析( a f f i n i t y ) 或关联分析,是揭示数据之间相互 关系的一种数据挖掘方法,而这种关系在数据中没有直接表示。关联规则是可以识 别出特殊类型的数据关联的模型。这些关联可用于医疗业了解哪些疾病在哪类病患 身上容易并发。最初关联分析是针对事务数据库的,下面是基于事务数据库给出关 联规则的定义及指标。 关联规则给定一组项目,- u 。,i :,l ) 和一个事务数据库d i t 。,f :,f 。 ,其 中t f - 仉。,i v ) 并且厶,关联规则是形如x y 的蕴含式,其中x ,y c i 是 两个项目集合,称为项目集并且石n y 一巾。 支持度关联规则x y 的支持度0 ) 是数据库中包含x u y 的事务占库中所有 事务的百分比。 置信度或强度关联规则x y 的置信度或强度0 ) 是包含x u y 的事务数与包 含z 的事务数的比值。 关联规则挖掘算法分两步走,第一步是识别所有的频繁项目集,即其支持度不 低于用户最低支持度的项目集;第二步是从频繁集中构造其置信度不低于用户要求 最低置信度的规则“肌”“”。关联的基本算法有a p r i o r i 算法,该算法的核心是大项 目集的任一子集也一定是大的。 2 分类: 分类是指将数据映射到预先定义好的群组或类。因为在分析测试数据之前,类 9 华北电力大学硕士学位论文 别就已经被确定了,所以分类通常被称作有指导学习。分类算法通常通过观察己知 所属类别的数据的特征来描述类别。分类方法中基于统计的方法有回归分类、贝叶 斯分类;基于距离的方法可以简单地将每个元组分配到与其最相似的类别中去,从 而实现分类,还可以使用k 最邻近方法:基于决策树的方法,在分类问题中决策树 是最有用的一种方法。应用这种方法需要构建一棵树对分类过程进行建模。一旦建 好了树,就可以将其应用于数据库中的元组并得到分类结果。在决镱树方法中,有 两个基本步骤:构建树和将树应用于数据库。大多数研究都集中在如何有效地构建 树,而应用过程则是很简单的。决策树分类方法将搜索空间划分为一些矩形区域, 然后根据元组落入的区域对元组进行分类。这类方法有i d 3 ,基于信息论构建决策 树的i d 3 技术试图最小化比较的期望数。这种归纳算法的基本思想是提出问题,所 提问题的答案要提供最多的信息。c 4 5 和c 5 0 ,对i d 3 算法作了改进,可以有缺 失数据,可以对连续数据操作,剪枝策路也做了改进,c 4 5 中有两种基本的剪枝策 略:子树替代法是指用叶结点代替子树。仅当替代后的误差率与原始树的误差率接 近时才替代。子树替代是从树的底部向树根方向进行的。子树上升法,是指用一颗 予树中最常用的子树来代替这颗子树。子树从当前位置上升到树中较高的结点处。 这种替代也需要确定误差率的增加量。基于神经网络的算法。基于规则的算法。生 成覆盖所有情况的i f - t h e n 规则“1 。 3 聚类; 聚类一般指无指导学习或分割( s e g m e n t a t i o n ) 。就是将数据划分或分割成相 交或者不相交的群组的过程。通过确定数据之间在预先指定的属性上的相似性就可 以完成聚类分析,最相似的数据聚集成簇。对于一个很大的多维数据集,数据点在 数据空间中通常不会均匀分布。数据聚类方法可以找出稀疏和稠密的位置,进而发 现数据集的整个分布模式。当要分析的数据缺乏描述信息,或者无法组织成任何分 类模式时,利用聚类可以自动找到合适的分类。聚类方法有层次算法,层次算法实 际上是产生嵌套的簇集。可以用谱系图这样的树形结构来表示层次聚类技术以及不 同的簇集。谱系图的根节点为一个包含所有成员的簇,谱系图的叶节点为一个个包 含单个成员的簇。谱系图的中间节点表示由其子结点合并而成的新的簇。在树的每 一层都采用距离度量来合并相邻的下层簇在某一层的所有簇都是并列的,因为该 层某个簇的子簇之间的距离要小于该簇的子簇与该层其他簇之间的距离。层次算法 有凝聚算法和分裂算法。非层次聚类或划分聚类在步中就产生所有的簇,而不需 要几个步骤。虽然在各种算法中,可以在算法内部产生几个不同的簇集,但划分聚 类的结果只产生一个簇集。由于只有一个簇集作为输出,所以用户必须输入期望得 到的簇的数目,另外还需要用度量函数或准则函数来判断所给出的解的优劣程度。 划分算法中有最小生成树算法,平方误差聚类算法,k 一均值聚类算法,最近邻算法, 围绕中心点划分算法,基于遗传算法的聚类和基于神经网络的聚类“”“町“”。还有关 】0 华北电力大学硕士学位论文 于大型数据库的聚类问题。为了在大型数据库上进行有效聚类,一个算法应该: ( 1 ) 要求数据库扫描的次数不超过一次( 或更少) ( 2 ) 在算法执行过程中,能够提供算法所处状态及当前最好的答案,这种能力 有时也称作在线能力。 ( 3 ) 是可挂起的、可停止和可重新继续的。 ( 4 ) 当增加和删除数据库中的数据时,能够增量地调整聚类结果。 ( 5 ) 有限主存即可运行 ( 6 ) 为了扫描数据库,可以执行不同的技术,这些技术中也包括抽样技术。 ( 7 ) 一个元组,只处理一次。 4 预测: 预测是利用过去和当前数据对未来数据状态进行预测。例如对未来水文的变化 做出判断。某些分类也是一种预测,对某一对象的未来行为或结果分类也就是预测 此对象的未来行为或结果。还有一种方法就用曲线拟合实际数据,时间序列分析和 回归分析就是对未来值进行预测。 5 异常检测: 对分析对象少数的、极端的特例的描述,揭示其内在的原因。例如在众多的网 络访问中检测恶意入侵。 2 4o r a c i ea n a i y t i cw o r k s p a c e s 概述 a n a l y t i cw o r k s p a c e s 是o r a c l e 专门针对多维数据物理存储和操作设计的。 a n a l y t i cw o r k s p a c e s 中的多维技术是基于带索引的多维数组模型的,这种模型提 供对数据的直接访问。内在的多维性使得a n a l y t i cw o r k s p a c e s 在多维分析性能的 速度的性能上有着无可比拟的优势。 1 1 华北电力大学硕士学位论文 第三章e s s e n t risa n a iy i :ic f l 的需求分析和设计 3 1 系统需求概述 医院信息系统h i s ( h o s p i t a li n f o r m a t i o ns y s t e m ) 是当前医疗部门信息管理 的主要模式之一。它是以医院的业务流程为基础,利用计算机技术、网络技术、通 信技术及数据库技术,对医院各项管理、医疗护理、物资经济和科研教学等信息进 行有效的管理和应用,实现医院内外信息资源共享的计算机应用软件系统。随着时 间的推移,医院信息系统中积累了大量的一线数据,虽然专业范围内的医疗信息共 享对医疗事业已经做出了不小的贡献,但是远没有发挥出这些数据内在的巨大价 值。如何利用数据仓库技术组织并管理这些数据,如何对这些数据进行快速、稳定、 一致和交互式的存取,并能够按照需求对其进行深入地观察,如何提取这些数据中 隐含的、潜在有用的信息和知识,成为医院信息化很有意义的研究方向 1 8 1 9 e 医院信息分析系统e s s e n t r i sa n a l y t i c ss y s t e m 是在医院信息系统c c i c l i n i c a ls y s t e m 的基础上提出来的。分析系统是为c c i 产品提供数据聚集、数据 挖掘、数据报告和分析功能的。医疗组织有其自身的特点,它们都是高度系统化管 理的、其业务主要依赖于人的,并且业务流程复杂的组织。对于医疗组织的管理高 层来说,他们关心的领域一般是服务的速率、产出与投入比、服务的品质、职员合 理配置、市场占有率等。他们所关心的特殊领域是服务的质量、花费和时间还有每 个病人所需资源( 人力和物力) 之间的内在关系。e s s e n t r i sa n a l y t i c ss y s t e m 的 功能就是为管理高层提供理解业务的方法和途径,和为医务研究人员提供新的研究 手段和视角。依据以上分析e s s e n t r i sa n a l y t i c ss y s t e m 应提供以下功能: 1 研究:医院人员物资管理研究和医学学术领域的研究。 2 效益分析:分析运营状况并能决定合理的投资方向。 3 预测:财政预测、病发人数和周期的预测。 4 各种综合报告:能按照客户定制的信息产生报表。 5 错误报告:能报告系统中出现的错误。 3 2 系统体系结构的设计 c c ic l i n i c a ls y s t e m 的数据库是e s s e n t r i sa n a l y t i c ss y s t e m 的主要数据来 源。c c ic 1 i n i c a ls y s t e m 后台主要的数据库是c c id b ,c c id b 是一个三维的时序 数据库。它的三个维分别是m a j o ri t 、m i n o ri t 和k e y 。其中不同的m a j o ri t 和 1 2 华北电力大学硕士学位论文 m i n o ri t 代表的含义由c c ic 1 i n i c a ls y s t e m 的系统配置文件规定,k e y 值与时间 相对应。c c id b 不是一个通用的关系型数据库,而是为医院信息系统c c ic 1 i n i c a l s y s t e m 专门设计的时序多维数据库。这样的数据库系统能保证医院信息系统c c i c i i n i c a ls y s t e m 的高效运行以及信息的完整性,但是在信息共享上有着不可逾越 的障碍。医疗业是一个复杂的、多元化的行业,让整个医疗业使用同一家公司的信 息系统显然是不可能的多种信息系统的共存就导致了异种信息系统之间的信息共 享问题。鉴于c c id b 的技术专有性和复杂性,从c c id b 向外部信息系统提供数据 访问接口是不现实的。所以有了g d r ( g l o b a ld a t ar e p o s i t o r y ) 。g d r 是构建于 o r a c l e 数据库之上的,向外部系统提供数据访问接口的,与c c id b 中的内容基本 同步的镜像数据库。考虑到系统的可扩展性、易维护性、开发成本问题以及数据仓 库中对数据实时性的低要求,决定将g d r 作为e s s e n t i r sa n a l y t i c ss y s t e m 数据 仓库的主要数据源。可利用将c c id b 中的数据向g d r 同步的d a e m o n 编写从g d r 中 、抽取、转换和装载e t l ( e x t r a c t i o n ,t r a n s f o r m ,l o a d ) 的e t ld a e m o n 。同步d a e m o n 对g d r 的任何操作都会生成一个事务存放在一个数据库表中,每过1 5 分钟,e t l d a e m o n 就会处理这个表,将那些与任何主题域都无关的事务丢弃掉将剩下的事务 中的数据经由抽取、转换和装载操作同步到e s s e n t r i sa n a l y t i c ss y s t e m 的数据 仓库中e s s e n t r i sa n a l y t i c ss y s t e m 的数据仓库构建于o r a c l e 数据库系统之上, o r a c l e 数据库系统支持多维技术,通过将多维表和分析引擎集成到数据库中, o r a c l e 提供易管理、可测量、稳定的多维分析功能。将多维技术集成到关系数据库 中是很重要的,因为维护一个独立的多维数据是一件开销很大的事。这需要额外的 硬件设施和熟悉特殊多维数据库管理工具的d b a 。o r a c l e 完全集成了o l a p 功能。 d b a 使用同样的工具管理此模块和其它模块,可以决定存储和计算数据的最佳时机, 将它们作为数据库优化的一部分。同一个应用不但可以访问关系型数据还可以访问 多维数据。多维数据存储在a n a l y t i cw o r k s p a c e 中,可以通过o l a p 引擎访问这些 数据。在一个数据库中可以创建多个a n a l y t i cw o r k s p a c e ,并在多个用户间共享这 些a n a l y t i cw o r k s p a c e 。a n a l y t i c 乳r k s p a c e 是专为处理多维数据的物理存储和 操作设计的,其多维技术基于带索引的多维数组模型,提供直接单元访问。内在的 多维性使得a n a l y t i cw o r k s p a c e 在多维分析的性能和速度上有着无可比拟的优势 b o 【2 妇 2 2 j 如图3 一l 和图3 2 所示( 图3 2 是对图3 - 1 的细化描述和补充) e s s e n t r i s a n a l y t i c ss y s t e m 的整个结构分为三层,第一层是w e b 服务器,基于s t r u t s 架构 实现,第二层是应用服务器层,两层之间使用c o r b a 技术连接,这里是用c o r b a 技 术是为了和医院信息体统c c ic 1 i n i c a ls y s t e m 相兼容。j a v a 天生就支持c o r b a 技 术,这种连接手段的好处在于对于非j a v a 语言实现的a p i 也可以很容易就可以调 用。o r a c l e 中功能最完善的是p l s q l 程序包。第三层是数据库服务器,使用j d b c 1 3 华北电力大学硕士学位论文 连接,这样对于不同的硬件环境,不需要修改代码重新编译就都可以使用,因为j a v a 语言是解释执行的由于e s s e n t r i sa n a l y t i c ss y s t e m 系统功能特殊且易变,三 层结构充分考虑了系统的可扩充性、易维护性、健壮性和友好性儿“1 。 图3 - 1e s s e n t r i sa n a l y t i c ss y s t e m 体系结构1 1 4 华北电力大学硕士学位论文 控制嚣 - 1 请求- s 0 州融 氇 f ;i ! 用 雾 艇 0 亩杏 l c o r b a 嚣 髭 瓣 11 _ 图3 - 2e s s e n t r i sa n a l y t i e ss y s t e m 体系结构2 典型的控制信息、数据流向如下: 用户通过w e b 浏览器( i e 6 0 ) 登录系统,身份认证后,获取相应的权限。在权 限许可范围内向w e b 服务器递交查询分析请求。 w e b 服务器依据请求的业务,通过c o r b a 接口,激活( 非持续性服务) 或者连 接( 持续性服务) 应用服务器,并调用相应的服务接口。 应用服务器调用o l a p p i 或者j d ma p i 访问立方数据并通过指定的算法对数 据进行分析、挖掘后,将结果返回给w e b 服务器。 w e b 服务器调用相应的绘图、制表软件包将结果以友好的方式展现给用户。 w e b 服务器与应用服务器之间使用c o r b a 技术相联,为系统的分布式实现提供 了很好的技术支持。下层的应用服务应通用化,尽可能做到当上层需求有变化时, 仅通过对下层应用的重新组合调用就可满足。此系统结构没有时不时的客户端更 新,也没有客户端与服务器暂时不兼容的情况出现。e t ld a e m o n 负责不间断地从源 数据库抽取、转换、装载数据到数据仓库,并负责分布式系统的数据同步问题。 与传统的信息分析系统相比,传统的信息分析系统多采用c s 模式,将分析功 能作为信息系统的一部分功能来实现。这种做法很带来些问题: 信息系统的功能是相对稳定的,信息分析系统的需求是不断变化的,在信息系 统采用c s 模式时,其时不时的客户端下载过程已经让人感到厌烦了,信息分析系 统频繁的功能扩展会让用户对系统造成不良感觉。 信息分析系统与信息系统耦合太紧密,对于不需要分析功能的用户来说就是一 种资源浪费并使得系统变得很臃肿。 c s 模式提供给任何用户的界面都是同一种,不像b s 模式,用户可以根据需 要选择要访问的页面。而且在c s 模式中所有的功能都集中在一起,系统变得很复 杂。 造成以上问题的原因是没有考虑到信息
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年公共关系策划师职业技能水平考核试题及答案解析
- 2025年安全员B17考试模拟题库
- 2025年安全生产管理实操培训题集
- 护理教学课件资源有哪些
- 2025年渗透测试初级面试模拟题集宝典
- 2025年安全员招聘面试问题及答案解析
- 2025年村级水管员供水管理笔试题库
- 2025年机关节能面试模拟题及解析
- 2025年安全员C证复审强化复习题库
- 扁鹊见蔡桓教学课件
- 医院病历单请假用
- 肝胆外科专科知识题库及答案
- 《数字媒体基础与实践》数字媒体技术概述
- 滁州市珠龙广卫绢云母粉厂滁州市南谯区将军山绢云母矿1万吨-年露天采矿工程项目环境影响报告书
- 迷你中长导管-
- 钢质防火门安装施工方法
- 优化物理教学策略的思考(黄恕伯)
- GB/T 26358-2022旅游度假区等级划分
- GB/T 25146-2010工业设备化学清洗质量验收规范
- GB/T 14825-1993农药可湿性粉剂悬浮率测定方法
- GB/T 12008.7-2010塑料聚醚多元醇第7部分:黏度的测定
评论
0/150
提交评论