(计算机软件与理论专业论文)OLAP和数据挖掘技术在医院信息系统中的研究与应用.pdf_第1页
(计算机软件与理论专业论文)OLAP和数据挖掘技术在医院信息系统中的研究与应用.pdf_第2页
(计算机软件与理论专业论文)OLAP和数据挖掘技术在医院信息系统中的研究与应用.pdf_第3页
(计算机软件与理论专业论文)OLAP和数据挖掘技术在医院信息系统中的研究与应用.pdf_第4页
(计算机软件与理论专业论文)OLAP和数据挖掘技术在医院信息系统中的研究与应用.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机软件与理论专业论文)OLAP和数据挖掘技术在医院信息系统中的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文提出了一种基于o l a p 和数据挖掘技术的医院信息多维分析系统的设计,实 现了基于s o ls e r v e r2 0 0 5 分析服务( s s a s ) 在医院数据仓库之上的o l a p 多维数据分析 和m d x 多维数据查询,并利用关联规则、决策树等数据挖掘算法及改进算法对乳腺 疾病进行医疗数据挖掘,得出有用的知识。 采用维度建模的方法,针对濮阳市人民医院h i s 数据源及数据仓库具体需求确定 了多个主题,本文重点论述了系统的概念模型设计和逻辑模型设计,包括维度和粒度 的设计、事实表和维表的设计,采用星型模型构造主题逻辑视图,生成了医院多维立 方体。 本文的研究和结果表明,o l a p 和数据挖掘技术在h i s 中的应用不仅从企业管理 的角度为医院管理者提供智能的分析方法和途径,还从医学研究的角度为医院研究人 员提供了新的手段和视角。 关键词:o l a p数据挖掘多维数据分析s q ls e r v e r2 0 0 5 分析服务 a bs t r a c t t h i sp a p e rp r o p o s e dam u l t i d i m e n s i o n a la n a l y s i so ft h eh o s p i t a li n f o 锄a t i o ns y s t e m d e s i g n b a s e d o no l a pa n d d a t a m i n i n gt e c h n o l o g y w h i c h r e a l i z e do l 廿 m u l t i d i m e n s i o n a ld a t aa n a l y s i sa n dm d x m u l t i - d i m e n s i o n a ld a t aq u e r yo nt h eb a s i so f s s a si nt h eh o s p i t a ld a t aw a r e h o u s e ,a n da c h i e v e dm e d i c a ld a t am i n i n gu s i n ga s s o c l a t l o n r u l e s d e c i s i o nt r e e sa l g o r i t h m sa n di m p r o v e da l g o r i t h m sf o rb r e a s t c a n c e r st 0 g e tu s e f u l k n o w l e d g e t h i sp a p e rd e t e r m i n e dan u m b e ro ft h e m e si na c c o r d a n c ew i t ht h es p e c i f i cd e m a n d s o f p u v a n gc i t yp e o p l e sh o s p i t a lo fh i sd a t as o u r c e sa n dd a t aw a r e h o u s eu s i n gd l m e n s l o n m o d e l i n ga p p r o a c h ,d e t a i l e dd i s c u s s e dt h ec o n c e p tm o d e l sd e s i g na n dl o g i cm o d e l sd e s i g n , i n c l u d i n gt h ed i m e n s i o n sa n ds i z ed e s i g n ,t h ef a c tt a b l ea n d t a b l e 。d i m e n s i o n a ld e s i g n i tt o o k p a t i e n t i n h o s p i t a la sa ne x a m p l eu s i n g s t a rm o d e l st oc o n s t r u c tl o g i c a lv i e w so fs u b j e c t sa n d g e n e r a t em u l t i d i m e n s i o n a lh o s p i t a lc u b e s e x p e r i m e n t a lr e s u l t ss h o w e di t n o to n l yp r o v i d e di n t e l l i g e n ta n a l y s i so ft h ew a y sa n d m e a n s 如mt h ep e r s p e c t i v eo fb u s i n e s sm a n a g e m e n tf o rh o s p i t a l a d m i n i s t r a t o r s b u ta l s o p r o v i d e dn e wm e a n sa n dm e t h o d sf r o mt h ep e r s p e c t i v eo f m e d i c a lr e s e a r c hf o rt h eh o s p l t a l f e s e a r c h e r s t h ea p p l i c a t i o no fo l a p a n dd a t am i n i n gt e c h n o l o g y i nt h eh o s p l t a i i n f o r m a t i o ns y s t e mh a ds o m er e f e r e n c e s k e yw o r d s :o n l i n ea n a l y t i c a lp r o c e s s i n g d a t am i n i n g m u l t i d i m e n s i 蚰a ld a t a a n a l y s i ss q l s e r v e r2 0 0 5a n a l y s i ss e r v i c e s 长春理工大学硕士学位论文原创性声明 本人郑重声明:所呈交的硕士学位论文,0 l 廿和数据挖掘技术在医院信息系统 中的研究与应用是本人在指导教师的指导下,独立进行研究工作所取得的成果。除 文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的 作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 本人完全意识到本声明的法律结果由本人承担。 作者签名:葛霉盈醚甬二通年立月监日 长春理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“长春理工大学硕士、博士学位论文版权使 用规定”,同意长春理工大学保留并向中国科学信息研究所、中国优秀博硕士学位论文 全文数据库和c n k i 系列数据库及其它国家有关部门或机构送交学位论文的复印件和电 子版,允许论文被查阅和借阅。本人授权长春理工大学可以将本学位论文的全部或部 分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编 学位论文。 作者签名:幽鱼盛幽年上月丝日 指导导师签名:垒生竺塑! 年立月监日 5 3 1 1 研究目的及意义 第一章绪论 计算机信息技术在医学领域的应用,促进了医学信息的数字化同时,电子病历和 病案的大量应用和医疗设备和仪器的数字化,积累了大量的数据资源,涵盖了医学活 动中产生的文字、图像、声音等多媒体数据,使得医院数据库的信息量不断地膨胀。 这些宝贵的医学信息资源对于医院的管理、疾病的诊断、治疗和医学研究都有着很高 的价值。然而,目前大多数医院对数据库的处理仅限数据的录入、修改、查询、统计、 删除等过程,属于医学数据库的低端操作,缺乏数据的集成和分析,更谈不上在这大 量的数据资源中挖掘深层次的、隐含的、有价值的知识i l j 。 在这种背景下,医院信息的o l a p 和数据挖掘技术应运而生。o l a p 和数据挖掘 技术为医务管理者、科研工作者分析和利用这些数据资源进行科学管理、决策以及开 展医学研究提供了技术工具,浩瀚的医学资源要用现代数据仓库和数据挖掘技术去组 织、分析和利用。探索数据挖掘技术在医学信息方面的研究就具有更重要的实用价值 和广阔的发展前景。 使用o l a p 和数据挖掘技术,可对医学数据进行多方面的综合分析,从中发现医 务人员所需的知识,并以直观易懂的形式将分析结果展示给医务人员,为他们的临床 诊断、治疗和流行病学研究提供客观依据1 2 j 。对医学数据库进行数据联机分析,可以得 到流行病学的知识,对于人们对于疾病的预防和治疗有着重要的指导意义。对医学数 据库中的各种检验和检查数据进行分类和预测,得到医学诊断的各种规则,从而帮助 医生对患者进行客观而有效的诊断。 1 2 国内外研究现状 电子计算机在医院的应用已有四十多年的历史,6 0 年代初,美国便开始了医院信 息系统( h o s p i t a li n f o r m a t i o ns y s t e m ,h i s ) i 拘研究。著名的麻省总医院开发的c o s t a r 系统是6 0 年代初开始并发展到今天成为大规模的临床病人信息系统。随着计算机技术 的发展,7 0 年代,h i s 进入大发展时期,美同欧各国的医院,特别是大学医院及医学 中心纷纷开发h i s ,成为医药信息学的形成和发展的基础。7 0 8 0 年代,美国的产业已 有很大发展。1 9 8 5 年美国全国医院数据处理工作调查表明,1 0 0 张床位以上的医院, 8 0 实现了计算机财务收费管理,7 0 的医院可支持病人挂号登记和行政事务管理。 2 5 的医院有了较完整的h i s ,即实现了病房医护人员直接用计算机处理医嘱和查询实 验室的检验结果。1 0 的医院有全面计算机管理的h i s l 引。 计算机7 0 年代术期就进入了我国医疗行业,当时只有少数几家大型的部属综合医 院和教学医院拥有,如北京协和医院、北京肿瘤医院、3 0 1 医院等,主要应用于科研和 教学,还没有应用于h i s 的管理。8 0 年代初期,随着节果p c 机的出现和b a s i c 语言 的普及,一些医院开始开发一些小型的管理软件,如工资软件等。8 0 年代中期,一些 医院开始建立小型的局域网络,并开发出基于部门管理的小型网络管理系统,如住院 管理,药房管理等。进入9 0 年代,n o v e l l 网和f o x b a s e 、f o x f r o 数据库日益盛 行,完整的医院网络管理系统的实现已经成为可能,于是一些有计算机技术力量的医 院开始开发适合自己医院的医院管理系统。一些计算机公司也不适时机的开发h i s , 如h p 公司( 与医院3 0 1 合作) 、i b m 公司、微软公司、浪潮公司。在2 1 世纪,随着 我国经济持续稳定的发展和医药卫生改革的不断深入,我国医院信息系统进入了临床 信息系统阶段,如北京宣武医院的h i s 就包容了电子病历系统和医学影像存档传输系 统,成为数字化医院的公认指标。 目前数据挖掘技术的前景被人们普遍看好,几年前国际知名调查机构g a r t n e r g r o u p 在高级技术调查报告中,就将数据挖掘和人工智能列为“未来数年内将对工业产生深 远影响的五大关键技术 之首,还将并行处理体系和数据挖掘列为未来五年内投资焦 点的十大新兴技术前两位。g a r t n e r 的调查报告预计:到2 0 1 0 年,数据挖掘在相关市 场的应用将从目前少于5 增加到超过8 0 。美国银行家协会预测数据仓库和数据挖掘 技术在美国商业银行的应用增长率是1 4 9 。正因为如此,数据挖掘技术的出现,作 为目前国际上数据库和信息决策领域的最前沿研究方向之一,已经引起了学术界和工 业界的广泛关注。一些国际上高级别的工业研究实验室,如i b ma l m ad e n 和g t e , 和众多的学术单位,如u cb e r k e l e y ,都在这个领域开展了各种各样的研究计划。应用 上,数据挖掘在移动通信、电信、联通、保险、证券、银行、制造业、零售业的数据 仓库、数据整合、查询报表项目中进行了成功的应用。虽然数据挖掘已经在移动通信、 电信、联通、保险、证券、银行等相关行业进行了成功的应用,但在医院信息系统中 的应用目前还处在起步阶段,据报道对医院信息系统所产生的数据进行挖掘研究的机 构,目前在国内有北京协和医院信息中心、解放军福州总医院信息中心1 4 j 。 1 3 论文研究内容 本文主要研究现行的o l a p 技术和数据挖掘技术并在此基础上,从医院信息管理 和对医学数据进行多方面的综合分析的角度出发,研究其在医院信息系统中的应用, 建立多维数据模型,从而使决策人员能从多个方面进行数据查询、数据分析,发现数 据变化的规律,得出有价值的结论。 本文的主要内容如下: 1 研究数据仓库、o l 廿技术和数据挖掘技术的基本理论知识、多维分析方法及 数据立方体的存储结构,分析其在医学数据信息中的运用。 2 完成医院信息多维立方体的分析、设计。由于篇幅有限,本文对系统详细设计 部分重点论述了概念模型设计和逻辑模型设计,采用维度建模的方法建立了医院信息 2 多维立方体。 3 进行医院数据的访问设计。基于s o ls e r v e r2 0 0 5 的分析服务( s s a s ) 在医院数 据仓库之上实现o l a p 多维数据分析及m d x 多维数据查询,通过实例说明分析、查 询结果。 4 对数据挖掘中关联规则、决策树已有算法进行分析,并进行了改进,利用这些 算法来对乳腺疾病患者数据进行数据挖掘。使用s s a s 的数据挖掘功能来实现并得到 有用的知识。 3 第二章o l a p 和数据挖掘技术基础及s s a s 简介 2 1 数据仓库技术简介 概念上而言,一个数据仓库包含了一系列的关键性信息,他们可以用来管理并引 导企业走向最可能的获利之路。 8 0 年代初,数据仓库之父w h 1 _ n m o n 在“记录系统 、“原子数据”和“决策支持 系统”等专题研究报告中给数据仓库下的定义是:数据仓库是一个面向主题的、集成 的、非易失且随时间变化的数据集合,召来支持管理人员的决策。它应该包含一系列 分析所需数据,并且应该包含处理数据所需的程序1 5 j 。 根据数据仓库的定义,一个数据仓库包括数据以及负责管理与分析工作的程序管 理器,其主要目的在于及时提供可用数据,可以取得所需的正确统计信息,以作为管 理决策的参考依据。就数据表的层面而言,一个数据仓库包含了下列类型的数据:事 实数据、源数据、维度数据、集合数据。就应用程序的范围而言,一个数据仓库包含 了下列类型的应用程序:加载应用程序、仓库应用程序、查询应用程序1 6 】。 2 1 1 数据库与数据仓库的对比 1 数据库用于事务处理 数据库存储大量的共享数据,作为数据资源用于管理业务中的事务处理,已经成 为了成熟的信息基础设施。数据库中存放的数据基本上是保存当前数据,随着业务的 变化随时更新数据库中的数据。不同的管理业务需要建立不同的数据库。数据库是为 事务处理需求设计和建立的,从而使计算机在事务处理上发挥极大的效果。 2 数据仓库用于决策分析 随着决策分析的需求扩大,兴起了支持决策的数据仓库。它是以决策主题需求集 成多个数据库,重新组织数据结构,统一规范编码,使其有效地完成各种决策分析。 从数据库到数据仓库的演变,体现了以下几点: ( 1 ) 数据库用于事务处理,数据仓库用于决策分析 事务处理功能单一,数据库完成事务处理的增加、删除、修改、查询等操作。决 策分析要求数据较多。数据仓库需要存储更多的数据,不需要修改数据,主要提取综 合数据的信息,以及分析预测数据的信息1 7 j 。 ( 2 ) 数据库保持事务处理的当前状态,数据仓库既保存过去数据又保存当前数据 数据库中数据随业务的变化一直在更新,总保存当的的数据。数据仓库中数据不 随时间变化而变化,但保留大量不同时间的数据,即保留历史数据和当前数据。 ( 3 ) 数据仓库的数据是大量数据库的集成 数据仓库的数据不是数据库的简单集成,而是按决策主题,将大量数据库中数据 4 进行重新组织,统一编码进行集成。 ( 4 ) 对数据库操作较明确,操作数据量少。对数据仓库操作不明确,操作数据量 大 一般对数据库的操作都是事先知道的事务处理工作,每次操作( 增加、删除、修改、 查询) 涉及的数据量也小,如一个或几个记录数据。对数据仓库的操作都是根据当时决 策需要临时决定而进行的。 2 1 2 数据仓库设计的几个重要概念 1 e t l :e t l ( e x t r a c t t r a n s f o r m a t i o nl o a d ) 是用户从数据源抽取出所需的数据,经 过数据抽取、转换,最终按照预先定义好的多维立方体模型,将数据装载到多维立方 体中判8 1 。 2 元数据:关于数据的数据,指在多维立方体建设过程中所产生的有关数据源定 义,目标定义,转换规则等相关的关键数据,如多维立方体表的结构、多维立方体表 的属性、多维立方体的源数据( 记录系统) 、从记录系统到多维立方体的映射等。 3 粒度:数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越 高,粒度级就越小;相反,细化程度越低,粒度级就越大。 4 数据集市:数据集市是小型的,面向部门或工作组级多维立方体。数据集市是 为某一部门或某一领域的用户提供的服务的,它的数据是多维立方体的一个子集。我 们建立的多维立方体就是基于医学数据集市的。 2 2o l a p 技术 当今的数据处理大致可以分成两大类:联机事务处理( o l t p ) 和联机分析处理 ( o l a p ) 。o l t p 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理。 o l a p 专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支 持,可以应分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种 直观易懂的形式将查询结果提供给决策制定者,以便他们制定正确方案。o l a p 软件, 以它先进的分析功能和以多维形式提供数据的能力,正作为一种支持企业关键商业决 策的解决方案而迅速崛起i 引。 2 2 1o l a p 的基本概念 1 o l 婚的概念 1 9 9 3 年,e f c o d d 在“p r o v i d i n go l a p t ou s e r a n a l y s i s ”i l o 】中首次提出了联机分 析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 的概念,他认为o l t p 己不能满足终端用 户对数据库查洵分析的需求,s q l 对大型数据库进行的简单查询也不能满足终端用户 决策分析的要求。因此,e f c o d d 提出了多维数据库和多维分析的概念,即o l a p 。 并将o l a p 定义为共享多维信息的、针对特定问题的联机数据访问和分析技术。此外 o l a p 委员会也对o l a p 给出了如下定义:联机分析# k 理( o l a p ) 是使分析人员、管理 人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解 的、并真实反映企业情况的信息进行快速、一致、交互式访问,从而获得对数据的更 深入了解的一类软件技术。从这些定义来看,o l a p 技术具有以下特剧1 1 】: ( 1 ) 快速性 用户对o l a p 的快速反应能力有很高的要求。要求系统能在5 秒钟内对用户的多 数分析要求做出反应。据调查,如果终端用户在3 0 秒内没有得到系统响应就会变得不 耐烦,因而可能失去分析主线索,影响分析质量。 ( 2 ) 可分析性 o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。o l a p 系统可以提供 给用户强大的统计、分析、报表处理等功能。此外,o l a p 系统还具有回答“假设一 一分析”问题的功能及进行趋势预测的能力。用户既可以在o l a p 平台上进行数据分 析,也可以连接到其他外部分析工具上,如数据挖掘工具掣1 2 】。 ( 3 ) 多维性 维是人们观察数据的特定角度,多维性是o l a p 的关键属性。系统能够提供对数 据分析的多维视图和分析,包括对层次维和多重层次维的支持。事实上,多维分析是 分析企业数据最有效的方法,是o l a p 的灵魂。 ( 4 ) 信息性 不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时获得信息,并 且管理大容量信息。 ( 5 ) 共享性 这意味着系统要能够符合数据保密的安全要求,即使多个用户同时使用,也能够 根据用户所属的安全级别,让他们只能看到他们应该看到的信息。 2 o l t p 与o l a p 的对比 o l t p 是在网络环境下的事务处理工作,利用计算机网络技术,以快速的事务响应 和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。o l t p 是事 务处理从单机到网络环境发展的新阶段。o l t p 的特点在于事务处理量大,但事务处理 内容比较简单且重复率高。大量的数据操作主要涉及的是一些增加、删除、修改、查 询等操作。o l t p 的数据组织的数据模型采用实体关系( e r ) 模型。表2 - 1 简单列 出了o l t p 与o l 廿的对比。 由表2 1 可见,o l a p 与o l t p 是两类不同的应用,o l t p 面对的是操作人员和低 层管理人员,o l a p 面对的是决策人员和高层管理人员;o l t p 是对基本数据的查询、 增、删和改操作处理,它以数据库为基础,而o l a p 更适合以数据仓库为基础的数据 分析处理。o l a p 中历史的、导出的及经综合提炼的数据均来自o l t p 所依赖的底层 数据库。o l a p 数据较之o l t p 数据要多一步数据多维化或预综合处理,建立不同级 别的统计数据,从而满足快速统计分析和查询的要求。除了数据及处理上的不同外, 6 o l a p 前端产品的界面风格及数据访问方式也同o l t p 有别,o l a p 多采用便于非数据 处理专业人员理解的方式( 如多维报表和统计图形) ,查询提出及数据输出直观灵活, 用户可以方便地进行逐层细化、切块与切片和数据旋转等操作;而o l t p 多为操作人 员经常用到的固定表格,查询及数据显示也比较固定和规范【1 3 】。 表2 - 1o l t p 与o l a p 对比 联机事务处理( 0 u p )联机分析处理( o l a p ) 数据库数据 细节性数据 当前数据 经常更新 一次性处理的数据量小 对响应时间要求高 用户数量大 面向操作人员 面向应用,事务驱动 数据库或数据仓库数据 综合性数据 历史数据 不更新,但周期性刷新 一次性处理的数据量大 响应时间合理 用户数量相对较少 面向决策人员,支持决策需要 面向分析,分析驱动 2 2 2o l a p 的基本术语和多维分析操作 o l a p 的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心 是“维”这个概念,因此o l a p 也可以说是多维数据分析工具的集合。o l a p 是针对 特定问题的联机访问和分析数据。通过从原始数据进行的转换信息,反映用户所能理 解的真实的“维”。 1 o l a p 的基本术语 ( 1 ) 变量:变量是数据的实际意义,即描述数据“是什么”。 ( 2 ) 维:维是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构 成一个维,如时间维、地理维等。例如,医院时常关心就诊患者不同年龄段的分布情 况,这是从年龄分布的角度来观察,所以年龄分布是一个维( 年龄维) 。医院观察就诊 患者的职业分布情况,所以职业分布也是一个维( 职业维) 。“维 是o l a p 的核心概 念,是主题的基础,是对主题的一种类型划分1 1 4 】。采取的与“维”有关的“度量”信 息是我们关心的焦点。 ( 3 ) 维的层次:人们观察数据的特定角度( 即某个维) 还可以存在细节程度不同的 多个描述方面,我们称这多个描述方面为维的层次。一个维往往具有多个层次,例如 描述时间维,可以从h 期、月份、季度、年等不同层次来描述,那么同期、月份、季 度、年等就是时间维的层次。同样,城市、地区、国家等构成了一个地理维的多个层 次。维的层次表示人们观察数据的详细程度,维层次的确定需要具体问题具体分析, 7 不同分析应用对数据详细程度的要求是不同的。 ( 4 ) 维的成员:维的一个取值称为该维的一个成员。如果一个维是多层次的,那 么该维的成员由各个不同维层次的取值组合而成。如“某年某月某日 是在时间维度 上的描述。 ( 5 ) 多维数据集:又称立方、立方体或多维数组,是o l a p 的核心,也是决策支 持的支柱,它是维和观察变量的组合表示。一个多维数据集可以表示为:( 维1 ,维2 , 维n ,变量) 。 ( 6 ) 数据单元( 单元格) :是多维数据集的取值。当在多维数据集中的每个维中都 选中一个维的成员以后,这些维的成员的组合就已确定了一个变量的值。数据单元可 以表示为:( 维1 维成员,维2 维成员,维n 维成员,变量值) 。 2 o l a p 的多维分析操作 o l a p 的多维分析是指对多维数据集中的数据用切片、切块、旋转等方式分析数 据,使用户从多个角度、多个侧面去观察数据仓库中的数据,深入地了解数据后面所 蕴含的信息,挖掘有效的知识i l 5 。 ( 1 ) 多维的切片 在多维分析过程中,对多维数据集的某个维选定一维成员,这种操作就称为切片, 也就是说如果有多维数据集( 维1 ,维2 ,维i ,维n ,变量) ,对维i 选定了某 个成员,那么( 维1 ,维2 ,维i 成员,维n ,变量) 就是在维i 上的一个切片。这 种切片的数量完全取决于维i 上的维的成员个数,如果维数越多,可以做的切片就越多。 进行切片的目的是使人们能够更好的了解多维数据集,通过切片的操作可以降低多维 数据集的维度,使人们能够将注意力集中在较少的维度上进行观察。 医院骨科住院患者信息按照住院时间、患者年龄、疾病类型就构成了一个多维立 方体。如果在时间维上,选定一个维成员,就得到了在时间维上的一个切片,如图2 1 多维数据集切片所示。显然,这样切片的数目取决于时间维上维成员的个数。 年龄 ( 岁) 2 5 4 5 1 5 2 4 0 1 4 1234 住院时间( 月) 图2 1 多维数据集切片 ( 2 ) 多维的切块 与切片类似,如果在多维数据集上对两个或两个以上的维选定其维的成员的操作, 8 就称为切块,即在多维数据集( 维1 ,维2 ,维i ,维k ,维n ,变量) 上,对 维i ,维k ,选定了维成员,那么( 维1 ,维2 ,维i 成员,维k 成员, 维n ,变量) 就是在维i ,维k 上的一切块。当i - k 时,切块操作就退化为切片操作。 ( 3 ) 钻取 钻取包括向下钻取和向上钻取操作。从高级数据到明细级数据视图成为下钻,下 钻是为了得到细节数据;从明细级数据到高级数据视图成为上钻,上钻是为了隐藏细 节而得到综合数据。钻取深度与该维所划分的层次相对应。 ( 4 ) 旋转 旋转操作是将多维数据集中的不同的维进行交换显示,得到不同视角的数据,使 用户更加直观地观察数据集中不同维之问的关系。 。 2 2 3o l a p 的存储结构 医院信息多维数据模型的存储结构非常重要,直接影响数据分析的速度和质量。 o l a p 按照数据存储的物理组织方式的不同来分,o l a p 可分为:多维o l a p ( m o l a p ) 、 关系o l a p ( r o l a p ) 以及混合型o l a p ( h o l a p ) 。 1 m o l a p m o l a p 是利用一个专有的多维数据库存储o l a p 分析所需要的数据,数据以多 维方式存储和组织,并以多维视图方式显示,是一种直接为支持多维查询分析处理而 设计的结构。在m o l a p 的结构中,分散在企业内部各o l t p 数据库中的数据经过抽 取、转换等步骤后提交给多维数据库。这些数据在存入多维数据库时,将根据他们所 属的维进行一系列的预处理操作( 计算和合并) ,并把结果按一定的层次结构存入多维 数据库中。 m o l a p 结构的优势不仅在于多维表达清晰,更重要的是它有着高速的综合速度, 能快速响应用户的分析请求。其主要缺点是预处理操作是预先定义好的,这就限制了 m o l a p 结构的灵活性,另外m o l a p 存储方式需要额外的存储开销。因此目前对 m o l a p 的研究重点是如何在提高系统性能的同时,节约资源、缩减存储空间,压缩技 术便是其中一种有效技术1 1 6 j 。 2 r o l a p r o l a p 在功能上类似m o l a p 。它以关系数据库为核心,而不是多维数据库。用 关系数据库中的二维表来组织数据,表达多维的概念。由于r o l a p 的维表和事实表都 是以关系表的方式存放,因而事实的提取需要通过维表和事实表的连接操作束完成。 并且由于每个维都需要进行一次连接操作,所以系统性能就成了r o l a p 实现的最大问 题。特别是当维数增加和事实表增大时,必须采取有效的查询优化技术、各种索引技 术来提高系统性能。r o l a p 结构的主要优点是灵活性强,用户可以动态定义统计或计 算方式,其主要缺点是它对用户的分析请求处理时间要比m o l a p 长。所以,目前对 r o l a p 的研究主要集中在如何提高系统的响应速度上。 9 3 h o l a p h o l a p 是m o l a p 与r o i a p 两种结构技术特点的有机结合,能充分满足用户各 种复杂的分析请求。在h o l a p 中,对最常用的维度和维层次使用多维数据库来存储, 对于用户不常用的维度和数据,采用r o l a p 星型结构来存储。 其中m o l a p 是比较常用的,它能够提供最佳的响应时间。医院信息的多维数据 模型的预聚集程度不高,为了提高系统的响应速度,综合r o l a p 组织数据的特点和 m o l a p 多维形式存储的优点,利用关系数据库存储细节数据,将基本事实数据和汇总 数据以多维形式存储。 2 2 4o l a p 的体系结构 o l a p 的具体实现方案通常采用三层客户n 务器结构,如图2 2 所示。第一层是 数据层,包括基层数据库和数据仓库,是o l a p 服务器的构建基础,它实现与基层运 营的数据库系统的连接,完成企业级数据一致和数据共享的工作;第二层是o l a p 服 务器,它将最终客户的请求分解成o l a p 分析的各种分析动作,并使用数据仓库中的 数据完成这些动作;第三层是前端应用程序,用于将o l a p 服务器处理得到的结果用 直观的方式,如多维报表,饼图、柱状图、三维图形等展现给最终用户。 基层d b l 数据仓库数据仓库综合数据 l l 细节数据o i _ a p 服务器 7 i 前端应用程序 基层d b 2 第一层数据层第二层服务器层第三层应用层 图2 2o l a p 的三层客户服务器体系结构 多维立方体位于三层客户服务器结构的第二层应用服务器层上,它的作用是将 o l a p 数据仓库中的数据进行汇总并以多维方式进行存储,是用户利用前端应用程序 进行o l a p 操作的直接数据源。在数据仓库应用中,o l a p 应用一般是数据仓库应用 的前端工具,同时o l a p 工具还可以同数据挖掘工具、统计分析工具配合使用,增强 决策分析功能。o l a p 是建立在客户服务器结构之上的,因此它要对来自基层的操作 数据进行多维化或预综合处理。 这种三层体系结构使数据、应用逻辑和客户应用分丌,有利于系统的维护和升级。 当系统需要修改功能或增加功能时,可以只修改三层中的某一部分。 1 0 2 3 数据挖掘概述 2 3 1 数据挖掘及其在医疗研究中的应用 数据挖掘( d a t am i n i n g ,d m ) 也称为数据库中的知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ,k d d ) ,这一术语出现于1 9 8 9 年,其定义几经变动,本文中引用了f r a y y a d u 等人提出的数据挖掘定义旧。数据挖掘是从数据库中识别出有效的、新颖的、潜在 有用的、并且最终可理解的模式的非平凡过程。下面对这个定义作详细的解释: 1 有效性要求挖掘前要对被挖掘的数据进行仔细检查,只有具备了该特性,才能 保证挖掘出来的信息的可靠性。 2 新颖性要求发现的模式应该是从前未知的。该信息是预先未曾预料到的,即数 据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识, 挖掘出的信息越是出乎意料,就可能越有价值。 3 潜在有用性是指发现的知识将来有实际效用,即这些信息或知识对于所讨论的 业务或研究领域是有效的、是有实用价值的和可以实现的。常识性的结论、或已被人 们掌握的事实或无法实现的推测都是没有意义的。 4 最终可理解性要求发现的模式能被用户理解,目前它主要是体现在简洁性上。 数据挖掘的过程一般由确定挖掘的对象、数据准备、模型建立、数据挖掘、结果 分析表述、挖掘应用这几个主要阶段组成。 计算机信息管理系统在医疗机构的广泛应用,促进了医疗信息的数字化,医院数 据库的信息容量不断地膨胀。这些宝贵的医疗信息资源对于疾病的诊断、治疗和医疗 研究都是非常有价值的。如何对医疗数据库进行自动提升和处理,提供全面的、准确 的诊断决策和保健措施,己成为促进医院发展、提高服务质量而必须解决的新问题。 正是在这种背景下,医疗数据挖掘应运而生【l 引。 医疗数据挖掘一经提出,就被广泛地应用到生物医疗工程领域并取得了相当大的 成功。其主要功能在于从指定的医疗数据中找出医疗模式类型。在生物工程领域主要 有两类典型的研究:生理规律或现象的描述;疾病发作前预测或进行断症。可以发现 的医疗知识模式主要有:概念类别描述、关联分析、分类和预测、聚类分析、孤立点 分析、演变分析等。 2 3 2 数据挖掘的方法和技术概述 按照不同的分类标准,数据挖掘的方法可分为不同类型。 根据挖掘任务分,有如下几种知识发现任务:分类或预测模型知识发现、数据总 结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋 势发现等。 根据挖掘方法分,可粗分为:统计方法、机器学习方法、神经网络方法和数据库 方法。统计方法中,可细分为:回归分析、判别分析、聚类分析、探索性分析等。机 器学习中,可细分为:归纳学习方法( 决策树、规则归纳等) 、基于范例学习、遗传算 法等。神经网络方法中。可细分为:前向神经网络( b p 算法等) 、自组织神经网络等。 数据库方法主要是多维数据分析或o l a p 方法,另外还有面向属性的归纳方法1 1 9 】。 下面介绍几种本文主要用到的方法: 1 关联规则 若两个或多个数据项的取值重复出现且概率很高时,它就存在着某种关联,可以 建立起这些数据项的关联规则。关联分析的目的是找出数据库中隐藏的关联网。一般 用“支持度”和“可信度”两个阈值来淘汰那些无用的关联规则。 。 设i = 1 1 ,1 2 ,i m ) 是项的集合。设任务相关的数据d 是数据库事务的集合,其中 每个事务t 是项的集合,使得t _ i 。设a 是一个项集,事务t 包含a 当且仅当a c _ t 。 关联规则是形如a 呻b 的蕴涵式,a c i ,b c i ,并且a nb = 驴。规则的支持度和可信 度:规则a b 具有支持度s ,表示s 是d 中事务包含a ub 的百分比,它是概率 p ( a ub ) ,规则a _ b 在数据库中具有可信度c ,表示c 是包含a 项集的同时也包含 b 项集,这是条件概率p ( b i a ) 。 s ( b ) - p ( a u b ) = 訾 ( 2 1 ) c ( a 叫_ p ( b l a ) i = 背 ( 2 2 ) 为了在事务数据库中找出有用的关联规则,需要由用户确定两个阈值:最小支持 度阈值( m i ns u p ) 和最小可信度阂值( m i nc o n f ) 。项的集合称为项集( i t e m s e t ) ,包含k 个 项的项集称为k 项集。如果项集满足最小支持度,称为频集( f r e q u e n ti t e m s e t ) 。同时满 足最小支持度阈值和最小可信度阈值的规则称为关联规则,即s ( a 呻b 1 ) m i ns u p 且 c ( a b ) ) m i nc o n f 成立时,规则a b 称为关联规则。 设有如表2 2 所示的一个小型医疗数据库,其中l a d 和r c a 分别表示由心 脏的特殊动脉( 左前下降动脉和右冠状动脉) 引起心脏病的百分比。运用a p r i o r i 算法, 可以挖掘出诸如表2 3 所示的医疗关联规则。 其中规则1 表示在所研究的病人中有4 0 ( 支持度) 在7 0 岁以上、有吸烟习惯且 都是男性,他们由心脏的右冠状动脉引起心脏病的百分比超过5 0 的可能性是 1 0 0 ( 可信度) ;规则2 即表示在所研究的病人中有2 0 ( 支持度) 在7 0 岁以下、有吸 烟习惯且都是女性,他们由心脏的左前下降动脉引起心脏病的百分比超过7 0 的可能 性是1 0 0 ( 可信度) 。 1 2 表2 - 2 原始的医疗数据 表2 - 3 医疗关联规则 规则1g e n d e r - m n a g e :- 7 0 ns m o k e r = yr c a 之5 0 ( 4 0 ,1 0 0 ) 规则2g e n d e r = f n a g e f 一一 一? = z _ = 二:一! :_ ? 一。一 | 住院日期,年,季度,月,日, l 1 1 1 l a 1 1 a l l a l l l术式信息表, 固定物取出术关节镜术截肢术截骨术。关节置换术滑囊切除术畸形矫冶米 i 医生姓名,住眠费用住院费用住厩贾甩侄厩要用住皖费_ 爿j任阮费_ h | 住院费用 i 金安 2 9 9 9 159 7 8 2 153 3 2 51 6 6 2 58 4 4 5 51 0 9 7 251 6 6 2 5 l 李印良1 5 2 9 55 4 3 3 0 51 9 9 5 7 9 8 7 8 4 74 2 5 6 5 3 2 0 i 刘建国2 4 4 7 21 3 8 9 1 855 9 8 51 7 9 5 52 8 3 9 5 51 5 5 6 11 0 4 4 0 5 l 宁黼岩2 5 4 6 95 11 4 3 8 0 5 9 85 6 6 5 1 5 2 9 51 6 4 9 2 4 8 5 45 l 张晓南2 3 0 0 99 4 7 6 254 6 5 55 3 21 2 8 3 4 51 8 4 8 75 5 8 6 i 总计 1 1 8 2 3 75 0 0 2 1 32 1 9 4 55 4 5 3 7 2 8 1 7 _ - 5 6 5 7 6 852 7 8 6 3 5 图3 1 1 多维数据分析 1 切片 选定医生维和术式信息维,在时间维选取一个属性成员如2 0 0 8 年第2 季度,就得 到了患者住院费用立方体在医生和术式信息两维上的一个切片( 医生、术式信息、住院 费用) 。 切片的需求体现在客户端,就是在报表形成过程中按照不同切片维度需求定制报 表的过程,以上的切片在操作中体现出来。 形成切片有两种方法:一是通过添加维度选择,如图3 1 2 所示,维度选择住院时 间表,层次选择年等于2 0 0 8 ,季度等于2 即可;二是直接在住院日期维上选择2 0 0 8 年第2 季度形成切片,如图3 1 3 所示。 维度 住院时间表 住院时阍表 层、灾结构 运簋符筛选表达式 弱年 等于 2 0 0 8 鍪季度 i 簿手j 2 , 住院日期,年,季度,月,日v j 1 1 1 l l l ln 1 n 1 术式信息表, 固定物取出术关节镜术截肢术关节置换术滑囊切除术畸形矫治术关节融合术 医生姓名v 住院贸崩 住院赞用住阮要_ 辩j 住阮费用住阮贾用住阮要用住阮贾用 金安7 9 1 3 52 5 7 3 5 52 7 9 37 1 1 5 5 孪印良 5 8 5 21 4 0 9 81 1 9 72 8 5 9 51 2 6 3 5 刘建国 9 0 4 4 3 1 9 2 0 4 7 2 1 58 1 7 9 57 3 1 54 6 5 5 宁漱岩8 1 7 9 52 9 6 5 95 9 8 54 1 2 36 9 8 2 51 3 3 0 张晓南 5 5 1 9 52 1 4 1 34 6 5 53 0 5 99 9 7 51 7 9 5 5 总计3 6 5 0 8 51 2 2 8 2 5 51 0 6 4 1 5 8 9 3 5 3 5 11 2 5 1 2 0 54 6 5 5 图3 1 2 切片 2 8 一一一一一一一一一撵瓣阳湖一一 缝度 健择雌度 一量j 嘴媳 运篝符铈选表选式 住院日一,年,季度,月,日, k t l2 0 惦 睦目) 丰孟t1 固定转2 匠生挂名v 住厩i 3 金安2 1 5 7 9 措 丰印良8 0 4 6 : i 幢国 1 6 0 2 6 宁澈岩 1 8 7 5 3 张唬南1 5 6 9 4 总计 8 0 1 9 目 换术滑囊仍除术畸形矫治术 崩住厩要制住院费崩 9 6 4 255 9 85 4 2 5 53 0 5 9 s1 5 5 5 5 4 5 3 1 4 6 3 02 4 5 0 5 1 8 4 8 74 5 2 2 56 2 5 7 551 6 0 9 3 图3 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论