已阅读5页,还剩55页未读, 继续免费阅读
(计算机软件与理论专业论文)基于医院信息系统的数据仓库研究及实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中山大学硕:l 论文基于医院信息系统的数据仓库酬究及实现 论文题目: 专业: 硕士生: 指导教师: 基于医院信息系统的数据仓库研究及实现 数据仓库技术 陈玲 汤庸教授 摘要 随着计算机相关技术的迅速发展,医院信息系统( h i s ) 已经成为医院不可或缺的 一种快速、高效、准确的管理工具和手段。目前的医院信息系统着重于医院业务流程 的重组与实现,而医院管理决策者更希望计算机能够对在信息系统建设过程中积累的 大量历史数据进行整合和数据分析,更多地参与决策支持,而不再是对数据简单的收 集、整理、查询和统计。为了提高分析和决策的效率和有效性,必须把分析数据从事 务处理环境中提取出来,按照决策支持系统处理的要求进行重新组织,建立单独的分 析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和 组织技术。建立医院数据仓库系统有现实意义,也是医院信息系统进一步发展的必然 结果。 本文主要研究在现有的医院信息系统数据库的基础上,应用数据仓库技术、联机 分析技术和数据挖掘技术,结合统计分析模型,建立了初具规模的医院信息系统数据 仓库,探讨了医院信息系统中数据查询不准确问题和历史数据查询问题:利用o l a p 技术和统计模型,对引入数据仓库的数据进行分析和应用,根据决策者的需求,设计 了十八个不同的主题,并在此基础上建立了基于医院信息系统的数据仓库系统,使医 院信息系统成为了医院决策者可信赖的决策依据平台。 关键词:数据仓库、统计模型、决策支持 中山大学硕卜论立 幕十医院信息系统的数据仓库j i j f 究驶实现 t i t l e s t u d ya n dr e a l i z a t i o no fd a t aw a r e h o u s eb a s eo nt h eh o s p i t a li n f o r m a t i o ns y s t e m m a j o r :d a t aw a r e h o u s et e c h n o l o g y m a s t e r :c h e n l i n g s u p e r v i s o r :p r o f e s s o rt a n gy o n g a b s t r a c t w i t ht h ed e v e l o p m e n to ft h ec o m p u t e rt e c h n i q u e ,t h eh o s p i t a li n f o r m a t i o n s y s t e m ( h i s ) h a sb e c o m ean e c e s s a r y ,r a p i d ,e f f e c t i v e ,a n da c c u r a t et o o lf o r n l a n a g e m e n t t h ec u r r e n th o s p i t a li n f o r m a t i o ns y s t e mf o c u s e so nt h er e f o r ma n d r e a l i z a t i o no ff l o w c h a r to fo p e r a t i o n si nh o s p i t a l h o w e v e r ,t h eh o s p i t a l s d e c is jo nm a k e r sh o p et h a ti tc o u l dn o to n l yd od a t ac o l e c t i o n c l e a n i n gu p , d a t aq u e r ya n ds t a r i s t i c s b ula s op l a ym o r er o l e si nt h ei n t e g r a t i o na n d a n a l y s is t h ea b u n d a n td a t aa c c u m u l a t e di nt h e p r o c e s so fd e v e l o p m e n to f h o s p i t a li n f o r m a t i o ns y s t e ma n di nt h ed e c i s i or 1 t oi m p r o v et h ee f f i r a c ya n d e f f e c t i v e n e s so ft h ed a t aa n a ly s isa n dt h ed e e is i o n t h ed a t ah a v et ob ep i c k e d u pf r o mt h ep r o c e s s in ge n v i r o n m e n t sa n di n d e p e n d e n ta n a ly s jsa n dp r o c e s s i n g e n v i r o n m e n th a st ob es e tu pa c c or djn gt ot h ep r o c e s s i n gn e e d so ft h ed e c i s i o n s u p p o r t i n gs y s t e m d a t aw a r e h o u s ei sat e c h n i q u eo f d a t as t o r a g ea n d o r g a n i z a t i o nd e v e l o p e dt os e tu pt h i sk i n do fn e wa n a l y s i sa n dp r o c e s s i n g e n v i r o n m e n t t h ee s t a b is h m e n to f l o s p it a ld a t aw a r e h o u s es y st e mn o to n l yh a s p r a c t i c a li m p l i c a t i o n , r u ta s oi st h en e c e s s a r yr e s u l to ft h ed e v e l o p m e n t o fh o s p i t a lin f o r m a t i o ns y s t e m t h iss t u d yi st o a p p l yt h ed a t aw a r e h o u s et e c h n i q u e ,o n i n ea n a l y s is p r o c e s st e c h n i q u ea n dd a t am i n i n gt e c h n iq u e ,t oc o m b i n et h es t a r is t i c a l a n a l y s ism o d e l ,a n dt os e tt i par a t h e rc o m p l e t eh o s p i t a li n f o r m a t i o ns y s t e m a n dd a t aw a r e h o u s eb a s e do nt h ec u r r e n th o s p it a li n f o r m a t i o ns y s t e m ,t od i s c u s s t h ejs s u eo fi n a c c u r a t ei n q u irya n dh i s t o r i e a ld a t ai n q u i r y t h es t u d yi sa l s o t oa n a ly z ea n da p p l yt h ed a t ae n t e r e djnt h ew a r e h o u s eu s i n go l a pt e c h n i q u e a n ds t a t i s t i c a lm o d e l ,t od e s i g ne i g h t e e nt o p i c sa c c o r d i n gt ot h ed e m a n d so f d e c i s i o nm a k e r s ,a n dt oe s t a b l is ht h ed a t aw a r e h o u s es y s t e mb a s e do nt h e c u r r e n th o s p i t a li n f o r m a t i o ns y s t e mw h jc hm a k e st h eh i sar e l i a b l ep l a t f 。o r n l f o rd e e is i or 1 k e y w o r d s :d a t aw a r e h o u s e ,s t a t i s t i c a lm o d e l ,d e c i s i o ns u p p o r t i n g 中山大学硕:l 论文 然于医院信息系统的数据仓库研究及实现 1 1 论文背景 第1 章绪论 随着计算机相关技术的迅速发展,医院信息系统( h i s ) 已经成为医院不可或缺的 一种快速、高效、准确的管理工具和手段。目前的医院信息系统着重于医院业务流程 的重组与实现,医院各个业务部门都有一个结构清晰、功能完善的子系统来完成相应 的业务工作,予系统间相互联系、信息在系统间流动。信息系统在运行中产生了不同 类型的大量的历史数据,医院管理决策者希望通过对这些数据深层次的挖掘,利用计 算机技术进行数据分析,得出决策的依据,而不仅仅是对数据简单的收集、整理、查 询和统计。数掘仓库和联机分析处理是信息领域的新兴技术,将他们应用到医院的信 息化建设中,是医院信息系统建设的一个重要课题。建立医院信息系统的数据仓库并 应用联机分析处理技术,将大量的源数据有效的转化为有用的知识信息,并服务于决 策过程,是有现实意义的。目前国内医院信息系统的建设,大都处于业务流程实现和 简单报表处理阶段,对利用数据仓库技术、联机分析处理技术的涉及比较少,在数据 仓库技术中融入统计分析技术,探索建立基于商业智能的医院决策支持系统,使医院 信息系统在满足医院基本业务流程需要的基础上发挥另一个重要功能为医院决 策者提供可信赖的决策支持有研究意义。 1 2 论文的内容及创新 本论文的主要研究内容包括 ( 1 ) 综述了数据仓库技术、联机分析处理技术、数据挖掘技术,并对它们的基本概念、 特点进行了讨论,同时讨沦了综合这些技术建立的医院数据仓库系统达到决策支 持的可能性。 中山大学坝二i 一论文 箍于医院信息系统的数据仓库研究及实现 ( 2 ) 分析了医院信息系统的发展历史和现状,指出现存医院信息系统的不足之处 各系统相对独立、数据不能融和以及不能为医院决策者提供有一定深度的决策依 据,本研究针对这些问题提出了可行的解决办法建立数据仓库进行决策支 持,达到对医院信息系统数据资源的整合利用。 ( 3 ) 本论文研究的关键在于在建设数据仓库系统中加入了统计学模型,针对不同的客 户需求,确立主题,并根据这些主题建立不同的统计分析模型,达到统计分析技 术和数据仓库技术完美融和,从统计分析的层面上实现了对数据仓库的数据挖 掘。融入了统计分析模型的数据仓库系统因为具有了统计学意义而增加了系统的 可信度和实际应用价值。 ( 4 ) 通过本论文研究,不仅从理论上说明建立医院信息系统数据仓库实现决策支持的 理论意义和实施过程,而且已经成功实现。 1 3 论文组织与结构 第1 章叙述了论文研究背景,简要介绍论文研究的意义和内容及论文内容和创新。 第2 章介绍了医院信息系统的发展历程、发展现状以及医院信息系统存在的问题: 从理论上阐述构建基于医院信息系统的数据仓库系统满足医院决策支持的 必要性。 第3 章数据仓库的理论基础,包括数据仓库技术、联机分析处理技术、数据挖掘技 术的描述。 第4 章基于医院信息系统的综合数掘仓库系统的实现策略,从理论上讲述建立数掘 仓库的策略,根据医院信息系统的实际情况选择适合医院的数据仓库实现策 略。 第5 章实施范例,举例说明医院数据仓库的设计思路和实施过程,并展示实现结果。 第6 章叙述论文在实施过程中的体会以及未来二| 二作的进一步设想。 2 中山大学硕士论文 基于医院信息系统的数据仓库研究及实现 第2 章医院信息系统概况 2 1 医院信息系统的发展概况 l 医院信息系统( h o s p i t a li n f o r m a t i o ns y s t e m ,h i s ) 医院信息系统是指利用计算机软硬件技术、网络通讯技术等现代化手段,对医院 及其所属各部门人流、物流、财流进行综合管理,对在医疗活动各阶段中产生的数据 进行采集、存贮、处理、提取、传输、汇总、加工,生成各种信息,从而为医院的整 体运行提供全面的、自动化的管理及各种服务的信息系统。医院信息系统是现代化医 院建设中不可缺少的基础设施与支撑环境。 根据医疗信息水平来划分,医院信息化即医院信息系统建设将经历三个阶段:医 院管理信息化阶段( h m i s ) 、临床管理信息化阶段( h c i s ) 、局域医疗卫生服务阶段 ( g m i s ) 。 h m i s 是医院信息化建设的第一阶段,就是指医院的m i s ( 管理信息系统) ,它是 现代化医院运行必备的基础技术环境。h m i s 的建成,将对医院起到提高效率、降低消 耗的作用。全院级的h m i s 不仅是各部门h m i s 的简单相加,它要求在全院实现各部门 之间各种信息的共享。目前,中国9 0 以上的大型医院已经实现了部门的信息化管理, 近4 0 的大中型医院正在建设全院的h m i s 。 医院信息化的第二阶段,即h c i s 阶段,将真正实现e h o s p i t a l ( 电子医院) 。 那时,医院的工作人员将人均有两台终端,信息处理实现无纸化和无片化,医院之间 实现联网,电子病例等在网上传递等。h c i s 还可以辅助提高医疗质量和服务质量。 第三阶段是g m i s 阶段,目前,这一阶段在国际上包还处在试验中。 目前,中国医院己建的信息系统中,8 5 的是以财务核算为中心的h m i s :已经有1 0 左右的医院正在尝试建设h c i s :而g m i s 还未开始实施。中国医院信息化目前的现 1 中山大学坝= l 论文基于医院信息系统的数据仓库研究及实现 状大多数还停留在第一个阶段,真正的医疗业务还很少能参与到信息化的方式中去。 为此,国家科技部、卫生部、信息产业部已明确表示要给予大力扶持。目前,数据仓 库的建设在医院信息系统建设过程中仅仅停留在理论探索中。 医院管理是一门科学,随着我国医疗卫生事业的迅速发展,医学科学的不断进步,医 学模式的转变和群众医疗观念的逐步改变,使医院管理的难度更大,对管理的要求更 高。当今计算机信息和网络技术的深入发展为提高医院管理水平创造了良好的条件, 医院信息管理和医院管理本身需要密切结合,也是将来的发展方向。在系统的发展过 程中,管理、i 临床、科研和教学对数据的依赖性越来越强,对数据的要求也不仅仅局 限于简单的报表系统,而是需要信息系统能够直接提供更深层次的分析数据,另一方 面,累积在不同系统中的数据的完整连续和更深层面上的分析挖掘对医院的整体发展 也起着重要的作用。h i s 及构成h i s 的数据应用的最终目的在于提高医院综合管理水 平,使医院的管理真正实现现代化、规范化和科学化,提高医院管理水平,更好的为 病人提供优质服务。这些都需要建立数据仓库和决策支持系统来提供决策依据。 2 h i s 的构成与内容 医院内日常医疗行为和各种管理活动一般都贯穿三大信息:经济信息( 病人费 用、药品和消耗等) 、医疗信息( 病历资料、医嘱、病人检查诊断报告等) 和行政管理 支持信息( 人事、设备、教学、科研、图书等) ,其特点是每日的信息量庞大,并且多 分散在各科室、各专业和各层次的人手中,传统的管理方式是由人工来对各种信息进 行加工、处理、交换和保存,显然受到人为因素的左右,很难客观地反映问题所在, 甚至不能当日交换,从而影响医院的工作效率和质量,也限制了医院的快速发展。 h i s 就是应用计算机和网络通信等高科技手段对医院内大量信息进行数字化管理 的现代信息系统,它能提供全院的经济运行状态、医疗质量状态、工作质量状态等等, 以及获取各部门的信息反馈,从而使各部门的管理者进行计划决策、组织实施、协调 4 中山大学顶二l 论文拱于医院信息系统的数据仓库研究及实现 控制。而这些信息的提供,要求数据来源可靠,数据保持连续稳定,数据能够深层次 的反映客观问题,也就决定了必须要建立数据仓库系统进行决策支持。 医院自身的目标、任务和性质决定了医院信息系统是各类信息系统中最复杂的系 统之。根据数据流量、流向及处理过程,将整个医院信息系统划分为以下五部分: ( 1 ) 、临床诊疗部分 临床诊疗部分主要咀病人信息为核心,数据沿病人的诊疗过程流动,医院中所 有科室将沿此主线展开工作。随着病人在医院中每一步诊疗活动的进行产生并处理与 病人诊疗有关的各种诊疗数据与信息。整个诊疗活动主要由各种与诊疗有关的工作站 来完成,并将这部分临床信息进行整理、处理、汇总、统计、分析等。此部分包括: 门诊医生工作站、住院医生工作站、护士工作站、临床检验系统、输血管理系统、医 学影像系统、手术室麻醉系统等。 ( 2 ) 、药品管理部分 药品管理部分主要包括药品的管理与临床使用。在医院,药品从入库到出库直到 病人的使用,是一个比较复杂的流程,它贯穿于病人的整个诊疗活动中。这部分主要 处理的是与药品有关的所有数据与信息。共分为两部分,一部分是基本部分,包括: 药库、药房及发药管理;另一部分是临床部分,包括:合理用药的各种审核及用药咨 询与服务。 ( 3 ) 、经济管理部分 经济管理部分属于医院信息系统中的最基本部分,它与医院中所有发生费用的部 门有关,处理的是整个医院中各有关部门产生的费用数据,并将这些数据整理、汇总、 传输到各自的相关部门,供各级部门分析、使用并为医院的财务与经济收支情况服务。 包括:门急诊挂号,门急诊划价收费,住院病人入、出、转,住院收费、物资、设备, 财务与经济核算等。 中山大学硕,仁论义皋干医院惰息系统的数据仓库研究及实现 ( 4 ) 、综合管理与统计分析部分 综合管理与统计分析部分主要包括病案的统计分析、管理,并将医院中的所有数 据汇总、分析、综合处理供领导决策使用,包括:病案管理、医疗统计、院长综合查 询与分析、病人咨询服务。 ( 5 ) 、外部接口部分 随着社会的发展及各项改革的进行,医院信息系统已不是一个独立存在的系统, 它必须考虑与社会上相关系统的互联问题。因此,这部分提供了医院信息系统与医疗 保险系统、社区医疗系统、远程医疗咨询系统等的接口。 2 2 广州市红十字会医院信息系统的发展历程 广州市红十字会医院综合信息系统建设是1 9 9 6 年开始,由该院与深圳九明珠信 息科技有限公司合作开发的。1 9 9 6 年版用f o x p r o2 6 开发,前端采用d o s 操作系统, 后台用n o v e l ln e t w a r e 网络架构。2 0 0 1 年进行过系统升级工作,采用了c l i e n t s e r v e r 模式,但数据流程没有变革。因1 9 9 6 年版在软件、硬件和网络技术上落后,无法满 足医院流程的变革需求,限制了信息系统的进一步发展。2 0 0 4 年医院对综合信息系统 进行了升级换代工作,该项目由上海金仕达卫宁医疗信息技术有限公司合作,经过长 达半年多的筹备,系统于1 2 月8 同正式上线运行。升级后网络操作模式采用“客户 机服务器( c l i e n t s e r v e r ) ”模式,网络操作系统采用w i n d o w sa d v a n c es e r v e r 2 0 0 3 ,数据库管理系统采用m i c r o s o f ts q ls e r v e r2 0 0 0 ,工作站操作系统采用 w i n d o w s 9 8 2 0 0 0 x p ,应用软件用b o r l a n dd e l p h i 开发。 经过几年的发展,系统建设打下了一定的基础。已经涵盖了门诊、住院、药品、 检验、仓库物资、统计病案、综合查询和部分管理部门,在一定程度上实施了信息共 享,提高了工作效率;已经成为目前日常工作中不可或缺的手段和工具。系统功能比 较细致,业务流程基本按该院的管理模式,基本满足一线业务的需求,同日j 避免了漏 6 中山大学硕= b 论文基于医院信息系统的数据仓库研究及实现 收费现象的发生,为规范财务管理提供了很好的帮助。在硬件方面该院的计算机网络 基本建成,每栋大楼和计算机中心之间均有光纤连接,网络工作站点数基本形成规模。 全院已经形成了一定的信息化意识,信息化建设骨干已经形成。医院信息系统经过近 l o 年的建设,已经积累了大量的数据,这些数据前后跨越了几个系统,数据结构和数 据字典不一致,亟需整合,这也是考虑建设数据仓库和决策支持系统得初衷。 2 3 建立医院决策支持系统是医院信息系统发展的必然 目前的医院信息系统着重于医院业务流程,医院各个业务部门都有个清晰、功 能完善的子系统来完成相应的业务工作,各个子系统都是相互联系的,这种数据库是 操作型事务处理数据库,随着计算机应用和网络计算的发展,医院管理决策者希望医 院信息系统能够更多地参与数据分析和决策支持,而不再是对数据简单的收集、整理、 查询和统计。以广州市红十字会医院为例,该院从1 9 9 6 年开始数字化医院的建设历程, 十余年来,系统经过两次升级,己经实施完毕的系统中,包含二十几个子系统,覆盖 了门诊、住院、药房、检查、检验、财务、后勤等各个业务部门的业务流程,可以说, 该院的信息平台基本搭建完毕。下一步医院数字化建设的重点己经转变为数据的综合 应用。 该院通过多年的信息化建设,已经积累了大量的、宝贵的数据资源。两个关键的 财务数据门诊病人处方及费用明细、住院病人医嘱与费用信息,数据量已达几千 万条,病案统计系统从1 9 9 3 年开始应用广东省卫生厅信息中心开发的软件,和医院自 行开发的软件有接e l ,且并行应用,也已经积累了1 0 余年的数据。另一方面,医院信 息系统经过几次升级,数据分别属于不同的操作平台和数据库,数据复杂、关系杂乱, 数据的标准性差,有时查询几年前的数据,只能通过不同的系统分别查询。这些数据 刁真正是医院的财富,在数据中寻求规律,挖掘财富,是必要的,也是可行的。迫切 需要找到一条数据整合的途径。 中山大学硕= 忙论文 基于医院信息系统的数据仓库研究及实现 传统的数据库系统只能较好完成数据统计分析原始动态数据和日常统计报表的 任务,不可否认,医院信息系统的报表查询功能在辅助决策、统计服务等方面也发挥 了较大的作用,能够完成日常统计报表服务和在此之上的医疗质量指标的数据分析。 但传统的数据库技术是单一的数据库资源,它适合操作型事务处理,如果对数据进行 分析处理,能力较弱。将操作型环境和分析型环境进行分离,划清数据处理的分析型 环境与操作型环境之间的界限,将原来的以单一数据库为中心的数据环境发展为以数 据仓库为中心的一种新的系统化环境,可以使信息系统更好的达到服务于医院建设的 目的。 建立数据仓库,可以将原始的操作数据进行多方位的分析,用户利用数据仓库和 联机分析处理技术( o l a p ) 可以实现对数据的多维分析、向下探查分析和变化趋势分 析、掌握各个层次的数据并和前期或同期的数据作对比、分析数据的变化趋势、发现 问题,并分析问题产生的原因。同时,把操作型数据与分析型数据分开,大大减轻了 操作型数据库的负担,同时大大提高了数据统计分析的速度,这种分析、统计比传统 数据库系统全面、灵活、快速。 在数据仓库的基础上,进行数据分析,适应社会的发展和市场激烈竞争的需要, 为医院管理从传统经验型向科学量化管理方向发展,特别是重大决策提供科学数据分 析基础上的依据,有现实意义。同时,适应卫生部关于建立临床信息系统的规划,可 以使医务人员对众多的治疗方案进行分析,以便能及时总结一些规律性的东西,这对 加速科研进程,促进科研成果转化产生积极的作用。 中山大学硕:i :论文捧于医院信息系统的数据仓库研究及实现 3 1 数据仓库概述 第3 章相关理论基础 1 数据仓库的定义和特点 著名的数据库专家w h i n m o n 在其著作 b u i i d i n gt h ed a t aw a r e h o u s e 中给 予如下描述:数据仓库( d a t aw a r e h o u s ed w ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、 集成的( i n t e g r a t e ) 、相对稳定的( n o n v o l a t i l e ) 、反映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策“3 。对于数据仓库的概念可以从两个层次予以理解: 首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数 据库:其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组, 并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 针对以上定义,数据仓库有以下特点”3 : ( 1 ) 面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自 分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概 念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个 操作型信息系统有关: ( 2 ) 集成的:面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间 相互独立,并且往往是异构的,而数据仓库中的数据是在对原有分散的数据库数 据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的 不一致性,以保证数据仓库的信息是关于整个企业的一直的全局信息; ( 3 ) 时变的:操作型数据库主要关心当前某一个时间段的数据,而数据仓库中的数据 通常包含历史信息,系统记录了从过去某一时点( 开始应用数据仓库的时点) 到 目前的各个阶段的信息,通过这些信息,可以对发展历程和未来趋势做出定量分 9 中山大学倾十论文 拱于医院俯息系统的数据仓库研究发实现 析和预测。 ( 4 ) 相对稳定的:操作型数据库中的数据通常实时更新,数据根据需要即使发生变化。 数据仓库中的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查 询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓 库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、 刷新。 数据仓库最根本的特点是物理地存放数据,而这些数据并非是最新的、专有的, 而是来源于其它的数据库,数据仓库的建立并不是要取代原有的数据库,而是建立在 一个较全面、完善的信息应用的基础上,用于支持高层决策分析,数据仓库是数据库 技术的一种新的应用,它是用数据库管理系统来管理其中的数据。 2 数据仓库与关系数据库的区别 传统的数据库技术是面向事务处理的,它是对现有数据的归纳、分析和推理,其 主要功能是为联机分析处理提供支持。传统的数掘库技术和数据仓库技术的区别见表 3 1 “。 0 中山大学硕= 匕论文 基于医院信息系统的数据仓库研究及实现 表3 1数据库技术和数据仓库技术的区别 数据库数据仓库 面向应用面向主题 详细的或全面的 综合的或是提炼的 在存取瞬间是准确的代表过去的数据 为i j 常工作服务为管理者或分析服务 可更新1 i 更新 重复运行启发式运行 处理需求事先可知处理需求事先不知道 对性能要求高对性能要求宽松 事井处理驱动分析处理驱动 更新控制主要涉及所有权无更新控制问题 高可用性松弛的可用性 整体管理以子集管理 非冗余性时常有冗余 静态结构:可变的内容结构灵活 一处处理数据量小一处处理数据量大 支持日常操作支持管理需求 访问的高可能性访问的低可能或适度可能性 3 数据仓库中的数据分类 数据仓库中的数据一般分为以下几类“1 : ( 1 ) 当前的详细数据和旧的详细数据:它是数据仓库中的基本数据; ( 2 ) 轻度汇总的数据和高度汇总的数据:它是对详细数据的汇总和综合; ( 3 ) 元数据:元数据被定义为关于数据的数据,它保存关于数据仓库的信息而不是 数据仓库要提供的信息。用查询工具对元数据进行访问可得知数据仓库中有什 么数据,何处可找到这些数据,哪些人被授权可以访问以及已经预先求出的汇 总数据有哪些。 中山大学坝= 忙论文 基十医院信息系统的数据仓库研究及实现 4 数据仓库系统体系结构 数据仓库的体系结构通常可分为数据源、多数据源的集成、数据仓库( 核心) 、 工具及接口等部分,( 图3 1 。1 1 ) j用户l 了t 丁 m 销粜rt 1 “请霉c 1 - p 结粜l c 1 p 箔粜 tt r 一一一1 i 臣砷- 匪巫匾二卜西甄缬口l 【敷据分折i vv 一7 一刁 亡二二三囊匦西壅垂互二j 岁 十t m n a 图3 1 数据仓库体系结构图 ( 1 ) 数据源:是数据仓库系统的基础,是整个系统的数据源泉。包括数据库数据源和 非数据库数据源。数据库一般是异构的,通过网络互连。数据源是数据仓库 系统的基础,是整个系统的数据来源,在建立数据仓库之前必须列各种不同 的数据源进行抽取、转换等操作。 f 2 ) 多数据源的集成:多数据源的集成包括抽取、转换、装载等过程,数据集成是构 建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据转换和 清洗,最终按照预先定义的数据仓库模型,将数据加载到数据仓库中去。中 心数据仓库通过o d b c f d a d o 技术访问各数据源,并从数据源抽取决策所需 的数据。由于各数据源是为各自的应用而建立的,它们的数据管理手段,甚 2 中山大学硕士论文 基于医院信息系统的数据仓库研究及实现 至硬件都不相同,所以在编码、命名、数据类型和语义等方面不可避免地会 有冲突。为了把来自各数据源的数据集成到中心数据仓库中,必须采用统一 的数据转换机制来对不同数据源和中心数据仓库的数据进行转换和抽取。数 据的转换、抽取采用元数据形式保存到中心数据仓库中。另外,数据仓库中 的大部分数据虽不需要随着数据源的改变而即时更新,但要定期刷新或按需 刷新。 ( 3 ) 中心数据仓库:当前数据仓库的核心仍是r d b m s 管理下的一个数据库系统,当前 广泛采用的o r a c l e 数据库矛1 s o l s e r v e r 数据库虽然是处理海量数据能力的关 系型数据库管理系统,但是由于数据仓库的数据量大,且查询复杂,因此系 统性能的好坏仍然是个严重问题。为了提高性能,在数据仓库中通常采用下 列措施:( a ) 采用并行系统结构:( b ) 对数据仓库中用得多、开销大的处理, 例如聚集函数的计算等,采用新的查询优化策略和索引结构;( c ) 针对数据仓 库以读为主的特点,把查询中常用的结果定义为视图,并将事先计算好的视 图存于数据仓库中,在需要时读出即可,无需临时计算。这种视图为实视图, 它不仅具有逻辑定义,而且在数据库中存有与视图对应的实表,上述三条措 施中,并行处理已经是数据库中的通用技术,受到各主要r d b m s 产品的支 持;后两项措施主要是随数据仓库的兴起而发展起来的,目前一些主要的 r d b m s 产品都增加了这些方面的功能。 ( 4 ) 数据集市:数据的最终查询分析往往是基于某个主题的,例如查询预算执行情况、 工资发放情况、支付账务情况等,不同的决策主题所需要的数据当然也不尽 相同。如果每次都从整个中心数据仓库去获取数据,其执行效率显然是比较 低;因此可在单位数据仓库之外,再建立若干部门数据仓库,即数据集市。 数据集市是一种简化的数据仓库,是中心数据仓库的一个子集,它面向部门 级业务,并且只是面向某个特定的主题。数据集市可以缓解访问数据仓库的 中山大学坝卜论文 耩于医院信息系统的数据仓库研究及实现 瓶颈,同h 寸可以缩短建立数据仓库的时间和便于管理。使用数据集市后,数 据的设计、抽取、转换、加载和查询等环节变得更加简单,不但使部门用户 能够更精确地知道他们所需要的信息是什么,而且提高了整个系统的运作效 率。 ( 5 ) 联机分析处理( o l a p ) 服务器:o l a pj 疆务器位于客户端与数据仓库之间,负责管 理数据模型及其数据,实际上是一个功能强大的多维分析引擎。它从数据仓 库中抽取数据,并根据分析需要,将数据进行有效集成,按多维模型予以组 织,以便进行多角度、多层次的分析和发现其趋势。o l a p 的主要功能是对 分析需要的数据进行有效的集成,按多维模型予以组织,以便进行多角度、 多层次的分析,并发现趋势。其具体实现可以分为:r o l a p 、m o l a p # i h o ,a p 。 r o l a p 基本数据和聚合数据均存放在r d b n i s 之中;m o l a p 基本数据和聚合数据 均存放于多维数据库中;h o l a p 基本数据存放于r d b m s 之中,聚合数据存放于 多维数据库中。 ( 6 ) 前端分析工具:前端分析工具包括各种查询工具、数据分析工具、报表工具、数 据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分 析工具主要针对o l a p j 狠务器:报表工具、数据挖掘工具主要针对数据仓库。 以上各种前端分析工具运行于客户端,主要功能是提供多维数据查询和分析 操作以达到决策支持的目的。它可以应分析人员的要求、快速、灵活地把查 询和复杂分析操作的结果以直观、易懂的方式显示出来,便于决策人员发现 隐藏在多维数据内部的有用信息,从而准确地掌握业务状况并制定出正确的 决策。 3 2 联机分析处理( o l a p ) lo l a p 的定义 4 中山大学硕士论文 赫于医院信息系统的数据仓库研究及实现 定义1 :o l a p 是针对特定问题地联机数据访问和分析。通过对信息( 维数据) 的多种 可能的观察形式进行快速、稳定一致和交互的存取,允许管理决策人员对数 据进行深入观察。 定义2 :o l a p 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转 化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快 速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术( o l a p 委员会的定义) ( 5 】 o l a p 的主要功能是管理决策所需要的总结数据,它使分析人员、管理人员或执 行人员能够从多个角度对信息进行快速、一致、交互地存取,从而获得对数据更深入 的了解。o l a p 的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求, 它的技术核心是“维”。“维”是人们观察客观世界的角度,是一种高层次的类型划分, 一般包含着层次关系,这种层次关系有时会相当复杂。o l a p 通过把一个实体的多项重 要的属性定义为多个“维”,可使用户能对不同“维”上的数据进行比较,因此可认 为它是多维数据分析工具的集合。0 l a p 的基本多维分析的操作有上卷( r o l l u p ) 、下探 ( d r i l l d o w n ) 、切片( s l i c e ) 、切块( d i c e ) 、旋转( p i v o t ) 等。 20 l a p 相关基本概念 ( 1 ) 维:是人们观察数据的特定角度,是考虑问题的一类属性,属性集合构成一个维 ( 时间维、地理维等) 。 ( 2 ) 维的层次:人们观察数据的某个特定角度( 即某个维) 还可以存在细节程度不同的 各个描述方面( 时间维:日期、月份、季度、年) 。 ( 3 ) 维的成员:维的一个取值,是数据项在某维中位置的描述。f “某年某月某日” 是在时间维上位置的描述) 。 ( 4 ) 多维数组:维和变量的组合表示。一个多维数组可以表示为:( 维l ,维2 , 维d - ,变量) 。( 课程,班级,教师,课程平均分) 。 中山大学顿= f :论文 基于医院信息系统的数据仓库研究及实现 ( 5 ) 数据单元( 单元格) :多维数组的取值。 ( 6 ) 钻取:钻取包含向下钻取( d r i l l - d o w n ) 和向上钻取( d r i l l u p ) 操作。钻取的深度与维 所划分的层次相对应。上钻操作通过一个维的概念分层向上攀升或者通过维归 约。下钻是上钻的逆操作,下钻可以通过沿维的概念分层向下或引入新的维来实 现。 ( 7 ) 切片和切块:切片操作在给定的数据立方体的一个维上进行选择,导致一个子方。 切块操作通过对两个或更多维执行选择,定义子方。 ( 8 ) 转轴:转轴又称旋转( r o t a t e ) 是一种目视操作,它转动数据的视角,提供数据的 替代表示。 3o l a p 的特征 ( 1 ) 快速性:用户对o l a p 的快速反应能力有很高的要求。系统应在5 秒内对用户的 大部分分析要求做出反应。 ( 2 ) 可分析性:o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。 ( 3 ) 多维性:多维性是o l a p 的关键属性。系统必须提供对数据的多维视图和分析, 包括对层次维和多重层次维的完全支持。 ( 4 ) 信息性:不沦数据量有多大,也不管数据存储在何处,0 l a p 系统应能及时获得 信息,并且管理大容量信息。 4o l a p 多维数据结构与模型 ( 1 ) 超立方结构( h y p e r c u b e ) :超立方结构指用三维或更多的维数来描述一个对象,每 个维彼此垂直。数据的测量值发生在维的交叉点上,数据空闻的各个部分都有相 同的维属性。( 收缩超立方结构。这种结构的数据密度更大,数据的维数更少, 并可加入额外的分析维) ( 2 ) 多立方结构( m u l t i c u b e ) :即将超立方结构变为子立方体结构。面向某一特定应用 对维进行分割,它具有很强的灵活性,提高了数据( 特别是稀疏数据) 的分析效率。 6 中山大学倾士论文 基于医院信息系统的数据仓库研究及实现 ( 3 ) 星型模式( s t a rs c h e m a ) :包括一个大的包含大批数据和不含冗余的中心表( 事 实表) 和一组小的附属表( 维表) 。 ( 4 ) 雪花模式( s n o w f l a k es c h e m a ) :是星型模式的变种,其中某些维是规范化的 可把数据进一步分解到附加的表中。出于执行查询需要更多的连接操作,雪花结 构可能降低浏览的性能,所以在数据仓库中,雪花模式不如星型模式流行。 ( 5 ) 事实星座( f a c tc o n s t e l l a t i o n ) :多个事实表共享维表,因此,事实星座可看 作星型模式集。 5o l a p 分类 根据存储数据的方式不同可以分为r o l a p 、m o l a p 、h o l a p 。 ( 1 ) r o l a p 表示基于关系数据库的o l a p 实现( r e l a t i o n a lo l a p ) 。以关系数据库为 核心,以关系型结构进行多维数据的表示和存储。r o l a p 将对数据库的多维结 构划分为两类表:类是事实表,用来存储数据和维关键字:另一类是维表,即 对每个维至少使用个表来存放维的层次、成员类别等维的描述信息。维表和事 实表通过主关键字和外关键字联系在一起,形成了“星型模式”。对于层次复杂 的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型 模式的扩展称为“雪花模式”。r o l a p 则利用现有的关系数据库技术来模拟多维 数据。 ( 2 ) m o l a p 表示基于多维数据组织的o l a p 实现( m u l t i d i m e n s i o n a lo l a p ) 。以多维 数据组织方式为核心,电就是况,m o l a p 使用多维数组存储数据。多维数据在 存储中将形成“立方块”结构,在m o l a p 中对“立方块”的“旋转”、“切片”、 “切块”是产生多维数据报表的主要技术。m o l a p 是以多维的方式组织和存储 数据。 1 7 中山大学硕十论文摹于医院信息系统的数据仓库研究实现 ( 3 ) h o l a p 表示基于混合数据组织的o l a p 实现( h y b r i do l a p ) 。如低层是关系型 的,高层是多维矩阵型的。这种方式具有更好的灵活性。 3 3 数据挖掘 1 数据挖掘定义 j o s e p hp b i g u s 在他的书数据挖掘和神经网络写道,数据挖掘( d a t am i n i n g d m ) 是从一个大的数据聚合中有效地发现不明显却有价值的信息。数据挖掘以自动发 现新事实和数据的关系为中心。用传统的查询工具,你只能查询已知的信息。假定更 多的有用信息是隐藏着的,而数据挖掘工具能够使你揭开这些隐藏的信息“3 。 2 数据挖掘的主要目标 数据挖掘任务一般可以分两类”1 :1 描述性挖掘,其主要刻画数据库中数据的一 般特性;2 预测性挖掘,其主要任务在当前数据上进行推断,以进行预测。 常见的数据挖掘目标有以下类型: ( 1 ) 类描述( c l a s s d e s c r i p t i o n ) 用汇总的、简洁的、精确的方式描述每个类可能是 有用的。这种对类的描述称为类描述。一般地,类描述有三种途径:1 数据特征化,一 般地汇总所研究类的数据;2 数据区分,将目标类与一个或多个比较类进行比较:3 数 据特征化和比较。 ( 2 ) 关联分析( a s s o c i a t i o n m l a l y s i s ) 关联分析发现关联规则,这些规则展示属性一 值频繁地在给定数据集中一起出现的条件。关联规则xy 解释为“满足x 中条件的 数据库元组多半也满足y 中条件”。关联分析的典型例子是购物篮分析,描述顾客的 购买行为,例如啤酒和尿布的故事。 ( 3 ) 分类( c l a s s i f i c a t i o n ) 分类数据挖掘是先分析一一个训练数据集,找到一个描述 并区分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年防治高血压知识讲座总结
- 建筑电工(建筑特殊工种)特种作业证考题及答案
- 设备维修与保养计划模板
- 遵守企业守秘协议承诺书6篇
- 桌上的绿植我与它的故事5篇
- 跨领域项目管理计划与执行指南
- 守秘数据安全承诺书(5篇)
- 2020-2021中考化学综合题专题复习【化学推断题】专题解析含详细答案
- 委托开发客户协议书
- 学校存在安全协议书
- 新型电力系统下的成本疏导与储能价格机制
- 公司网络安全培训
- 2025云南水润融媒体发展有限公司招聘工作人员1人笔试考试参考试题及答案解析
- 微信网络安全课件制作
- 2025年6月高级钳工题库含参考答案
- 2025年内蒙古机电职业技术学院单招职业技能考试题库含答案
- GB/T 14748-2025儿童呵护用品安全儿童推车
- 2025年商用净水器行业分析报告及未来发展趋势预测
- 高分子化学期末考试试卷及答案
- DB1509∕T 0004-2023 东佛里生羊饲养管理技术规程
- 室内精装修工程施工工艺标准
评论
0/150
提交评论