(电路与系统专业论文)数据仓库、olap和数据挖掘技术在医疗保险中的应用与研究.pdf_第1页
(电路与系统专业论文)数据仓库、olap和数据挖掘技术在医疗保险中的应用与研究.pdf_第2页
(电路与系统专业论文)数据仓库、olap和数据挖掘技术在医疗保险中的应用与研究.pdf_第3页
(电路与系统专业论文)数据仓库、olap和数据挖掘技术在医疗保险中的应用与研究.pdf_第4页
(电路与系统专业论文)数据仓库、olap和数据挖掘技术在医疗保险中的应用与研究.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学! i 论文 摘要 y 3 6 8 6 3 6 i 随着我国社会主义经济制度改革的深入,加速实现我国社会保险制度的改 革,已成为我幽的重大国策之一。目前,我国社会保险制度改革在全国范吲已开 始逐步展开,为了落实此项涉及国计民生的重大国策,迫切需要一种能与之相适 应的技术手段和工具柬完成,尤其是在医疗保险的管理和政策制定等方面,需要 有先进的技术和应用成果支持。由于医疗保险行业涉及面非常广,包括社会保障 局、医院、药店、企业、银行以及数量巨大的各种参保人群等,因而数据量大、 管理较为复杂。另外医疗保险改革目前处于起步阶段,绝大部分地区对医保改革 毫无经验可谈,因而各地区迫切需要一套决策支持系统,能够为医傈机构的领导 和分析人员进行管理和政策制定提供科学的依据。目前,全国已经有一些医疗保 险信息管理系统在试运行,这些系统为各地的医疗保险的业务操作和管理提供了 一定的方便,世这些系统弗不具备决策支持功能。 基f 以上r hs j j7 7 , 7 d t ,降文在研究开发医疗保险信息管理系统的基础上,提出 了建立医疗保险决策支持系统的一种方案。该方案士要是利用数据仓库的特点 将医疗保险信息系统中产生的业务数据经过归类汇总,并有组织的存储到数掘仓 库中,以便于数据查询和检索。在此基础上,利用o l a i ( o n l i n ea n a i y t i c a l p r o c e s s m z ,联机分析处理) 和数掘挖掘( d a c am i n i n g ) 技术,对数据仓库中的数据 进行各种复杂的分析,如关联分析和趋势分析等,从而为医保机构的决策提供重 要的依据,同时也可以为疾病的治疗和防范提供一定的依据。 本论文的第一章简要叙述了本论文作者在研究生阶段所开发的医疗保险计 算帆信息管理系统及其实际应用。第二二章对数据仓库和o l a p 技术进行了介绍。 第三章对数据挖掘技术进行了介绍。第四章在前几章的基础:讨论了医疗保险数 掘仓库的建立以及o l a p 和数据挖抛技术在医疗保险巾的应用,并对应用结果进 行了总结和展望。 关键词:医疗保险、数据库、决策支持、数据仓库、o l a p 、数据挖掘 浙扭大学硕士学位论文 一_ 一一 a b s t r a c t w i t ht h es t a r l i n go ft h es o c i a lm e d i c a r ei n s u r a n c er e f o r m a t i o ni no u rc o u n t r y ,t h es o c i a l m e d i c a r ei n s u r a n c el n s l i t u t i o n se v e r y w h e r e a r e f o u n d i n g o rh a v ef o u n d e dt h e c o m p u t e r m a n a g e m e n ti n f o r m a t i o ns y s t e m so fs o c i a lm e d i c a r ei n s u r a n c e t h es y s t e m st h a t a r er u n n i n g h a v ec o n v e n i e n c e dt h eo p e r a t i o na n dt h em a n a g e m e n to ft h ei n s t i t u t i o n s b u tt h es y s t e m sa r e o p m o r i o n - o r i e n t e ds y s t e m sa n d c a nn o tp r o v i d et h ed e c i s i o ns u p p o r ti n f o r m a t i o nf o rm a n a g e r s t h es o c i a lm e d i c a r ei n s u r a n c er e l a t e st oh o s p i t a l s ,d r u g s t o r e s ,c o m p a n i e s ,b a n k sa n dm a n y p e o p l e t h ei n f o r m a t i o ni s g r e a ta n dt h em a n a g e m e n ti sc o m p l i c a t e d m o r e o v e r , t h em a n a g e r s h a v el i t t l ee x p e r i e n c ef o rt h es o c i a lm e d i c a r ei n s u r a n c er e f o r m a t i o nh a sb e e np e r f o r m e df o ra s h o r tt i m ei ti sv e r yu r g e n tt oe s t a b l i s has y s t e mt h a tc a np r o v i d et h ed e c i s i o ns u p p o r ti n f o r m a t i o n f o rm a n a g e r s i ov i e wo fs u c hr e q u i r e n t e n t ,w ep u tf o r w a r das c h e m eo fe s t a b l i s h i n gt h ed e c i s i o ns u p p o r t s y s t e mo fs o c i a lm e d i c a r ei n s u r a n c e :f i r s t b u i ! da d a t aw a r e h o u s eo fs o c i a lm e d i c a r ei n s u r a n c e s e c o n ds t o r et h eg a t h e r e dd a t ao ft h es o c i a lm e d i c a r e1 n s t l r a n c ed a t a b a s ei n t ot h ed a t aw a r e h o u s e f i n a l b , ,b ym a k eu s i n gc fo l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) a n d d a t am i n i n g ,d ov a r i o u s c o m p l e xa n a l y s e s o nt h ed a t ao ft h ed a t aua r e h o u s e :s u c ha s l o n gt e r mt r e n da n a l y s i sa n d a s s o c i a t i o na n a l s ! s 、5 0a st os u p p o r tt h o s em a n a g e r s j :f 1 1 。f i r s i :j 二? :? o ft h i st l i e s i s ,t h ec o m p u t e lm a n a g e m e n ti n f o r m a t i o ns ) s i e :n ? o f s o c i a l m e d i c a r el n s ma o c ea n di t ss l l o r t n e s sh a v eb e e ni n t r o d u c e d i nt h es e c o n dc h a p t e ra n dt h et h ir d o n c t h et h e o r i e so fd a t aw a r e h o u s e ,o l a pa n dd a t am i n i n gh a v eb e e nd e s c r i b e d i nf o u r t h c h a p t e r ,w ed i s c u s s e d t h ea p p l i c a t i o no ft h et h e o r i e si nt h es o c i a lm e d i c a r ei n s u r a n c ea n di t s f o r e g r o u n d i k e p v o r d l :m e d i c a r ei n s u r a n c e ,d a t a b a s e ,d e c i s i o ns u p p o r ts y s t e m ,d a t aw a r e h o u s e ,o n 。l i n e a n a l ) l i c a lp r o c e s s i n g ,d a t am i n i n g 浙江大学硕士学位论文 第一章医疗保险信息管理系统的研究 1 1 系统的分析与设计 随着我国社会主义经济制度改革的深入,加速实现我国社会保险制度的改革 是建立社会主义市场经济体制的迫切需要,它已成为我国的重大国策之。目前, 我国社会保险制度改革在全国范围已逐步展开,为了落实此项涉及国计民生的重 大国策,迫切需要一种能与之相适应的技术手段和工具来完成。特别是在制定各 种医疗保险政策及整个医疗保险的信息管理等方面,需要有先进的技术和应用成 果支持。 我国五十年代开始的劳保制度和公费医疗制度,在十届三中全会以后的经 济体制转轨过程中,逐渐暴露出经费来源不稳定、缺乏费用约束机制、社会化程 度低等诸多弊病,特别是在多种经济成份共同高速发展的今天,建立与我国社会 主义市场经济体制相适应的新型的社会保险制度已势在必行。社会保险制度改革 的最关键也是最复杂和最难实施的是职工的基本医疗保险,涉及各行各业广大群 众的切身利益,更是受到国家和人民的极大重视,党中央、国务院已要求1 9 9 9 年底开始在全国基本建立城镇职工基本医疗保险制度。为了满足社会保险管理运 作程序的现代化和社会保险管理的信息化要求,对社会保险进行计算机管理便成 为必然。由于我国幅员辽阔,随着我国社会体制改革的进行,地县以上都要建立 社会保险计算机管理信息系统,从而产生了对“社会医疗保险信息管理系统”的 巨大需求,因此该项研究具有深远的社会意义。 目前国外虽然有不少企业从事医保信息管理系统的应用,但由于与中国的具 体要求相差很远,同时由于国情的需要,暂不可能由外国企业从事本项目的开发 与应用。国内约有北京中青创业、西安交大、广州华南信息、东大等十多家企业 在从事“社会医疗保险信息管理系统”的开发,但是我国计算机管理信息系统在 社保方面的成熟应用大部分是用于养老保险管理,社会医疗已在些城市开始计 算机管理试点,取得了一定的成效,但由于政策和技术难度等种种原因,完全成 功的医疗保险信息管理系统还不多,基于对医疗保险信息管理系统实运行的大量 数据进行数据挖掘,以提供领导决策的研究基本处于空白状态。 本论文所开发的社会医疗保险信息管理系统已经在多个城市实际运行,是 1 浙江大学硕士学位论文 一种新的能基本适应各地社会保险事业发展需要的、实用可靠的计算机信息管理 系统,随着本论文项目的进一步研究和推广应用及不断完善,将促进我国职工社 会医疗保障制度的形成和完善、提高医疗保险管理的领导决策水平、降低劳动强 度和提高工作效率都具有重要的现实意义和深远的历史意义,有着广阔的发展前 景。 社会医疗保险信息管理系统的总体模式是以社会劳动保险部门为独立管理 中心。由自身的派出机构组成庞大的社会征收系统网,以银行和电信机构作为其 辅助核发系统网,社会劳动保险部门以独立发行社保卡的形式进行营运管理。 图】一l 医保信息系统总体结构 整个系统包括医保中心信息管理系统、定点医院信息管理系统、定点药店信 息管理系统及通信网络几个部分,采用二层或三层交换网络系统,以连接医疗保 险经办机构以及各定点医疗机构。其结构简图如图1 1 所示。 图中通信服务器用虚线框框中,表示:当定点医疗机构较少时,可以不需采 用通信服务器,医院与中心通信时,直接连中心的数据服务器,此时系统是两层 结构:当定点医疗机构较多时,需要采用通信服务器,医院与中一1 5 通信时,连中 心的通信服务器,通过通信服务器与数据服务器进行数据交换,以减轻数据服务 器的负担,此时系统是三层结构。 2 浙江大学硕士学位论文 社会医疗保险信息管理系统的核心是参保人在医疗单位进行消费,数据的安 全性和同步性是系统设计的关键和难点。这里的数据主要指参保人的个人帐户等 个人信息、医保机构产生的黑名单等系统信息以及医疗机构产生的消费信息。我 们通过使用i c 卡和远程通信技术来解决数据的安全性和同步性问题。参保人消 费时,个人信息以i c 卡中的数据为准,i c 卡的数据更新是通过远程通信进行的 而医保机构产生的系统信息的下发以及医疗机构产生的消费信息的上传则是通 过定期进行远程通信实现的。 通过图l 一1 这种结构,参保单位、参保个人、医疗单位与医保机构建立电 子联系,医疗保险基金的征集、个人医疗费用的支出及管理均可方便地通过计算 机网络和前台业务系统完成。 1 2 系统的具体实现 社会医疗保险信息管理系统 医保中心管理系统 财务管理f 一 档案管理 e i 常业务管理 动态报表管理 系统管理 f通信管理 1 厂丽 定点医院管理系统 门诊管理 住院管理 药房管理 药库管理 通信管理 j 。1 一 f系统管理 定点药店管理系统 售药管理 库存管理 通信管理 系统管理 图1 2 医保信息系统功能模块 如前所述社会医疗保险信息管理系统主要由医保中心信息管理系统、定点医 院信息管理系统、定点药店信息管理系统等三个子系统构成。而这三个子系统又 可细分为多个模块。整个系统的功能结构图如图l 一2 。下面简要介绍各个子系 统的功能。 1 2 1 医保中心信息管理系统 浙江大学硕士学位论文 该子系统位于医疗保险中心机构,包括以下功能模块: 财务管理:基金的收集、核算: 档案管理:参保单位、参保个人和医疗机构档案的修改,转移和删除等: 日常业务管理:单位和个人参保,费用的审核、报销等; 动态报表管理:定做中心的各种打印报表等; 通信管理:负责数据的下发和接收等; 系统管理:系统参数的设置和数据库的备份与恢复等; 中心查询:生成各种统计图表,以便于领导了解各种情况等。 1 2 2 定点医院信息管理系统 该子系统位于各定点医院,由于每个地区都有多家定点医院,而不少定点医 院在实行医疗保险改革前已经有了医院信息管理系统,对药品管理、单据打印和 财务报表等方面都有各自不同的要求,这就对开发定点医院信息管理系统在适应 性上提出了较高的要求。我们开发该子系统在实现上综合了不少医院信息管理系 统的优点,报表和单据具有动态调整功能,有较强的适应性,既能满足医疗保险 的需求,又能满足各定点医院在业务上的需求。该子系统包括以下功能模块: 门诊管理:包括门诊收费、费用录入、费用回退和门诊查询统计等; 住院管理:包括住院登记、住院信息管理、费用录入、费用回退、出院 管理和住院查询统计等; 药房管理:包括处方录入、处方发药、发药统计等: 药库管理:包括医院药库管理和医保药品管理等; 通信管理:包括上传数据和接收中心下传数据等; 系统管理:包括设置系统参数和查看系统日志等。 1 2 3 定点药店管理系统 该子系统包括以下功能模块: 售药管理:包括处方录入、处方收费、处方回退和售药统计等; 库存管理:包括药店药库管理和医保药品管理等; 通信管理:包括上传数据和接收中心下传数据等; 系统管理:包括设置系统参数和查看系统日志等。 1 3 系统的成功运行 4 浙江大学硕十学位论文 经过两年多来的研制开发,解决了复杂的医保管理需求分析问题和整个管理 系统的设计问题通过大量的编程并将管理系统到应用地区进行反复地调试与改 进该套医疗保险信息管理系统已经具有功能较为完备、适应性强和实用性强等 特点,本论文作者主要参与了整体系统设计和方案论证,重点完成了整个系统查 询模块、定点医院管理子系统和定点药店管理子系统的全部设计与编程工作,目 前本论文所述医疗保险网络信息管理系统已经在浙江省的金华地区、湖北省咸宁 的咸安区和崇阳县得到了实际应用,系统运行稳定。 1 4 系统存在的问题 医疗保险改革目前处于起步阶段,绝大部分地区对医保改革毫无经验可谈。 虽然国家对医疗保险改革制定相应的制度,但该制度是纲要性的文件,并没有表 述政策的细节,政策的细节需要各地根据本地区的实际情况制定。不少地区由于 没经验,就照搬其它地区的细则。可想而知,这样制定出来的政策细则在实施中 会产生不合理的现象并影响国家医保改革的运行。另外医保身勺管理涉及面广( 涉 及医保机构、参保单位、参保个人、定点医院和定点药店等) ,因而复杂皮高。 这些问题的存在就要求我们能够提供一套适合医疗保险的决策支持系统,为医保 机构的领导和分析人员进行管理和政策制定提供科学的依据。 目前我们研制的医保信息管理系统主要是用来满足用户业务上的需求的,但 也包括一个中心查询模块,该模块具备一定的决策支持功能。不过该模块是建立 在原有数据库的基础上的,实现的功能较少且查询统计的速度很慢,很难满足用 户的要求。将决策支持系统建立在传统的数据库系统上被证明是行不通的,这就 要求寻求其它更好的技术来建立决策支持系统。本论文下面要介绍的数据仓 库和数据挖掘技术就是这样的技术,它能帮助我们建立一个功能强大、运行速度 快的决策支持系统。 浙江大学硕士学位论文 第二章数据仓库与联机分析处理技术 2 1 决策支持系统的产生 数据库及其理论已经出现好长时间了。早期的数据库系统主要集中于操作 型的日常事务处理,主要技术是o l t p ( o n l i n e t r a n s a c t i o np r o c e s s i n g ,联机事务 处理) 。近年来,面对当今竞争日趋激烈与瞬息万变的市场经济,企业( 单位) 的各级管理人员迫切需要面对不同层次的大量信息迅速作出抉择。这就要求各级 管理人员能够从大量复杂的业务数据中获取各自权限内的决策信息,及时把握市 场变化的脉搏,作出正确有效的判断和抉择。特别是随着数据库系统的逐日运行, 数据的堆积将越来越庞大,这种需求就比以往任何时候都更加迫切。从各级决策 者的角度来看,数据处理的重点应该从传统的业务过程扩展到对业务数据的联机 分析处理,并从中得到面向各种面向主题的统计信息和决策支持信息。决策支持 系统( d e c i s i o ns u p p o r ts y s t e m ,d s s ) 就是在这种背景下产生的。 2 2 基于传统数据库的d s s 的缺陷 数据库系统作为数据管理手段,主要用于事务处理。在这些数据库中已经保 存了大量的日常业务数据。由前面所述,d s s 是在传统的数据库技术上发展起 来的,因此人们最初在构建d s s 时,自然而然地想到要建立在传统的数据库的 基础上。这些d s s 系统在许多领域中也发挥了一定的作用。但是,随着信息处 理技术的不断发展,所需处理的信息量也越来越大,查询越来越复杂。随着企业 ( 单位) 数据的堆积,传统的数据库逐渐出现了许多难以克服的问题。实践证明, 传统数据库对分析处理的支持是不能令人满意。人们逐渐认识到,事务处理和分 析处理具有极不相同的性质,直接使用事务处理环境来支持d s s 是行不通的。 概况来说,事务处理环境不适宜d s s 应用的原因主要有口4 i : ( i ) 事务处理和分析处理的性能特性不同。 在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处 理的时间短,因此,系统可以允许多个用户按分时方式使用系统资源,同时保持 较短的响应时间,o l t p 是这种环境下的典型应用。在分析处理环境中,用户的 行为模式与此完全不同某个d s s 应用程序可能需要连续运行几个小时,从而 6 浙江大学硕士学位论文 消耗大量的系统资源。将具有如此不同处理性能的两种应用放在同一个环境中运 行显然是不适当的。 ( 2 ) 数据集成问题。 d s s 需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提, 相关数据收集得越完整,得到的结果就越可靠。因此,d s s 不仅需要整个企业( 单 位) 内部各部门的相关数据,还需要企业( 单位) 外部、竞争对手等处的相关数 据。事务处理的目的在于使业务处理自动化,一般只需要与本部门业务有关的当 前数据。而对整个企业( 单位) 范围内的集成应用考虑很少。当前绝大部分企业 ( 单位) 内数据的真正状况是分散而非集成的。造成这种分散的原因有多种,主 要有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构 化数据。 上述问题是事务处理环境所固有的,尽管每个单独的事务处理应用可能是高 效的,能产生丰富的细节数据,但这些数据却不能成为一个统一的整体。对于需 要集成数据的d s s 应用来说必须自己在应用程序中对这些纷杂的数据进行集 成。可是,数据集成是一项十分繁杂的工作,都交给应用程序完成会大大增加程 序员的负担。并且,每做一次分析,都要进行一次这样的集成将会导致极低的 处理效率。d s s 对数据集成的迫切需要可能是数据仓库技术出现的最重要动因。 ( 3 ) 数据动态集成问题。 由于每次分析都进行数据集成的丌销大大,些应用仅在开始对所需数据进 行了集成,以后就一直以这部分集成的数据作为分析的基础,不再与数据源发生 联系,我们称这种方式的集成为静态集成。静态集成的最大缺点在于,如果在数 据集成后数据源中数据发生了改变,这些变化将不能反映给决策者,导致决策者 使用的是过时的数据。对于决策者来说,虽然并不要求随时准确地探知系统内的 任何数据变化,但也不希望他所分析的是几个月以前的情况。因此,集成数据必 须以一定的周期( 例如2 4 小时) 进行刷新,我们称其为动态集成。显然,事务 处理系统不具备动态集成的能力。 、 ( 4 ) 历史数据问题。 事务处理一般只需要当前数据,在数据库中一般也只存储短期数据,且不同 数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未 得到充分利用。但对于决策分析而言,历史数据是相当重要的,许多分析方法必 7 浙江大学硕士学位论文 须以大量的历史数据为依托。没有对历史数据的详细分析,是难以把握企业( 单 位) 的发展趋势的。 ( 5 ) 数据的综合问题。 在事务处理系统中积累了大量的细节数据,一般而言,d s s 并不对这些细节 数据进行分析。这主要有两个原因,一是细节数据数量太大,会严重影响分析的 效率;二是太多的细节数据不利于分析人员将注意力集中于有用的信息上。因此, 在分析前,往往需要对缅节数据进行不同程度的综合。而事务处理系统不具备这 种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而加以限制。 以上问题表明,在事务型环境中直接构建分析型应用是一种失败的尝试。然 而,随着社会经济的发展,建立分析型应用的要求却更加迫切。于是人们开始尝 试对数据库或数据文件中的原始数据进行重新组织、再加工和再利用,形成一个 综合的、面向分析的环境,最终提供给高层应用,以支持决策的产生,由此,一 种新的数据处理技术数据仓库( d a t aw a r e h o u s e ) 的思想逐渐形成。数据仓 t 库是一种特定的数据集合,主要研究数据的存储、组织方式。 2 3 什么是数据仓库 数据仓库的思想逐渐开始形成,但对于什么是数据仓库,许多人提出了不同 的看法。w h k i n m o n 是业界公认的数据仓库概念的创始人。我们引用他在 建立数据仓库( b u i l d i n g t h ed a t aw a r e h o u s e ) ) ) i s 】一书中给数据仓库作出的定 义是:“数据仓库就是面向主题的、集成的、稳定的、不同时间的数据集合,用 以支持经营管理中的决策制订过程。”它与传统的数据库目标有较大的不同。 w h i n m o n 在建立数据仓库一书中,详细地列出了操作型数据与分 析型数据之间的区别,其中主要的内容如下表2 一l 。 表2 1 列出的操作型数据与分析型数据的区别从根本上体现了事务处理与分 析处理的差异。传统的数据库系统由于主要用于企业( 单位) 的日常事务处理工 作,存放在数据库中的数据也就大体符合操作型数据的特点。而为适应数据分析 处理要求而产生的数据仓库中所存放的数据就应该是分析型的数据。表2 1 所 列出的分析型数据的特点可以概括为四点,也就是数据仓库数据的四个基本特 征:数据仓库的数据是面向主题的;数据仓库的数据是集成的;数据仓库的数据 是稳定的;数据仓库的数据是随时间不断变化的。下面着重讨论数据仓库数据的 浙江大学硕士学位论文 四个基本特征。 表2 一l 操作型数据和分析型数据的区别 操作型数据分析型数据 细节的综合的,或提炼的 在存取瞬间是准确的 代表过去的数据 可更新不更新 操作需求事先可知道 操作需求事先不知道 生命周期符合s d l c完全不同的生命周期 对性能要求高对性能要求宽松 一个时刻操作一单元一个时刻操作一集合 事务驱动 分析驱动 面向应用面向分析 一次操作数据量小次操作数据量大 支持同常操作 支持管理需求 数据仓库的数据是面向主题的 这个特征是与传统数据库的面向应用性相对应的。主题是一个抽象的概念, 是在较高层次上将企业( 单位) 信息系统中的数据综合、归类共进行分析利用的 抽象。在逻辑意义上,它是对应食、i :( 申j 阿) f i 甚一宏观分析领域所涉及的分析 对象,具有独立内涵。面向主题的数据组织方式就是在较高层次上对分析对象 的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企 业( 单位) 的各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的 数据组织方式而言的,是指按照主题进行数据组织的方式具有更高的数据抽象级 别。 在传统的面向应用的数据组织方式中,企业( 单位) 通常是按照其业务处理 要求,建立了各自的数据库模式。通俗地讲是要表达每个部门的实际业务处理的 数据流程:即从哪儿获取输入数据,在部门内进行什么样的数据处理,以及向什 么地方输出数据。按照实际应用即业务处理流程来组织数据,其主要目的是为了 进行联机事务处理,以提高日常业务处理的速度和准确性等,提高服务质量。如 在医疗保险系统中,按业务处理要求建立了医保中心财务管理予系统,医保中心 档案管理子系统,医保中心日常业务子系统,医院门诊子系统,医院住院子系统 等,其目的是为了提高工作效率。 而在面向主题的数据组织方式中,主题是对应某一分析领域的分析对织,所 以主题的抽嗽,应该是按照分析的要求来确定的。这与按照数据处理或应用的要 9 浙江大学硕士学位论文 求来组织数据的主要不周在于同部门关心的数据内容的不同。同样是门诊收 费,在o l t p 数据库中,人们所关心的是怎样更方便、更快捷地进行“门诊收费” 这个业务处理;而在进行分析处理时,人们关系的是费用的组成、多少。 每个主题在数据仓库中都是由一组关系表实现的。也就是说,主题的实现 依然是基于关系数据库的。虽然现在许多人认为多维数据库更适用于建立数据仓 库,它以多维数组形式存储数据,但“大多数多维数据库在数据量超过1 0 g 字 节时效率不佳”。目前数据仓库仍是采用关系数据库技术来实现的。在具体实现 中,一个主题可以划分成多个表,主题只是一个逻辑的概念。但是数据仓库中的 数据不再是业务处理的流水帐,而是经过了一定程度的综合。表的划分可能是由 于对数据的综合程度不同,也可能是由于数据所属的时间段不同而进行的划分。 如商品表中一条记录是某段时期内该种商品采购、销售情况的总和。但无论如何, 基于一个主题的所有表都含有一个公共属性作为其主码的一部分。公共码键将各 个表统一联系起来,从根本上体现出它们属于一个主题。比如,医疗保险中基于 “医院”这一主题的所有表都包含h o s p i t a l l d ( 医院编号) ? 同时,由于数据仓 库中的数据都是同某一时刻联系在一起的,所以每个表还必然包括时间属性作为 其主键的一部分。例如按月统计的表的主键都包括月份这一字段。 有一点需要说明的是,同主题的表未必存在同样的介质中。根据数据被关 心的程度不同,不同的表分别存储在磁盘、磁带、光盘等不同介质中。一般而言, 年代久远的、细节的或查询概率低的数据存储在廉价慢速设备( 如磁带) 上,而 近期的、综合的或查询概率高的数据则可以保存在磁盘等介质上。 数据仓库的数据是集成的 数据仓库的数据是从原有的分散的数据库数据中抽取来的。在前面的表2 - - 1 中我们已经看到,操作型数据与d s s 分析型数据之间差别甚大。第一,数据仓 库的每一个主题所对应的源数据在原有的各分散数据库中有许多重复和不一致 的地方,且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起;第二, 数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据 仓库之前,必然要经过统一与综合,这一步是数据仓库建设中最关键、最复杂的 一步,所要完成的工作有:首先,要统一原始数据( 来自各个数据源) 中的所有 矛盾之处,如字段的同名异义、异名同义、单位或字长不一致等等,还要将原始 数据结构做一个从面向应用到面向主题的大转变。此外,还要进行多级的综合, 1 0 浙江大学硕士学位论文 形成各级粒度层。 数据仓库的数据是稳定的 数据仓库的数据主要供企业( 单位) 决策分析之用,所涉及的数据操作主 要是数据查询,一般情况下并不进行修改操作。数据仓库的数据反映的是一段相 当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些 快照进行统计、综合和重组的导出数据,而不是联机处理的数据。数据库中进行 联机处理的数据经过集成输入到数据仓库中,一旦数据仓库存放的数据已经超过 数据仓库的数据存储期限,这些数据将从当前的数据仓库中删去。因为数据仓库 只进行数据查询操作,所以数据仓库管理系统d w m s 相比数据库管理系统 d b m s 而言要简单得多。d b m s 中许多技术难点,如完整性保护、并发控制等 等,在数据仓库的管理中几乎可以省去。但是由于数据仓库的查询数据量往往很 大,所以就对数据查询提出了更高的要求,它要求采用各种复杂的索引技术;同 时由于数据仓库面向的是企业( 单位) 的高层管理者,他们会对数据查询的界面 友好性和数据表示提出更高的要求。 数据仓库数据是随时间变化的 数据仓库中的数据是稳定的,但并不是完全不可更新。完全不可更新是针对 应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行数据更新操作 的。但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存 周期中,所有的数据仓库数据都是永远不变的。 数据仓库的数据是随时间的变化不断变化的,这一特征表现在以下三方面: ( j ) 数据仓库随时问变化不断增加新的数据内容。数据仓库系统必须不断捕捉 o l t p 数据库中变化的数据,追加到数据仓库中去。但对于每次的数据库快照确 实是不再变化的,捕捉到新的变化数据,只不过又生成一个数据库的快照增加进 去,而不会对原来的数据库快照进行修改。( 2 ) 数据仓库随时间变化不断删去旧 的数据内容。数据仓库的数据也有存储期限,一旦超过了这一期限,过期数据就 要被删除。只是数据仓库内的数据时限要远远长于操作型环境中的数据时限。在 操作型环境中一般只保存有6 0 9 0 天的数据,而在数据仓库中则需要保存较长 时限的数据( 如5 1 0 年) ,以适应d s s 进行趋势分析的要求。( 3 ) 数据仓库中 包含有大量的综合数据,这些综合数据中很多跟时间有关。因此,数据仓库数 据的码键都包含时间项,以标明数据的历史时期。 1 1 浙江大学硕士学位论文 2 4 数据仓库中的数据组织 在上一节中介绍了数据仓库中数据的四个基本特征,在这节里主要介绍数据 仓库中存放的数据内容及其组织形式。 2 4 1 数据仓库的数据组织结构 一个典型的数据仓库的数据组织结构如图2 1 所示 高度综合级 轻度综合级 当前细节级 早期细节级 生产线每月销售 1 9 9 5 2 0 0 0 子生产线 每周销售 1 9 9 5 2 0 0 0 销售细节级 l9 9 9 2 0 0 0 销售细节级 1 9 9 5 1 9 9 9 图2 1 数据仓库的数据组织结构 在数据仓库中的数据分为四个级别:早期细节级( 通常是备用的、批量的存 储) 、当前细节级、轻度综合级、高度综合级。源数据通常通过操作型环境导入 数据仓库,首先进入当前细节级。然后根据具体需要进行进一步的综合从而进入 轻度综合级,再由轻度综合级进入高度综合级,老化的数据将进入早期细节级。 2 4 2 粒度 粒度是数据仓库的重要概念。上面我们提到,数据仓库中存在着不同的细化 或综合程度的级别。对于这种级别,我们一般称之为“粒度”。粒度越大,表示 细节程度越低,综合程度越高。在数据仓库环境中粒度一直是主要的设计问题f 1 5 】。 因为它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回 答的查询类型。因此在数据仓库中的数据量大小与查询的详细程度之间要作出权 衡。 - 1 2 浙江大学硕士学位论文 图2 2 是一个表示粒度问题的例子。左边是个低粒度级,每次活动都被详细 记录下来,如果一个客户一个月打1 0 0 个电话,则需要1 0 0 条记录。右边是个高 粒度级,数据代表一个客户一个月的综合信息,每个客户一个月只需要l 条记录。 显然,如果数据仓库的空间很有限的话,用高粒度级表示数据比用低粒度级表示 数据的效率要高得多。高粒度级不仅只需要少得多的字节存放数据,而且只需要 较少的索引项,另外也可以节省处理数据的处理器资源,因而处理能力的大大增 强,查询的效率大大提高。但是提高数据粒度级时,数据所能回答的查询能力就 会随之降低。换一句话说,在一个很低的粒度级上你实际可以回答任何问题,但 在高粒度级上,数据所能处理的问题的数量是有限的。 粒度细节的级别 高细节级低粒度级低细节级高粒度级 例如:个顾客一个月例如:一个顾客一个月内 内每个电话的细节电话的综合 图2 - 2 数据仓昨的粒度的一个别子 通常在数据仓库中,多重粒度是必不可少的。由于数据仓库的主要作用是 d s s 分析,因而其绝大部分查询都基于一定程度的综合数据之上,而只有极少的 查询涉及细节。 2 4 3 分割 分割是数据仓库中的另一个重要概念。它是指将数据分散到各自的物理单元 中去以便能分别独立处理,以提高数据处理效率。数据分割后的数据单元称为分 片。进行数据分割的理由是:我们在进行实际的分析处理时,对于存在某种相关 性的数据集合的分析是最常见的,如对某一时间或某一时段的数据的分析、对某 一地区的数据的分析、对特定业务领域的数据的分析,等等。如果将具有这种相 关性的数据组织在一起,无疑会提高效率。 2 4 4 数据仓库的数据组织形式 这里简单介绍数据仓库中常见的几类数据组织形式( 图2 3 ) 。 ( 1 ) 简单堆积文件:它将每日由数据库中提取并加工的数据逐天积累地存储起 来。 ( 2 ) 轮转综合文件:数据存储单位被分为臼、周、月、年等几个级别。在一星 1 3 浙江大学硕士学位论文 期的七天中,数据被逐一记录在每日数据集中;然后,六天的数据被综合,记录 在周数据集中:接下去的一个星期,1 3 数据集被重新使用,以记录新数据。同理, 周数据集达到五个后,数据再一次被综合并记入月数据集,以此类推。轮转综合 结构十分简捷,数据量较简单的堆积结构大大减少。当然,它是以损失数据细节 为代价的,越久远的数据,细节损失越多。 i 月1 日1 月2 日1 月3 日星期一星期二星期日 口口口口口口 2 月1 日 2 月2 日2 月3 日 第一周第二周第五十二周 口口口口口口 3 月1 日3 月2 日3 月3 日1 月 2 月3 月 口口口口口口 简单堆积文件 轮转综合文件 图2 - - 3 数据仓库基本数据文件结构 ( 3 ) 简化直接文件:它类似于简单堆积文件,但它是间隔一定时间的数据库快 照。比如每隔一星期或一个月作一次:简化直接文件也可以认为是按一定的时间 | n j 隔对数据库的采样( 见图2 4 ) 。 ( 4 ) 连续文件。通过两个连续的简化直接文件,我们又可以生成另一种连续 文件,它是通过比较两个简单直接文件的不同而生成的,也可以是连续文件同新 的简单文件一起生成新的连续文件。 数据库快照 2 0 0 0 年的参保人表 姓名参保号年龄 张蓉 2 0 0 0 0 0 0l3 0 周建军 2 0 0 0 0 0 0 24 0 圈2 4 生成简化直接文件 2 4 5 数据仓库的数据存储方式 数据仓库的数据存储方式可分为虚拟存储方式、基于关系表的存储方式和多 维数据库存储方式三种。 虚拟存储方式就是虚拟数据仓库的组织形式它没有专门的数据仓库数据 存储,数据仓库中的数据仍在源数据库中,只是根据用户的多维需求及形成的多 1 4 曰日 浙江大学硕士学位论文 维视图,临时在源数据库中找出所需的数据,完成多维分析。这种存储方式的优 点是比较简单,体积小。在实际中这种方式很难建立起有效的决策服务数据支持。 多维数据库的数据组织采用多维数组结构文件进行数据存储,并有维索引及 相应的元数据管理文件与数据相对应。这是一种直接面向o l a p 分析操作的数据 存储形式。但技术上还不够成熟,目前能够支持多维数据库的前端工具比较少。 基于关系表的存储方式是目前最为常用的方法。这种方式是将数据仓库的数 据存储在关系型数据库的表结构中,在元数据的管理下完成数据仓库的功能。这 种方式的主要问题是在多维数据模型定义好后,从数据库中抽取数据往往需要编 制独立、复杂的程序,因此通用性差、很难维护。但由于这种存储方式是建立在 关系数据库的基础上的,关系数据库经过2 0 年的发展,技术已经相当成熟,能 够支持关系数据库的前端工具很多,便于编程实现。在我们开发的医疗保险数据 仓库中采用的也是这种存储方式,f 面主要讨论基于关系表的存储方式。 这种存储方式在建库时有两个主要过程用以完成数据的抽取。首先要提供 种图形化的点击操作界面,使分析员能对源数掘库的内容进行选择,定义多维数 据模型。然后再编制程序把数据库中的数据抽取到数据仓库的数据库中。 在基于关系表的存储方式中,常用的模型有两种:星型模型和雪花模型。 星型模型( s t a rs c h e m a ) 大多数数据仓库都采用“星型模型”来表示多维概念模型。数据库中包括 张“事实表”,里面包含了用户在建立数据库时要进行分析的数据条目;对于每 一维都有一张“维表”。“事实表”中的每条元组都包含有指向各个“维表”的外 键和些相应的测量数据。“维表”中记录的是有关这一维的属性。图2 5 是星 型模型的一个例子 2 2 1 。 管理者 办公室 豳2 5 用关系表达多维概念的示例图星型模型 基金 基金帐户 浙江大学硕士学位论文 从图中可以看出,事实表中的除了包括那些用于分析的数据之外,还有个 或多个外来关键字,它们是联系事实表和数据维表之间的纽带。在每张维表中除 包含每一维的主键外,还有说明该维的一些其他属性字段。 在数据仓库模型中执行查询的分析过程,需要花大量时间在相关各表中寻找 数据。而星形模型使数据仓库的复杂查询可以直接通过各维的层次比较、上钻、 下钻等操作完成。 在数据仓库中,除了“维表”和“事实表”的数据外,它还应当包含一些已 经处理的综合数据。 这种数据组织方式存在数据冗余、多维操作速度慢的缺点。但这种方式是主 流方案,大多数数据仓库集成方案都采用这种形式。 雪花模型( s n o wf l a k es c h e m a ) 对星型模型的扩展 “雪花模型”对星型模型的维表进一步层次化,原有的各维表可能被扩展为 小的事实表,形成一些局部的“层次”区域。它的优点是:通过最大限度地减少 数据存储量以及联合较小的维表来改善查询性能。 我们对星型模型中的例子进行一些变换,就可以建立一个雪花模型的例子。 如图2 6 。因为管理者表和办公室有着联系,即每个管理者都属于一个办公室, 因此我们可以将通过位于投资事实表里的m a n a g e r ( 管理者) 外来关键字,重新 获得o f f i c e ( 办公室) 的信息。在这种情况下,可以删除事实表里的o f f i c e 外来 关键字,而保留m a n a g e r 外来关键字。 办 图2 6 用关系表达多维概念的示例图雪花模型 基金 基金帐户 在星型模型中,对于某一个给定的事实,访问某一维信息的时候只需要一个 1 6 浙江大学硕士学位论文 交叉点:而在雪花模型中,访问维信息则需要至少两个交叉点,这就增加了某些 查询的复杂性。但这种方式可以使系统进一步专业化和实用化,同时降低了系统 的通用程度。 由于星型模型运行时所需要的交叉点少,所以在提高查询性能方面比雪花模 型更受用户欢迎。“。 2 5 设计数据仓库 2 5 1 与数据库系统设计的区别 数据仓库是体系化环境的核心,它是建立决策支持系统( d s s ) 的基础。所 以建设数据仓库就成了建设企业( 单位) 的体系化环境的中心问题。上一章里说 明了数据仓库是一个面向数据分析型处理的数据环境,数据仓库的数据具有四个 基本特征:面向主题的、集成的、稳定的、随时间不断变化的。这些特点说明了 数据仓库从数据组织到面向的数据处理都跟原来的数据库有较大区别,这决定了 我们在进行数据仓库系统设计时,不能够照搬原来传统的数据库系统开发方法。 传统的数据库是面向应用的是属于“需求驱动”;而数据仓库是面向分析的, 是“数据驱动”,当然数据仓库的设计也不能完全离开需求。 圄 s d l c 方法 。 c l d s 方法 刚2 - - 7s d l c 方法与c l d s 方法的比较 - 1 7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论