已阅读5页,还剩82页未读, 继续免费阅读
(模式识别与智能系统专业论文)医院信息数据挖掘研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南科技大学硕士研究生学位论文第1 页 摘要 目前,我国大部分医院都利用自己的管理信息系统,进行业务处理和信 息管理。但日益增加的海量数据,使面向联机事务处理的传统数据库技术无 法满足医院管理者的高层次决策分析需求,历史数据浪费严重。 通过与绵阳市盐亭人民医院的沟通合作,在该院现有信息系统数据的基 础上,采用自底向上的方法,充分利用医院历史数据,完成了数据仓库的构 建、联机分析处理技术的应用、以及数据挖掘算法的实现,为医院管理者的 决策支持活动提供了依据。 首先进行了历史源数据的采集和规整,构建了数据仓库概念模型、逻辑 模型,并进行了数据的转换、加载和访问。 其次,基于数据仓库底层数据,运用联机分析处理技术,建立了医院多 维数据集,实现了数据的切片、切块、钻取和旋转,完成了医院信息的多维 数据分析。 再次,利用i d 3 决策树算法和a p r i o r i 关联规则算法,完成了费用主题 中病人特征与费用金额的决策树构建以及不同费用类别间的关联规则发现, 并对f l i p 增量更新算法进行了改进,提高了数据更新后的挖掘效率。 最后,在已构建的医院数据仓库和o l a p 数据分析的基础上,利用 a n a l y s i ss e r v i c e 中集成的决策树和聚类两种数据挖掘算法,建立了针对主题 的数据挖掘模块,完成了相应的可视化分析,进一步提高了医院信息的决策 支持能力。 关键词:数据仓库联机分析处理数据挖掘医院信息 西南科技大学硕士研究生学位论文第1 f 页 a b s t r a c t c u r r e n t l y ,r o u t i n e t r a n s a c t i o na n di n f o r m a t i o nm a n a g e m e n ti nm o s t h o s p i t a l so fc h i n aa r ec a r r i e do u tb yu s i n gm a n a g e m e n ti n f o r m a t i o ns y s t e m g r e a ta m o u n t so fd a t ai n c r e a s i n gd a yb yd a yr e s u l t si ns e v e r ew a s t eo fh i s t o r i c d a t aa n dd i f f i c u l t i e st om e e tt h ed e e p r e q u i r e m e n t so fd e c i s i o n m a k e r sb y t r a d i t i o n a lo l t po r i e n t e dd a t a b a s et e c h n o l o g i e s t oo f f e rc o n s u l t a t i o ns u p p o r tf o rd e c i s i o n m a k e r so ft h eh o s p i t a l ,t h et h e s i s h a sa c c o m p l i s h e dc o n s t r u c t i o no fd a t aw a r e h o u s e ,a p p l i c a t i o no fo l a pa n d i m p l e m e n t a t i o no fd a t am i n i n ga l g o r i t h m sb yu s i n gb o t t o m - u pm e t h o da n df u l l h i s t o r i cd a t ab a s e do nt h ec u r r e n ti n f o r m a t i o nd a t ao fy a n t i n g p e o p l e sh o s p i t a l o fm i a n y a n g f i r s t l y ,t h et h e s i sc o l l e c t sa n dr e g u l a t e st h eo r i g i n a ld a t a ,b u i l d sc o n c e p t m o d e la n di c - g i cm o d e lo fd a t aw a r e h o u s ea n dt h e nf u l f i l l st h et r a n s f o r m a t i o n , l o a da n dv i s i to fd a t a s e c o n d l y ,t h ea u t h o r e s t a b l i s h e sm u l t i d i m e n s i o n a ld a t as e ta n dt h e n i m p l e m e n t sa n dc o m p l e t e st h es l i c i n ga n dd i c i n g ,d r i l l i n ga n dp i v o t i n go fd a t a a n dm u l t i - d i m e n s i o n a ld a t aa n a l y s i so fh o s p i t a li n f o r m a t i o nb a s e do nt h eb o t t o m d a t ao fd a t aw a r e h o u s ea n do l a pt e c h n o l o g y t h i r d l y ,b yu s i n gi d 3a n da p r i o r ia l g o r i t h m s ,t h et h e s i sc o m p l e t e st h e c o n f i g u r a t i o no fd e c i s i o nt r e e sf o re x p e n s e sa n dc h a r a c t e r i s t i c so fp a t i e n t si nt h e e x p e n s et o p i ca n dd i s c o v e r yo fc o r r e l a t i v er u l eo fd i f e e r e n te x p e n s es o r t s a tt h e s a m et i m e ,t h ea u t h o rp r e s e n t s i m p r o v e m e n tt of u pi n c r e m e n t su p g r a d e a l g o r i t h m t h em e n di m p r o v e st h em i n i n ge f f i c i e n c ya f t e rd a t au p d a t i n g f i n a l l y ,b a s e do nt h eh o s p i t a ld a t aw a r e h o u s ea n do l a pd a t aa n a l y s i s t h i s t h e s i se s t a b l i s h e st h e m i n i n gm o d u l e sf o rs p e c i f i ct o p i c s a n d 。f u l f i l l st h e c o r r e s p o n d i n gv i s u a l i z e da n a l y s i sw i t ht h ed e c i s i o nt r e ea n dc l u s t e rd a t am i n i n g a l g o r i t h m si n t e g r a t e d i n a n a l y s i ss e r v i c e ,a n dp r o v i d e sv a l u a b l e d e c i s i o n s u p p o r tt ot h eh o s p i t a lm a n a g e r s k e yf o r d s :d a t aw a r e h o u s e ;o n l i n ea n a l y t i c a lp r o c e s s i n g :d a t am i n i n g ; h o s p i t a li n f o r m a t i o n 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得西南科技大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名: 枷下 日期: 渺7 、7 t| 关于论文使用和授权的说明 本人完全了解西南科技大学有关保留、使用学位论文的规定,e p :学校有权 保留学位论文的复印件,允许该论文被查阅和借阅;学校可以公布该论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:导师日期: 溯7 7 西南科技大学硕士研究生学位论文第1 页 1 绪论 1 1 研究背景 1 1 1数据仓库和数据挖掘 随着计算机应用技术的日益发展与普及,各行各业产生和收集数据的能 力大为提高,数据量与日俱增,出现了“数据爆炸”的现象。大量的数据被 描述为“数据丰富,但信息贫乏”,由此带来了对强有力的数据存储和分析 工具的需求,为了将海量数据快速转换成信息和知识,开采大量潜在规则, 辅助人们的决策管理活动,数据仓库和数据挖掘技术应运而生。 9 0 年代初期w h i n m o n 在其里程碑式的著作b u i l d i n gt h ed a t a h o u s e :) 中首次提出了“数据仓库”( d a t aw a r e h o u s e ) 的概念m ,数据仓库的研究 和应用得到了广泛的关注。随着信息和数据库技术的进步,数据仓库技术也 不断发展,并在实际应用中发挥了巨大的作用。它是数据库、统计分析、数 据可视化、人工智能、机器学习和数据库技术等众多领域交叉形式的新兴研 究方向,其应用包括生物医学、金融、零售、电信等各个行业。 同样作为解决各行业信息系统中知识缺乏状况最有效的手段,数据挖掘 也在兴起的过程中,受到了学术界和企业界的极大关注。国际上第一次关于 数据挖掘( d a t am i n i n g ) 与知识发现( k n o w l e d g ed i s c o v e r y ) 的研讨会于1 9 8 9 年8 月在美国底特律召开。当时仅有数十人参加,此后发展很快。1 9 9 3 年出 版了专刊,1 9 9 5 年提升为每年举办一次的国际学术大会,1 9 9 7 年开始拥有自 己的杂志“k n o w l e d g ed i s c o v e r ya n dd a t am i n i n g ”。规模由专题讨论会发展 为国际学术大会,人数由二三十人发展到七八百人,研究重点也逐渐从发现 方法转向系统应用,并注重多种策略和技术的集成,以及学科间的相互渗透。 目前数据挖掘技术在货篮数据( b a s k e t d a t a ) 分析、保险业务、金融风险预测、 产品产量和质量分析、分子生物学、基因工程研究、i n t e r n e t 站点访问模式 发现以及信息检索和分类等许多领域得到了成功的应用n ,。在数据挖掘技术 日益发展的同时,数据挖掘商业软件工其也逐渐问世。特别是9 0 年代中期以 来,许多软件开发商开发了名目繁多的数据挖掘工具和软件,成为近年来软件 开发市场的热点,已不断出现成套软件和系统,并开始朝智能化整体解决方案 发展。数据挖掘技术是一个年轻且充满希望的研究领域,有报告称,在未来 西南科技大学硕士研究生学位论文第2 页 3 5 年内,对世界工业产生重要影响的五项关键技术,数据挖掘和人工智 能( a r t i f i c i a li n t e l l i g e n c e ) 排名第一。 可见,数据仓库和数据挖掘技术拥有巨大的开发潜力和社会商业价值, 它们的研究和应用将在学术界和实业晃日益广泛和深入。 1 1 2 医院信息系统的发展 医院信息系统( h o s p i t a li n f o r m a t i o ns y s t e m ,简称h i s ) 是指利用计算 机软硬件技术、网络通讯技术等现代化手段,对医院及其所属各部门对人流、 物流、财流进行综合管理,对在医疗活动个阶段中产生的数据进行采集、存 储、处理、提取、传输、汇总、加工生成各种信息,从而为医院的整体运行 提供全面的、自动化豹管理及各种服务的信息系统。医院信息系统是现代化 医院建设中不可缺少的基础设施与支撑环境,是国际学术界已公认为新兴的 医学信息学( m e d i c a li n f o r m a t i c s ) 的重要分支。 医院信息系统是所有企业级信息系统中最复杂的一类。这是医院本身的 目标、任务和性质决定的。它不仅要同其它行业的管理信息系统( m a n a g e i n f o r m a t i o ns y s t e r m ,m i s ) 系统一样追踪管理,伴随人流、物流、财流所产 生的管理信息,从而提高整个医院的运作效率,而且还应该支持以病人医疗 记录为中心的整个医疗、教学、科研活动。它的发展过程大体上可以分为四 个阶段:第一阶段是相对独立的、单个项目的信息管理;第二阶段是多个项 目的总和信息管理;第三阶段是医院各部门共享的信息系统,前三个阶段主 要着眼于医院管理信息及其管理。而最后一个阶段则是大规模一体化的医院 信息系统,既面向管理,又面向医疗。 2 0 世纪2 0 3 0 年代,电动穿孔数据处理系统诞生,并不断完善和成熟。 5 0 - 6 0 年代,美国便开始了h i s 的研究。日本和欧洲也相继在7 0 年代初期和 中叶开始了h i s 的应用,且发展迅猛、普及率高、规模强大。 在我国,计算机7 0 年代末期进入医疗行业,当时以i b m 的m 3 4 0 小型 机为主,只有少数几家大型的部属综合医院拥有,如北京协和医院、北京肿 瘤医院、解放军3 0 1 医院等,主要用于科研和教学,还没有在h i s 上的应用。 8 0 年代初期,一些医院开始开发一些小型的管理软件,如工资软件等;8 0 年代中期,开始建立小型的局域网络,并开发出基于部门管理的小型网络管 理系统,如住院管理,药房管理等。进入9 0 年代,n o v e l l 网和f o x b a s e 、 f o x p r o 数据库日益盛行,完整的医院网络管理系统的实现已经成为可能, 于是一些有计算机技术力量的医院开始开发适合自己医院的医院管理系统, 西南科技大学硕士研究生学位论文第3 页 但这些系统多停留在简单的财务管理模式,存在低层次重复开发、不支持决 策管理等诸多问题。1 9 9 5 年,卫生部根据国务院部署,明确提出了“金卫 工程”总体规划,医院信息系统发展进程加速,随着我国经济持续稳定的发 展和医药卫生改革的不断深入,医院信息系统已在2 l 世纪进入了临床信息 系统( c l i n i c a li n f o r m a t i o ns y s t e m ,c i s ) 阶段,目前全国医院信息系统的研 制、开发应用水平己进入了体化医院信息系统i h i s ( i n t e g r a t e dh o s p i t a l i n f o r m a t i o ns y s t e m ) 的新阶段“。 1 1 3医院信息利用存在的问题 医院的信息化,是当前传统行业信息化变革潮流中的重要部分。无论是 2 0 0 3 年的非典疫情给医院管理和业务流程运作带来的挑战,还是人们对医 疗服务的普遍性需求,都对信息化改造医院的传统管理和运作模式、提高就 医服务质量提出了迫切的要求。 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,医疗信息 系统目前已能够提供大量的医疗信息,但是目前各地方的h i s 系统所提供的 数据量大、项目繁杂,大量的历史数据变得越来越难于管理和访问,用户不 断增长的统计查询与决策需求,使开发难度和复杂度大幅度提高,收集的海 量数据往往被沉溺,变成了难得再访问的数据档案,历史信息浪费严重。如 果需要从不同系统或不同数据库中提取有用数据,更变成了一项令人头疼的 繁琐手工劳动。 上述问题给集中分析和利用原始数据带来了很多困难。随着科技进步和 技术的发展,简单的使用信息已经不能满足医院的需要,迫切需要在深层次 上利用已有的信息为管理决策提供帮助。因此如何从海量数据中提取有价值 的知识从而更好地管理和利用这些数据已经成为人们迫切的愿望和亟待解 决的问题。 对于医院决策层来说,他们不仅需要通过h i s 了解医院各种运行情况, 如住院病人分布情况、各科室、各医生工作量情况、收支情况、医院某段时 问的经济效益情况、库存变化情况等,还需要对于那些隐藏在大量数据中的 知识进行分析和挖掘,单纯的h i s 系统是不可能获得的,因此医院管理层期 望能够拥有一个为医院的管理提供一定的技术支持的系统。这就需要在医院 利用数据仓库和数据挖掘技术,分析利用医院各种信息数据,挖掘潜在规则, 为医院管理层提供快速、准确和方便的决策支持。 西南科技大学硕士研究生学位论文第4 页 1 2 课题来源 本课题来源于四川省重点学科技术研究项目基于知识的优化控制 研究( 0 1 g y 0 5 1 3 7 ) ,属于该项目的外延课题。利用数据仓库、o l a p 联机 分析及数据挖掘技术,结合具体医院信息系统,优化医院历史信息分析,并 完成有意义的医院信息知识发现。 数据仓库中集成和存储了大量长时间的历史信息,这些信息来源与不同 的异质信息源,可以进行数据长期趋势的补入和分析,为决策者的决策行为 提供了支持。联机分析处理( o n 1 i n eo n 1 i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 集中于数据的多角度分析,而数据挖掘则致力于知识的优化提取和自动发 现。这三种技术具有联系性、互补性和整体性,它们将成为控制管理决策和 预期管理结果最强效的手段。 本课题的背景医院是绵阳市盐亭人民医院,该院建院历史悠久,分科较 细,有稳定的病人来源,并且已经有五年以上的医院信息系统数据库资源, 病历病案存档时间超过十年,具备了数据仓库和数据挖掘技术开展的前提。 同时,医院决策者与时俱进,希望能够通过更加先进的手段解决医院存在的 信息查询难、关联问题分析难、历史数据浪费大的问题,方便管理、辅助决 策,同时为提高医院的科研和l 晦床业务水平服务。 1 3研究内容 1 3 1 研究的主要内容 本课题在查阅大量中外文献的基础上,针对背景医院现有信息利用不充 分、决策支持能力低下的问题,采用自底向上的方式,围绕数据仓库、o l a p 及数据挖掘技术在医院信息分析利用中的应用逐层展开研究,研究内容主要 包括以下几个方面,如图1 - 1 所示: 采集并整合医院信息系统历史数据: 构建数据仓库概念模型、逻辑模型,转换装载源数据; 设计维表、事实表和对应于数据仓库主题的多维数据集; 开展联机分析处理研究,完成数据的切割、钻取及m d x 查询分析; 分析利用数据挖掘i d 3 决策树法和a p r i o r i 关联规则算法,提出数据 增量更新的算法改进,发现随机抽样的医院管理数据样本的知识与 西南科技大学硕士研究生学位论文第5 页 规则; 图1 - 1研究内容示意图 f i g 卜1g r a p h i c a ir e p r e s e n t a t i o no fr e s e a c h 在s q l a n a l y s i ss e r v i c e 集成的决策树和聚类两种数据挖掘算法下, 建立可视化数据挖掘模块,通过对治愈率、费用、科室绩效等具体 问题的分析,为医院管理者提供深层次决策支持的事实依据。 1 3 2 论文的组织结构 论文分为五章,具体组织结构如下: 第一章:绪论 主要围绕课题技术背景,介绍了数据仓库、数据挖掘技术的发展历程, 提出了医院信息系统的概念和现阶段医院信息利用中存在的问题,针对课题 开展的目的,明确了研究内容、确定了论文的组织结构。 第二章:医院信息数据仓库与数据挖掘技术研究基础 本章基于大量文献技术理论,全面介绍了数据仓库、o l a p 和数据挖掘 的概念及关键技术内容,为具体的技术运用奠定了扎实的理论基础。并针对 研究平台s q ls e r v e r 2 0 0 0 中的a n a l y s i ss e r v i c e 实用技术进行了阐述,为课 题的实现提供了技术支持。 第三章:医院信息数据仓库构建 针对背景医院的信息利用现状,介绍了数据源及数据的采集加工情况, 西南科技大学硕士研究生学位论文第6 页 完成了数据仓库模型架构,设计数据仓库和联机分析的主题,通过数据的清 洗、转换和加载,实现数据仓库中的数据访问。 第四章:医院信息0 l a p 多维分析设计 在医院数据仓库数据组织的基础上,运用o l a p 特有的分析技术,对特 定的医院分析主题数据进行切块、切片、钻取等技术处理,实现m d x 语言 查询多维数据。 第五章:医院信息数据挖掘研究 本章就决策树和关联规则两种数据挖掘算法进行了分析和讨论,并针对 医院管理者和病人都关心的医疗费用问题,运用不同的算法展开不同角度和 内容的挖掘,对基于a p r i o r i 算法的f u p 增量更新进行了改进,减少中间循 环,从而提高挖掘效率。最后利用m sa n a l y s i sm a n a g e r 创建决策树、聚类 挖掘模型,完成数据挖掘的可视化效果分析,解决了特定的医院信息分析问 题。 1 4本章小结 作为全文的绪论部分,介绍了数据仓库、数据挖掘技术的发展背景,以 及医院信息系统的发展和现存问题,在此基础上阐述课题来源、研究的主要 内容和论文的组织结构。 西南科技大学硕士研究生学位论文第7 页 2 医院信息数据仓库与数据挖掘研究基础 2 1数据仓库技术 2 1 1数据仓库的定义与特点 市场对计算机技术的应用需求直接推动了计算机技术本身的发展。最 初,联机事务处理( o n l i n et r a n s a c t i o np r o c e s s ,o l t p ) 应用需求的推动, 使数据库存技术大发展,紧接着,决策支持系统应运而生,信息管理m i s 系统的应用越来越广泛,各行各业信息数据量的增加也越来越猛烈,各企事 业信息处理部门的工作重点已不再局限于简单的数据收集,而急切需求着更 高层次的数据分析处理功能。对一个企业来说,不同历史阶段会根据不同需 求建立因部门而异的信息处理系统,这些系统相互隔离、结构各异,致使现 有的信息集成方法己满足不了企业日常的决策分析工作。 在此背景下,研究人员体提出了一种全新的分布式异构数据系统的集成 方法,把各个信息源中与决策支持相关的数据进行提取、转化、过滤,并与 相应信息源中其它数据进行合并,按主题存放在一个中央数据库中;当客户 需要查询时,可直接访问中央数据库,不必访问其它的信息源。这种类似仓 库一样存放感兴趣数据的集成方法就称为数据仓库技术。 数据仓库技术领域的开创性工作是由w h i n m o n 陆续完成的,他在建 立数据仓库一书中提出了数据仓库的特点:数据仓库是由一个面向主题的 ( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e d ) 、具有时间属性的( t i m e v a r i a n t ) 且非易失的( n o n v o l a t i l e ) 的数据集合,它的根本目的在于支持管理部门的 决策: ( 1 ) 面向主题。主题是指用户使用数据仓库进行决策所关心的重点方面, 如销售情况、人事情况、整个企业的利润状况等;所谓面向主题,是指决策 的过程的主题性决定了数据仓库的信息是按主题进行组织的。 ( 2 ) 集成性。集成性是指数据仓库中存储的数据是从原来分散的各个子 系统中提取出来的,但并不是原有数据的简单拷贝,而是经过系统加工、汇 总和修理,使数据仓库内的信息与企业的全局信息保持一致。 ( 3 ) 稳定性。从数据的使用方式上看,数据仓库的数据是稳定的。当数 据被存放到数据仓库中以后,用户只能通过分析工具进行查询、分析,而不 西南科技大学硕士研究生学位论文第8 页 能修改其中存储的数据,对用户而言是只读的。 ( 4 ) 可读性。数据仓库数据并非永久只读,数据随时间定期更新,每隔 一段时间,新数据被抽取、转换后集成到数据仓库中,同历史数据一起被保 留。随时间的变化和分析需求的提高,数据以更高的层次被综合存放。 2 1 2 数据仓库体系结构及重要概念 美国斯坦福大学数据仓库研究课题( w a r e h o u s ei n f o r m a t i o np r o j e c ta t s t a n f o r d ,w h i p s ) 组提出了数据仓库的一个基本体系结构,如图2 - 1 所示: c l i c n t1 1 - l d a t a t ,h t 署e r g r a 盯、 w r a p p e r m o n i t o rw r a p p e r m o n i t o rw r a p p e r m o n i t o r 图2 - 1数据仓库的基本体系结构 fig 2 1t h ea r c hi t e c t u r eo f d a t ag a r e h o u s e 为了能将已有的数据源提取出来,并组织成可用于决策分析的综合数据 形式,一个数据仓库的基本体系结构中应包括以下几个基本组成部分: ( 1 ) 数据源( d a t as o u r c e ) : 指为数据仓库提供最底层数据的数据库系统及外部数据,一般来自多个 数据源,包括企业内部业务运作数据库的数据及多种形式的外部数据,如调 查分析结果和各种文档资料等。 ( 2 ) 打包监视器( w r a p p e r m o n i t o r ) : 打包部件负责感知数据源发生的变化,把本地信息翻译成数据仓库使用 的数据模型,再由监视器按数据仓库的需求提取数据,将其报告给集成器。 ( 3 ) 集成器( i n t e r g r a t e r ) : 将从运作数据库中提取的数据进行转换、计算、综合等操作,并集成到 数据仓库中。 西南科技大学硕士研究生学位论文第9 页 ( 4 ) 数据仓库( d a t aw a r e h o u s e ) : 存储企业级数据供视图分析利用。根据不同分析要求,数据按不同的综 合程度存储,数据仓库中还应存储元数据,以记录数据的结构和数据仓库的 任何变化,支持数据仓库的开发和使用。 ( 5 ) 客户应用( c l i e n ta p p l y ) : 供用户对数据仓库中的数据进行访问查询,并以直观的方式表示分析结 果的工具。 在上述完善的体系结构下,数据仓库完成的基本功能包括:数据抽取、 数据筛选和清理、清理后的数据加载、设立数据集市、完成数据仓库的查询、 决策分析和数据挖掘等。数据仓库的建立和数据仓库技术的应用过程中,经 常涉及的五个重要概念是: ( 1 ) e t l : e t l ( e x t r a c tt r a n s f o r m a t i o nl o a d ) 是用户从数据源抽取出所需的数据, 经过数据清洗、转换,最终按照预先定义好的多维立方体模型,将数据加载 到多维立方体中去“,。 ( 2 ) 数据集市( d a t am a r t ) : 数据集市是小型的,是按照某一特定部门的决策支持需要而组织起来 的、针对一组主题的应用系统,是面向部门或工作组级的多维立方体,也相 当于部门级数据仓库或面向工作组的数据仓库。数据集市分为从属数据集市 和独立数据集市两种。 ( 3 ) 元数据( m e t a d a t a ) : 元数据是数据仓库中的一个重要概念,是企业业务、数据和系统的描述 信息,是关于数据的数据n ,。打个比方,在图书馆中,将每本书看作数据的 话,图书检索卡片便是元数据。 ( 4 ) 粒度( g r a n u l a r i t y ) : 粒度问题是设计数据仓库的一个重要方面。粒度是指数据仓库的数据单 位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相 反,细化程度越低,粒度级就越大。在数据仓库中,多维粒度是必不可少的。 ( 5 ) 分割( p a r t i t i o n i n g ) : 分割是把逻辑上统一的数据分割成较小的、可以独立管理的物理单元进 行存储,以便于重构、重组和恢复,以提高索引创建和顺利扫描的效率。数 据分割分为两种形式:系统级和应用级。系统级的分割是由数据库管理系统 和操作系统实现的;应用级的分割是由开发人员通过代码来直接控制的,后 西南科技大学硕士研究生学位论文第1 0 页 者更为灵活。数据分割的标准很多:如日期、地域、业务领域等。一般而言, 分割标准应包括日期项,它使分割数据自然而均匀。 2 1 3数据仓库的设计 数据仓库的设计和创建是一个分布实施的连贯过程,在确定用户需求的 基础上,完成数据仓库的设计和建立、提取和加载,最后进行长期的使用和 维护。从系统的角度看,数据仓库的建立首先必须明确其设计方法,针对解 决问题的短期性或长效性,将数据仓库设计方法分为以下三种: ( 1 ) 自顶向下的方法:该方法把企业需求作为实现数据仓库的首要任务, 其成本、难度和时间花费都远远大于自下向上的方法,一般适合于取得长期 效益。 ( 2 ) 自底向上的方法:该方法适合设计较小的、更集中的数据仓库应用, 可以简化整体处理过程,为兼顾缩短开发时间和可缩放企业应用提供了折中 的方案,是快速实现数据集市、部门数据仓库的有效手段。 ( 3 ) 联合方法:以上两种方法的合成,企业在保持自底向上方法实现和 机遇应用的同时,利用自顶向下方法的规划和决策,为企业建立长远决策方 案提供了可能n ,。 选定设计方法后,进行数据仓库的具体构建和设计。首先确定系统的总 体设计方案,包括决策需求与主题域,并确定系统的软、硬件及环境。根据 决策主题设计数据仓库结构,一般采用星形模型或雪化模型设计其数据模 型,在设计过程中应保证数据仓库的规范化和体系中各元素的必要联系。 主题方案设计完成,进入数据模型设计阶段。该阶段的主要工作包括确 定当前要加载的主题,进行粒度划分、数据分割、关系模式和记录系统的定 义等,并把相关内容记录到元数据中。数据仓库的物理数据模型,主要用于 确定数据的存储结构、索引策略、存放位置、内存储器分配等。 数据仓库的构建,还包括与操作型系统的接口和数据仓库本身的设计两 部分内容,就是完成数据的存储和加载。 与操作型系统接口的设计主要是指数据抽取、清理、转化和刷新策略的 设计。从多个不同的数据源中抽取数据,完成从操作型数据库到数据仓库的 转变需要大量细致的工作,需要解决数据的不一致性,保证数据的质量。 将数据载入数据仓库是任何o l a p 程序的一个非常重要的任务,主要解 决从不同的数据源中提取数据,将不同系统中的可操作数据根据需要装载到 数据仓库中 西南科技大学硕士研究生学位论文第1 1 页 数据仓库从建立之初就应该保证它的客观性,一个企业可能建立几个数 据仓库或数据集市,但它们可共用一个元数据库对其进行管理,元数据的质 量决定整个数据仓库的质量。当运行环境、结构及目标数据的维护计划发生 变化时,元数据随之修改。 建立数据仓库的最终目的,是使用户能够很方便地运用数据仓库这一综 合性决策支持环境以获取有价值的信息,协助管理阶层对不断变化的环境作 迅速、准确的判断和找出相应的对策。为了实现这一目标,服务于用户的前 端工具必须能被有效的集成到数据分析环境中去。只有具备了o l a f 查询分 析工具、d s s 分析预测工具和数据挖掘的知识发现工具的数据仓库系统才能 真正高效地利用数据仓库中蕴藏的大量宝贵信息“。 2 2联机分析处理( 0 l a p ) 2 2 1 0 l a p 的概念 联机分析处理o l a p ( o n 1 i n ea n a l y t i c a lp r o c e s s i n g ) 最早是由关系数据 库技术的泰斗之一的e f ,c o d d 在1 9 9 3 年提出的n n “。根据o l a pc o u n c i l 的 白皮书的定义,o l a p 技术可以对存放在数据库中的数据进行分析处理,并 以多维视图的形式呈现给数据分析人员、管理人员等需要对原始数据进行统 计分析的用户。这种以“事实”为中心的多维视图比传统的二维关系模型更 能真实、直观反映出现实中某一实体与其它实体之间的关系。因此,用户通 过o l a p 技术这一快捷可靠的途径可以方便的对数据进行更深入的访问,获 取隐藏在海量数据中的重要信息m ,。 o l a p 的体系结构如图2 2 ,其中多维数据库( m u l t id i m e n s i o n a l d a t a b a s e ,m d d b ) 反映了数据内部的多维特性。它把数据存储在一个多维 立方体里,从而快速检索到相关的多维数据“”。 o l a p 建立在数据多维视图的基础上,它的特征可以概括为多维性、快 速响应性、分析性、信息性和共享性,表现在:系统能在5 秒内对用户的大 部分分析要求做出反应;能处理与应用有关的任何逻辑分析和统计分析;提 供对数据的多维视图和分析,包括对层次维和多层次维的完全支持;不论数 据量有多大,也不管数据存储在何处,系统都能及时获得信息,并管理大容 量信息“- ,。 维是人们观察数据的一些特定角度,是考虑问题的一类属性集合。它是 西南科技大学硕士研究生学位论文第12 页 主题的基础,和对主题的一种类型划分。例如患者的职业分布可以是一个职 业维;患者或者疾病的地理分布可以构成地理维;而各种疾病治疗过程产生 的相应费用情况则可以构成费用维。 维的层次是指人们观察数据的某个特定角度( 即某个维) ,可以存在细 节程度不同的多个描述方面。一个维往往具有多个层次。例如,时间维可以 向下划分出年、季度、月份、日期等不同的层次;地理维可以划分为省、市、 县、乡等层次。 分析程序创 关系d b s 产 图2 - 20 l a p 体系结构 fig 2 2t h ef r a m e w o r ko f0 l a p 维成员是维的一个具体取值,也就是数据项在某维中位置的描述。如果 一个维是多层次的,那么该维的维成员就是在不同维层次的取值的组合。例 如,我们假设时间维具有年、月份、日期这三个层次,分别在年、月份、日 期上各取一个值组合起来,就得到了时间维的一个维成员,即“某年某月某 日”。一个维成员并不一定在每个维层次上都要取值。 度量值是一组值,它提供了最终用户感兴趣的数值,描述了数据的实际 意义。度量值是所分析的多维数据集的中心值,是最终用户浏览多维数据集 时重点察看的数字数据,是各维交叉的结合点。一般情况下,度量值是一个 数值度量指标,例如单价、数量等。 多维数据集是包含维度和度量值的多维数组结构。一个多维数据集可以 表示为:( 维1 ,维2 ,维n ,度量值) 。当多维数据集的每个维度选择 一个维成员,这些维成员的组合就唯一确定了一个度量值。例如,在销售数 据仓库中,对于销售而言,按时间、地点、产品三个维度分析,加上度量值 “销售额”,就组成了一个多维数据集。各维度分别取值“2 0 0 5 年1 月”、 “重庆”、“手机”,就唯一确定了度量值“销售额”的一个值( 例如9 0 0 ) 。 西南科技大学硕士研究生学位论文第1 3 页 在多维数据库中,当维数等于“3 ”时,多维数组构成一个数据立方体; 当维度大于三时,多维数组便成了人们不能想象的超立方体。我们用立方体 的形式来描述多维数据库中数据的存储,称为立方体( c u b e ) 。一个多维数 据集就是一个立方体,是包含维度和度量值的多维结构。维度定义立方体的 结构,而度量值提供最终用户感兴趣的数值。立方体内的单元位置由各维度 成员的交集确定,通过对度量值进行聚合得到单元中的值n ”。 2 2 20 l a p 数据组织方式 利用o l a p 技术进行数据分析,数据组织方式非常重要,它将直接影响 数据分析和挖掘的速度和质量。目前o l a p 工具在实现上,主要有两种数据 组织方式,一种是建立专用的多维数据库系统,另一种是利用现有的关系数 据库技术来模拟多维数据。 对多维数据集的存储和管理采用分区方式,分区能够使得多维数据集中 的各种数据分布在多台服务器中,分区方式对用户是透明的。对一个多维数 据集进行分区后,还可以将其各个分区重新组合在一起。每个分区都有一种 存储模式,一般有以下三种存储模式:多维o l a f ( m o l a p ) 、关系o l a f ( r o l a p ) 和混合型o l a p ( h o l a p ) n ”。 ( 1 ) 基于多维数据库的o l a p 实现( m o l a p ) m o l a p 利用一个专有的多维数据库来存储o l a p 分析所需的数据,数 据以多维方式存储,并以多维视图方式显示。 在s q ls e r v e r2 0 0 0 中。多维数据库是由许多经压缩的类似于数组的对 象构成,这些对象中的维关键字经过压缩并使用位图索引结构。每个对象由 聚类成组的单元块组成。每个单元块都按类似于多维数组的结构存储,并通 过直接偏移计算进行存取。由于索引只需一个较小的数来表示单元块,因此 多维d b 的索引较小,只占数据空间的一小部分,可以完全放进内存。在实 际分析过程中,可能需要把任一维与其他维进行组合,因而需要有“旋转”、 “切片”等操作,最终以多维方式显示数据。 m o l a p 结构的主要优点是能够快速的响应用户的分析请求,其主要缺 点是预处理操作是预先定义好的,这就限制了m o l a p 结构的灵活性。但当 初始数据集很大,需要增加一个批处理对原始数据仓库立方体进行处理时, 通常选择m o l a p 方法。 ( 2 ) 基于关系数据库的o l a p 实现( r o l a p ) r o l a p 以关系数据库作为底层数据库,功能类似于m o l a p 。其结构是 西南科技大学硕士研究生学位论文第1 4 页 由事实表和维表组成,事实表和维表均以关系数据库的关系表形式存储。事 实表的每一行包含了度量值和每一维的维标识符,每个维表用来表示维的层 次和所包含的成员。 r o l a p 存储结构以星型或雪花型关系结构进行多维数据的表示和存 储。对某些层次复杂、成员类较多的维采用多张表来描述,而对于较为简单 的维用一张表来描述。一般来说,把事实表和维表连接起来,经一次查询, 就可以从事实表中选取事实。它使用户及分析人员可以用商业名词( 元数据 或标记) 来描述一个需求,该需求会被重新翻译成维代码或值。但是,由于 对每一个维都需要一次连接,当维数增加或事实表增大时,性能上会受到影 响,此时必须采取有效的查询优化技术来提高系统性能。 使用r o l a p 结构进行处理时,用户通过客户端工具提交多维分析请求 给o l a f ,由o l a p 将这一请求动态地转换成s q l 或m d x 语句执行,分析 的结果经过多维处理转化为多维视图返回给用户。 r o l a p 结构的主要特点是灵活性强,用户可以动态定义统计或计算方 法,主要缺点在于它对用户的分析请求处理时间比m o l a p 长,这是因为数 据的预处理程度一般比较低,如果预处理程度太高,会造成大量数据冗余, 增加管理和维护的复杂性。 ( 3 ) 两者的混合结构( h o l a p ) h o l a p ( 混合型) 结构是将m o l a p 和r o l a p 两种结构的技术优点有 机地结合起来。 实现h o l a p 一般有以下几种方法,一是同时提供多维数据库和关系数 据库管理系统,让开发人员选择;二是在运行时把对关系数据库的查询结果 存入多维数据库,在这种方法中h o l a p 系统按一定的先后顺序使用m d d b 和r d b m s 。h o l a p 系统利用开发人员定义一个静态结构的多维模型来暂存 运行时检索出的数据;三是利用一个多维数据库存储高级别的综合数据,同 时用r d b m s 存储细节数据。第三种方法目前被认为是实现h o l a p 结构较 理想的方法,它结合了m o l a p 和r o l a p 的优点。s q l s e r v e r2 0 0 0 就是采 用这种方案n “。 西南科技大学硕士研究生学位论文第1 5 页 2 3数据挖掘 2 3 1数据挖掘定义 1 9 8 2 年,趋势大师约翰奈斯比( j o h nn a i s b i t t ) 在他的首部著作大趋 势( m e g a t r e n d s ) 中提到:“人类正被信息淹没,却饥渴于知识。”计算 机硬件技术的稳步进步为人类提供了大量的数据收集设备和存储介质;数据 库技术的成熟和普及使人类积累的数据量猛增;i n t e r n e t 的出现和发展将整 个世界里连为一体,人们可以在网上无距离地进行信息交换和协同工作。面 对日趋爆炸的信息量,人们需要最优的方式进行数据的存储、信息的分析和 知识的发现。数据挖掘( d a t am i n i n g ,d m ) 技术就是在这样的时代背景下应 运而生的“,。 数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含的、预先不知道的、但又潜在有用的信息和知识的过程。数据挖掘 的相近术语,包括知识发现、数据分析、数据融合( d a t af u s i o n ) 以及决策 支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。 原始数据可以是结构化的,如关系数据库中的数据,也可以是半结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基于系统方法论的企业知识管理实施路径与创新研究
- 基于系统动力学的中国海洋经济可持续发展系统模型构建与应用
- 公司晚会主持词模板
- 青年创业教育平台蓝图
- 2025年考研专业课直播课合同协议合同
- 采购2025年服装批发市场采购合同协议合同二篇
- 2025年特许经营酒店管理服务合同协议合同
- 2025年人力资源师培训合同协议合同
- 采购2025年农产品深加工设备采购合同协议合同
- 采购2025年工业机器人租赁采购合同协议合同二篇
- 2025年运输经理招聘面试参考题库及答案
- 北欧风格室内设计讲解
- 2025专职消防员聘用合同
- 2025亚洲烟草产业市场供求状况及投资前景规划研究报告
- 边界联检工作总结
- XX集团董事会2025年度工作报告
- 全科医学科慢性病综合管理指南
- 2026年气溶胶灭火系统市场研究报告
- 兄弟放弃继承协议书
- 矿山个人劳务合同范本
- 2025年消防日消防月主题知识培训
评论
0/150
提交评论