数据仓库和数据挖掘在医院信息系统中的应用_第1页
数据仓库和数据挖掘在医院信息系统中的应用_第2页
数据仓库和数据挖掘在医院信息系统中的应用_第3页
数据仓库和数据挖掘在医院信息系统中的应用_第4页
数据仓库和数据挖掘在医院信息系统中的应用_第5页
已阅读5页,还剩148页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、摘 要 随着信息化的迅猛发展,各医院都在建立自己的信息系统,数据库规模不断 扩大,复杂程度度日益增加,从从大量的数据据中提取有用用的信息供医医院的决策服服务就 显得尤为重要。 目前前医院信息系系统(HISS)的实现,绝绝大部分采用用的是传统数数据库技术,数数据 处理以操作型处处理为主,即即联机事务处处理(OLTTP)。尽管管产生了大量量的业务数据据, 但真正对决策有有用的信息却却很少,而且且也造成了历历史数据和当当前数据、操操作数据 和分析数据的利利用与管理的的冲突。为了了解决这一问问题,数据仓仓库技术应运运而生。 北京肿肿瘤医院有其其自身的特殊殊性,治疗上上不同于其它它医院,因此此对于信息统

2、统 计、分析和管理理决策上有其其特殊要求。本本论文以FF在建设的肿肿瘤医院数据据仓库为 例,首先介绍了了数据仓库(Dw)和数数据挖掘(DDM)在肿瘤瘤医院应用课课题的来源;其次, 阐述了数据仓库库和数据挖掘掘的基本概念念,数据挖掘掘的方法、算算法,还有数数据挖掘、 在线分析(OLLAP)和决决策支持(DDSS)的差差异。最后,介介绍了肿瘤医医院数据仓库库建 立和应用的全过过程。包括阐阐述了医院信信息系统(HHIS)的基基本概念、医医院分析数据据 的历史方法及医医院信息管理理中存在的问问题。肿瘤医医院HIS数数据库的结构构设计,数 据仓库建立过程程中的数据准准备,数据仓仓库的架构、存存储,维度和

3、和粒度设计,主主题 抽取和确定,建建立多维数据据模型及多维维数据分析,数数据仓库和数数据挖掘的主主要功 能及医院实际应应用。 关键词:医院信信息系统;数数据仓库;数数据挖掘 Abbstracct Withh the fast devellopmennt of inforrmatioontechhnologgy,hosspitalls havve esttablisshed their own iinformmationn systtemsAAnd thhe scaale oof dattabasee hass beenn conttinuouusly extendiing anndthe co

4、mpllexityy beenn drammaticaally iincreaasing sincee the daythhe sysstem wwas builtUUnder this circuumstannce,too seleect thhe rigght innformaation from a masss of data for thehosppitalS deccisionnmakinng is ofuttter immportaance Theese daays thhe traaditioonal ttechniique,nnamelyy Online Trannsactii

5、on Prrocesssing (OUTP),is tthe prrimaryy waytto reaalize theHoospitaal Infformattion SSystemm(HIS)Althhou曲 a lot ofdatta cann be aacquirred byy thiss way,few oof theem aree usefful foor makking ddecisiions WhatS more,iin terrms off utillizatiion annd mannagemeent,itt causses thhe connfusioon bettwee

6、n historiical ddata aand cuurrentt dataa and the cconfliict beetweennoperaation data and aanalyssis daata To solvve thiis prooblem,tthe teechnollogy oof Datta Warrehousse(DW)emergges ass the timess requiree Commparedd withh otheer hosspitalls,Beiijing Canceer Hosspitall has its oownparrticullarityy,

7、 adoptiing ddifferrent methoods iin trreatmeentsFFor thhis reaason,iit haas soome sspeciffic requireementss on tthe sttatisttic,annalysiis andd manaagemennt of inforrmatioonThiis papper taakes the daata waarehouuse off Beijjing Canceer Hosspitall,whicch is beinng esttablisshed,aas ann examplle to in

8、trroducee:firsstly,tthe orrigin of DData WWarehoouse(DDW)andd Dataa Miniing (DM)inn the appliicatioon suubjectts of the ccancerr hosppital;Seconndly,tthe ffundammentall conceppt of DWandd DM,tthe meethod and aarithmmetic of DMM,and the ddifferrence amongg DM,OLAPP and DSS;llastlyy,the entirre couurs

9、e aabout howthhewareehousee was estabblisheed and ussed,inncludiing thhe bassic coonceptt of HHIS,thhe hisstoriccal meethod of annalyziing daata, the prroblemms invvolvedd in tthe maanagemment oof infformattion,tthe sttructuure deesign of thhe warehouuse,daata prreparaation dudngg the estabblishiing

10、 peeriod,tthe frramewoork annd stoorage of thee DW,ddesignn of ddimenssionallity aand ggranullarityy,absttractiing aand coonfirmming subjeccts,buuildinng mulltidimmensioonal ddata mmodel and aanalyzzing mmultiddimenssionall dataa, themaiin funnctionn ofDWW andDDMand someppractiical uuses iin hosspit

11、alls KeyWorrds:Hoospitaal InfformattionSyystem;Data Warehhouse;Data Mininng 图21多维立立方体9 图22企业中中数据仓库结结构10 图23大肠癌癌的决策树示示意图13 图31 医院信息息化的层次20 图32医院HHIS中四个个表的关系图图25 图33数据仓仓库所需要的的4个表的关关系27 图34费用随随时间变化的的过程图28 图35医院数数据仓库的架架构29 图36星型模模型30 图37肿瘤医医院多维立方方体的关系图图33 图38 多维数据据分析33 图39费用分分布图36 图310胃癌癌病人外科手手术的术前准准备天数

12、36 图3,11 200012004病病人数量的分分析图388 图312多维维立方体结构构图38 图313所有有诊断的费用用分布39 图314树形形显示的效果果39 图315饼图图显示效果40 图316病人人职业构成40 图317 Anaalysiss Servvices中中的聚集441 图318决策策树的树形表表示方法42 图319决策策树的公式表表示方法42 图320大肠肠癌术后决策策树部分图45 11引言 本章章主要是文献献综述,并介介绍了数据仓仓库、数据挖挖掘技术应用用于肿瘤医院院进 行的研究工作,最最后给出论文文的内容安排排。 111文献献综述 随着着计算机应用用的网络计算算的发展,

13、计计算正向两个个不同的方向向拓展:一个个是 广度计算,二是是深度计算。广度计算算是把计算机机的应用范围围尽量扩大,同同时实 现广泛的数据交交流。深度计计算是人们对对以往计算机机的简单数据据操作。目前前,深度 操作己提出了更更高的要求,希希望计算机能能够更多的参参与数据分析析与制定决策策的工 作。传统的数据据库技术是单单一的数据库库资源,它适适合操作型事事务处理,但但分析型 处理(或信息型型处理)能力力较弱【2】。数数据仓库(DDataWaarehouuse。DWW)的出现,将将 操作型环境和分分析型环境进进行了分离,划划清了数据处处理的分析型型环境与操作作型环 境之间的界限,从从而由原来的的以

14、单一数据据库为中心的的数据环境发发展为一种以以数据 仓库为中心的新新的体系化环环境【3】。 近十十几年,随着着科学技术飞飞速的发展,社社会和经济都都取得了极大大的进步,与与 此同时,在各个个领域产生了了大量的数据据,如人类对对太空的探索索,银行每天天的巨额 交易数据。显然然在这些数据据中的信息非非常的丰富,如如何处理这些些数据得到有有价值 的信息,人们进进行了有益的的探索。44】计算机技技术的迅速发发展使得处理理数据成为可可 能,这就推动了了数据库技术术的极大发展展,但是面对对不断增加的的如潮水般的的数据, 人们不再满足于于数据库的查查询功能,提提出了深层次次的问题:能能不能从海量量数据中 提

15、取信息或者知知识为决策服服务。仅就数数据库技术而而言已经显得得无能为力了了,同样, 传统的统计技术术也面临着极极大的挑战【551。这就急急需有新的手手段、新的技技术来处理 这些巨量数据。于于是,人们结结合统计学、数数据库、机器器学习等技术术,提出数据据挖 掘(Data Mininng,DM)来解决这一一难题【6。 11111国内外现状状 在国国外,数据挖挖掘已经有不不少成功案例例。数据挖掘掘首先在金融融、证券、电电信、 零售业等数据密密集型行业实实施,因为这这些行业信息息化程度比较较高,数据库库中已经 保留了大量数据据资源。例如如,总部位于于美国阿肯色色州的世界著著名商业零售售连锁企业 沃尔玛

16、(Wall Martt)的”尿布与啤酒酒”的故事。沃沃尔玛拥有世世界上最大的的数据仓库 系统,通过数据据挖掘工具,得得到了一个意意外发现:跟跟尿布一起购购买最多的商商品竟 然是啤酒。进一一步的分析,揭揭示了隐藏在在”数据关联”背后的行为为模式,”啤酒与尿 布”的著名故事事,可谓是数数据挖掘产生生巨大价值的的经典案例。当当企业拥有大大量的数 据之后,如何从从这些数据中中”攥出油水”,才是企业业信息化价值值体现的最终终目的。 有数数据表明,进进入二十世纪纪90年代,人人类积累的数数据量以每月月高于15的速 度增加,如果不不借助强有力力的挖掘工具具,仅依靠人人的能力来理理解这些数据据是不可 能的。

17、数据据挖掘的前景景被人们普遍遍看好。国际际知名调查机机构Garttner GGroup在在高级 技术调查报告中中,将数据挖挖掘和人工智智能列为“未来三到五五年内将对工工业产生深 远影响的五大关关键技术”之首,还将将并行处理体体系和数据挖挖掘列为未来来五年内投 资焦点的十大新新兴技术前两两位【”。Garttner的调调查报告预计计:到20110年,数据据挖 掘在相关市场的的应用将从目目前少于5增加到超过过80。美美国银行家协协会预测数据据 仓库和数据挖掘掘技术在美国国商业银行的的应用增长率率是1499。 与国国外相比,国国内对知识发发现的研究较较晚,而且较较为分散,没没有形成整体体力 量。90年

18、代,国国家自然科学学基金曾支持持过对该领域域项目的研究究,但实际应应用不多。 目前,国内的的许多科研单单位和高等院院校竞相开展展知识发现的的基础理论及及其应用研 究,这些单位包包括清华大学学、中科院计计算技术研究究所、空军第第三研究所、海海军装 备论证中心等【881。其中,北北京系统工程程研究所对模模糊方法在知知识发现中的的应用进 行了较深入的研研究,北京大大学也在开展展对数据立方方体代数的研研究,华中理理工大学、 复旦大学、浙江江大学、中国国科技大学、中中科院数学研研究所、吉林林大学、北京京理工 大学等单位开展展了对关联规规则开采算法法的优化和改改造;南京大大学、四川联联合大学 和上海交通大

19、学学等单位探讨讨、研究了非非结构化数据据的知识发现现以及Webb数据挖掘。 虽然然国内有很多多大学和研究究机构从事数数据仓库技术术的研究,但但到目前为止止, 国内基本上没没有成熟的数数据仓库解决决方案。在医医疗行业的应应用更是少之之又少。 目目前提供数据据挖掘产品的的厂商非常多多,如著名的的产品有SAAS Entterpriise Miner、NNCR TTeradaata WWarehoouse Minerr、SPSSS Clemmentinne 70、IBMM DB22 Intellligentt Minee、SQL Serveer 20000数据挖掘掘组件、Orracle99i Datt

20、a Minning、 CA C1evverPatth Preedictiive AnnalysiiS Seerver、DDMinerr等。这些产产品各有特色色: NCR、IBMM、ORACCLE等数据据挖掘工具可可以直接在数数据库上进行行挖掘;SAAS提供了数数 据获取、取样、筛筛选、转换工工具来构造要要挖掘的数据据集;SPSSS针对具体体应用领域 推出了多个应用用模版,以简简化应用开发发过程。 Microosoft将将OLAP功功能集成到 Microsooft SQQL Seerver 70中,提提供可扩充的的基于COMM的OLAPP接口。它通通过一 系列服务程序序支持数据仓仓库应用。数数据

21、传输服务务DTS(DData TTransfformattion Servicees)提供数数据输入输输出和自动调调度功能,在在数据传输过过程中可以完完成数据 的验证、清洗洗和转换等操操作,Miccrosofft Offfice 22000套件件中的Acccess和EExcel 可以作为数据展展现工具,另另外SOL Serveer还支持第第三方数据展展现工具。 12数据仓仓库和数据挖挖掘在医院应应用的课题来来源 随着着计算机技术术的飞速发展展和企业不断断提出新的需需求,传统的的数据库技术术以 单一的数据资源源,即数据库库为中心,进进行事务管理理、批处理以以及各种类型型的数据 处理工作。不同同类

22、型的数据据处理有着不不同的处理特特点,以单一一的数据组织织方式进 行组织的数据满满足不了数据据处理的多样样化的要求,因因此数据仓库库技术应运而而生。 数据仓库技术以以传统的数据据库作为存储储数据和管理理资源的基本本手段,以统统计分析 技术作为分析数数据和提取信信息的有效方方法,它是诸诸多学科相互互结合、综合合利用的 技术。 北京京肿瘤医院已已经运行了医医院管理系统统将近5年的的时间,积累累了大量的数数据, 还有其他的独立立的信息系统统的数据,比比如(放射科科、检验科、医医疗保险),而而这些 数据由于彼此独独立并且成为为历史,没有有得到再利用用。目前,有有极少的医院院能够整 合这些数据,充充分利

23、用。在在此基础上,为为了便于领导导查询、分析析并支持决策策,本 人在完成硕士论论文期间提出出了“数据仓库和和数据挖掘在在肿瘤医院中中的应用”这个 研究题目,并在在医院中也申申请了“肿瘤医院数数据仓库的建建立和应用”研究课题。 本论论文正是围绕绕着建立肿瘤瘤医院数据仓仓库以及在此此基础上的分分析和数据挖挖掘 来讨论数据仓库库技术及联机机分析技术、数数据挖掘技术术的。 13论文的工工作 本文文研究的主要要内容是首先先以一、两个个病种为例,从从肿瘤医院现现有的HISS数 据出发,探讨建建立管理信息息数据仓库(Data Warehhouse)的方法;其其次能够在此此基 础上,开展单病病种费用研究究,使

24、用新的的费用管理指指标,应用数数据挖掘技术术(Dataa Mining)中的粗糙集集理论对过度度诊断和治疗疗的识别问题题进行试分析析。本文主要要工 作包括以下几个个方面: 数据预处理理的研究 由于于数据库系统统所获数据量量的迅速膨胀胀(已达G或或T数量级),从而导致致了现 实世界数据库中中常常包含许许多含有噪声声、不完整、甚甚至是不一致致的数据。显显然对 数据挖掘所涉及及的数据对象象必须进行预预处理。 数据据预处理主要要包括:数据据清洗(daata clleaninng)、数据据集成(daata interggratiOOn)、数据据转换(daata trransfoormatiion)、和和

25、数据消减(data reducctiOn) 数据仓库建建立过程的多多维分析的实实现 本文文介绍了利用用微软的Annalysiis Serrvicess工具在已经经进行整理的的数据的基 础上建立一个数数据仓库的过过程,包括如如何设计主题题、维度、粒粒度,对数据据仓库进 行钻取、旋转等等操作,如何何存储数据仓仓库,以及如如何用可视化化工具进行进进一步分 析的全过程。 数据挖掘的几几个算法的尝尝试 在已已有数据的基基础上,找出出一些完整的的、有分析价价值的数据,利利用数据挖掘掘 中的一些算法如如(决策树IID3算法、聚聚集、粗糙集集中RSL语语言)来对数数据进行试 探性的数据挖掘掘。并用微软软的An

26、allysis Serviices中的的数据挖掘模模型来实现决决策 树和聚集方法的的数据挖掘,并并得到有用的的知识。 下一步工作的的展望 由于于时间和人力力的原因,本本文只能做些些探讨性的分分析和研究,整整个工作尚不不 能成为成熟的可可应用于实际际的工具。但但本人已在医医院中申请了了这个项目的的课题, 并已经被批准,并并得到了院长长、科主任的的高度重视。因因此会在未来来重点地研究究, 并希望能够得到到理想的效果果。 此项项工作与HIIs的区别 联机机分析技术(OLAP)就是对大量量信息进行复复杂分析操作作和决策制定定的软件系 统。为了提高效效率和有效性性,必须把分分析型数据从从事务处理环环境中

27、提取出出来,按 照决策支持系统统处理的需要要进行重新整整合,建立单单独的分析处处理环境。数数据仓库 正是为了构建这这种新的分析析处理环境而而出现的一种种数据存储和和组织技术。与与HIS 不同之处在于,数数据仓库是对对历史数据的的批处理操作作、按照主题题进行分解合合并重 新组织,是深层层次分析利用用的基础。HHIS主要作作用是使让大大量的日常业业务(如挂号号、 划价、收费、结结算等等)电电子化,以提提高医院工作作效率和工作作质量。HIIS的应用是是 面向联机事务处处理(OLTTP)。 14论文的的组织结构 全文文分为三章各各章组织如下下: 第一一章,为引言言,主要内容容有研究的技技术背景,本本篇

28、论文主要要工作、组织织结 构的介绍。 第二二章,介绍了了数据仓库的的概念和体系系结构;数据据挖掘的方法法、算法;多多维 数据分析和数据据挖掘与决策策支持的联系系与区别。 第三三章,是对在在肿瘤医院建建立数据仓库库全过程的详详细描述,包包括医院信息息管 理系统的介绍和和国内外的动动态:医院分分析数据的历历史方法,存存在的问题以以及数据 仓库架构、数据据存储、粒度度和维度的设设计、主体的的提取和确定定、数据仓库库实现的 功能;数据挖掘掘的应用实例例,有几种算算法的演示和和说明。 最后后,为结束语语包括了对上上述论文的总总结,和对下下一步工作的的展望。 第2章数数据仓库与数数据挖掘 21数据仓库库的

29、定义 211数据据仓库的定义义 信息技技术的不断推推广应用,将将企业带入了了一个信息爆爆炸的时代。每每同、每时、 每刻都有潮水般般的信息出现现在管理者的的面前,等待待管理者去处处理、去使用用。这些 管理信息的处理理类型主要是是对管理信息息的处理类型型,主要有事事务型处理和和信息型 处理两大类。事事务型处理,也也就是通常所所说的业务操操作处理。这这种操作处理理主要 是对管理信息进进行日常的操操作,对信息息进行查询和和修改,目的的是满足组织织特定的 日常管理需要要【9。在在信息型处理理中管理者关关心的是信息息能否得到快快速的处理,信信 息的安全性能否否得到保证,对对信息作进一一步的分析,为为管理人

30、员的的决策提供支支持。 例如如,为决策支支持系统、经经理信息系统统、战略信息息系统等提供供信息分析的的支 持。这种类型的的信息处理在在现代企业中中的应用越来来越广泛,越越来越引起管管理人员 的重视。管理理信息的信息息型处理,必必须访问大量量的历史数据据才能完成;而不像事 务型处理那样,只只对当前的信信息感兴趣1。因此,在在信息型处理理中,产生了了与操 作性处理所采用用的传统数据据库有很大差差异的数据环环境要求。 目目前,数据仓仓库一词尚没没有一个统一一的定义,著著名的数据仓仓库专家WHInmmon 在其著作Buuildinng theeData Warehhouse)一书中给给予如下描述述:数

31、据仓库库(Dataa Warehouuse)是一一个面向主题题的(Subbject Oriennted)、集集成的(Inntegraate)、相相 对稳定的(NoonVolattile)、反反映历史变化化(Timee Variiant)的的数据集合,用用于支 持管理决策。对于数据据仓库的概念念我们可以从从两个层次予予以理解,首首先,数据 仓库用于支持决决策,面向分分析型数据处处理,它不同同于企业现有有的操作型数数据库; 其次,数据仓库库是对多个异异构的数据源源有效集成,集集成后按照主主题进行了重重组, 并包含历史数据据,而且存放放在数据仓库库中的数据一一般不再修改改。 根据据数据仓库概概念的含

32、义,数数据仓库拥有有以下四个特特点: l、面面向主题。操操作型数据库库的数据组织织面向事务处处理任务,各各个业务系统统之 间各自分离,而而数据仓库中中的数据是按按照一定的主主题域进行组组织。主题是是一个抽 象的概念,是指指用户使用数数据仓库进行行决策时所关关心的重点方方面,一个主主题通常 与多个操作型信信息系统相关关。 2、集集成的。面向向事务处理的的操作型数据据库通常与某某些特定的应应用相关,数数据 库之间相互独立立,并且往往往是异构的。而而数据仓库中中的数据是在在对原有分散散的数 据库数据抽取、清清理的基础上上经过系统加加工、汇总和和整理得到的的,必须消除除源数 据中的不一致性性,以保证数

33、数据仓库内的的信息是关于于整个企业的的一致的全局局信息。 3、相相对稳定的。操操作型数据库库中的数据通通常实时更新新,数据根据据需要及时发发 生变化。数据仓仓库的数据主主要供企业决决策分析之用用,所涉及的的数据操作主主要是数 据查询,一旦某某个数据进入入数据仓库以以后,一般情情况下将被长长期保留,也也就是数 据仓库中一般有有大量的查询询操作,但修修改和删除操操作很少,通通常只需要定定期的加 载、刷新。 4、反反映历史变化化。操作型数数据库主要关关心当前某一一个时间段内内的数据,而而数 据仓库中的数据据通常包含历历史信息,系系统记录了企企业从过去某某一时点(如如丌始应用 数据仓库的时点点)到目前

34、的的各个阶段的的信息,通过过这些信息,可可以对企业的的发展历 程和未来趋势做做出定量分析析和预测【112】。 212数据据仓库与数据据库比较 从“库”到“仓库” 数据据仓库,是在在数据库已经经大量存在的的情况下,为为了进一步挖挖掘数据资源源、 为了决策需要而而产生的,它它决不是所谓谓的“大型数据库库”。那么,数数据仓库与传传 统数据库比较,有有哪些异同呢呢, 如表211所示: 表221数据库库和数据仓库库的对比裹【113】 对比内容 数据库 数据仓库库 数据内容 当前值 历史的、存存档的、归纳纳的、计算的的 数据 数据目标 面向业务务操作程序重重复处理 面向主题题域,分析应应用 数据特性 动态

35、变化化按字段更新新 静态、不不能直接更新新,只能定时时添 加、刷新新 数据结构 高度结构构化复杂化和和操作计算 简单适适合分析 使用频率 高 中到低 数据访问量 每个事务务之访问少量量记录 有的事务务可能需要访访问大量记录录 对响应时间的要要求 以秒为单单位计算 以秒、分分钟甚至小时时为计算单位位 数据据仓库的出现现,并不是要要取代数据库库。目前,大大部分数据仓仓库还是用关关系 数据库管理系统统来管理的。可可以说,数据据库、数据仓仓库相辅相成成、各有千秋秋【l。 213数据据仓库的体系系结构 数据据仓库的体系系结构分为数数据获取层、数数据存储层、数数据挖掘层等等多个部分。 1数据获取层层 数据

36、据获取层把决决策主题所需需要的数据(当前的、历历史的),从从各种相关的的业务 数据库或数据文文件等外部数数据源中抽取取出来,进行行各种必要的的清洗、整合合和转换 处理,再将这些些数据集成存存储到仓库中中”。数据获获取层在数据据仓库的整体体系统应 用中占有非常重重要的地位。 2数数据存储层 数据存存储层以一定定的组织结构构存储各种主主题数据。数数据仓库包括括多个主题, 一个主题的数据据通常存储在在一个数据库库中,包括该该主题的一些些综合性表,如如主题 中选择的事实表表、维表,还还有为数据挖挖掘生成的中中间表等。 3数数据挖掘层 数据据挖掘层集成成各种数据挖挖掘的算法,包包含具有很强强功能的数据据

37、挖掘工具, 可以提供灵活有有效的任务模模型、组织形形式,以支持持各项决策的的数据挖掘任任务。 数据据挖掘与数据据仓库的概念念是密不可分分的,数据挖挖掘要求有数数据仓库作为为基 础,并要求数据据仓库已经存存有丰富的数数据。数据挖挖掘比本文后后面谈到的多多维分析 更进一步。举例例,假如以某某类产品的销销售情况为例例,如果管理理人员要求比比较各个 区域某类产品销销量在过去一一年的情况,可可以从多维分分析中找答案案。但是,如如果管 理人员要问为何何一种产品销销量在某地区区的情况突然然变得特别好好或不好,或或者问该 产品在另一地区区将会怎样,这这些是用多维维分析工具难难以简单解决决的问题,就就需要 利用

38、数据挖掘工工具寻找回答答。 在实实旌智能化决决策时,一般般分为两个步步骤:第一步步实现数据仓仓库和多维分分析, 构造智能决策的的基础,实现现分析应用:第二步实现现数据挖掘,再再发挥智能化化决策 的特色【l”。数数据挖掘是数数据利用价值值的再发现,它它突破了传统统意义上的数数据查询, 是在更大的尺度度上、更深的的层次中对数数据提高利用用的价值,是是数据仓库应应用的关 键。 214联机机分析处理(OLAP) 1联机分析处处理(OLAAP)的概念念 联机机分析处理(OLAP)的概念最早早是由关系数数据库之父EEFCoodd于19993年 提出的,他同时时提出了关于于OLAP的的12条准则则。OLAP

39、P的提出引起起了很大的反反响, OLAP作为一一类产品同联联机事务处理理(OLTPP)明显区分分开来【177。 当今今的数据处理理大致可以分分成两大类:联机事务处处理OLTPP(0nLine Transacction Proccessinng)、联机机分析处理OOLAP(OOnLine Anallyticaal Processsing)。OOLTP是传传统的关系型型数据库的主主要应用,主主要是基本的的、日常的 事务处理,例如如银行交易【11”。OLAPP是数据仓库库系统的主要要应用,支持持复杂的分析析 操作,侧重决策策支持,并且且提供直观易易懂的查询结结果。表22列出了OOLTP与OOLAP

40、之间的比较。 表表22 OLPP与OLTPP比较【199 OLLTP OLAAP 用用户 操操作人员低低层管理人员员 决决策人员,高高级管理人员员 功功能 日常操作处处理 分析决策 DBB设计 面向应用用 面向主题 当前的,最最新的细节的的,二维的分分 历史的,聚聚集的,多维维的集成 数数据 立的的 的的统一的 存存取 读写写数十条记录录 读上百百万条记录 工作单单位 简单的事务务 复复杂的查询 用户户数 上千个个 上百个 DBB大小 100MMB_GB IOOGBBTB OLAAP是使分析析人员、管理理人员或执行行人员能够从从多角度对信信息进行快速速、一 致、交互地存取取,从而获得得对数据的

41、更更深入了解的的一类软件技技术。OLAAP的目标是是 满足决策支持或或者满足在多多维环境下特特定的查询和和报表需求,它它的技术核心心是”维 这个概念【2201。 “维”是人们观察察客观世界的的角度,是一一种高层次的的类型划分。“维”一般包 含着层次关系,这这种层次关系系有时会相当当复杂【2”。通过把一一个实体的多多项重要的 属性定义为多个个维(dimmensioon),使用用户能对不同同维上的数据据进行比较。例例如,一 个企业在考虑产产品的销售情情况时,通常常从时间、地地区和产品的的不同角度来来深入观 察产品的销售情情况。这里的的时间、地区区和产品就是是维。而这些些维的不同组组合和所 考察的度

42、量指标标构成的多维维数组则是OOLAP分析析的基础,可可形式化表示示为(维1, 维2,维维n,度量指指标),如(地区、时间间、产品、销销售额)因此此OLAP也也 可以说是多维数数据分析工具具的集合。 20LP的的多维分析操操作 OLLAP的基本本多维分析操操作有钻取(roll up和drrill ddown)、切切片(sliice) 和切块(dicce)、以及及旋转(piivot)等等【2”。 钻取是改改变维的层次次,变换分析析的粒度。它它包括向上钻钻取(rolllup)和和向下钻 取(drilll downn)。rolll up是是在某一维上上将低层次的的细节数据概概括到高层次次的 汇总数据

43、,或者者减少维数;而drilll dowwn则相反,它它从汇总数据据深入到细节节数据 进行观察或增加加新维。 切片和切切块是在一部部分维上选定定值后,关心心度量数据在在剩余维上的的分布。如果果 剩余的维只有两两个,则是切切片;如果有有三个,则是是切块。 旋转是变变换维的方向向,即在表格格中重新安排排维的放置(例如行列互互换)。 30LP存存储数据的方方式 OLLAP有多种种实现方法,根根据存储数据据的方式不同同可以分为RROLAP、MMOLAP、 HOLAP2231。 ROOLAP表示示基于关系数数据库的OLLAP实现(Relattionall OLAPP)。以关系系数据 库为核心,以关关系型

44、结构进进行多维数据据的表示和存存储。ROLLAP将多维维数据库的多多维 结构划分为两类类表:一类是是事实表,用用来存储数据据和维关键字字:另一类是是维表,即对对 每个维至少使用用一个表来存存放维的层次次、成员类别别等维的描述述信息。维表表和事实 表通过主关键字字和外关键字字联系在一起起,形成了”星型模式”。对于层次次复杂的维, 为避免冗余数据据占用过大的的存储空间,可可以使用多个个表来描述,这这种星型模式式的扩 展称为”雪花模模式”。 MOOLAP表示示基于多维数数据组织的OOLAP实现现(Multtidimeensionnal OOLAP)。以以 多维数据组织织方式为核心心,也就是说说,MO

45、LAAP使用多维维数组存储数数据。多维数数据在 存储中将形成“立方块(CCube)”的结构,在在MOLAPP中对“立方块”的“旋转”、 “切块”、“切片”是产生多维维数据报表的的主要技术【22“。如图21所示 地 锅锅人绯 表中的。条条教州 图221多维立立方体 HOOLAP表示示基于混合数数据组织的OOLAP实现现(Hybrrid OLLAP)。如如低层是关系系 型的,高层是是多维矩阵型型的。这种方方式具有更好好的灵活性。 还有有其他的一些些实现OLAAP的方法,如如提供一个专专用的SQLL Servver,对某某些 存储模式(如星星型、雪片型型)提供对SSQL查询的的特殊支持。 215企企

46、业中建立数数据仓库的结结构 在企企业中整个数数据仓库系统统包含四个层层次,具体由由下图222表示【2”。 0LAPP嚣舞盈 韩塌工工鼻 压:盐五1调工工星 jiii 巨衰衰工旦 叵叵丑冉忻工旦旦 J 日日曰田 门 四拉拉露毫掘工工具 出jj岂 日 日日 鼓韶 最j童市 OLAAP甩务舀 图22企企业中数据仓仓库结构 数据源:数数据源是数据据仓库系统的的基础,是整整个系统的数数据源泉。 数据的存储储与管理:数数据的存储与与管理是整个个数据仓库系系统的核心。数数据 仓库的真正关键键是数据的存存储和管理。数数据仓库的组组织管理方式式决定了它有有别于 传统数据库,同同时也决定了了其对外部数数据的表现形

47、形式。要决定定采用什么产产品和技 术来建立数据仓仓库的核心,则则需要从数据据仓库的技术术特点着手分分析。针对现现有各 业务系统的数据据,进行抽取取、清理,并并有效集成,按按照主题进行行组织。数据据按照 数据的覆盖范围围可以分为数数据仓库和数数据集市。 OLAP服服务器:对分分析需要的数数据进行有效效集成,按多多维模型予以以组织,以 便进行多角度、多多层次的分析析,并发现趋趋势。 前端工具:主要包括各各种报表工具具、查询工具具、数据分析析工具、数据据挖掘 工具以及各种基基于数据仓库库或数据集市市的应用开发发工具。其中中数据分析工工具主要 针对OLAP服服务器,报表表工具、数据据挖掘工具主主要针对

48、数据据仓库。 216数据据仓库的软件件 在上上述数据仓库库的体系机构构中,有各式式各样的软件件,可分为数数据仓库管理理软 件、数据挖掘软软件以及各类类工具软件。 1数据仓库管管理软件 数据据仓库管理软软件提供对数数据的访问、抽抽取、转换、分分布、存储及及管理等功 能。管理软件靠靠描述性数据据查找、理解解、显示、分分析和挖掘数数据,实现数数据转换 过程的自动化及及其管理,缩缩短从复杂的的海量数据(源)到能支支持决策的信信息之间的 差距,有助于进进一步实现智智能化决策【22”。 2数数据挖掘软件件 数据据挖掘软件主主要是从统计计学方面提供供相应算法的的软件,前面面已经有所阐阐述。 值得一提的是,目

49、目前有的数据据挖掘软件产产品不单单用用统计方法,还还借助智能化化的 电脑学习或神经经网络等技术术。 3数数据仓库工具具软件 数据据仓库不仅仅仅是个数据的的储存仓库,更更重要的是它它要提供丰富富的各种应用用 工具。各种功能能强大的完整整工具体系,是是数据仓库实实现应用的基基础。目前一一些商 家推销的数据仓仓库软件都带带有各自的工工具软件,也也具有各自的的特色。 4数据获取工工具 在数数据获取层的的一些工具,用用来清洗、转转换和从别处处提取数据,“去其糟粕、 取其精华”,将将真实的、对对决策有用的的数据保留下下来,使得放放在数据仓库库的数据 有条有理,帮助助决策者再通通过其它分析析工具方便地地使用

50、这些数数据。 5多维分析工工具 通常常,每一个分分析的角度可可以叫作一个个维。因此,多多角度分析方方式称为多维维 分析。管理人员员往往希望从从不同的角度度来审视业务务数值,例如如银行往往从从时间、 地域、功能、效效益、利润来来看同一类储储蓄的总额。以以前,针对每每个分析的角角度需 要制作一张报表表。现在,利利用在线多维维分析工具,可可以根据用户户常用的多种种分析 角度,事先分析析、考虑构架架好一些辅助助结构,以便便在查询时能能尽快抽取到到所要的 记录,并快速地地从一维转变变到另一维,从从而迅速将不不同角度的信信息展现出来来。 6前台分析工工具 前台台分析工具,包包括联机分析析处理工具(OLAP

51、),可以提供供各种分析处处理操作 功能以及简单易易用的图形化化界面。图形形化界面可以以将数据仓库库的结果以数数字、直 方图、饼图、曲曲线等方式,直直观地提供给给管理决策人人员。管理决决策人员也可可以自 由选择要分析析的数据、定定义分析角度度、显示分析析结果。前台台分析工具,往往往需要 与多维分析工具具配合,作为为多维分析服服务器的前台台界面。 数据据获取工具、多多维分析及前前台分析工具具,是数据仓仓库支持进行行决策处理的的 基础性工具,它它们完成对用用户数据的整整理、观察和和总结,其作作用是“掌握过去”, 知道“是什么”。在此基础础上,再利用用前面提到的的数据挖掘,通通过挖掘发现现问题、 找出

52、规律,知道道“为什么”,从而预测测未来,达到到真正智能化化决策的效果果。 22数据挖掘掘的定义、方方法、算法 221数据据挖掘的定义义 数据据挖掘是利用用了分类、关关联性分析、序序列分析、群群集分析、机机器学习、知知 识发现及其他统统计方法,从从数据库庞大大的数据中,找找出隐藏的、未未知的、但对对企 业经营十分有用用的信息【22引。这些信信息是可能有有潜在价值的的支持决策,可可以为企业 带来利益,或者者为科学研究究寻找突破口口。 随着着信息技术的的迅速发展和和企业信息化化的深入,企企业积累的数数据越来越多多。 数据的背后应隐隐藏着许多重重要信息企企业自然希望望能够对其进进行更高层次次的分析,

53、以便更好地利用用这些数据【22叭。数据库库系统可以高高效地实现数数据的录入、修修改、统 计、查询等功能能,但无法发发现数据中存存在的关系和和规则,无法法根据现有的的数据预 测未来的发展趋趋势,导致了了“数据爆炸但但知识贫乏”的现象。 222数数据挖掘的功功能和方法 1数据挖掘的的主要功能 数据据挖掘过程一一般包括数据据抽样、数据据描述和预处处理、数据变变换、模型建建立、 模型评估和发布布等步骤。数数据挖掘工具具应该能够为为每个步骤提提供相应的功功能集。 数据据挖掘综合了了各个学科技技术,有很多多的功能,当当前的主要功功能如下: (1)分类:按照分析对对象的属性、特特征,建立不不同的组类来来描述

54、事物。例例 如:银行部门根根据以前的数数据将客户分分成了不同的的类别,现在在就可以根据据这些来 区分新申请贷款款的客户,以以采取相应的的贷款方案。 (2)聚类:识别出分析析对象内在的的规则,按照照这些规则把把对象分成若若干类。 例如:将申请人人分为高度风风险申请者,中中度风险申请请者,低度风风险申请者。 (3)关联规规则和序列模模式的发现:关联是某种种事物发生时时其他事物会会发生 的这样一种联系系。例如:每每天购买啤酒酒的人也有可可能购买香烟烟,比重有多多大,可 以通过关联的的支持度和可可信度来描述述。与关联不不同,序列是是一种纵向的的联系。例 如:今天银行调调整利率,明明天股市的变变化。 (

55、4)预测:把握分析对对象发展的规规律,对未来来的趋势做出出预见。例如如:对 未来经济发展的的判断。 (5)偏差的的检测;对分分析对象少数数的、极端的的特例的描述述,揭示内在在的原 因。例如:在银银行的1000万笔交易中中有500例例的欺诈行为为,银行为了了稳健经营, 就要发现这5000例的内在在因素,减小小以后经营的的风险p。 2决策树方法法 决策策树方法起源源于概念学习习系统(CLLS:Conncept Learnning SSystemm),然后发发 展到ID3方法法并达到高峰峰,最后又演演化为能处理理连续属性的的C45【33”。有名的决决策 树方法还有CAART和Asssistaant”

56、1。 利用信信息论中的互互信息(信息息增益)寻找找数据库中具具有最大信息息量的字段, 建立一个决策树树的节点,在在根据字段的的不同取值建建立树的分支支【3”。在每个分分支子 集中重复建树的的下层节点和和分支的过程程,即可建立立决策树。国国际上最有影影响的和 最早的决策树方方法是Quiiulan研研制的ID33方法,它对对较大的数据据库效果较好好。 决策策树提供了一一种展示类似似在什么条件件下会得到什什么值这类规规则的方法【3341。 比如,在大肠癌癌的手术后,要要对大肠癌的的术后情况做做出判断,图图23是为为了解决 这个问题而建立立的一棵决策策树,从中我我们可以看到到决策树的基基本组成部分分:

57、决策 节点、分支和叶叶子【3”。 图233丈肠癌的决决策树示意图图 决策策树中最上面面的节点称为为根节点,是是整个决策树树的开始。本本例中叶子节节点 是“周径13、周径 V (00utioook=RaiinWinnd=Weaak)。 图3319决策策树的公式表表示方法 决决策树的优点点 可以以生成可以理理解的规则;计算量相对对来说不是很很大;可以处处理连续和离离散 字段;决策树可可以清晰的显显示哪些字段段比较重要 决决策树的常见见问题 1避免过度拟拟合数据 基本本的决策树构构造算法没有有考虑噪声,生生成的决策树树完全与训练练例子拟合。 有噪声情况下,完完全拟合将导导致过分拟合合(overrfi

58、ttiing),即即对训练数据据的完全 拟合反而不具有有很好的预测测性能。 解决决方法 剪枝枝是一种克服服噪声的技术术,同时它也也能使树得到到简化而变得得更容易理解解。 向前前剪枝(foorwardd prunning) 向后后剪枝(baackwarrd pruuning) 理论论上讲,向后后剪枝好于向向前剪枝,但但计算复杂度度大。剪枝过过程中一般要要涉 及一些统计参数数或阈值,如如停机阈值;有人提出了了一种和统计计参数无关的的基于最 小描述的有效剪剪枝法。 剪枝数据集的选选择 选择择与生成决策策树数据集不不同的数据进进行剪枝 例如如使用训练集集23的数数据生成树,另另外13的的数据用于剪剪枝

59、(代价复复杂性 算法)。但是当当训练数据集集比较小时,这这样很容易导导致过学习。当当缺乏独立剪剪枝数 据集时可以采用用交叉有效性性来判断决策策树的有效性性。 交叉叉有效性:将将训练集T分分成互不相交交且大小相等等的k个子集集T1,T22Tk。 对任意子集Tii,用TTi训练决决策树,用TTi测试决策策树的错误率率ei,然后后估计 整个算法的错误误率见式(335): 1士 822i二岛 (35) 2合并连续值值属性 属性性选择的其他他度量标准 信息息增益比(ggainraatio)、距距离度量(ddistanncemeaasure)等。不同的的度量 有不同的效果,特特别是对于多多值属性。 3处理

60、缺少属属性值的训练练样例 4处理不同代代价的属性 lDD3算法介绍绍 创建树的Rooot结点 如果Exampples都为为正,那么返返回labeel=+中的的单结点Rooot 如果Exampples都为为反,那么返返回lablle=一单结结点树Rooot 如果Attriibutess为空,那么么返回单节点点树Roott,lablle=Exaampless中最普遍的的目 标属性值 否则开始 A(-Attriibutess中分类能力力最好的属性性 Rooot的决策属属性(-A 对于每每个可能值 在Rooot下加一个个新的分支对对应测试A=vi 令Exaample-vi为Exxamplees中满足A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论