硕士学位论文:基于数据仓库的医院信息管理应用平台设计开发_第1页
硕士学位论文:基于数据仓库的医院信息管理应用平台设计开发_第2页
硕士学位论文:基于数据仓库的医院信息管理应用平台设计开发_第3页
硕士学位论文:基于数据仓库的医院信息管理应用平台设计开发_第4页
硕士学位论文:基于数据仓库的医院信息管理应用平台设计开发_第5页
已阅读5页,还剩97页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类号密级UDC学位论文基于数据仓库的医院信息管理综合应用平台设计开发(题名和副题名)赖伏虎(作者姓名)指导教师姓名吕明院长助理副教授电子科技大学电子工程学院张福林主任主任技师博士深圳市医学信息中心(职务、职称、学位、单位名称及地址)申请学位级别工程硕士专业名称电子与信息工程论文提交日期20034论文答辩日期200310学位授予单位和日期电子科技大学答辩委员会主席教授评阅人2003年1月13日注1注明国际十进分类法UDC的类号独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名赖伏虎日期2003年10月30日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名赖伏虎导师签名吕明日期2003年10月30日中文摘要医院信息系统HIS引入我国以后,现已基本形成一个较完善的体系。它利用电子计算机和网络通讯等设备,为医院所属各部门提供病人诊疗信息,并对医院管理信息进行收集、存储、处理、提取和转换,满足所有授权用户的功能需求。内容上,涉及到医学决策支持系统、医院信息管理系统、医学研究支持系统、医学情报检索、医学图像及信号处理及医学仪器智能化等诸方面。医院信息管理系统(以统计、病案管理为核心)作为整个HIS的重要组成部分之一,在当前的卫生体制改革和激烈的医疗市场竞争中,必然要求引进先进的科学管理技术,搭建医院信息管理综合应用平台,为医院改革当好参谋与助手,主动去满足医院改革过程中更新、更多、更实用的信息需求,从而使我国医院信息管理工作走上规范化、科学化轨道。而数据仓库技术DW正是这样一种解决问题的技术方案,它以传统的数据库技术作为存储数据和管理资源的基本手段,面向决策支持系统构建统一的数据平台。尽管数据挖掘和联机分析处理是现代优秀的DDS中的核心技术,但是在医疗卫生领域,与医院信息管理系统结合确是一个新的尝试,因此本科题获得了广东省深圳市卫生局科技课题立项和深圳市宝安区科技局科技课题立项。本文首先对HIS的定义、发展、特性、分类等作了较详尽的阐述,然后对数据仓库的概念、体系结构、开发设计的一般方法也作了说明,之后着重介绍了基于数据仓库技术的医院信息管理综合应用平台的设计思路、系统模块结构及其功能特点,最后本文对医院信息管理综合应用平台的前景和后续工作方向作了展望。关键词医院信息系统医院信息管理系统决策支持系统数据仓库联机分析处理数据挖掘ABSTRACTHOSPITALINFORMATIONSYSTEMHISHASBEENGREATLYINCREASEDAFTERITWASINTRODUCEDINOURCOUNTRY,ANDITHASALREADYFORMEDABASICALLYCOMPLETECOMPUTERSYSTEMNOWHISMAKEUSEOFTHEELECTRONICCOMPUTERSANDNETWORKCOMMUNICATIONEQUIPMENTTOPROVIDEINFORMATIONOFPATIENTSANDHOSPITALMANAGEMENTFORTHEDEPARTMENTATTACHEDTOTHEHOSPITAL,ANDITALSOCOLLECT,STORE,PROCESS,RETRIEVEANDEXCHANGEDATA,ITMEETSTHEFUNCTIONDEMANDOFAUTHORIZEDUSERSITSCONTENTINVOLVESMEDICALDECISIONSUPPORTSYSTEMDDS,HOSPITALINFORMATIONMANAGEMENTSYSTEM,MEDICALRESEARCHSUPPORTSYSTEM,MEDICALINFORMATIONRETRIEVING,MEDICALIMAGEANDSIGNALPROCESSING,MEDICALEQUIPMENTINTELLECTUALIZEANDSOONHOSPITALINFORMATIONMANAGEMENTSYSTEMINCLUDINGSTATISTICSANDMEDICALRECORDMANAGEMENTANDSOONISANIMPORTANTCOMPOSITIONOFWHOLEHISITCERTAINLYDEMANDSTOUSEADVANCEDSCIENTIFICADMINISTRATIVESKILLS,PUTUPTHEPLATFORMOFTHEHOSPITALINFORMATIONMANAGEMENTINTEGRATEDAPPLICATION,GIVEGOODOPINIONSFORTHEHOSPITALREFORMWORK,GOTOSATISFYMOREANDMOREPRACTICALINFORMATIONDEMANDSINPRESENTMEDICINEANDHYGIENEMARKETCOMPETITIONDATAWAREHOUSEDWISAKINDOFTECHNETIUMTECHNICALPROJECTTHATCANSOLVESTHISQUESTION,ITSTORESTHEDATAANDMANAGESTHERESOURCEBYTHEMEANSOFTRADITIONALDBTECHNOLOGY,ANDSTRUCTURETHEUNIFIEDDATAPLATFORMFORDSSALTHOUGHDWTECHNOLOGYHASBECOMETHECOMPUTERRESEARCHHOTSPOTSINCENINETYYEARSTWENTYCENTURY,ITISANEWSUBJECTINTHEFIELDOFMEDICINEANDHYGIENE,THATDWISCOMBINEDWITHTHEHOSPITALINFORMATIONMANAGEMENTSYSTEMSOTHISSUBJECTGAINTHESCIENCEANDRESEARCHFUNDOFSHENZHENCITYGUANGDONGPROVINCEFIRST,THEPAPEROUTLINETHEDEFINE,DEVELOPMENT,FEATURESANDCLASSIFICATIONOFHIS,ANDMAKETHEELABORATEONTHECOMMONMETHODSOFTHECONCEPTION,ARCHITECTURE,DEVELOPMENT,DESIGNANDAPPLICATIONOFDWFURTHERITISTHEEMPHASISONTHEDESIGNINGMETHOD,SYSTEMATICMODULESTRUCTUREANDFUNCTIONCHARACTERISTICOFTHEHOSPITALINFORMATIONMANAGEMENTINTEGRATEDAPPLICATIONPLATFORM,ATTHEENDOFTHEPAPER,THEFORECASTANDPROSPECTOFTHEHOSPITALINFORMATIONMANAGEMENTAPPLICATIONPLATFORMAREDEALTWITHKEYWORDSHOSPITALINFORMATIONSYSTEMHISHOSPITALINFORMATIONMANAGEMENTSYSTEMHIMSDECISIONSUPPORTSYSTEMDDSDATAWAREHOUSEDWONLINEANALYSISPROCESSINGOLAPDATAMININGDM目录中文摘要3ABSTRACT4第一章绪论811医院信息系统概述8111医院信息系统的定义8112医院信息系统的发展阶段8113国内外医院信息系统概况9114医院信息系统的特性11115医院信息系统的分类及其意义1212数据仓库系统的产生1313选题的依据与研究现状14第二章数据仓库与决策支持系统1621决策支持系统的应用结构1622决策支持系统的核心技术1723数据仓库18231数据仓库的概念和特点18232数据仓库的体系结构192321数据源202322ETL工具212323数据仓库与数据集市212324数据导航与用户工具21233数据仓库的元数据2224联机分析处理23241联机分析处理的概念23242联机分类处理的类型2425数据挖掘26251数据挖掘的概念26252数据挖掘的系统结构框架27253数据挖掘的常用方法29第三章医院信息管理平台的设计3031医院信息管理的系统构成30311医院信息管理部门的组织结构30312医院信息管理的信息分类30313医院信息管理系统的构成3132平台设计与开发的必要性3233系统可行性分析3334系统设计功能及目标34341系统设计步骤34342系统设计功能34343系统设计目标3536深圳宝安医院信息管理平台的实现39361系统软硬件及网络环境设计39362数据库和数据仓库设计45363系统模块设计及功能说明65364信息管理平台的安全层次88第四章总结与展望91参考文献93致谢95个人简历96附录一在学期间的研究成果97附录二图表清单98附录三词汇表99第一章绪论11医院信息系统概述111医院信息系统的定义医院信息系统(HOSPITALINFORMATIONSYSTEM,HIS),是国际学术界已公认为新兴的医学信息学(MEDICALINFORMATICS)的重要分支。医院信息系统是指利用电子计算机和通讯设备,为医院所属各部门提供病人诊疗信息和行政管理信息的收集、存储、处理、提取和数据交换的能力,并满足所有授权用户的功能要求。医院信息系统与众多的相关学科由紧密联系而又相对独立(见表11),其主要目的在于如何在医院的各项活动中有效地利用信息技术,因此必须将相关学科有关的理论和方法融于医院信息系统之中。表11医院信息系统相关学科及相关内容学科相关内容计算机科学硬件理论、软件理论、数据结构、数据仓库电子工程通信技术、人机接口、采样技术运筹学规划理论、决策理论、其它数学方法管理理论会计学、财务学、经营管理、经济学等组织理论HIS对组织的影响、开发HIS的组织与管理行为科学人类决策过程的研究、HIS与人的关系医院管理学现代医院理论管理方法、医院信息流112医院信息系统的发展阶段我国医院信息系统的发展大体上经历了三个阶段1单机应用阶段,主要用于门诊收费、住院病人费用管理、药库管理等,各个应用之间相互独立,信息不能共享。(2)局域网应用阶段,如收费系统、药品从药库到药房的一体化管理、检验信息的采集与管理、病人登记、医疗统计等,在一个局部系统内信息可以共享,但局部系统之间不能交换信息。(3)即目前正发展的、集成的以临床医嘱为中心的医院信息系统阶段。从医院的总体上把握信息系统的功能,围绕病人在医院活动的各个环节构造系统的整体框架结构,各系统之间信息高度共享。此阶段面对繁多的数据库,决策支持系统和数据仓库技术逐渐得到应用。113国内外医院信息系统概况(1)国外动态人们很早就在计算自动化方面进行了尝试。20世纪2030年代,电动穿孔数据处理系统诞生,并不断完善和成熟。5060年代,美国便开始了HIS的研究。著名的麻省总医院(MGH)开发的COSTAR系统是60年代初开始的临床病人信息程序并发展到今天成为大规模医院信息系统。随着计算机技术的发展,70年代,HIS进入大发展时期,美日欧各国的医院,特别是大学医院及医学中心纷纷开发HIS,为医药信息学的成型和发展打下了坚实的基础。80年代以来,美国的HIS产业已有很大发展。1985年美国全国医院数据处理工作调查表明,100张床位以上的医院,80实现了计算机财务收费管理,70的医院可支持病人挂号登记和医院行政事务管理。25的医院有比较完整的HIS,即实现了病房医护人员直接用计算机处理医嘱和查询实验室的检验结果。10的医院有全面数据共享的HIS。进入新世纪后,加州大学洛杉矶分校启动UCLA医学中心(UCLAMC)的全数字化医院计划,建设这样一个高科技医院信息系统的根本出发点是医疗成本、效率和质量。印地安那心脏医院在2002年12月建成美国第一个全数字化心脏医院,它采用GE开发的商品化临床信息系统(GECENTRICITYINFORMATIONSYSTEM),病人信息包括图像、波形和病史。日本的HIS开发和应用源于70年代初期。多数日本医院从80年代以后开始进行HIS工作的,但发展十分迅猛,规模相当大,多是以大型机为中心的医院计算机系统。如北里大学医院的IBM/3090双机系统。当前日本的HIS总的趋势是系统化、网络化、综合性,开始走自上而下的开发路线。一般都有大型机作为中心,支持整个系统工作,并尽量采用了微机和网络技术,投资规模大,正在实现“ORDERING”工作方式,即数据从发生源直接输入计算机。到1991年统计有近10家实现或基本实现此种方式。HIS辅助诊疗的功能也在不断加强,系统24小时运行。日本大部分HIS是医院和计算机公司联合开发的,一些大公司也开发了一些通用的医院信息管理软件包,也有些医院如北里大学,自己独立开发了综合的HIS。亚洲其它国家,在21世纪初也加速了HIS的引进和建设。美国微软公司宣称,已于2001年12月在韩国构建世界上第一家网上电子医院,香港所有的公立医院检验信息已经做到高度共享。马来西亚是有着1920万人口的小国,但十分重视引进最先进的医疗信息系统,总理马哈蒂尔提出建立多媒体走廊的宏伟计划,该国士拉央(SELAYANG)医院和潘丹(PANDAN)医院已经开始建设以“三无”特色无纸、无胶片、无线网络数字化医院信息系统建设。欧洲的HIS发展比美国稍晚,大多数是70年代中叶和80年代开始,欧洲HIS的特点是实现了一些区域信息系统。如丹麦的REDSYSTEM,管理76所医院和诊所,法国第八医疗保健中心实现了能管理三所大医院和三所医药学院的一体化信息系统。随着初级卫生保健工作的发展,欧洲各国区域性医院计算机网络将实现。目前欧共体的SHINE工程(STRATEGICHEALTHINFORMATICSNETWORKSFOREUROPE)已经开始,英法意德许多公司都参与了此项工程。在分布式数据库系统和开放网络工程方面已做了大量工作。2国内概况计算机70年代末期进入了我国医疗行业,当时以IBM的M340小型机为主,只有少数几家大型的部属综合医院拥有,如北京协和医院、北京肿瘤医院、解放军301医院等,主要用于科研和教学,还没有在HIS上的应用。80年代初期,随着苹果PC机的出现和BASIC语言的普及,一些医院开始开发一些小型的管理软件,如工资软件等;80年代中期,随着XT286的出现和国产化,以及DBASEIII和UNIX网络操作系统的出现,一些医院开始建立小型的局域网络,并开发出基于部门管理的小型网络管理系统,如住院管理,药房管理等。进入90年代,NOVELL网和FOXBASE、FOXPRO数据库日益盛行,完整的医院网络管理系统的实现已经成为可能,于是一些有计算机技术力量的医院开始开发适合自己医院的医院管理系统。一些计算机公司也抓住时机开发商业性的HIS,但这些系统多停留在简单的财务管理模式,存在低层次重复开发、不支持决策管理等诸多问题。1995年,卫生部根据国务院部署,明确提出了“金卫工程”总体规划,医院信息系统发展进程加速,大型数据库、客户/服务器CLIENT/SERVER结构、光纤通信等技术纷纷应用,全国涌现出近千家做HIS业务的电脑公司,其中众邦慧智公司、军惠公司、广东巨龙公司、杭州创业公司合称中国医院信息系统“四小龙”。在21世纪,随着我国经济持续稳定的发展和医药卫生改革的不断深入,我国医院信息系统进入了临床信息系统(CLINICALINFORMATIONSYSTEM,CIS)阶段,如北京宣武医院的HIS就包容了电子病历系统(ELECTRONICMEDICALCASESSYSTEM,EMCS)和医学影像存档传输系统PICTUREARCHIVINGANDCOMMUNICATIONSYSTEM,PACS,成为数字化医院的公认指标。114医院信息系统的特性医院信息系统是管理系统(MANAGEMENTINFORMATIONSYSTEM,MIS)在医院环境的具体应用。以数据库为核心,以网络为技术支撑环境,以经营业务为主线,以提高工作质量与效率和辅助决策为主要目的,可以提高综合管理水平,增加竞争能力。在系统内部按一定原则划分若干子系统,各子系统、分系统之间互有接口,可有效地进行信息交换,真正实现信息资源共享,它处理的对象即有结构化数据,也有非结构化或半结构化数据,有些数据及结构会较多地受到人工干预和社会因素影响,即有静态的,也有动态的,开发难度高,技术复杂,周期较长,必须具有完善的系统管理、监督、运行、保障体系以及相应的规章制度和系统安全措施。医院信息系统是所有企业级信息系统中最复杂的一类。这是医院本身的目标、任务和性质决定的。它不仅要同其它行业的MIS系统样追踪管理,伴随人流、物流、财流所产生的管理信息,从而提高整个医院的运作效率,而且还应该支持以病人医疗记录为中心的整个医疗、教学、科研活动。115医院信息系统的分类及其意义一个完整的医院信息系统(INTEGRATEDHOSPITALINFORMATIONSYSTEM,IHIS)包括医院管理信息系统和临床医疗信息系统。1医院管理信息系统(HOSPITALMANAGEMENTINFORMATIONSYSTEM,HMIS)提供医院管理信息服务。主要包括一般医疗概况、综合情况、统计分析、病案管理、医疗经济分析、病种分析、病房病人查询以及药品、器械、物资、经费管理信息等等,其目标是支持医院的行政管理与事务处理业务,减轻事务处理人员的劳动强度,强化医院的科学管理,辅助高层领导决策,提高医院的工作效率,实现卫生资源共享,从而使医院能够以少的投入获得更好的社会效益与经济效益,提高医院信誉和竞争力。如医院业务统计系统、病案首页管理系统、财务系统、人事系统、住院病人管理系统、药品库存管理系统就属于HMIS的范围。2临床信息系统提供临床信息服务。主要目标是支持医院医护人员的临床活动,改变业务模式,收集和处理病人的临床医疗信息,加强过程控制,丰富和积累临床医学知识,并提供临床咨询、辅助诊疗、辅助临床决策,提高医护人员的工作效率,为病人提供更多、更快、更好的服务。如医嘱处理系统、病人床边系统、医生工作站系统、护士工作站系统、检验系统、医学影像系统、药物咨询系统、医学情报检索系统等就属于CIS范围。3医院管理信息系统和临床医疗信息系统是相互依存、共享支持的关系。医院管理信息系统中大量的基础数据来源于临床医疗信息系统,加工处理后反馈回到临床医疗信息系统。两个系统的有机协同,使医院的模式管理变为环节控制,加大了工作进程的管理,提供适时信息使超前管理成为可能,克服了管理中的盲目性和滞后性,同时强化了医院各部门之间的密切协作,促进了医疗业务、药品物资、统计会计等工作的标准化管理,从而实现医院信息系统智能化、数字化、完整性、高效性。12数据仓库系统的产生当今,企业间的竞争日趋激烈,企业对计算机应用系统有了更多的需求,已不再满足于应用系统仅仅处理具体的业务。企业要想在竞争中获胜或是取得有利地位,必须要能透过复杂而多变的市场,通过对比、分析等手段挖掘出其中的内在规律和有用信息,从而快速做出方向性的决策和计划,并付诸实施。企业的经营管理者、决策者必须要及时地从大量的原始数据中挖掘出有价值的信息,并通过多种视角分析,准确掌握企业的经营历史和现状,了解市场需求,从而做出重要的决策,由此产生决策支持系统(DECISIONSUPPORTSYSTEM,DSS)。决策支持系统在数据的处理、组织和管理方面同传统的MIS系统有着很大不同。一般的数据库管理系统由于自身的限制无法实现决策支持系统对较大规模数据的分析和探索,于是人们开始寻找一种新的适合于决策支持系统数据组织与管理的技术。随着关系数据库、并行处理和分布式技术的发展到一定阶段,数据仓库(DATAWAREHOUSE,DW)技术便应运而生。数据仓库技术是为了实现对数据的分析、挖掘,用于支持决策管理。可以说,数据仓库是一个统一的数据平台,在这个平台上可以使得机构和个人从容应付在信息技术发展中存在的拥有大量数据,然而有用信息贫乏的问题。13选题的依据与研究现状现行医院统计部分的工作内容和工作手段,已经不适应于医疗卫生事业宏观调控,不能很好地满足医院管理运作和医疗市场竞争的需要。当前广东省各家医院信息管理使用的软件多为省卫生厅研发的“医院统计管理程序”(FOXPRO25FORDOS),统计的内容重点反映规模和数量,并没有突出医院效益和工作质量,很多医院决策部门和临床科室急需的数据无法提供(如门诊疾病顺位、住院死亡顺位、工作强度、科室经济核算等等)。软件技术也已经不适应现今各医院计算机硬件和网络的应用。医疗软件市场上也有一些其他商业公司的医院信息管理软件,但仅仅停留在DOS平台的WINDOW化,没有从卫生事业改革方向上把握统计软件的功能设计。同时由于历史原因,国内医院信息统计人员有很大部分是从护理等其它专业转岗而来,专业素质参差不齐。面对着医院丰富而有价值的数据资源,不少人不知如何进行“数据挖掘(DATAMINING)”,这就迫切需要一套蕴含统计方法和管理知识的DDS,用于辅助编撰年、季、月医院信息统计综合分析报告,以满足医院管理决策的需要。另外随着医疗纠纷和诉讼官司的显著递增,患者及其家属维权意识的日益高涨,2002年国务院和卫生部连续颁布多部涉及医学文档的法律和条例,病案作为一种重要的医学临床资料和社会信息资源,在医学、法律、商业等领域的价值得到全方位的关注,医院病案管理被提到新的高度。但多年来,我国病案管理长期处于原始的手工阶段,虽然在近十几年来,计算机应用于病案管理已较为普通,但多数是以输入病案首页为主。对病案首页实行计算机管理,部分数据可以不再用手工统计,使医院管理工作上了一个新台阶,给病案管理带来了一次飞跃。但它并没有从根本上解决问题。(1)病案管理领域中病历资料的保存,仍是管理中的一个大难题。尤其对于历史较为悠久的医院和各大中型医院,其矛盾就显得更为突出,如大多数医院保证不了足够的病案存放空间,因而只好将旧病案采取打包存放的方式加以保存,这样给病案的查阅和医疗、教学、科研工作都带来了诸多不便。(2)病案管理仍停留在人工整理、装订、上架、借阅这种陈旧的管理模式上,需要投入相当的人力、物力和财力,才能保证病案不被丢失,不被破损。尽管如此,一些有价值的病案外借之后仍有可能压在别人手中,其他人难以利用,甚至该份病历可能遭到遗失或人为地涂改毁坏。(3)以输入病案首页为主的计算机病案管理虽然已具有很大的优越性,但它不能将全部病案内容输人计算机,也解决不了大量病案的存储和病案信息共享问题。(4)对于调阅病案的医生和查阅者来说,想要得到病案原件,目前需要一定办理借阅手续,再通过管理员进入病案库找出该份病历,这个过程还是要耗费不少时间。因此,要做到病案与计算机真正有机地结合,就需要引进更为先进的光盘存储管理系统,实施对全病案科学和有效的管理。尽管基于计算机网络医院信息系统(HOSPITALINFORMATIONSYSTEM,HIS)在各家医院广泛建立,但医院统计程序、病案程序人为条块分割,缺乏在信息管理这高一层次平台建设,没有顺应医学信息学的发展趋势,无法充分体现医院信息部门组织体制(下辖统计室、病案室、图书室、电脑室等科室班组)的协同作用。近年来国内也有关于数据仓库技术的应用研究方面的报道,例如银行、通信、保险、能源、交通等行业,并取得了较好的ROI投资回报率。这些单位都具有较好的信息系统基础,联机事务处理积累的数据量大,企业运营决策分析与支持的需求强烈,技术力量强,设备精良,资金雄厚,率先进入该领域也是必然。但是在卫生领域医院信息管理方面却还是一个新鲜的课题。因此本课题从医院信息管理的角度出发,探讨数据仓库技术的实用性以及决策支持系统的可行性,设计并开发通用的医院信息管理综合应用平台,提高数据的利用率,满足医院管理更大范围、更深层次的需求。第二章数据仓库与决策支持系统随着CS技术的成熟和数据库技术的发展,信息处理技术的发展趋势是从大量的事务型数据库中抽取数据并将其中的数据进行清理、转换,根据决策目标把数据聚集在数据仓库中,为用户查询、检索提供服务。例如,医院信息管理部门如何从浩瀚的数据海洋中寻找出需要的数据,又如何从这些数据中得出有价值的医院业务财务信息,从而制定出符合实际的医院运营政策,这是管理决策层十分关心的问题;医院现役的信息系统主要还是体现一个资金流,围着收费在运作,其它的医疗信息、人事信息、检查信息、效率信息等等如同一个个“信息孤岛”,必须从全局的管理层面去深入挖掘和综合评价,达到优化医院业务流程、提高医疗市场竞争力的目的。决策支持系统(DECISIONSUPPORTSYSTEM,DDS)的目标正是为包括医院在内的企事业单位高级管理者,从历史数据中发现存在的客观规律提供科学的决策依据。在决策支持系统中为了提高分析决策的效率和有效性,分析型处理数据应与操作型数据相分离,并按照DSS处理的需要进行重新组织建立单独的分析处理环境。数据仓库(DATAWAREHOUSE)正是为了建立这种新的分析处理环境而出现的一种数据存储和组织技术。21决策支持系统的应用结构决策支持系统的应用结构一般采用“客户端应用程序多维分析模型服务器数据库服务器”三层结构方案代替传统的“客户机/服务器”模式,具体结构如图21所示。其中客户端应用程序包括客户交互、格式查询、信息检索、报表的生成多维分析模型服务器可以规范服务工作,集成和简化客户端与数据库服务器的部分工作,降低系统数据的传输量,使得工作效率更高数据库服务器端完成各种辅助决策的查询、复杂的计算和各类其它的功能。数据库服务器包括数据库、数据字典、数据库管理系统。一般大型应用系统往往包括多种独立的数据库,它们可以存放在一台数据服务器上,也可以分布在多种异构环境下,通过(OPENDATABASECONNECTIVITY,开放性数据库互连)或(对象链接和嵌入数据库)技术进行访问来控制。数据字典是数据库中数据的数据,它包括数据定义,其功能是描述数据项的可用性、来源和意义,以及在制定决策的智能阶段帮助扫描数据和表示的问题域。图21决策支持应用系统结构图22决策支持系统的核心技术决策支持系统是以数据仓库为基础,以联机分析处理和数据挖掘技术为分析手段,运用定量分析和定性分析方法,从各个侧面对决策问题进行分析、评价和判断。其中数据仓库和是现代优秀决策支持系统中的核心技术。数据库服务器多维分析模型服务器数据文件关系型数据库其它客户端应用程序客户端应用程序客户端应用程序23数据仓库231数据仓库的概念和特点数据仓库DATAWAREHOUSE是20世纪90年代以来计算机应用技术的一个研究热点,它以数据库作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效方法,以人工智能技术挖掘知识和发现规律的科学途径,是多科学相互结合、综合应用的技术。数据仓库能充分利用已有的数据资源,帮助用户更好地理解信息,从新的角度看待它们,以便获得更好的洞察力,发现模式和趋势,从中挖掘出信息和知识,更好地进行辅助决策。实际上,数据仓库是一个用来存放大容量只读数据的分析性数据库,他提供了一组以分析为主的工具,具有支持决策分析过程的、面向主题的、集成的、稳定的、随着时间不断变化的特点。(1)面向主题性传统的操作型数据库是面向应用的。以医院病案管理为例,应用问题是住院病历、门诊病历、急诊病历。医院的主题范围可能是就诊病人、疾病名称、药品名称、医院费用与经管医生等等。基于主题组织的数据被划分为各自独立的领域,每个领域都有自己的逻辑内涵,互不交叉。而基于应用的数据组织则完全不同,它的数据只是为处理具体应用而组织在一起的。(2)集成性各个应用问题在编码、命名习惯、实际属性、属性度量等方面都有很多不同的表示方法。当数据进入数据仓库时,要经过加工与集成,来消除应用问题中的许多不一致。(3)稳定性操作型数据正规的是一次访问和处理一个记录,可以对操作型环境中的数据进行适时更新。但数据仓库中的数据通常是一起载入与访问的,在数据仓库环境中并不进行一般意义上的数据更新。(4)随时间的变化性首先,数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。操作型系统的时间期限一般是6090天,而数据仓库中数据的时间期限通常是510年。其次,操作型数据库含有“当前值”的数据。这些数据的准确性在访问时是有效的,通用当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。最后,操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。而数据仓库的键码结构总是包含时间元素。232数据仓库的体系结构数据仓库体系结构的提出是为了简化数据仓库方案的设计、实现和管理。用于描述在构建、使用和管理数据仓库的过程中各个构件的相互关系。基于用户的反馈以及针对数据仓库新的发现,数据仓库的体系结构将随着时间不断发展和完善。数据仓库构建数据仓库使用数据仓库/分析主题设计与构建数据源数据转换/清洗/加载数据仓库/数据集市信息导航终端用户工具元数据库(持久性共享元数据)数据模式数据转换信息发布OLAP复制数据仓库管理数据仓库管理数据流元数据流图22数据仓库的体系结构图从图22所示的数据仓库系统的体系结构中,我们可以看到在横轴上体现了数据仓库系统在时间上的发展、演化从数据仓库的设计、构建到数据仓库的使用;在纵轴上体现了数据仓库的多层管理体系,并最终依靠元数据在管理和集成整个数据仓库系统。从图中还可以看到数据从源数据经过整合到数据仓库、数据集市,再经过分析处理最后到用户界面显示。数据具有流动的单向性以及存储的层次阶段性。下面简单介绍这个数据流动过程中的相关实体和处理。2321数据源正如前面提到的,数据仓库系统的源数据取自于MIS系统或者OLTP(ONLINETRANSACTIONPROCESSING,联机事物处理)系统所产生的操作型数据,或者称之为历史数据。从这种意义上说,若没有了这些数据,数据仓库系统将成为无本之木,无源之水。同时,又要充分考虑源数据的特征,以便能够以较小的代价来获取这些数据信息。例如,当前关系数据库技术相当的成熟,并且在大量的现有系统中均采用了RDBMS(RELATIONALDATABASEMANAGEMENTSYSTEM,关系数据库管理系统)来管理数据,所以在集成时,采用基于关系的数据仓库存储、管理方法将是目前很经济的选择。2322ETL工具一般的,关系型数据库、非关系型数据库以及其它各种数据文件均可以作为操作型系统的数据文件,在这种系统中数据是当前的,详细的,并且不断更新变化。而数据仓库要把操作型系统产生的源数据、历史数据经过一系列的变化集成到数据仓库之中。这些变化主要包括抽取(EXTRACTION)、清洗(CLEANING)、转换(TRANSFORM)、最后装载(LOAD),它们可以简称为ETL工具。最终在数据仓库、数据集市(DATAMARKS)中,数据有了一致的形式,以便于分析决策。数据抽取是一件技术含量不高,但非常繁琐的工作。在对其进行设计时,要注意如下的问题(1)数据抽取的规则要作为元数据进行规范和管理,抽取过程中的源表、源字段、目的表、目的字段、转换规则以及转换条件都要作好详细记录。这样不仅便于编程人员实现,而且在抽取规则或逻辑模型发生变化时也便于修改。(2)如何记录业务数据库中的变动情况是数据抽取中一个重要的环节。由于数据仓库中按时间保存数据,因此不同时间点之间数据的差异就成为一个关键性因素通常可以利用数据库管理系统提供的手段在数据库级产生数据变动日志,再根据日志判断数据的变动情况完成抽取,这样是一个从性能、可操作性以及对原业务系统的影响等多方面综合考虑都比较理想的方法。(3)当数据仓库中同一表里的数据来自于原有系统中不同的表,甚至不同的库时,抽取时务必保证这些数据单位一致,而且都满足同一时间条件。(4)数据抽取不仅要考虑数据的提取,还要考虑抽取的时间安排和执行方式,这样才是一个完整的数据抽取方案,也才能确保抽取出来的数据准确、可用。2323数据仓库与数据集市数据仓库按照企业业务主题模式存储事务型系统信息和历史数据信息数据集市是指为了某种分析目的而组织的一些数据信息,一般是面向企业的部门,也可以说是小型部门级的数据仓库。它们用于实现数据的存储、管理。当然,为了便于分析查询,将采用一些特定的数据组织的方法,从而构建成用于分析的数据平台。数据源经过ETL工具进入数据仓库、数据集市。2324数据导航与用户工具终端用户工具(ENDUSERTOOLS)用于获取数据仓库中的信息,主要包括各桌面产品、定制的分析工具和客户程序。通过前端的工具分析,查询仓库中的数据,挖掘其中的信息,并通过报表等各种形式展示。数据仓库的构建和管理非常繁琐、复杂,同时包含许多复杂的技术,如数据的抽取、转换、加载(ETL)、复制,数据一致性维护,各种主题的维护,元数据的管理等。233数据仓库的元数据元数据(METADATA)在数据仓库中是一个重要的概念,是企业业务、数据和系统的描述信息,是关于数据的数据。打个比方,在图书馆中,若认为每本书是数据的话,则图书检索卡片便是元数据。2331元数据的作用可以这么说,元数据是数据仓库的粘合剂,是数据仓库的重要组成部分,它记录了在数据仓库构建、管理、运行和维护整个生命周期中的信息。元数据帮助数据仓库系统开发人员全面理解潜在数据源的物理布局以及所有数据元的业务定义,帮助引导用户有效使用仓库中的信息,并向用户提供工具访问元数据。庞大的企业级数据仓库涉及企业运行的众多业务处理系统和整个企业运行的各个环节,只有有效的元数据管理才能保证数据仓库与企业业务的运作同步,并且根据市场和业务需求的变化随时做出调整,一旦业务需求发生改变,用户可以通过对元数据的维护使数据仓库系统的运行做出快速的对应。2332元数据的分类在数据仓库中,元数据按照内容可以分为信息目录、技术元数据、业务元数据、信息助理和数据模型等多种类型。(1)信息目录为技术人员和终端用户提供对仓库系统进行访问和利用的目录表。用户可访问技术元、业务元数据。(2)技术元数据是提供仓库设计、管理人员使用的关于数据仓库数据的信息,它定义了数据源、数据目标以及两者间的对应关系,以及集成和更新的规则。(3)业务元数据包含最终用户能够较容易地从业务角度理解数据仓库数据的信息,具体包括业务主题和技术元数据间的对应、各种业务术语名称。(4)信息助理是仓库向终端用户提供访问技术元数据和业务元数据的简单方法,帮助用户获取、理解数据的含义。(5)数据模型信息包含两个方面仓库中存储的物理数据的数据模型,元数据自身的数据模型。24联机分析处理241联机分析处理的概念联机分析处理,也叫在线分析处理,是使分析技术人员、管理人员或执行人员能从多种角度对从原始数据中转化出来的、能够真正为用户所理解并真实反映特性的信息进行快速、一致、交互地存取,从而获得对数据更深入理解的一种软件技术,其核心是“维”(DIMENSION)的概念。维是一个组织想要记录的透视和实体,是的关键。数据仓库的数据概念模型是多维数据视图,在有多个维表构成的多维空间中,存放着事实,维和事实共同定义了数据立方体(DATACUBE),如图23为年份、疾病、年龄段三维构成的立方体图。图中假定每个格子内存储的数据为人数。每一个维都有一个表与之相关联,该表称之为维表,它进一步描述维。而事实表则反映多维数据模型的主题,包括事实的名称或度量,以及每个相关维表的键值。年龄段Y轴疾病Z轴图23年份、疾病、年龄段三维构成的立方体图联机分析处理(OLAP)允许DSS分析员直接与系统中的数据交互。例如可以OLAP充分体现数据仓库的随时间变化的特性。顺着时间轴向后,它分析大量的历史数据,从中得出医院经营状况的变化走势。顺着时间轴向前,它通过对这些变化的走势分析,预测医院今后经营的走势发展,以及那些变化因子会对医院的生存和发展产生影响。OLAP是相对于OLTP(联机事务处理)而言的,它们都采用CS技术,其中,OLTP主要面向护士、统计员、病案技师之类的具体操作人员,OLAP则是面向类似CIO之类的管理者或决策者。OLTP以事务处理为特征,根据业务需求,即时准确地对数据库数据进行修改,以反应和处理业务过程,OLTP的数据基础是操作型数据库,OLAP则是以查询、分析为特征,根据决策者对信息的需求,给出即时准确的信息,其数据来源于数据仓库,它一般不对仓库数据作修改处理,而只是咨询。OLTP与OLAP的具体差别见表21。表21OLTP与OLAP的比较联机事务处理(OLTP)联机分析处理(OLAP)用户数据录入员、操作人员信息管理、决策人员功能支持日常操作决策支持DB设计面向应用面向主题数据特征当前的、细节的、离散的、原始的、可更新的历史的、综合的、集成的、导出的、较长时间不需更新的存取可读写只读,支持多种扫描方法DB大小100MBGB100GBTB年份1999X轴2000200120022003度量事务吞吐量查询吞吐量、响应速度242联机分类处理的类型现在的OLAP工具可以分为三类。一些OLAP工具是建立在关系模型的基础上的,被称为ROLAP(关系联机分析处理,RELATIONALONLINEANALYSISPROCESSING)。另一些是建立在能优化“切片和分块”数据的基础上的。在这里,数据被认为是存储在多维模型内,这就是所谓的MOLAP多维联机分析处理,MULTIDIMENSIONALONLINEANALYSISPROCESSING。另外一些OLAP工具是两者的结合,也叫HOLAP(混合联机分析处理,HYBRIDONLINEANALYSISPROCESSING)。表22是ROLAP、MOLAP、HOLAP在应用于不同方面的优缺点一览表,根据卫生系统的数据格式大多数是关系性数据库的现状,ROLAP为较好的选择。对多维模型产生分析方法,主要有(1)旋转把多维模型的横、纵、竖坐标交换,即,从不同的视角观察数据,提供数据的替代表示。表22ROLAP、MOLAP与HOLAP的比较特性ROLAPMOLAPHOLAP多维数据视图支持支持支持查询性能一般最快较快数据存储量最小最大中等投资费用保护已有投资最大中等维护需求最低最高一般(2)上翻根据研究目的将数据维的层次进行提升,或者通过维归约,在数据立方体上进行聚集。(3)下钻()根据研究目的将数据维降低观察层次,它由不太详细的的数据到更详细的数据,例如可以将时间维月份的层次结构改为年份。(4)切片根据维的限定做投影、选择等数据库的操作来获得所需数据。例如在立方体时间维的一个成员上投影。(5)切块()在立方体某个维的一个成员值域上投影,即通过两个或多个维来执行选择,定义子立方体。(6)其他OLAP操作OLAP还提供其他钻取操作。例如,钻过(DRILLACROSS)执行涉及多个事实表的查询;钻透(DRILLTHROUGH)操作使用关系SQL机制,钻到数据立方体的底层,到后端关系表。另外还包括列出表中最高或最低的N项,以及计算移动平均值、增长率、利润、内部返回率、贬值、流通转换和统计等功能25数据挖掘251数据挖掘的概念数据挖掘也称数据库中的知识发现(KNOWLEDGEDISCOVERYINDATABASE),是从大量的数据中归纳出联系和规律,提供有效的、新颖的、有潜在价值的知识和规则的过程。随着数据仓库技术的发展,大量的数据已经被集成和预处理。由于数据仓库中数据的高质量和可用信息处理设施的存在,在数据仓库中进行复杂的数据分析成为可能,于是基于大型数据仓库的数据挖掘技术的研究也得到了空前的重视。把数据挖掘建立在数据仓库之上,一方面能够提高数据仓库系统的决策支持能力;另一方面,由于数据仓库完成了数据的收集、变换、集成、存储和管理工作,数据挖掘面对的是经过初步处理的数据,从而使得数据挖掘能够更加专注于知识的发现,有利于发挥数据挖掘技术的潜在能力。和数据挖掘都可以在数据仓库的基础上对数据进行分析,以辅助决策,但是一种验证型的分析,是由用户驱动的,很大程度上受到用户水平的限制。数据挖掘是数据驱动的,系统能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务模型,找到正确的决策,是一种真正的知识发现方法。实际上就是一种广义的、简化了的较浅层次的数据挖掘,而数据挖掘是的扩展,是使这一过程尽可能自动化的分析过程。近几年,越来越多的联机分析处理产品融入了数据挖掘的方法,所以联机分析处理与数据挖掘间的界限正在逐渐模糊。252数据挖掘的系统结构框架本文根据数据仓库的特点,在传统的数据挖掘系统结构框架的基础上,提出了一种基于子数据仓库的通用数据挖掘系统的结构框架(见图24),用于处理各种类型的数据挖掘任务。框图的各部分的功能简述如下(1)用户查询接口(QUERYINTERFACE)将用户提出的知识发现请求通过一定的步骤解释成为规格化的查询语言,交由查询协同机进行处理。查询接口的工作可分为查询分类、查询解释及规格化两个部分。(2)查询协同机(QUERYCOORDINATOR)协同数据仓库管理系统、模型库管理系统和知识库管理系统,共同对查询接口提交的查询请求进行处理。查询协同机是系统的重要组成部分。(3)数据仓库管理系统直接负责对数据仓库进行管理,并完成对各种异构分布数据源中数据的提取工作,在最大限度上屏蔽各类异构数据源对系统带来的影响。(4)知识库管理系统对知识库进行管理和控制,包括知识的增加、删除、更新和查询等。一方面,接受由查询协同机处理后产生的知识库查询请求并进行查询,再将结果提交给知识发现模块;另一方面,接受知识提取模块从最后的综合结论中获取的知识模式,存入知识库,以丰富知识库的内容。(5)模型库管理系统对模型库进行管理。模型库的一个重要组成部分是知识发现模块,它包括各类数据挖掘工具,如关联规则发现子模块;分类规则发现子模块;聚类分析发现子模块特征规则发现子模块。模型库同时还可以管理各类分析工具,这种对数据挖掘工具和其它分析工具的统一管理,使得基于数据仓库的数据挖掘系统可以扩展为决策支持系统。(6)知识发现预处理模块在数据仓库管理系统的协同下,根据元数据和维表,对整个数据仓库中储存的数据进行处理,生成符合用户查询需要的,并能满足知识发现工具集要求的待处理数据子集。图24基于数据仓库的通用数据挖掘系统的结构框图(7)知识评价模块对数据挖掘阶段发现出来的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论