医疗信息系统数据整合和数据挖掘研究.doc_第1页
医疗信息系统数据整合和数据挖掘研究.doc_第2页
医疗信息系统数据整合和数据挖掘研究.doc_第3页
医疗信息系统数据整合和数据挖掘研究.doc_第4页
医疗信息系统数据整合和数据挖掘研究.doc_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类号:题暑乞年乍单位代码:学号:密级:公开北京工业大学硕士学位论文英文并列题目墼垦鲤盟丛坠兰塑垦鱼丛!兰鲤迪旦塑生避坠世业皿研究生姓名:垄国至专业:让篡扭型堂皇撞苤研究方向:盐篡座旦撞苤导师姓名:塞堡职称:熬援缝直王论文报告提交日期垫!生垒旦学位授予日期授予单位名称和地址丝壶互些太堂丝壶直麴田匡壬巫圄!曼整编!丝厂一独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:越签名:辽坠至关于论文使用授权的说明日期:。么兰本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:盏!塑星导师签名:,日期:尘世坚一一饥。,、,敝糯擎:,摘要摘要信息系统的广泛使用及大量医疗数据的存储,使得数据的交换和整合越来越频繁,由于大量异构逻辑数据源的存在,数据挖掘和数据整合技术成为多应用系统整合的关键。本文对美国美中互利公司和中国医学科学院合作成立的外资医院一北京和睦家医院的眦和等多系统的异构数据进行了分析,通过对多种不同结构的逻辑数据源之间的数据挖掘和关联分析,进行数据的准备、提取、清洗、表达和解释,以实现数据的有效整合,供集团的管理者进行综合业务运营分析,进而做出可行的企业发展战略。数据仓库是数据整合和数据挖掘的主要技术之一,然而数据仓库的开发及维护成本高,对操作人员的专业技术水平也有较高的要求,因此数据仓库技术的实现并非易事。基于中间件技术也是一项进行异构逻辑数据源整合的技术,相对而言,该项技术开发及维护成本较低,灵活性强,效率高,更易实现。根据对北京和睦家医院多应用系统的数据库系统和数据结构的分析研究,对其存在“信息孤岛”的现状进行方案设计。在比较数据仓库技术和基于)(中间件技术后,决定通过中间件实现不同应用系统的数据整合,客户端直接通过调用)(文档进行对各个逻辑数据源的数据采集,数据的计算同时在各个逻辑数据源进行。由于数据计算量的分散进行,使得数据整合和数据挖掘更加快速和准确,节约了医院的开发成本,提高了运营工作效率。关键词医疗信息系统;数据挖掘;数据仓库;中间件技术;技术北京工业大学工学硕上论文一一;氐怕()觚血冯,孤西哥玛丘饥,印孕锄,丘瑚嬲砒,出印撕,仃,觚,伊撕锄趾训仃百印),嬲趾疵锄嬲鲍觚伊曲丘,嬲)仃姗肌掣眦锄弱,舭缸酣似咄孤够血曲印丘觚仃鹏锄砌,印曲,印丘舅肌,娼肌啪仃硒嬲趾印弱,【伊锄舶吼伍;舭;订)北京工业大学工学硕士学位一、目录目录摘要?“第章绪论医疗信息系统()的发展当前医疗信息化的应用现状数据挖掘技术在我国的应用现状主要研究内容”研究对象主要研究问题论文结构“第章相关技术和理论数据挖掘技术:数据整合数据仓库整合数据中间件和)(技术”语言和文档一神经网络的基本概念和模型相关财务分析指标资本盈利能力”本量利分析本章小结第章方案设计及评估北京和睦家医院信息系统简介和睦家医院诊疗过程信息流分析系统整合存在的问题数据仓库技术方案数据仓库的优缺点基于)(中间件技术的方案方案评估结论本章小结第章基于中间件技术的实现数据挖掘的目的患者完整信息的数据整合一就诊患者的费用分析一一北京工业大学工学硕士学位神经网络模型的算法对本量利分析预测本章小结结论”参考文献攻读学位期间发表的学术论文致谢第一章绪论第章绪论医院作为一个庞大的社会服务机构,以不同的形式存储了海量的数据资料,随着医院信息化的进程加快,电子信息的积累为医学研究提供了方便,也使研究更具价值。通过对医疗信息系统的建设和完善,建立患者综合电子病历,提供各类临床决策支持系统以辅助医护人员进行诊疗,可有效规范临床行为,提高临床工作效率,减少误诊漏诊,提高整体医疗质量和水平。此外,提高数据分析和挖掘的水平,有效整合数据信息,将其转化为知识,这对于提高医院管理水平具有深远意义。医疗信息系统()的发展在医疗信息系统方面,美国在世纪年代初,便开始了医院信息管理系统()的研究,著名的麻省总医院开发的系统从年代初开始,发展到今天,成为大规模的临床患者信息系统。随着计算机技术的发展,年代系统进入大发展时期,美日欧各国的医院,特别是各大学的教学医院和医疗中心纷纷开发系统,奠定了现代医疗信息学形成和发展的基础。欧洲的系统发展比美国稍晚,大多数在世纪年代中期和年代开始。从年代以来数据仓库的实施给系统带来了巨大的变化,数据仓库的建立给企业带来了一些新的工作流程,并使传统的业务流程也因此而改变。以数据仓库为基础的数据分析和挖掘为企业带来了一些“以数据为基础的知识,它们主要应用于对市场战略的评价和为企业发现新的市场商机;同时,也用来控制库存、检查生产方法和定义客户群;其中,数据均具备有组织的、一致的、不变的格式。数据仓库为使用数据挖掘工具提供了方便,同时数据仓库的建立,充分考虑数据挖掘的要求,用户可以通过数据仓库服务器得到所需的数据,形成开采中间数据库,利用数据挖掘的方法进行开采,获得所需数据或要求。数据仓库中的数据被充分收集起来,进行了整理、合并,并且有些还进行了初步的分析处理。数据挖掘的注意力能够集中于核心处理阶段,数据仓库中对数据不同粒度的继承和综合,更有效的支持了多层次多种类技术的开发【。在世纪末一些软件公司开始开发数据挖掘的工具,如,等,对数据仓库中的数据进行复杂的提取、清洗、转换、汇总融合,然后进行数据装载,而数据一旦装入数据仓库,这些数据将不会再进行修改,但各个逻辑数据源根据业务情况每时每刻都会有新的业务数据增加,因而对数据仓库北京业人学工学硕士学位中的数据进行实时更新将是这些工具的瓶颈,目前只能周期性地进行更新追加新增的业务数据到数据仓库【】。另一方面由于数据仓库中汇总了大量数据,因而在进行数据计算时所需的时间较长,对系统地资源配置要求也高。在经济形势多变的今天,时间就是企业的生命,怎样实时地抓取所需数据、分散计算量是实际应用中非常重要的一个问题,也是该领域研究的趋势。目前美国、日本、欧洲等国家数据仓库技术己经广泛应用于卫生领域,并且由管理层的管理决策支持向临床决策支持方向发展,这与国外医院的数据库信息系统的发展技术水平有关。基于数据仓库的决策支持系统在国外还广泛应用子医疗水平的评估、不同疾病分类管理研究、病理研究、门诊和住院患者的费用审核、医院综合效益评定等方面。我国的医院信息化建设是伴随着计算机和网络技术的应用而逐步发展起来的,至今已有多年,大体分为三个阶段【】:单机单用户、部门级应用和全院级应用。单机用户阶段的特点是应用系统均为单机版,系统之间相互独立,信息不能共享,不能对医院的宏观管理发挥作用。部门级应用的典型应用有药方划价、记账、门诊和住院信息管理、门诊挂号、门诊收费等。其优点是实用性强,管理模式贴近用户需要,信息在部门内部共享。缺点是没有形成完整的信息流,各部门之间信息不能共享。全院级应用阶段采用先进的信息系统开发技术,实现信息高度集成的医院信息系统。其优点是将各部门的信息集成,能满足管理层所需的各种信息,使医疗决策及管理决策的制定更科学化。而其缺点是由于数据量庞大,相应的工作量也十分庞大,全院级应用对其相应的数据整合和数据挖掘的工作要求甚高。当前医疗信息化的应用现状医疗行业有其特殊性,在它信息化推进过程中一直存在结构性失衡,随着人们对医疗服务质量需求的提高和医院之间竞争的加剧,医疗信息化的普及与应用导致医院堆积了许多彼此不能交互访问的“信息孤岛系统【】。据调查显示,在我国现阶段已启动的信息化系统中,真正被有效利用的仅为左右,其余的使用效率不高,甚至是形同虚设【】。其主要原因有两个方面:()把各个信息孤岛的数据整合起来,统一开发的成本高,时间长。()在现实中医疗信息系统的数据库十分庞大且复杂,数据中经常存在以下几种情况【】:数据内涵不一致,出现这种情况的原因很多,有的是由于误解或检测设备失灵导致的相关数据未被记录下来某些记录与其它记录的内容不一致而被删除,或者历史记录或对数据所做的修改被忽略了;,?鼍一第一苹绪论数据重复,不同数据表中包含相同的属性,且属性值完全相同;数据不完整,所需要的属性没有值,或部分属性值空缺;数据维度高,数据大多是多维数据,对高维度数据库进行分析通常需要消耗大量的时间;异构数据之间的融合存在很多问题,而现有存储系统的低利用率,多品牌、多操作系统的异构设备间无法兼容。以盈利为目的的外资医院对于信息数据的利用、集成与分析十分重视,因为其直接影响医院的战略投资计划和安排。一方面,目前外资医院大多数的原始财务数据信息仅限于低层次的直接应用,缺少有效分析。另一方面,外资医院的运营方式和管理有别于国内的医院,因此可供借鉴的行业信息或模板并不多。怎样针对现有的外资医院的数据进行有效的数据分析,以供管理决策者进行正确的投资判断对于外资医院在中国发展十分关键。正是基于以上的原因,本论文针对北京第一家外资医院一北京和睦家医院的患者信息管理系统、财务系统及其它应用系统的相对独立的情况进行研究,结合现实的医疗系统应用需求,以及在华外资医院的医疗系统既要适合中国的国情又要符合国际标准等问题,试探着去发现其医疗信息化建设过程中存在的问题,并提出合理可行的方案。随着国内市场的不断扩大,国家对于医疗卫生领域的财政投入不断增长且放宽了外商投资政策,加速了外资医院在国内的成立和扩张。如此一来,医疗信息系统的数据整合水平及业务发展对于数据挖掘的需求之间的矛盾日益凸显。因此使用当前先进的数据挖掘技术,例如数据仓库技术进行数据挖掘将会是当前外资医院医疗信息化的研究方向。数据挖掘技术在我国的应用现状数据挖掘()就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程【】。这些信息的表现形式为:规则、概念、规律及模式等。数据挖掘的目的是帮助管理者通过分析历史数据及当前数据,从中发现隐藏的数据内在关系和模式,进而预测未来可能发生的行为或事件。其特点是通过对数据仓库中的大量数据进行抽取、转换、分析和其他模型化处理,从中提取出辅助决策的关键性数据资料。其过程包括很多处理阶段,其一般流程主要包括三个阶段:数据准备、数据挖掘、结果解释和评价。数据挖掘中的粗糙集理论、人工神经网络算法、决策树算法可以对医院信息系统的大量数据进行分析,发现有用的潜在的知识,不仅为开展高水准的医学研究提供有力的技术工具,也为医院管理人员提供有价值的信息。因此对医院信息系统中的数据挖掘以及其所应用的技术进行北京业大学二学硕十学位深入研究,能充分发挥数据挖掘在医学领域的作用【】。数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理【。数据仓库技术是当下十分流行的数据挖掘技术之一,它也是解决“信息孤岛及异构数据的有效技术手段。在医疗领域,数据仓库技术主要用来预测手术、用药、诊断、或控制流程的效率。近年来国内数据仓库技术的实施使部分的数据库系统实现了信息共享,有效的解决数据存储和数据再组织。数据仓库技术可以将分布在行业内部网络中不同站点的数据信息集成到一起,为决策者提供各类的数据分析,从而支持各项决策的制定。目前国内数据仓库技术应用在医疗卫生领域还是初步发展阶段。对数据仓库的理论和数据挖掘技术应用于医院的临床决策,病理研究分析及投资管理决策等方面还处在研究和构思阶段。北大人民医院于年开始实施系统,这是系统在医院中的一种个性化应用。通过对前后台业务、财务和物流等系统进行整合,完成了财务、药品、设备、材料供应等模块的实施,该系统最大的优点在于可以实时反映医院的整体运营状况,实现了医院一体化与信息化管理。年该医院开展了全面的商业智能()的建设,将系统中的数据上载到数据仓库,即经过数据仓库的抽取,转换,及上载等步骤将数据存储在数据仓库。之后根据需要对这些数据进行再提取,比如疾病管理、科室收益、药品费用等相关数据,进行相关分析研究,从而为管理层制定决策提供科学依据。北大人民医院通过利用数据仓库的技术来提高医院自身的运营水平,促进财务指标、业务指标和效益指标的提升;该系统在运行期间表现良好,为医疗行业实施做出了成功尝试。公立医院采用数据仓库技术实现医疗信息化,也促进了公共卫生事业的发展,北大人民医院将有价值的各项数据提供给进行公立医院试点改革的相关政府部门,为他们分析公立医院的补偿制度做科学依据。南京军区福州总医院是一所拥有张床位的集医、教、研为一体的大型综合性三级甲等医院。年月该医院开始数字化医院建设,福州总医院实施上级下发的多个子系统,自行开发实施了多个子系统,是国内开发、等大型系统的首批医院之一。其中,自行开发的门诊医生工作站,实现了门诊患者从挂号到出院全过程都脱离了手工处理,基本建成了数字化医酣。在全面运行医院信息系统、和的基础上,该医院与马来西亚黄医院及福州维胜公司合作,建成了大型综合数据仓库支持决策系统。数据仓库能够面向多个应用平台进行综合分析,由于创建的工程量巨大,福州总医院采取了分步走的方式,首先针对眦系统进行整体设计,在该设计方案运行正常后,再将其他应用系统纳入数据仓库。到时,其他应用系统数据进入数据仓库时总结构不变,只需增加数据处理过程。此外多年积累的信息资源,多年的系统应用和研发第一章绪论为医院积累了宝贵的信息资源,现在门诊和住院患者费用明细、医嘱等均已积累了年的数据,有几千万条信息,病案首页等已积累了年的信息,具备了建立数据仓库的条件。通过数据仓库的建设,使福州总医院的管理和决策完全建立在数据分析的科学基础上。目前,该医院管理已逐步从传统经验型向科学量化型的方向发展。尽管数据仓库建设是医院信息系统发展的必然方向,但是近年来数据仓库实施的成功案例并不多见,主要原因一是对于数据仓库的内涵理解不深,对项目的长期性和艰巨性认识不足,使数据管理和数据分析真正上升到数据仓库水平会有很大的困难和局限性;二是很多企业实施了数据仓库项目,但对数据仓库的管理却很混乱,有的甚至成了死库,实施数据仓库项目应对主要问题进行分析,数据库系统中的数据是否达到了实施数据仓库的要求;三是实施数据仓库项目是一个长期的、宏大的项目,对资金的投入、设备及各部门人员投入非常巨大,要充分认识到项目建设的长期性和艰巨性【】。数据仓库的局限性使它不能被广泛使用,如数据量大小、硬件的资源配置、实时数据的传输与更新、开发与维护成本等一系列问题。一方面,由于部门缺乏足够的业务知识,以及受限于软件开发商的技术保密等原因,而无法实现数据信息的共享与沟通。另一方面,业务数据缺乏统一的定义与规划,导致数据定义存在歧义等诸多因素存在。目前已经开发出一些专门的软件工具,使数据仓库的过程实现可以半自动化,帮助企业将数据导入数据仓库,并使用那些已经存入数据仓库的数据进行数据挖掘工作。这些数据挖掘工具有(,),等【】。主要研究内容研究对象本文的研究核心是对北京和睦家医院现行的医疗信息系统的有效整合和数据挖掘分析。北京和睦家医院是美国美中互利工业公司和中国医学科学院合作于年投资成立的外资医院,也是中国的第一家中美合作的外资医院,在国内主要针对妇幼提供高质量医疗服务,使居住在中国的外国派驻人员及其家庭成员不必远涉海外就可以享受高质量的母语化的国际标准的医疗服务。近年来,美中互利公司陆续在北京、上海和广州又设立了以北京和睦家医院为依托的外资医院和专科诊所。随着和睦家医院在中国的不断扩张,业务量的增长使相应的数据量大大增加,采用数据整合和数据挖掘技术对患者资料数据库中大量历史数据进行处理,北京工业大学工学硕士学位挖掘出更有价值的诊疗信息和财务信息变得尤为重要,同时目前医院的医疗信息系统的利用已越来越无法满足医院管理层对于更多深层数据挖掘的需要。目前和睦家医院信息系统存在多个信息孤岛的现状,不同的业务数据分布在不同的应用系统中,不同的系统数据又存在不同的表中,导致系统数据分布的分散化与无序化,医疗数据和研究成果不能达到共享。在医院内部,患者信息管理系统、人事、财务、采购和后勤等部门各自使用着一套满足自身工作需要的应用程序,建立、使用、维护着本部门的业务数据信息系统,从而形成了多个单一逻辑数据源。另一方面,各部门的应用程序与业务数据库系统在规划、建立时,缺乏从整体角度的考虑,有些应用系统更是政府机构或行政管理部门指定使用或开发的,医院本身没有选择的权利,也就没有可能从全面统筹考虑的可能性。这样一来,医院内部尽管拥有极大的数据信息量和病理分析数据,却不能实现信息的有效共享形成一个统一的数据系统整体。和睦家医院目前部分应用系统的结构如图卜所示:图卜部分应用系统的结构为了实现医院内部医疗信息和财务数据的共享,进一步提高医疗服务的质量,并为患者提供更多的方便和高质量的医疗服务,需要对和睦家医院的多应用系统的数据进行有效整合。主要研究问题随着“数字化医院”建设的重点逐渐转向“医疗数字化”,面向医疗活动的各类医疗信息系统及其集成研究变得越来越重要。针对和睦家医疗信息系统的现,第一苹绪论状,本文的主要研究内容归纳如下:()异构数据抽取、合并和整合相关技术研究;()分析和睦家医院信息系统应用现状以及对数据整合和数据挖掘的具体需求;()分析整理和睦家医院多个独立应用系统之间数据的异构状态和关联关系;()和睦家医院数据整合和数据挖掘的方案设计和评估;()和睦家医院数据整合和数据挖掘的方案的实现。上述研究内容涉及的相关问题并不是和睦家医院的独有问题,国内外许多医院的医疗信息系统都存在类似的问题。有效解决这些问题,对于医疗行业相关医疗决策及医院管理水平的提高具有重大意义。本文讨论了利用当下流行的数据仓库技术来整合数据,从而解决“信息孤岛”的问题。虽然数据仓库技术本身也是解决异构数据的有效方法,但是数据仓库的开发成本高,工作量大,耗时耗力。因此本文将采用中间件技术,在各个逻辑数据库中建立工作流模型、分散工作量、把任务请求转换到各个逻辑数据库系统中实现。把所需数据抽调整合并转化为)(文档,用户只需调集)【文档来做数据的分析研究,这使得数据挖掘更加实时、准确。从而达到节约成本,提高工作效率的目的。在数据整合后,采用神经网络模型的算法作进一步的数据挖掘,并结合财务上的本量利的分析模型为相关的医疗管理决策做分析,完成了数据挖掘在实际医疗系统中的应用示例。论文结构本文的各个章节安排如下:第章简要介绍了医疗信息系统的发展情况,针对医疗信息系统的应用现状及需求,探讨医疗信息系统中异构数据的整合问题。对用于解决该问题的数据仓库技术的应用现状进行了阐述。从和睦家医院现有医疗信息系统出发,提出整合异构数据源的迫切性及该问题的普遍性,并阐明异构数据的整合在医疗信息系统中具有重大现实意义。第章主要以数据挖掘系统的组成为主线,介绍构建一个高效、低耗数据系统过程中涉及的相关理论知识。阐述了相关概念与理论,包括和)(之间的相互转换以及的特点和优势;提出了数据挖掘实现的理论框架,并且详细分析该框架的组成部分。阐述了数据仓库和基于)(文档的中间件两种数据整合的技术,并介绍了这两种方法涉及的和)(技术的相关内容。此北京业大学工学硕七学位外,本章对神经网络算法及相关财务指标进行了探讨。第章以北京和睦家医院的医疗信息系统为案例,从抽象的角度描述构建基于医疗信息整合的两个方案,分别是数据仓库方案和)(中间件的方案,并对两个方案进行对比分析;根据和睦家医院的系统应用情况和医院的整体规模,得出更适合该医院运行需要的方案,也为其他医院医疗信息系统的改进提供了一个可供参考的范本。第章从三个方面来阐述基于)(中间件技术的应用,分别是整合某个患者的完整信息;某科室就诊患者的整体费用情况的分析研究;以及利用本量利分析预测公司的运营盈利情况。通过图表结合的方式,详细阐述了每一个目标实现的完整过程,从语言抽取数据到)(文档的转换,最终用生成目标数据。通过实际的操作,有力地证明)(中间件技术应用于数据挖掘的有效性及可行性。最后总结了本文的工作成果,并且提出了今后可能的研究发展方向与设想。第二二章相关技术和理论第章相关技术和理论数据挖掘技术随着医疗信息系统的不断发展,大量的数据信息随之产生。据统计,数据量每年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占总数据量的左右【。因此,企业仍然没有最大化地利用已存在的数据资源,以至于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。有效地利用这些无序、分散的数据对管理者做出科学的医疗信息分析及管理决策具有重大的意义。在本文的应用设计中,数据挖掘技术在数据整合过程中扮演着核心的角色。数据挖掘()就是从大量的不完全的、有噪声的、模糊地、随机的实际应用数据中,提取隐含在其中的、人们事先不知道但又是有用的信息和知识的过程【】。所提取的知识可以表示为概念规则、规律、模式等形式。它具备有效性、新颖性、潜在有用性及最终可理解性,即发现的知识可接受、可理解、可运用,最好能用自然语言表达发现的结果。处理的原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形、图像数据;甚至是分布在网络上的数据和异构型数据【】。获取的知识可用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一个介于统计学、模式识别、人工智能、机器学习、数据库技术以及高性能并行计算等领域的交叉新学科,已在经济、商业、金融、天文等行业得到了成功的应用,在国际上掀起了一股空前的研究热潮即所谓的“数据淘金潮,】。我国学者在这个领域也已开展了很多研究,主要来自计算机科学及相关领域。数据挖掘过程主要由三个阶段组成【】:数据准备、数据开采、数据结果的表达和解释。()数据准备这个阶段又可以进一步分成三个子步骤:数据集成、数据选择、数据预处理。数据集成是将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗数据等;数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘的质量;数据预处理是为了克服目前数据挖掘工具的局限性。()数据开采主要包括:如何产生假设,是让数据挖掘系统为用户产生假设,还是用户自己对于数据仓库中可能包含的知识提出假设。前一种称为发现型北京工业大学工学硕士学位()的数据挖掘,后一种称为验证型()的数据挖掘;【】选择合适的工具;挖掘知识的操作;发现知识。()结果的表达和解释根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具提交给决策者。因此,这一步骤的意义不仅是把结果表达出来(例如采用信息可视化方法),还要对信息进行过滤处理。如果不能令决策者满意,则需要重复以上数据挖掘的过程。数据整合通常在一个医院的医疗系统中,如本文将引以为例的和睦家医院医疗系统,根据实际需要,各部门会使用不同的数据库及应用系统。这就形成了“信息孤岛”【,各系统之间的数据是被隔离的,无法作进一步的数据挖掘。同时多应用系统也使源数据的结构具有多样性和不确定性。各种数据有不同的类型,格式可能也不统一,要将它们进行有效的处理,首先要统一数据;其次需要保证从业务操作系统中引入的数据完整有效,这就要求对相关数据进行完整性检查,一条记录中的各个数据项应保持完整;此外必须对数值的有效性进行核对,以防止将数据源中的错误信息带入决策过程之中。医疗信息系统的多应用系统的现状使数据整合变得十分复杂,只有进行有效的数据整合才能实现进一步的数据挖掘,使管理层获得相关决策的依据,本文的设计关键就在于异构数据的整合。事实上目前数据整合并没有一个统一的概念,在不同层面和不同角度上的数据整合有很多种,比如主机整合,储存整合等。从整合的手段而言,主要有三个方面【】:()物理整合,将多设备整合成为一部或较少的几部更大型的设备,实现统一管理和快速反应。()逻辑整合,即通过系统管理软件等手段对物理上分散的设备资源和数据资源进行虚拟化的集中管理。()应用整合,主要有服务器整合、存储整合、数据库整合和数据整合等形式。本文的设计属于应用整合类,主要会涉及到数据仓库和中间件的技术。数据仓库整合数据数据仓库并没有一个公认的、标准化的定义,不过随着人们对大型数据系统第二章相关技术和理论研究,维护和管理等方面的认识不断提高和增强,在总结和集中多个应用系统信息的经验之后,都或多或少地达成了共识【。数据仓库之父认为“数据仓库是用于支持企业或组织的经营决策管理中决策分析处理的,面向主题的、集成的、稳定的、随时间不断变化的数据集合。”数据仓库首先是面向主题的,所有的数据进入数据仓库后都是围绕某一主题被组织展开的;其次数据仓库具有良好的稳定性,这是因为存入数据仓库的数据是从其他数据库的历史数据中抽取的,并不是实时的数据,即使有修改和更新也是定期的,且周期较长;数据仓库是定期更新的所以它是一个动态的信息库;。最后,最重要的是数据仓库具有集成性,对大量异构数据进行集成工作使其完整统一是数据仓库应用中最为关键的一步。数据仓库中存取的数据一般来自不同的部门和应用系统,这些数据源之间存在很大的差别,这些数据除了在数据格式、存储结构等方面存在差别之外,在语义上也存在冲突和不一致,所以在建立一个数据仓库系统的过程中,从多个异构数据源中集成、清洗、抽取和加载数据是数据仓库的关键所在,这个过程关系到一个数据仓库的成败【。当前,对于多个数据仓库的数据整合,其所需要的数据处理流程是相当复杂的,不仅要能根据各个数据仓库因业务要求的改变(这种改变是相对频繁的)而变更数据处理流程,还要求处理速度高、灵活性强。其中,数据抽取作为数据仓库系统的重要部分,承担着大部分的工作量。为了应对复杂的情况,数据抽取必须采取高效、稳定、可靠、和过程可监控性好的方案。随着对数据分析要求的不断提高和数据仓库的不断发展,建设数据仓库的关键就是从事务数据库或其它的数据源中抽取和有效整合原始数据。()的技术和方法孔是数据仓库建设中的数据抽取()、转换()、装载()的过程。负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础【。是构建数据仓库的重要一环,同时也是构建数据仓库的基础与前提,是数据仓库从业务系统获得数据的必经之路。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么就是建设大厦的实施过程和步骤。在整个项目中最难部分是用户需求分析和模型设计,而规则设计和实施则是工作量最大的,约占整个项目的,这是国内外研究者从众多实践中得到的普遍共识。图一为体系结构,它体现了主流产品框架的主要组成部分。是指从源数据中提取数据,转换数据为一个标准的格式,并加载数据到目标数据存储区,通常是数据仓库。北京工业大学工学硕十学位图的数据上载过程流程图通过接口提取源数据,例如、专用数据库接口和平面文件提取器,并参照元数据来决定数据的提取及其提取方式。珈开发者将提取的数据,按照业务需要转换为目标数据结构,并实现汇总。加载经转换和汇总的数据到目标数据仓库中,可实现部分或批量加载。目前,工具的典型代表有:、微软等。()元数据元数据()通常而言就是数据的数据。在数据仓库系统中,元数据是关于数据仓库的数据,指在数据仓库的建设过程中所产生的有关数据源定义、目标定义、转换规则等相关关键数据,同时元数据还包含关于数据含义的商业信息【。元数据可按用途分为管理元数据和用户元数据,前者主要是开发维护数据仓库的工作人员使用的数据,而后者则是供给终端用户使用的数据,通常是从业务角度反映的数据。元数据贯穿于数据仓库应用的过程,在不同的处理过程中都会产生一些新的元数据,如图元数据整合流程图所示:一一第二章相关技术和理论图元数据整合沉程图事实上,数据仓库可以看成是一个系统集成项目,因为它的主要工作就是把所需的数据仓库工具集成在一起完成数据的抽取、转换和加载,以及分析和数据挖掘等。在这个过程中产生的数据信息多种多样,要有效集成必须保证数据的完整和准确,而元数据正是达成此目的的有效机制。中间件和技术)(技术的可扩展性、易于编辑、支持跨平台、跨地域、异构应用间的协同工作等优点为异构数据的交换提供了一个交换平台,逐渐成为信息数据表示、传输、交换与共享的重要标准和格式【们。利用)(进行数据交换,有较好的优势。)(是自描述的、可交换的、能够以树型或图型结构描述数据。因此,可以利用)(实现系统信息化系统的数据迁移。数据的交换性是其最重要的一个优势。近年来随着的)(技术的不断发展,其良好的特性不断凸现,许多研究人员及厂商纷纷将)(技术与中间件技术相结合。基于)【中间件技术为异构数据集成提供了另一种方法。中间件技术的概况各种软硬平台在计算机技术的快速发展下不断增加。硬件系统有个人电脑,工作站,小型机等;在硬件系统平台上的软件系统则更是多种多样,如操作系统,北京工业大学学硕十学位应用系统,数据库等;而连接这些不同平台的网络协议和结构也可能不一致。在这种情况下,为了把分布在不同平台中的大量数据有效集成起来,中间件技术便应运而生。中间件,又称中间软件或支撑软件,泛指能够屏蔽操作系统和网络协议差异,能够为异构系统之间提供通讯服务的软件【。存在于不同平台和应用软件之间的数据可以通过中间件实现高效率的交换及功能的调用,比如它可以实现在同一台机器上的信息交换,或者是在同一网络下不同机器上的几个运行进程之间的信息交换。中间件的最大优点是其用户和开发人员并不会察觉到应用程序所使用的各种资源的差异。比如,某一计算机环境是由不同开发商生产的不同产品组成,那么其资源可能会因为不同产品的差异或应用程序需求之间的差距造成的,这样的一个计算机环境我们通常定义为异质计算机环境。而中间件技术正是为异质计算机环境中的各项服务和资源提供统一的观察结果,既可为同一平台上的使用不同开发商产品的用户和开发商创造一体性,也同样可以为不同平台上的用户和开发人员提供服务。事实上,中间件将应用程序与系统所依附软件的低层细节和复杂性细节隔离开来,这样,应用程序开发者只需处理某种类型的单个,其他细节则交由中间件处理【。)中间件技术的特点总的来说,中间件具有以下的特点:满足大量应用的需要;运行于多种硬件和平台;支持分布式计算,提供跨网络、硬件和平台的透明性的应用或服务的交互功能;支持标准的协议;支持标准的接口【。中间件提供大量,程序员可以通过调用这些来屏蔽异构系统中复杂的操作系统和网络协议,从而实现在异构环境中的通讯。对于应用软件开发,中间件远比操作系统和网络服务更为重要,中间件提供的程序接口定义了一个相对稳定的高层应用环境,不管底层的计算机硬件和系统软件怎样更新换代,只要将中间件升级更新,并保持中间件对外的接口定义不变,就能继续在应用系统中抽取和整合数据。因此应用软件几乎不需要作任何修改,企业就可以实现应用程序定位和应用逻辑和数据的共享,并节省大量投资成本。此外,软件开发者也因此减少工作难度,他们可以在现有的硬件设备、网络、操作系统、数据库管理系统等应用软件使用中更加得心应手。总之,中间件可以降低企业的投资风险;保证应用软件的相对稳定并实现其功能扩展;简化了由不同硬件构成的分布式处理环境的复杂性。这样一种能灵活应用于各种平台系统中的形式,使其成为解决异构数据集成的理想方案

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论