(计算机软件与理论专业论文)医院信息系统的数据仓库技术研究与应用.pdf_第1页
(计算机软件与理论专业论文)医院信息系统的数据仓库技术研究与应用.pdf_第2页
(计算机软件与理论专业论文)医院信息系统的数据仓库技术研究与应用.pdf_第3页
(计算机软件与理论专业论文)医院信息系统的数据仓库技术研究与应用.pdf_第4页
(计算机软件与理论专业论文)医院信息系统的数据仓库技术研究与应用.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机软件与理论专业论文)医院信息系统的数据仓库技术研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 目前国内大部分医院已建立了医院信息系统( h i s ) ,积累了大量的医疗及管 理数据,但能够提供有限的关于管理决策的全局信息却非常缺乏。在开源节流成 为各级医疗单位管理主题的情况下,如何能充分利用这些大量积累的宝贵数据, 为医院管理层提供辅助决策支持信息成为h i s 的热点话题。 数据仓库及相关技术是近年来新兴起的一种数据库技术,它通过对大量数据 按主题进行重新组织、存储,并进行联机分析处理、从中提取、挖掘出有用的信 息,以支持决策。数据仓库技术在金融、电信等领域的应用已取得较显著的成效, 已逐渐成为各种决策支持系统的基础。 在本课题中,采用数据仓库解决方案,根据医院决策层的辅助决策需要,整 合四平市中韩女子医院信息系统的历史数据,建立基于医疗费用为主题的数据仓 库。课题对数据仓库的结构、开发设计策略、实现方法,以及数据提取、转换、 加载等技术和过程进行详细的阐述和讨论。通过对医院信息系统中与费用相关的 数据进行分析,提取出执行科室、住院科室、收费项目类别、开单医生、收费日 期等各个分析维度,从而形成了以收费为主题的雪花型模型。在实现数据的迁移 过程中,利用v i s u a ls t u d i o 与p o w e r b u i l d e r 开发工具实现从医院信息系统中 繁多的数据表中提取数据,并按数据仓库数据库的格式进行转换、净化,然后加 载到数据仓库的事实表、维度表中。在数据仓库数据库的基础上,建立多维数据 集,对主题数据进行重新组织、存储和处理。课题对数据仓库数据的图表浏览几 种实现方法分别进行阐述。另外,课题还设计了一个数据仓库取数解释器,大大 的提高了普通终端用户使用数据仓库的能力。 本课题是医院信息系统的数据仓库技术应用的尝试,在实际应用中取得积极 有效的效果。 关键词数据仓库,联机分析处理、取数解释器 a b s t r a c t w i t ht h eh o s p i t a lm a n a g e m e n tm o d et r a n s f o r m a t i o n , i ti sd i f f i c u l tf o r t h et r a d i t i o n a lh o s p i t a li n f o r m a t i o ns y s t e m ( h i s ) t om e e tt h ed e m a n do f h o s p i t a lm o d e r n i z e dm a n a g e m e n tf o rl a c k i n go fe f f e c t i v ed a t aa n a l y s i s a n dd e c i s i o ns u p p o r t d a t aw a r e h o u s et e c h n o l o g yp r o v i d e sas o l u t i o nf o r i m p r o v i n gt h eh o s p i t a lm a n a g e m e n tl e v e la n dc o m p e t i t i o na d v a n t a g e a c c o r d i n gt oi t si n c r e a s i n gd e v e l o p m e n ta n dm a t u r i t y t h i sp a p e ra i m sa t e x p l o r i n gt h ea p p l i c a t i o na n di m p l e m e n t a t i o ns t r a t e g yo fd a t aw a r e h o u s e t e c h n o l o g y i n h o s p i t a l i n f o r m a t i o n s y s t e mb yb u i l d i n gu p ad a t a w a r e h o u s ep r o t o t y p e s y s t e m w h i c hi sb a s e do nm e d i c a l e x p e n s e s a n a l y s i s t h i sp a p e ri n t r o d u c e st h ec r i t i c a l t e c h n o l o g yo fd a t aw a r e h o u s e i n c l u d i n g d a t a i n t e g r a t i o n ,d a t ao r g a n i z a t i o n a n d m a n a g e m e n t , v i s u a l i z a t i o no fm u l t i d i m e n s i o nv i e wa n d o l a p ( o n - l i n ea n a l y t i c a l p r o c e s s i n g ) t e c h n o l o g y i ts u g g e s t sad a t ai n t e g r a t i o nm e t h o db a s e do n m e t ad a t a ,a n dd e s c r i b e sam e t ad a t a l o g i c a lm o d e lu s i n gr e l a t i o n d a t a b a s ea r c h i t e c t u r e a na p p li c a t i o nm o d e li sd e s i g n e dw i t ht w o l a y e r c ss t r u c t u r e ,u s i n gd a t ai n t e g r a t i o na si t sf o u n d a t i o n ,d a t ao r g a n i z a t i o n a n dm a n a g e m e n to fd a t aw a r e h o u s ea si t sc o r ea n do l a ps e r v i c ea si t s d a t aa c c e s se n g i n et oc o n d u c tm u l t i - d i m e n s i o nd a t aq u e r ya n da n a l y s i s t h i sp a p e rs p e c i a l l yd i s c u s s e sh o wt ob u i l du pad a t aw a r e h o u s e s y s t e m ,i tp r e s e n t sas t a r m o d e b a s e dp h y s i c a lm o d e l ,m u l t i - g r a n u l a r i t y a n dd a t a p a r t i t i o ns t r a t e g y t h ef e a s i b i l i t y o f i m p r o v i n gq u e r y p e r f o r m a n c eo fd a t aw a r e h o u s eb yu s i n gm u l t i g r a n u l a r i t y ,d a t a p a r t i t i o n a n di n d e xm e c h a n i s mi sa l s od i s c u s s e d i tp r e s e n t st h ed e s i g nm e t h o d s a n dp r o c e d u r e so fd a t aa n a l y s i sa n dm u l t i f u n c t i o n a lr e p o r t i n gb yu s i n g o l a pt e c h n o l o g yi nd e t a i l a na p p l i c a t i o ne x a m p l eo fd a t aw a r e h o u s ei s i n t r o d u c e d o t h e r w i s e ,ad a t ai n t e r p r e t e r i s d e s i g n e di n t h es u b j e c tt o e n h a n c et h ea b i l i t yo fc o m m o nu s e ru s i n gd a t aw a r e h o u s e t h i ss u b j e c ti s at r i a lo fa p p l i c a t i o no nd a t aw a r e h o u s et e c h n o l o g yo fh i s ,a n dg e t s e f f e c t i v er e s u l ti na c t u a la p p l i c a t i o n k e y w o r d d a t aw a r e h o u s e ,o l a p ,d a t a i n t e r p r e t e r - n - 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:玉! ! 兰坞日期:立三丑年! 期卫日作者签名:亟! ! 兰马日期:过年! 期卫日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 懒名:坞导师签名丝嗍猕d 翌日 硕士学位沦文第一章绪论 1 1 课题来源 第一章绪论 随着计算机信息技术在医院经营管理中的广泛应用,很多医院都建立了各自 的医院管理信息系统( h i s h o s p i t a li n f o r m a t i o ns y s t e m ) ,其中积累了大量的 业务数据,特别是记载着病人病史、诊断、治疗全过程的医疗数据蕴含着巨大的 价值,人们逐渐意识到,运用传统的数据库技术开发的面向业务操作的应用系统 由于数据共享性差、数据访问效率低、缺乏从大量业务数据中发现内在规律的有 效手段,已经不能满足医院现代化管理的需要。人们对信息的需求已经从简单的 数据收集型转向分析加工型,对数据进行多层次、多角度的分析处理,从而为医 院经营管理提供辅助决策正在成为医院信息化建设的一种新趋势n 1 。 四平市中韩女子医院是一所集医疗、科研、教学、预防为一体的大型“二级 甲等”民营医院,经过多年的信息化建设,目前已经建成了住院处、门诊部、体 检中心、v i p 贵宾服务中心、物资管理、财务管理、医疗保险等多个相互独立的 管理信息子系统。但由于各部门数据分散存储和面向专业操作,很难从这些大量 的业务数据中提取出“真正有用的分析性、决策性的信息,形成了一种“数据 丰富但信息贫乏的不良状况。随着医疗体制改革力度的加大、医疗保险制度改 革的实施、医药分开管理核算等一系列医院市场化、社会化和企业化的改革,医 疗费用的影响因素、医疗保险政策的制定越来越成为人们议论的焦点。从医院管 理角度来看,医疗费用的影响因素一直是医院领导关注的重点,医疗费用不仅关 系到患者的切身利益,而且由于医疗费用是医院主要的收入来源,作为衡量和优 化医院医务质量管理最直接有效的依据,关系到医院的经济效益、社会效益以及 未来的发展潜力。医疗费用管理是医院最基本的业务内容之一,医疗费用数据比 较丰富也比较完整,以“医疗费用分析”为主题建立数据仓库,通过对医疗费用 多层次、多角度的分析,可以帮助医院领导对不合理的医疗费用增长做出准确判 断,有助于为医疗服务各环节的质量优化提供科学决策。 本课题旨在建立一个以“医疗费用分析 为主题的数据仓库原型系统,为医 院领导层提供及时准确的分析决策支持,为下一步建立全院级的医院信息管理数 据仓库奠定扎实基础,同时也试图体现出现代信息技术与“以病人为中心”的现 代医院管理理念的最佳结合。 硕士学位论文第一章绪论 1 2 研究背景 1 2 1 数据仓库的由来 在激烈的市场竞争中,正确及时的决策是企业生存与发展的关键。越来越多 的企业认识到,只有充分利用已有数据,找出隐藏其中的有意义的信息,才能实 现更大的经济效益。企业日常的业务处理系统中存储了大量的数据,但是因为它 是面向业务操作设计的,无沦是查询、统计还是生成报表,其处理方式都是对指 定数据进行简单的处理。虽然简化了具体操作人员的劳动强度,但不能对这些大 量数据所包含的内在信息进行提取,企业并没有获得真正的决策支持。 调查研究表明,大多数企业并不缺少数据,而是受阻于庞大的数据量与冗余 数据及数据不一致,导致大量的历史数据被束之高阁。随着数据量的快速增长, 数据变得越来越难于访问、管理和用于决策支持。那么怎样把大量的数据转换成 可靠的、商用的信息以便于决策支持呢? 数据仓库正广泛地被公认为是最好的解 决方案之一嘲。 数据仓库可以解决如下问题:多种、异构数据源集成问题,数据的不一致问 题,无法利用历史数据问题,系统分析的效率问题 我们可以看到,数据仓库是以大型数据管理系统为基础,附加在这个数据库 系统之上并存储了从企业所有业务数据库中获取的综合数据并能利用这些综合 数据为用户提供经过处理后的有用信息的应用系统。 1 2 2 国内外的研究现状 随着各种计算机技术,如数据模型、数据库技术和应用开发技术的不断进步, 数据仓库技术也在不断发展,并在实际应用中发挥了巨大的作用。数据仓库技术 在金融、电信以及电子商务领域得到了广泛应用,国际上许多大公司纷纷建立了 数据仓库系统。使用数据仓库所产生的巨大效益同时又刺激了对数据仓库技术的 需求,数据仓库市场正以迅猛势头向前发展:一方面,数据仓库市场需求量越来 越大;另一方面,数据仓库产品越来越成熟,许多数据库厂商如微软、o r a c l e 等纷纷推出了自己的数据仓库软件。数据仓库技术正受到企业界、学术界和政府 部门的广泛关注,数据仓库与i n t e r n e t i n t r a n e t 集成将有着广泛的应用前景1 。 我国医院信息系统( h i s ,h o s p i t a li n f o r m a t i o ns y s t e m ) 的建设经过近二十 年的发展已经初具规模。在信息系统应用技术上,采用客户服务器体系结构、 应用基于s o l 语言访问的大型数据库以及采用快速以太网等网络交换技术已经 成为医院管理信息系统的主流。但是由于受资金和管理模式的影响,相当数量的 h i s 建设还只停留在以经济管理为主线、面向医院内部资金流和物流管理的阶段, 硕士学位论文第一章绪论 即侧重于医院的日常业务操作。 随着电子病历( c 0 m p u t e r - b a s e dp a t i e n tr e c o r d s ,c p r ) 系统、医学影象系 统( p i c t u r ea c h i e v i n ga n dc o m m u n i c a t i o ns y s t e m ,p a c s ) 、远程医疗等交互式 网络信息服务功能的开发和应用,国际发展趋势表明,能够适合多种内容、媒体 的数据结构、适合高效经济的数据存储以及快速方便的数据分析查询的数据仓库 系统将是医院管理信息系统发展的必然趋势,例如根据病人的基本信息进行流行 病学调查、利用疾病诊断信息进行疾病谱分析、利用费用结算清单进行卫生经济 学研究等,更深入的研究如医疗市场研究,通过分析某类病人的增长趋势,以便 作出终止或扩张某种医疗服务的适当决定。按周期对医院收入和成本进行比较, 整合医疗资源,协助制定大规模的医疗投资计划等。 由于国内医院的业务流程尚未标准化以及业务数据难于标准化等原因,使得 医院管理信息系统中数据的内容和组织结构彼此差异很大,造成大量业务数据难 以移植推广、难以共享,对医院管理信息系统的进一步发展造成潜在的危害,也 使得数据集成和数据分析更为复杂和困难。 由此可见,现有的医院管理信息系统虽然实现了业务操作的计算机化,但是 在医院经营管理方面,现有的医院管理信息系统仅能提供一些有限的简单查询, 缺乏对业务数据的综合分析、趋势预测等功能,无法提供更多的辅助决策支持, 已经不能充分满足医院信息化建设发展的需要。 1 3 本文的研究目标与内容 本文的研究目标是:通过研究数据仓库的相关技术,探讨一种适用的数据集 成方法,结合医院管理部门工作的具体需求,设计并实现一个以“医疗费用分析” 为主题的数据仓库原型系统,在此基础上,向医务管理人员提供各类统计报表和 数据联机分析。 本文的研究内容包括:数据仓库系统中数据集成方法的研究、数据仓库系统 的设计与建模、数据的联机分析和显示。下面将概要叙述本文在这几个方面的研 究内容。 1 数据集成方法的研究 由于数据仓库是一个独立的分析型数据环境,它需要通过数据集成过程将数 据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库, 将分散异构的数据集中统一起来,为整个数据仓库提供数据基础。由于数据分散 存储、数据完整性和一致性难以保证,必须经过语义统一、数据类型转换、数据 有效性检查等处理后才能加载到数据仓库中,显然增加了数据集成的复杂性,因 此,数据集成应该作为研究的一个重点。 硕士学位论文第一章绪论 2 数据仓库系统设计和建模 数据仓库首先要具备存储和管理大量数据的能力,包括数据的组织、数据的 维护、数据的分发、数据仓库的例行维护等。其次,数据仓库需要处理复杂的查 询请求服务,支持多维分析的查询模式,需要设计合理的数据模型以及数据的存 储结构。因此数据仓库的逻辑模型和物理模型的设计应该作为研究的另一个重 点。 3 多维数据的分析、报表显示 数据仓库的数据最终通过数据展现工具来表现,主要满足即席查询、报表生 成、联机分析处理方面的需求。因此需要为最终用户提供一种方便、实用的、灵 活的数据表现工具。 4 数据仓库取数语言解释器 由于数据仓库的结构复杂,而且实际实践中用户对数据的需求千变万化,导 致数据仓库的实际使用效果与分析模块的可维护性不好,为了解决这个难题,使 普通终端用户能够自由的提取数据仓库中的数据进行分析,本论文提出了数据仓 库取数语言解释器解释,来解决这个普遍的难题。 1 4 本文的工作安排 结合上述研究目标和内容,本文的主要工作安排如下: 1 研究数据仓库相关技术,定义本系统的总体框架。 2 分析源业务处理系统中与住院医疗费用有关的数据的组织特点,设计一种 适用的数据集成方法。 3 结合源业务处理系统的应用环境,讨论数据仓库系统的实施规划。 4 论述数据仓库的建模方法,设计并实现数据仓库系统。 5 研究与实现数据仓库取数解释器技术。 1 5 论文的组织结构 论文共分七章。 第1 章介绍课题背景意义、研究工作的目标和内容及主要工作安排。 第2 章介绍数据仓库相关背景知识。 第3 章阐述本系统的总体分析和设计思想。 第4 章论述系统中数据集成方法的研究 第5 章论述数据仓库系统的设计与建模。 第6 章说明系统实现与具体应用实例。 文章的最后总结本文的研究成果,并提出进一步的工作展望。 硕士学位论文第二章数据仓库的相关知识 第二章数据仓库的相关知识 传统的数据库技术是以单一数据源为中心进行联机事务处理( o l t p , o n - i i n e t r a n s a c t i o np r o c e s s i n g ) ,而数据仓库技术集成来自不同数据源( 如同 构或异构的o l t p 系统、文本文件或者电子表格) 的数据,经过清理、转换、综合, 以面向主题的方式组织和存储数据,最终以多维分析、数据挖掘等表现形式来支 持高层决策分析。 数据仓库系统融合了数据仓库( d w ,d a t aw a r e h o u s e ) 技术、联机分析处理 ( o l a p ,o n 一1i n ea n a l y t i c a lp r o c e s s i n g ) 和数据挖掘( d m ,d a t am i n i n g ) 技术, 其中数据仓库主要用于数据的组织、存储和管理,o l a p 侧重于与用户的交互、 快速的响应速度及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据 中的模式和有用信息。 2 1 数据仓库 数据仓库提出于二十世纪九十年代初,是以关系数据库、并行处理技术和分 布式技术的飞速发展为基础,是为了解决信息技术在发展过程中虽然拥有大量数 据却缺乏有用信息( d a t ar i c h i n f o r m a t i o np o o r ) 而提出的一个综合方案。 数据仓库的创始人w h i n m o n 描述了数据仓库的定义啼1 : 数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持 经营管理中决策制定过程。 数据仓库的四个主要特征: 1 数据仓库是面向主题的 面向主题的数据组织方式是数据仓库的基本特征。主题是在较高层次上对企 业信息系统中的数据综合、归类并进行分析利用的抽象。从逻辑意义上讲,它对 应于某一个宏观分析领域所涉及的分析对象。面向主题的数据组织就是在较高层 次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻划各个分析 对象所涉及的企业的各项数据,以及数据之间的联系。 2 数据仓库的集成性 数据仓库的数据来源于不同的联机事务处理系统,数据集成是指数据仓库中 的信息不是从各个联机事务处理系统简单抽取出来的,而是要经过系统加工、汇 总和整理,保证数据仓库内的信息是关于整个企业的一致的全局信息。 3 数据仓库在一定时期内保持相对稳定 数据一旦进入数据仓库后,一般情况下将被长期保留,也就是说数据仓库的 数据是相对稳定的,用户进行分析处理时是不进行数据更新操作的。但并不是说, 5 硕士学位论文 第二章数据仓库的相关知识 从数据输入数据仓库开始,到最终被删除的整个数据生命周期中,数据仓库中的 所有数据都是永远不变的。源数据根据决策应用的需要,按规定的时间间隔进入 数据仓库,一旦进入数据仓库中就不能由用户进行更改操作。数据仓库中一般有 大量的插入和查询操作,而修改、删除操作则很少。对数据的操作主要是定期成 批加载新数据。 4 数据仓库的数据随时间变化 数据仓库内的信息并不只是关于企业当时或某一时点的信息,而是记录了企 业从过去某一时点到目前的各个阶段的信息。数据仓库系统必须不断地捕捉o l t p 数据库中发生变化的数据,及时追加到数据仓库中去:其次,随时间变化,还要 删除1 日的、过时的数据内容。数据仓库的数据也有存储期限,一旦超过了这一期 限,过期数据就要被删除。只是数据仓库内的数据存储时限要远远长于操作型环 境中的数据存储时限。另外,数据仓库中包含有大量的综合数据,这些综合数据 中很多跟时间有关,数据经常需要按照时间段进行综合,这些数据要随着时间的 变化不断地进行重新综合。数据仓库利用这些随时间变化的数据,对企业的发展 历程和未来趋势做出定量分析和预测。 总之,数据仓库系统不是简单的由各种数据合并而成的超级数据库系统,而 是专门为联机分析和决策支持而构建的分析型的数据存储环境。数据仓库系统涉 及数据抽取、转换、装载、数据存储、元数据管理、查询、报表分析等数据处理 方法。数据仓库的体系结构及其应用模型如图2 1 所示。 图2 1 数据仓库的体系结构及其应用模型 由此可见,建立数据仓库的目的是建立一种分析型的数据存储环境,将分析 决策所需的大量数据从联机事务处理( o l t p ) 系统中分离出来,使分散的、不一致 6 一圈圈圈圈 硕士学位论文第二章数据仓库的相关知识 的操作数据转换成集成的、统的信息,应用联机分析处理( o l a p ) 技术完成大量 数据分析查询,更好地支持决策分析。 2 2 数据仓库的模型 数据仓库的目的是组织大量稳定的数据便于分析、检索和创建报表,即将 o l t p 系统中产生的数据动态地转化并集中存贮在数据仓库中,提供给o l a p 应用 系统进行分析。创建和设计数据仓库的原则包括四个方面的问题:建立面向主题 的数据模型;保证数据的一致性:提高查询处理速度;提高数据装载效率。 数据仓库系统主要实现o l a p 功能,用于对数据进行多维分析。数据仓库中 的数据是按照多维方式组织的,是o l a p 最适合的数据组织方式。数据仓库建模 是整个数据仓库系统的核心。数据仓库建模用于组织和管理数据,以提高数据的 分析和汇总效率。数据仓库的建模应反映出数据仓库主题的逻辑规则以及用户对 查询范围和查询深度的需求。 2 2 1 数据仓库的概念模型 数据仓库的概念模型是面向企业全局建立的,它为集成来自各个事务处理系 统的数据提供了统一的概念视图。概念模型的设计是在较高的抽象层次上的设 计。一方面,要对企业现有数据库中的数据内容有一个完整而清晰的认识,另一 方面,数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集 合,要充分了解决策者对数据分析的需求,通过确定系统边界和定义主题域反映 出数据仓库的概念模型。 1 界定系统的边界 从建立数据仓库的初衷来看,医院领导迫切需要掌握医疗费用的分布情况、 药费占整个医疗费用的比例以及大型医疗设备的利用情况,以便控制不合理的费 用增长,针对不同类型的患者调整收费项目和收费标准,从而达到提高服务质量、 优化医院经营管理环境的目的。因此,系统设计应满足上述需求。此外,医疗费 用从另一个方面反映了全院各科室的医疗收入情况,据此可以评价科室工作业 绩,评估收入分配指标,便于制定合理的医疗设备配置方案。 7 硕士学位论文第二章数据仓库的相关知识 2 确定主要的主题域 通过对医院数据库系统进行认真分析,确定了以“医疗费用分析 为主题建 立数据仓库的多维概念视图,系统设计了按时间维、费用类别维和医生费用维组 织的多维数据集。通过在各维间建立交叉组合进行多维数据的动态分析,用于分 析不同时间、不同科室采用不同医疗方式所产生的各项医疗费用,如2 0 0 6 年3 月职工住院的检查治疗费。如图2 - 2 所示。 图2 - 2 “医疗费用分析”的多维概念视图 2 2 2 数据仓库的逻辑模型 逻辑设计过程包括将数据安排成一系列的实体和属性的逻辑关系序列。数据 仓库的逻辑设计包括:实体的集合和属性,对应于事实表和维表。 数据仓库中的数据存在不同的综合级别。一般将数据仓库中的数据分为四个 级别:早期细节级、当前细节级、轻度综合级、高度综合级。源数据经过转换装 入数据仓库后,首先进入当前细节级,并根据具体要求进一步综合,从而进入轻 度综合级乃至高度综合级,老化的数据将进入早期细节级。数据仓库中数据的组 织结构,如图2 - 3 所示, 8 硕士学位论文第二章数据仓库的相关知识 高度综合数据 - - - - - - 轻度综合数据 当前细节数据 早期细节数据 图2 - 3 数据仓库的数据组织结构 粒度( g r a n u l a r i t yo fd a t a ) 划分:由于在事务处理系统中积累了大量的细 节数据,这些过多的细节数据不利于分析决策人员将注意力集中在有用的信息 上,另一方面,细节数据过多,严重影响了分析查询效率,有必要对数据进行一 定程度的综合汇总。 粒度描述了数据仓库中数据的细化或综合程度的级别。细化程度越高,数据 的粒度越小。数据粒度层次划分直接影响到数据仓库中数据存储量的大小、影响 到数据仓库回答问题的查询种类、查询深度。 由于数据仓库用户对数据的综合概括程度有不同的要求,如高级决策层要了 解一些高度综合汇总的信息,并不太关心具体的详细数据:而业务主管部门,不 仅要求了解综合信息,还有必要了解信息背后的详细数据,可见,数据粒度的划 分要根据用户的业务需求而定。此外,如果对数据进行一定程度的预综合,可以 提高数据仓库的查询效率,所以划分数据粒度是必不可少的。 划分粒度的方法是:首先,估算数据仓库中数据的行数和d a s d ( d i r e c t a c c e s ss t o r a g ed e v i c e ) 数;其次,由估算出的数据量和d a s d 数,决定如何划 分粒度,但是,需要注意的是,划分粒度的决定性因素并非总的数据量,而是总 的行数。这是因为对数据的存取通常是通过存储索引来实现的。一般地,数据仓 库是依据用户的业务需要采取不同的粒度划分策略来存储数据的。因此,需要根 据d a s d 以及用户的业务需要来确定是采用单一粒度还是多重粒度、以及粒度划 分的层次。 四平市中韩女子医院每天新增住院病人在2 0 - 7 0 人次,以一年3 6 5 天计算, 全年平均住院人次大约在1 5 0 0 0 ( 如4 0 * 3 6 5 = 1 4 6 0 0 ) 人次,目前医疗费用详细分类 有6 5 项,考虑到并不是所有患者住院期间都会发生全部各类医疗费用,经实际 查证发现,一年的医疗费用记录大约为五十多万行。一般情况下,年数据量在超 9 硕士学位论文 第二章数据仓库的相关知识 过1 0 0 ,00 0 行时就应该进行粒度划分,增加一个综合级别;超过1 0 0 0 0 0 0 行时 就应该考虑多重粒度的划分。显然系统应该采用双重粒度划分。具体的策略如图 2 4 所示。 图2 _ 4 数据粒度划分策略图 每月月初将源业务处理系统当前数据加载到数据仓库中,源业务处理系统中 医疗费用数据记录是根据医生医嘱随时录入的,所以一天当中,可能会出现多笔 相同类型的医疗费用( 如各种药费) 。进行数据集成时,对每位患者当日发生的医 疗费用按照医疗费用详细类别进行汇总,以减少数据行数。每月进行一次数据追 加,年底以月为基本粒度单位进行综合汇总。例如,当前年度内的数据是以日 为单位记录的,成为当前详细数据层,由源业务处理系统数据库中析取和集成后 直接导入;一年以上数据以月为单位进行综合,成为历史数据层,用于纵向对比 分析和预测。 数据仓库建模常用的模型结构有两种:星型模式、雪花型模式。 星型模式的中心是一个事实表,周围是维表,事实表和维表之间建立直接连 接,事实表用于存储事实数据和维表关键字:维表存放维的层次、成员等维的描 述信息,事实表和维表通过关键字和外关键字联系在一起,形成“星型模式”如 图2 5 所示。 1 0 硕士学位论文第二章数据仓库的相关知识 一 图2 - 5 星型模式 雪花型模式是星型模式的一种扩展形式,在这种结构中,包括与事实表直接 关联的主维度表、与主维度表关联的次维度表,次维度表与事实表间接关联,每 个维度信息分布到多个表中。如图2 - 6 所示。 图撕雪花型模式 在雪花型模式中,一个单独的维度扩展到两个或更多的相互关联的较小的规 范化表中,每个表都连接到主维度表,而不是事实表中相关的维度表,减少了数 据冗余,它的优点是通过最大限度地减少数据存储量,但数据间的连接增加了, 影响了查询性能。 在星型模式中,维表直接与中心事实表连接,避免了维度中的级别被分散在 若干个表中,因此可以优化数据仓库的查询响应时间,提高查询性能。所以,本 系统采用了星型模式的数据模型。 硕士学位论文第二章数据仓库的相关知识 2 2 3 数据仓库的物理模型 物理模型的设计需要将逻辑模型的设计转换为物理数据库结构的描述,还要 说明数据的物理存放位置、存储分配等。 数据仓库由多个物理元素和功能元素组成,分别有数据集市、数据源、维度、 级别、度量值、多维数据集、分区和聚合。 1 数据集市包含拥有特定业务的数据仓库的数据部分。 2 数据源用于描述数据仓库中使用的各种数据源。 3 维度描述了数据仓库事实表中的数据。 4 级别描述数据分类的有组织的层次结构。 5 度量值描述最终用户浏览多维数据集时查看的数字数据。 6 多维数据集是包含维度和度量值的多维结构,对度量值进行适当聚合。 7 区用来描述存储和管理预先计算的聚合 8 聚合描述了预先计算好的汇总数据。 数据仓库的物理模型:基于逻辑模型的设计,本系统采用星型模式建模。星 型模式由事实表和维表组成,多个维表之间形成多维数据结构,星型模式的数据 体现了空间的多维立方体。星型模式的好处:进行信息检索的连接更少,通过数 据预连接和建立有选择的数据冗余,简化了数据访问和分析过程,这种高度集中 的数据为各种不同决策需求提供了有用的分析基础。星型模式可以优化数据仓库 的查询响应时间,提高查询性能。 2 3 数据粒度 数据粒度是指数据仓库中数据的详细程度和综合级别。粒度可以分为两种形 式,一种是对数据仓库中数据综合程度的一个度量,数据越详细,数据粒度越低, 反之,则越高。数据粒度越低,回答查询的种类就越多,但必然造成数据仓库中 数据的大量堆积,当回答综合性问题时效率将会十分低下。反之,数据粒度高则 会提高查询的效率。另一种粒度是指样本数据库的粒度,样本数据库中的粒度由 采样率的高低来划分,一般是以一定的采样率从细节数据或轻度综合数据中抽取 的子集。由于样本数据库是根据一定需求从源数据中获得的一个抽样,因而也就 不能回答一些细节性问题,经验证明,在源数据量很大的情况下,抽样数据量可 大大下降,源数据量越大,下降的比例也越大,而得出的分析结果误差极小。 由此可见,数据粒度的划分影响到存放在数据仓库中的数据量的大小,同时 影响到数据仓库所能回答查询的种类,粒度划分是数据仓库查询优化的一个重要 技术,因此应该合理规划数据粒度。 硕士学位论文第二章数据仓库的相关知识 2 4 数据分割 数据分割是优化数据仓库性能的另一个重要技术,数据分割是指将数据分散 到各自的物理单元中以便能够分别独立处理,数据分割后的数据单元称为数据分 区。由于需要进行查询分析的数据往往具有某些相关性,如对某一时间或某一时 段内的数据的分析、对某一地区数据的分析、对特定业务领域的数据分析,如果 将具有某种相关性的数据组织在一起,物理地分区存放,无疑会提高查询效率。 2 5 元数据 所谓元数据就是关于数据的数据,是以概念、主题或层次等形式建立的信息 结构。元数据指定了数据仓库中信息的内容和存放位置,描述了数据的抽取和转 换规则,存储了与数据仓库主题相关的各种商业信息。数据仓库中包含两类元数 据,一类是管理元数据( a d m i n i s t r a t i v em e t a d a t a ) ,描述了数据源及其内容、 数据仓库主题、数据转换及各种操作信息。另一类是用户元数据( u s e r m e t a d a t a ) ,为用户查询信息、理解结果及了解数据仓库中的数据和组织提供帮 助。元数据对数据仓库的设计、数据集成和数据管理都有着重要的作用。 2 60 l _ h p 技术 联机分析处理( 0 l a p ) 技术是独立于数据仓库技术的一种技术概念,其显著特 征是提供数据的多维概念视图,使最终用户能多角度、多侧面、多层次地考察数 据库中的数据,从而更深入地理解包含在数据中的信息及其内涵。当o l a p 与数 据仓库结合时,0 l a p 的数据来源于数据仓库。0 l a p 提供给数据仓库系统一种高 灵活性、高性能地存取、浏览和分析数据的手段。 o l a p 不同于传统的o l t p 系统,0 l t p 系统主要完成用户的事务处理,通常要 进行大量的数据添加、删除和更新操作,对响应时间要求比较高。而0 l a p 系统 主要对用户当前和历史数据进行分析,辅助领导决策。其特点是进行大量的查询 , 操作,对响应时间要求不严格。两者之间的区别如表2 1 所示。 表2 1o l t p 系统与o l a p 系统的区别 o l a p ( 蝴析处理) o l t p ( 联机事务处理) 面向决策人员,支持管理需要面向操作人员 导出的,综合的,历史的数据原始的,细节的 分析驱动事务驱动 不可更新,周期性刷新可更新 数据处理巨大数据处理小 1 3 硕士学位论文第二章数据仓库的相关知识 2 7 数据挖掘 数据挖掘是一类深层次的数据分析方法,从大型数据库或数据仓库中提取隐 藏的预测性信息的技术,挖掘出数据间潜在的模式,从大量的、不完全、有噪声、 模糊和随机的实际应用数据中提取隐含在其中且人们事先不知道,但又是潜在有 用的信息和知识的过程。 通过以上阐述,我们可以看到,数据仓库技术、o l a p 技术、数据挖掘技术 的相互融合,构成了一种更高形式的决策支持系统,其中数据仓库实现对决策主 题数据的存储和管理,o l a p 实现多维数据分析,数据挖掘利用知识库、模型库 进行更深层次的探索,共同实现更加有效的辅助决策。 2 8 小结 本章研究了数据仓库的概念及其相关技术,包括数据仓库的定义、元数据、 数据粒度、数据分割等概念以及o l a p 技术、数据挖掘技术等。下面将从本系统 的应用需求出发,分析、设计系统的总体结构,进而阐明系统设计与实现的理论 基础、主要技术和方法。 1 4 硕士学位论文 第三章系统分析和设计 第三章系统分析和设计 3 1 源业务处理系统现状分析 四平市中韩女子医院管理信息系统是采用i o o m i o o o m 交换式以太网技术建 立的计算机局域网络,包括位于门诊收款、门诊医生工作站、住院处的一个收费 中心和位于各病房、手术室、药局等相关科室的1 3 0 多个工作站,实现了医疗信 息资源的共享。网络设备包括3 c o m 公司和联想d - l i n k 的交换设备,i b m 公司的 x s e r i c e s 3 5 0 0 系列的自增强型服务器,操作系统为微软的w i n d o w s2 0 0 0s e r v e r , 数据库系统使用的是m i c r o s o f t 的s q ls e r v e r2 0 0 0 。 四平市中韩女子医院管理信息系统数据流图如图3 1 所示。 图3 - 1 四平市中韩女子医院管理信息系统数据流图 四平市中韩女子医院管理信息系统覆盖了病人在住院期间的各诊断治疗环 节,各医疗、护理部门之间信息资源高度共享。医疗信息大体上分为3 类:病人 信息、费用信息和管理信息。随着现代医院管理理念和管理模式的实施,医院的 业务活动“以病人为中心 展开,包括病人挂号、住院登记,入院后检查、诊断、 治疗,在此期间医生下医嘱,药房发药、进行各类医技科室化验、检查以及治疗, 最后出院结账收费、病案编目、病历上架等等一系列过程。其中,病人基本信息、 硕士学位论文 第三章系统分析和设计 诊断治疗信息及诊治过程发生的费用信息是最基本的,而管理信息是派生信息, 是在上述前两类信息基础上进一步加工得到的。所以,贯穿医院信息的三条主线 ( 病人信息线、费用信息线、药品信息线) 作为联络医院各部门信息的数据总线, 为医院领导提供了真实、可靠的信息来源,反映了医院医疗和经济运行状况的指 标体系,为进一步辅助医疗决策奠定了基础。通过该系统的使用,规范了医疗行 为和收费程序,增加了医疗收费的透明度,减少了医疗经济纠纷;使医院会计核 算、统计核算、业务核算三大核算相统一,提高了工作效率。此外,计算机存储 的数据可以长期保存,有利于实现对历史资料的分析,有助于决策者进行对比分 析、辅助决策。该系统对医院全面规范化管理起到了重要作用,已经成为四平市 中韩女子医院的生命线工程。 虽然在四平市中韩女子医院管理信息系统中保存着大量的历史数据,但是由 于该系统是基于医院日常业务操作设计和开发的,面向具体应用,主要针对各部 门日常实时操作,对整个医院信息的集成应用考虑很少,并不注重对历史数据的 深入分析和研究,而且由于历史数据存放位置的孤立性,将其进行综合分析比较 困难。事实上,由于在现有系统中数据分散管理,每次分析需要从大量的细节数 据中查找计算,严重影响了分析效率,所以系统本身并不适合建立分析型的数据 处理环境,只能提供一些简单的查询和辅助决策功能,不能进行历史数据的对比 分析。采用数据仓库技术,将分散在各应用系统中的数据集成起来,存储为面向 主题的、集成的、不同时间且相对稳定的数据集合,便于决策人员从历史的角度 访问和分析数据,从而得到概括型、综合型、分析型的决策信息。 3 2 系统的功能设计 经过与医院高层管理人员的密切磋商,决定对本系统进行模块化设计,把系 统区分为全院、门诊、住院、药品四大子模块。 1 6 硕士学位论文 第三章系统分析和设计 1 系统总体结构设计 本系统划分为三个层次,原始层次是从源业务系统中生成的原始数据,是数 据采集的源泉,中间层次是采集与整理后的数据仓库数据,第三个层次是数据呈 现层次,该层次根据需要从数据仓库中获取数据后生成各种报表与视图。系统的 总体结构图如图3 - 2 所示。 事务处理子系统数据仓库子系统数据管理子系统 图3 2 数据仓库系统总体结构图 2 全院综合统计 本模块主要是生成医院综合性的数据报表,表格一般相当复杂,而且需要的 数据需要从许多子系统中采集。本模块的功能如表3 - 1 。 表3 - 1 全院综合统计模块表 功能名称功能说明 财务接口从数据仓库系统取数据,并生成用友或者金蝶的凭证格式, 从而实现自动生成财务的门诊收入凭证、住院凭证、药品进 销存凭证、卫生材料与低值易耗品的凭证 财务接口参数维护 医院收入日报农 医院收入时比查询 会员卡综合统计 维护财务接口的科目代码与数据仓库中数据代码的队应关系 以简明的表格说明医院一天的业务收入状况,包括各科门诊 挂号人数、门诊收入、住院人数、门诊平均人均消费、住院 平均人均消费等信息 对不同时期的医院收入进行比较,包括科室收入比较,药品 与医疗收入的比较,毛利水平的分析比较等 对持会员卡消费的患者各种消费信息、优惠信息进行综合全 面的统计分析 1 7 硕士学位论文第三章系统分析和设计 科室毛利分析统计表 科室收入分析表 全院收入一览表 全院医生工作量统计表 病房工作日报袁 统计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论