(计算机应用技术专业论文)数据仓库技术在医院病案统计分析中的应用研究.pdf_第1页
(计算机应用技术专业论文)数据仓库技术在医院病案统计分析中的应用研究.pdf_第2页
(计算机应用技术专业论文)数据仓库技术在医院病案统计分析中的应用研究.pdf_第3页
(计算机应用技术专业论文)数据仓库技术在医院病案统计分析中的应用研究.pdf_第4页
(计算机应用技术专业论文)数据仓库技术在医院病案统计分析中的应用研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)数据仓库技术在医院病案统计分析中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

兰州大学研究生学位论文数据仓库技术在医院病案统计分析中的应用研究 摘要 数据仓库技术和数据挖掘技术可以有效地对海量数据进行管理,并从中发 现有价值的知识,以提高信息利用率,也是当前数据库研究和应用领域的重点。 利用数据仓库及数据挖掘技术对病案信息进行科学的统计分析是医院重大决策 及医学发展的主要依据。虽然数据仓库技术现已比较成熟,也有将数据仓库技 术用于医院药品采购、医院信息管理中的应用,但用于病案统计分析中的应用 研究目前还没有。 本论文是在分析了m i c r o s o f ts q ls e r v e r 2 0 0 0 数据仓库框架并详细探讨了 现有病案统计分析中存在的问题和实际需求的基础上,进行了数据仓库技术和 数据挖掘技术在医院病案统计分析中的应用研究。主要工作如下:1 、通过分析 现有病案统计分析中存在的问题和需求,论证了在医院建立病案统计分析数据 仓库的必要性、可行性和优势。2 、实现了病案统计分析数据仓库系统的部分主 题,并以疾病的统计分析主题为例阐述了数据的抽取、多维数据集的建立及o l a p 多维分析。3 、论述了决策数算法并利用m i c r o s o f t 决策树对多维数据集进行 数据挖掘及分析。4 、对本论文进行了总结,并对数据仓库技术在病案统计分析 中的应用做了一个展望。 关键字:数据仓库、病案统计分析、数据挖掘、联机分析处理、多维数据集 兰州大学研究生学位论文 数据仓库技术在医院病案统计分析中的应用研究 a b s t r a c t t h ed a t aw a r e h o u s et e c h n i q u ea n dd a t am i n i n gt e c h n i q u ec a nm a n a g e t h ea m o u n to fs e ad a t aa v a i l a b l y ,a n dd i s c o v e rt h ew o r t h yk n o w l e d g ef r o m i t ,t oi m p r o v ei n f o r m a t i o nu t i l i z a t i o n ,i ti st h ee m p h a s e so ft h ec u r r e n t d a t a b a s er e s e a r c ha n da p p l i e df i e l d t h e s c i e n t i f i cs t a t i s t i c sa n d a n a l y s i su s i n gt h ed a t aw a r e h o u s et e c h n i q u ea n dd a t am i n i n gt e c h n i q u e t ot h ed i s e a s ec a s ei n f o r m a t i o ni st h em a i nb a s i so ft h eh o s p i t a l g r a v e n e s sd e c i s i o na n dt h em e d i c a ls c i e n c ed e v e l o p m e n t a l t h o u g ht h e d a t aw a r e h o u s et e c h n i q u ei sa l r e a d ym e r em a t u r en o w ia n di su s e di nt h e h o s p i t a ld r u g sp u r c h a s e ,t h eh o s p i t e li n f o r m a t i o nm a n a g e m e n t ,i ts t i l l d o e s n tu s e do na p p l i c a t i o no ft h es t a t i s t i c sa n da n a l y s i so ft h ed i s e a s e c a s e t h i st h e s i sb a s e do na n a l y z i n gt h em i c r o s o f ts o ls e r v e r 2 0 0 0d a t a w a r e h o u s ef r a m ea n dd e t a i l e d l yd i s c u s se x i s t i n gp r o b l e ma n da c t u a l d e m a n d i n gi nd i s e a s ec a s es t a t i s t i c sa n da n a l y s i s ,s t u d yo na p p l i c a t i o n o fd a t aw a r e h o u s et e c h n i q u ei nt h es t a t i s t i c sa n da n a l y s i so fd i s e a s e c a s ea tt h eh o s p i t a l m a i nw o r ki sa sf o l l o w s :f i r s t l y ,i td e m o n s t r a t e d t h en e c e s s i t y ,p o s s i b i l i t ya n da d v a n t a g e so fc r e a t i n gt h ed a t aw a r e h o u s e o ft h es t a t i s t i c sa n da n a l y s i so fd i s e a s ec a s e ,p a s s i n gt oa n a l y z e e x i s t i n gp r o b l e ma n da c t u a ld e m a n d i n gi ni t s e c o n d l y ,i tc a r r i e do u t t h ep a r t so ft o p i c so ft h ed a t aw a r e h o u s es y s t e m ,a n de x p a t i a t e dd a t a e x t r a c t i o n c r e a t e dm u l t i d i m e n s i o n a ld a t as e ta n dc a r r i e do no l a p m u l t i d i m e n s i o n a la n a l y s i sa st h es t a t i s t i c sa n da n a l y s i so fd i s e a s ea n e x a m p l e t h i r d l y ,i td e m o n s t r a t e dt h ea l g o r i t h i n so fd e c i s i o nt r e ea n d c a r r i e do nm i n i n ga n da n a l y z i n go fd a t ai nm u l t i d i m e n s i o n a ld a t as e t m a k i n gu s eo ft h ed e c i s i o nt r e eo fm i c r o s o f t f o u r t h l y ,c a r r i e do nt h e s u m m a r yt ot h i st h e s i s , a n dd i da no u t l o o kt os t u d yo na p p l i c a t i o no f d a t aw a r e h o u s et e c h n i q u ei nt h es t a t i s t i c sa n da n a l y s i so fd i s e a s ec a s e k e y w o r d s : d a t aw a r e h o u s e ,t h ed i s e a s ec a s es t a t i s t i c sa n da n a l y s i s ,d a t a m i n i n g ,o n l i n e a n a l y t i c a l p r o c e s s i n g ,m u l t i d i m e n s i o n a ld a t as e t , 兰州大学研究生学位论文数据仓库技术在医院病案统计分析中的应用研究 插图目录 图卜1 数据仓库系统结构图 图卜2o l a p 的物理结构 图2 - 1 微软数据仓库结构图 图3 - i 病案统计分析数据仓库模型 图3 - 2 疾病统计分析数据集架构图 图3 - 3 疾病统计分析数据集的浏览 图3 - 4 疾病的统计分析模型结构图 图3 - 5 疾病统计分析数据集按时间下钻 图3 - 6 疾病统计分析数据集客户端透视表 图4 1 同一疾病不同年龄段平均住院费用挖掘模型 图4 - 2 病人模式虚拟维度成员 图4 - 3 同一疾病在不同年龄段的住院天数及费用 0 0均扒钾勰的蛆们鸲印豇 兰型盔堂堕塞生堂垡堡奎墼塑垒壁垫查垄墨堕堕壅堕生坌塑! 盟壁旦婴塑 表格目录 卜1o l a p 与o l t p 技术比较表 3 - 1 病人住院主记录p a t _ v i s i t 3 - 2 诊断记录d i a g n o s i s 3 - 3 住院病人病案首页费用n l r f e e 3 4 疾病字典d i a g n o s i s d i c 3 - 5 病人付费方式表c h a r g e _ t y p e d i c 3 - 6 治疗结果字典t r e a t i n g _ r e s u l t d i c 3 7 疾病的统计分析数据仓库表 3 - 8 时间表t i m e 3 - 9 病人付费方式表c h a r g e 3 - 1 0 治疗结果表t r e a t i n g _ r e s u l t 3 - 1 1 疾病分类表d i a g n o s i s 3 - 1 2 年龄段表a g e 4 2 4 2 6 2 6 2 6 2 7 2 7 2 9 3 1 3 1 3 1 3 2 3 2 表表表表表表表表表表表表表 兰州大学研究生学位论文 数据仓库技术在医院病案统计分析中的应用研究 第1 章课题研究的背景 1 1 课题研究的时代背景 1 1 , 随着信息化时代的到来和网络的扩大和广泛应用,知识、信息的传播、再 生将同益频繁、迅速,信息量因此日益丰富,数据量骤增。随着科学技术的飞 速发展,各行各业已采用计算机及相应的信息技术进行管理和运营,这使得企 业在生成、收集、存储和处理数据等方面的能力大大的提高,各行各业在生产 运营及管理中,对信息的需求量及产生的数据量都与日俱增,当数据积累到一 定程度时,必然会反映出规律性及有高价值的东西,因此这些堆积如山的数据 无异是一个巨大的宝库。然而,面对如此丰富的信息,用户一方面惊喜于信息 量的丰富,一方面又迷失在信息的海洋中,无所适从。 为了能够从海量数据中提取有用的知识,研究者们不惜一切巨资进行了许 多方面的尝试,实践中,专家们渐渐地认识到了解决问题的关键是:要建立一 个全局化的、综合的信息集成和预测、分析系统。将这种行之有效的机制称为 数据仓库( 简称d w ) 。 医院信息管理系统是一个社会中不可缺少而又非常复杂的开放系统,另外, 医院同其它行业相比,它的目标、投入、产出、外部系统影响和约束都更加复 杂和广泛,因此,医院h i s 系统产生的数据是非常繁杂和庞大的,研究者们发 现:数据信息虽然越来越多,而知识即有序、有效、有价值的信息却越来越少, 因此,挖掘大量数据信息背后隐藏的价值成为人们密切关注的一个问题。大量 无序的、简单堆砌的数据信息是毫无价值可言的,只有通过组织、分析和挖掘, 找出数据信息背后真正有价值的、知识性的信息才是用户实际需要的。这也是 数据仓库技术在病案统计分析应用系统中必须考虑的一个关键。 兰州大学研究生学位论文数据仓库技术在医院病案统计分析中的应用研究 1 2 数据仓库技术及其国内外现状 1 2 1 数据仓库及数据仓库系统的基本概念 1 2 1 1 什么是数据仓库【1 】【5 】 数据仓库是一种管理技术,它能够将分布在企业网络中不同站点的商业数 据集成到一起,为决策者提供各种类型的、有效的数据分析,起到决策支持的 作用。“数据仓库之父”一一w i l l i a mh i n m o n 在其所著的 “b u i l d i n g t h e d a t a w a r e h o u s e ”一书中对数据仓库的定义为:“数据仓库是 面向主题的、集成的、时变的以及非易失的数据集合体,支持管理部门的决策 过程。”定义中的数据是: 面向主题的:数据仓库是围绕着单位感兴趣的主题而组织的; 集成的:来自于不同数据源的面向应用的数据集成在数据仓库中: 时变的:数据仓库的数据只在描写时间点或时间区间上是精确的、有效的: 非易失的:数据仓库的数据不能被实时修改,只能有系统操作员定期地进 行刷新。 数据仓库是一种新的数据库管理技术,它不是为了存储数据,而是为了决 策支持,建立数据仓库不是目的,它只是进行决策支持的中间环节。它能访问 各种数据库,把各种源数据库集成在一个统一的目标数据,并能把各种数据转 换成面向主题的格式,能从异构的数据源中定期抽取,转换和集成所需要的数 据,便于最终用户访问并能从历史角度进行分析,最后作出战略决策。 1 2 1 2 什么是数据仓库系统 1 4 2 6 1 数据仓库系统( d a t aw a r e h o u s es y s t e m ) 是以数据仓库为基础,以传统的 数据库为主要的信息源,通过联机分析处理( o l a p ) 和数据挖掘等技术对各类 大量的数据和信息进行分析处理,实现了数据与信息问的转换,他的分析结果 2 一 兰州大学研究生学位论文数据仓库技术在医院病案统计分析中的应用研究 多以多维视图的形式展示,为中、高层领导的决策提供有效的支持。数据仓库 系统的结构 1 4 如图卜l 所示: 蓁 _ 萋寻 蓁 工 具 图卜1 数据仓库系统结构图 其中数据仓库是系统的核心,是数据仓库系统进行数据分析、信息提取的基础; 数据仓库分析工具是整个系统发挥作用的关键,包括o l a p 、数据挖掘等工具; 查询、报表系统将用户的查询请求传递给系统,将分析结构以直观的形式显示 给用户。 1 2 2 数据仓库系统的关键技术 一、o l a p 技术:o l a p 是数据仓库系统中最重要的技术i s d 6 联机分析处理( o l a p ) 的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年提出的,o l a p 的提出引起了很大的反响,o l a p 作为一类产品同联机事务处理 ( o l t p ) 明显区分开来。 当今的数据处理大致可以分成两大类:联机事务处理o l t p ( o n - l i n e t r a n s a c t i o np r o c e s s i n g ) 、联机分析处理o l a p ( o n l i n ea n a l y t i c a l p r o c e s s i n g ) 。o l t p 是传统的关系型数据库的主要应用,主要是基本的、日常 的事务处理,例如银行交易。 ) l a p 是数据仓库系统的主要应用,支持复杂的分 析操作,侧重决策支持,并且提供直观易懂的查询结果。表卜1 列出了o l t p 与o l a p 之间的比较。 兰州大学研究生学位论文数据仓库技术在医院病案统计分析中的应用研究 表1 - 1o l a p 与o l t p 技术比较表 项目比较 o l t po l a p 设计目的自动化的数据插入、删除、修改信息检索和分析 数据特征当前的、细节性的、原始数据、面历史和当前数据,综合性数 向应用据,面向分析 数据视图二维的多维的 服务对象面向操作人员,支持日常操作面向决策人员,支持管理决 镱需要 实旌方案二层c s 结构三层c s 结构 实时性数据实时更新查询和分析具有实时性 o l a p 与o l t p 的本质区别有两点:一是它实现的物理结构是三层的c s 结 构,二是o l a p 数据表现形式是以多维视图展现的。 1 、o l a p 的物理结构 9 : 为了实现以多维视图的形式展示数据间的关系,o l a p 有其特定的结构,其 示意图如下图卜2 所示: 嘲 络 图卜2o l a p 的物理结构 这种三层的c s 结构包括基层服务器、o l a p 服务器和客户端。基层服务器 完成各种数据的收集、组织;o l a p 服务器完成数据仓库中数据的组织,并对其 进行分析,最终将分析结果以多维视图的形式表示出来;客户端负责用户查询 要求的输入和o l a p 分析结果的图形化输出。三层的c s 结构既具有二层c s 结 4 回回 兰州大学研究生学位论文数据仓库技术在医院病案统计分析中的应用研究 构价格低、速度快、数据访问简单、具有开放性的特点,还具有自身的优点。 它将数据的收集和处理工作分开进行,数据的部分处理工作可在查询前预先完 成,如可进行一定程度的预综合,为数据分析作好了充分准备,从而提高了分 析的速度;o l a p 服务器单独存在,使系统具有开放性,可随时将新的o l a p 技 术嵌入,而并不影响系统的整体工作。同时三层c s 结构的应用也是数据仓库 系统处理海量数据并为决策服务的必然要求。 2 、多维的概念 在数据仓库中,维度( d i m e n s i o n ) 是指观察数据的角度,作为识别数据的 索引,不同的纬度组合构成了访问数据仓库中数据的约束条件。多维 ( m u l t i d i m e n s i o n ) 则是指从多个角度去观察同一数据。 多维数据库指以多维的方式来组织数据的数据库。一个多维数据库的主构 造块称为“数据立方体( d a t ac u b e ) ”。每个数据立方体是以多维数组的方式存 储数据。多维数组由一组纬度和度量指标组成,表示形式为:( 维l ,维2 , 维n ,度量指标) ,当多维数组中的各个维都选定一个值,就可确定度量指标的 值。多维数据库的维数在理论上是没有限制的,但由于实际存储量和性能的关 系使纬度又有限制。 进行多维研究的目的是把分析的结果以多维视图的形式展示出来。以多维 的方式体现数据使用户可以从多个角度、多个侧面、多个层次来考察数据,从 而深入理解包含在数据中的信息及内涵,这种数据表现方式与人们的立体思维 模式及商业数据本身的多维性相一致,使客观世界和主观世界达到了和谐统一。 二、数据挖掘技术 6 :数据挖掘是从数据仓库中发现并提取隐藏在其中的 信息的一种新技术。它是以数据仓库中的数据为对象,以数据挖掘的算法为手 段,最终以获得模式或规则为结果。数据挖掘技术能自动分析数据,对它们进 行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信 息预测和决策行为起着十分重要作用的模式,从而建立新的业务模型,以达到 兰州大学研究生学位论文 数据仓库技术在医院病案统计分析中的应用研究 帮助决策者制定市场策略、做出正确决策的目的。数据挖掘一般包括以下四个 步骤: 1 、数据集成:可提取数据库和数据仓库及其它信息源中的各类数据,由于 是建立在数据仓库的基础上,数据仓库为之提供了大量和广泛的细节性及综合 性数据,因此不再需要一般数据挖掘中数据准备和预分析的过程。 2 、数据挖掘:利用各种算法及已有的各种知识分析数据仓库中的数据。 3 、表述:将挖掘的结果以用户能理解的方式表达出来,这时要用到各种可 视化工具。 4 、评价:用户对各种结果进行评价,如不满意可返回原系统,重新执行挖 掘过程,直到得到满意结果。 1 2 3 数据仓库技术的国内外现状【2 5 】【3 7 1 【3 8 】 1 2 3 1 国内现状 数据仓库技术于2 0 世纪9 0 年代初被提出来,近几年,在数据仓库领域里 掀起了理论研究和产品开发的热潮。许多学者发表了有关数据仓库方面的大量 学术文献,为这一领域的理论研究和应用奠定了一定的基础。随着国内各单位 计算机数据库应用系统的不断扩大和完善,随着大的金融业、大中型企业以及 大的部门对决策支持的需求,必然带动国内数据仓库和o l a p 技术的迅速发展。 数据仓库的兴起无疑为数据库产品创造了巨大的市场,它成为2 0 世纪末到 2 1 世纪初数据库市场的一个新的增长点。但由于目前中国在基础数据的积累方 面存在不足,导致数据仓库技术的应用没能推广开来。目前数据仓库技术的发 展还未成熟,仍处于积累阶段。在数据仓库的应用推广过程中的最大问题,就 是这种技术如何被多数人所接受。要解决这个问题,首先就是要使数据仓库技 术与现有商业技术二者之间更好的结合。但是只有那些非常熟悉数据仓库技术 的人才能够理解和使用它们,普通用户应用这些技术来解决自己的商业问题还 兰州大学研究生学位论文数据仓库技术在医院病寨统计分析中的应用研究 有一定地难度。 目前国内各大金融企业,如保险公司、银行、证券公司都已着手建立了自 己的数据仓库系统。从数据的规模、技术力量的积累、日益加剧的市场竞争等 客观情况看,构建数据仓库的时机和条件已经具备。但是数据仓库应用的成功 之路并不是一蹴而就的,要想成功实擅数据仓库还需要在应用层和技术层两方 面加以提升【2 5 】。 1 2 3 2 国外现状 国外成功的数据仓库应用比较多,但成本相当昂贵,例如,国外著名的几 家数据库公司,i n f o r m i x 公司、o r a c l e 公司、s y b a s 公司以及s a s 公司都提出 了自己的数据仓库及o l a p 解决方案,形成了各自的数据仓库及联机分析产品。 例如,t e r a d a t a 数据仓库解决方案在全球的电信用户已达i 0 0 多个,在电信行 业数据仓库建设方面具有丰富的经验和知名度。目前,s b c 拥有世界上最大的 商用数据仓库。该系统使用n c r 公司的数据库管理系统、服务器产品和l s i 公 司( l o g i cs t o r a g es y s t e m s 。i n c ) 的存储解决方案,荣获w i n t e r 公司2 0 0 1 年 最佳数据仓库奖。o l a p 技术在国外有近3 0 多种多维分析产品,一些公司还成 立了专门组织来指定有关o l a p 的标准。国外的数据仓库及o l a p 产品都各有优 点,但在实际应用过程中,他们又或多或少的存在和实际应用相矛盾的地方d 8 。 全球领先的独立研究和咨询公司f i n a n c i a li n s i g h t s 近日发布2 0 0 5 年新 报告系列的第三份报告表明:数据仓库成为2 0 0 5 年银行信息化三大趋势之一。 i b m 研究报告表明,只有7 的数据为企业在做战略决策时所采用,而如何 将其中有用的数据经过提炼、加工成为、分析,帮助企业管理者做出更好的商 业决策,既数据仓库( d a t aw a r e h o u s e ) 及相关数据挖掘( d a t am i n i n g ) 、商业 智能( b u s i n e s si n t e l l i g e n c e ) 技术成为i t 继e r p 后的又一大产业,而这些 技术都以d a t aw a r e h o u s e 为核心。目前数据仓库在中国刚刚起步,在北美已 兰州大学研究生学位论文数据仓库技术在医院病案统计分析中的应用研究 经日趋成熟,但仍有很长的路要走 3 8 。 1 3 兰州大学附属天浩医院现有病案统计中存在的问题 病案是医院管理中最重要的信息资料,病案信息资料是临床医疗实践的原 始记录,是医务人员对疾病进行正确诊断和治疗效果的全部总结。病案质量是 最基础的医疗质量,病案质量的高低直接反映出医院的医疗质量和管理水平。 从完整的病案信息取得统计原始数据,充分发挥统计信息的主渠道作用,可以 为医院的医疗管理及主管部门的决策提高前瞻性资料。 现有病案系统中存在的问题有以下几点: 1 、统计查询速度慢: 随着医院h i s 系统的运营,系统数据量的增大及查询分析复杂性的增加, 使得统计查询速度慢,不能满足现在高效率要求。 其次,历史数据无法充分利用: 由于现有h i s 系统都是服务于o l t p 的传统数据库,用于日常事务的处理, 随着系统数据量的增大及满足o l t p 事务处理的速度,不得不使历史数据脱离现 有系统,从而不能充分利用历史数据,同时也不能为决策者提供直观地现有数 据与历史数据的对比分析图表。 2 、报表形式单一: 服务于o l t p 的传统数据库,以单一的数据库组织方式进行组织,难以满足数据 处理多样化及决策分析的需求。按照传统的事务型数据库系统的统计报表及用 传统方法来完成对历史数据进行分析方法,已经无法实现对历史数据的有效利 用。 由于以上原因使得病案统计信息的利用度很低,目前病案信息的利用除了 用作病案的诊断治疗参考,教学示范科研的依据外,大部分用作医学论文撰写 的参考资料。 兰州大学研究生学位论文 数据仓库技术在医院病案统计分析中的应用研究 1 4 兰州大学附属天浩医院建立病案统计分析数据仓库系 统的可行性、必要性和优势 一、可行性: 首先,该院已经建成完整的信息系统。 该院门诊收费系统及病案首页管理系统已经开发并实施了1 0 年,特别是该 院2 0 0 2 年开发并运行的覆盖全院各个部门包括后勤总务、设备等的管理信息系 统后,使病人到该院就诊从挂号到出院全过程取消手工处理,全部实现数字化 管理,基本建成了数字化医院。医院数字化建设的重点已经逐步从建设和浅层 次的应用向深层次数据仓库及数据挖掘的利用发展。 其次,该院已经积累了多年的信息资源 多年的应用和发展已经为该院积累了丰富且宝贵的信息资源,现在门诊、 住院病人费用明细、医嘱等均已积累了近五年的数据,病案首页也已经积累了 1 0 多年的信息,已经具备建立数据仓库的条件。 二、必要性 1 5 1 1 2 2 : 首先,解决现有病案系统存在问题的需要 数据仓库技术的联机分析处理( o l a p ) 技术,就是专门设计用于支持复杂 的查询及数据分析操作的。为了提高查询分析的效率和有效性,必须把分析型 数据从事务处理环境中提取出来,按照决策支持系统处理的需要重新进行组织, 建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出 现的一种数据存储和组织技术。另外,数据仓库是面向分析型数据处理,它不 同于企业现有的操作型数据库,数据仓库是对多个异构数据源的有效集成,集 成后按照主题进行了重组,并包含历史数据,从而使得历史数据显现了它的利 用价值。同时利用数据仓库技术的多维数据集可以解决报表形式单一等问题。 其次,医院科研、管理和决策的需要 随着社会的发展和市场激烈竞争的需要,医院管理已经逐步从传统经验型 q l 兰州大学研究生学位论文数据仓库技术在医院病案统计分析中的应用研究 向科学量化管理的方向发展,而科学量化管理的信息资源,主要从病案的统计 分析中获得,特别是重大决策需要科学的数据分析作为依据,这就对医院信息 化提出更高的要求。另外,医务人员也需要对众多的治疗方案进行分析,以便 医生能及时总结经验、找出最佳的治疗手段和方法,缩短就诊时间、减轻病人 负担、增加医院经济效益等,同时总结出一些有规律的东西,对加速卫生医疗 行业的发展产生积极地推动作用。 由于传统事物处理系统的主题是完成某方面事物处理,这就造成了事务处 理系统在数据分析方面的先天性不足: 1 、事务型数据库的数据结构是针对事务处理设计的,它为事务处理进行了 专门的优化,但这些优化却相应地削弱了数据分析的性能。 2 、在事务系统中,各种统计报表在系统的需求分析时已经确定,在系统交 付后就很难改动。若必须改动,则改动成本相当昂贵。然而用户对系统在数据 分析上的需求将不断地增长。 3 、在事务系统中数据的报表无法做到对数据进行多层次的数据粒度分析。 4 、事务处理系统中没有数据的预求和功能。 5 、数据分析对数据库服务器的突发性资源需求极大地影响事务处理系统的 稳定性。 数据处理系统中数据难以转化为有用的信息。每一阶段的业务都会产生大 量数据,但这些数据只是一种原始状态的资源,只有将之转化为综合性的、可 供分析的信息才有用。然而,传统的事务型系统是面向应用、事务驱动的,应 用本来就是千差万别、零散琐碎的,而且为了尽可能地提高性能,数据通常是 分散在多个子系统中,这些零碎且结构不同的数据无法帮助管理者做出决策。 基于以上事务型数据库系统在数据分析上的不足,把数据分析功能和事务 处理功能分离开来就很有必要。 三、优势【7 】: 兰州大学研究生学位论文数据仓库技术在医院病案统计分析中的应用研究 首先,传统的数据库系统只能完成数据统计分析中最简单的动态原始数据 以及日常数据报表,而在数据分析和辅助决策方面就显得无能为力了,而数据 分析和数据挖掘技术正是数据仓库所具有的强大功能。传统的数据库技术是单 一的组织方式,仅适合于操作型事务处理, 其次,数据仓库的出现,使得操作型环境与分析型环境分离,大大减轻了 操作型数据库的负担,而数据仓库技术大大提高了数据统计分析的速度。数据 仓库是针对某个特定的主题进行联机数据访问、处理和分析,通过直观的方式 从多个维度、多种数据综合程度将结果展现给用户。数据仓库不是简单的对数 据进行存储,而是对数据的进行再组织。 1 5 本课题研究的目的、意义 从8 0 年代中期开始,国内医院逐步建立医院病案管理信息系统,9 0 年代 以来,经过长期的运行与磨合,尤其是随着计算机软硬件技术和病案管理体制 的进步和发展,医院病案管理信息系统也经历了几次更新升级,目前,医院信 息系统的应用多数是面向联机事物处理( o n l i n et r a n s c a t i o np r o c e s s 简称 o l t p ) 的,其主要的目的是让大量的日常事物电子化,并在提高医院工作效率、 工作质量和为病人服务等方面起了重要作用,同时o l t p 性质的应用每日产生大 量的数据,使得医院信息系统数据库中的数据迅速增加,尤其是随着应用的不 断深入和发展,导致数据量急剧膨胀。目前数据的价值仅仅体现在保证完成每 个具体的业务,尽管这些数据也被用来做一些简单的统计报表,但由于数据量 大、种类繁多,并没有真正利用起来,如何充分利用医院信息系统数据库中的 数据,满足各级管理人员和决策人员全面了解内部情况和外部环境以及帮助医 护人员充分利用已有病历更简洁、更准确地诊断和治疗患者,是目前医院急需 解决的问题。另外数据仓库可以使人们从一个全新的角度去认识信息系统的重 要性和全面性,也可以使人们发现历史数据的价值。通过创建数据仓库,数据 兰州大学研究生学位论文数据仓库技术在医院病案统计分析中的应用研究 不仅仅用于检索,还可用来分析未来的发展趋势,并为管理和决策提供支持, 如:病人构成分析( 分析医院门诊、住院病人的各种构成、如病人的来源、职 业、身份、年龄等分布以便有针对性地采取一些措施来提高服务质量从而增加 门诊量和住院收容量。) 、病人就诊时间分析( 从门诊病人挂号到出院各环节就 医时间,分析病人的就医瓶颈以减少排队,提高就医质量) 、病人费用构成分析 ( 分析整个医院、各个科室乃至某个医生的病人费用构成,如发现药品比列过 高,可以层层分析是哪个环节导致比列过高,从而采取措施来控制) 、同期费用 对比分析( 找出医院收入增加或减少的原因) 、单病种分析( 对单病种的费用、 住院天数、治疗方案进行分析以便医生能及时总结经验、找出最佳的质量手段 和方法,缩短就诊时问、减轻病人负担、增加医院经济效益) 、成本效益分析( 把 各个不同系统如信息系统、财务系统等的数据汇总的数据仓库,对成本效益进 行全面分析、以便能真正把握医院经营状况,提高医院经济效益) 。 当然,数据仓库是一个庞大的知识系统,其功能远远不止这些,像各类医 保病人分析、免费及各种优惠病人分析、医院各种科学预测等分析功能。随着 医院的发展,数据仓库的这种决策支持功能将在医院的管理和决策中起着越来 越重要的作用,尤其医院病案统计的分析对医疗研究着非常重要的作用。 兰州大学研究生学位论文数据仓库技术在医院病案统计分析中的应用研究 第2 章s q ls e r v e r 2 0 0 0 的数据仓库框架 了解了以上关于数据仓库的知识之后,在迸行数据仓库的开发之前。用户 必须选择合适的比较成熟的数据仓库产品,用户需要用这些产品来为用户构建 自己的数据仓库系统。在目前,比较成熟的数据仓库产品有:i b m 、s y b a s e 、 i n f o r m i x 、m i c r o s o f t 、o r a c l e 等几家大的关系型数据库系统供应商的数据仓 库产品和s a s 公司的数据仓库产品等。在数据仓库的设计过程中,选择良好的 框架是特别重要的,有了良好的框架,在以后的设计过程中就有了一个良好的 软件开发平台。考虑到基于微软公司m ss q ls e r v e r 2 0 0 0 良好的可伸缩性以及 s q ls e r v e r 2 0 0 0 中提供了数据仓库中的一部分专用工具( 包括i l a p 与数据挖 掘等) ,而另一部分工具则由微软产品中的其他工具充任,他们一起构成了一个 基于微软产品的完整数据仓库工具集。因此在这一次对兰州大学附属天浩医院 病案统计分析的数据仓库的开发过程中,对于后台的数据库系统作者采用了微 软公司的s o ls e r v e r 2 0 0 0 。在s q ls e r v e r 2 0 0 0 中,微软公司提出了一种全新 的性能优越的、经济的数据仓库解决方案即基于s q ls e r v e r 2 0 0 0 的数据仓 库框架。 z 2 1 微软数据仓库基本框架 3 1 2 1 3 微软数据仓库框架的目标是简化数据仓库解决方案的设计、实现和管理。 该框架用来提供: 易于集成和易于扩展的开放式体系结构。 异类数据导入、导出、确认和带有可选数据类型的清理服务。 集成的元数据用于数据仓库的设计、数据析取转换、服务器管理和最 终用户分析工具。 用于日程安排、存储管理、性能监测和通知的核心管理服务。 d a t aw a r e h o u s i n gf r a m e w o r k ( 数据仓库框架) 从底层向上设计,为微软产 1 3 兰州大学研究生学位论文 数据仓库技术在医院病案统计分析中的应用研究 品用户和第三方企业提供行业技术标准,使得数据仓库框架成为很容易扩展的 开放式体系结构。这就使组织机构能选择同类中最好的组件并仍能确保集成。 2 2 微软数据仓库基本框架中的几个关键组件 微软为自己的数据仓库框架定制了一整套面向对象组件,这些组件用于管 理分布式环境中的信息。m i c r o s o f t 的数据仓库框架主要包括以下几个组件: 2 2 1 信息交换标准:o l ed b 当前,国内外各种医院信息系统及其它信息源的数据库类型千差万别,然 而访问多种可能的数据源需要异类数据库之间的连接性和互用性,这也正是实 现数据仓库最困难的技术问题之一。在为软的数据仓库框架中,微软公司对此 问题的解决方案是u n i v e r s a ld a t aa c e s s ( u d a :统一数据访问) 体系结构和o l e d b 接口。 u d a 定义、提供了数据访问的统一标准,提供了对多种平台上的大量数据 和信息进行高性能存取的功能,并提供了能与许多工具和语言一起工作的易于 使用的编程接口,这可以大大增加开发人员已有的技术技能,通过支持u d a 技 术,可以创建易于维护的解决方案,也可以灵活的选择客户端、中间层和服务 器上的最佳工具、应用软件和数据源。u d a 体系结构的一大优点在于:它是通 过一套公共的、现代的、面向对象的接口实现的,这些接口是基于组件对象模 型( c o m ) 的。通过使用c o m 技术,可以获得一致性和互操作性,u d a 体系结构 对于多种变成工具和语言是开放的,同时,c o m 可以允许u d a 为底层和高层应 用提供一个一致性的数据访问模型。u d a 使用基于c o m 的接口,并针对低级和 高级软件开发进行相应的优化,这两极接口中其中之一就是o l ed b 。 o l ed b 是微软的一个战略系统层编程接口,可以管理组织所有的数据,o l e d b 是建立在o d b c 基础上,为访问所有的数据提供了一个开放的标准。o d b c 的 兰州大学研究生学位论文数据仓库技术在医院病案统计分析中的应用研究 设计目标是访问关系数据源,而o l ed b 的设计目标则是访问关系性数据源和非 关系性数据源。o l ed b 定义了许多c o m 接口,封装了多种数据库管理系统服务。 这些接口可以使得开发软件构件使用这些服务。o l ed b 构件包括数据提供者( 它 们存储和发布数据) 、数据用户( 它们使用数据) 和服务组件( 它们处理和传输 数据) 。o l e d b 接口用来平滑地集成组件,以便供货商能迅速地将高质量的o l e d b 组件推向市场。另外,o l ed b 包括连接o d b c 的桥梁,这使得对现在大量的 o d b c 关系数据库提供持续支持成为可能。 2 2 2 开放式的元数据管理:m e t ad a t as e r v i c e s l 2 8 所谓元数据就是关于数据的数据,它描述了数据仓库的数据和存储环境, 数据仓库设计运行、维护与使用的基本参数,是整个数据仓库的核心。即它描 述了数据的结构、内容、码、索引等内容。传统数据库中的数据字典就是一种 元数据,但在数据仓库中,元数据的内容比数据库中的数据字典更丰富、更复 杂。 数据仓库中的元数据一般存放于中央数据库的地方,这个中央数据库一般 由关系数据库或特制的文件构成。对元数据的管理包括: ( 1 ) 定义模式建立关系表结构 ( 2 ) 数据操纵对数据的查询、增、删、改等操作 ( 3 ) 版本功能当元数据发生重大变化时,能产生新版本并保持在中央数 据库中,在适当时候对旧版本能做归档处理 ( 4 ) 控制功能即安全性管理,对其作严格的安全防护与加密措施 在为微软数据仓库工具中用s q ls e r v e r2 0 0 0 作为元数据存储体,而用一 个专用工具元数据服务器( m e t ad a t as e r v i c e s ) 管理元数据。该元数据服务 器可以用来定义数据源、多维数据集,包括维度角色以及数据挖掘模型的数据 模式及其他一些对象的模式。 兰州大学研究生学位论文数据仓库技术在医院病案统计分析中的应用研究 2 2 3 数据仓库的数据库gs q ls e r v e r2 0 0 0 数据仓库的关键是数据库。选择一个能满足组织机构目前和将来需要的高 性能数据库引擎对于建立性能优越的数据仓库是至关重要的。关系型管理系统 为存储字数据仓库中的大量信息提供了最普通的存储系统。 s q ls e r v e r2 0 0 0 是微软公司在s q ls e r v e r7 0 的基础上经过多年的潜心 研究而开发成功的最新、功能最强的数据库管理系统。它是为创建可伸缩电子 商务、在先商务和数据仓库的解决方案而设计的真正意义上的关系型数据库管 理与分析系统。 s q ls e r v e r2 0 0 0 提供了一套全心的综合分析服务系统。分析服务为商业 活动提供了集成的o l a p 服务和数据挖掘功能。o l a p 可以通过多维存储技术对 大型、复杂数据集进行快速、高级的分析工具。数据挖掘功能能够揭示出隐藏 在大量数据中的倾向与趋势,它允许组织或机构最大限度地从数据中获取价值。 随着o l a p 服务的引入,企业需要对来源各异的数据信息进行集成、合并与汇总 摘要,而数据仓库则通过使用大型、集中的数据存储来提供上述功能,在这种 数据存储中,信息可以被收集、组织,并可提供决策者随时调用。 2 2 4o l a p 服务:a n a l y s i ss e r v i c e s 微软的o l a p 包括分析服务器( a n a l y s i ss e r v i c e s ) 以及o l a p 接口透视表 服务( p i v o t t a b l es e r v i c e ) 。其中分析服务器提供o l a p 服务,它由4 个工具 组成: 1 ) 分析管理器( a n a l y s i sm a n a g e r ) :它是用户与o l a p 进行交互的图形工 具,用它可以建立o l a p 分析,数据挖掘模型,创建o l a p 数据立方体和多维功 能,微软的分析服务器提供r o l a p 、m o l a p 、h o l a p 等3 中存储方式。 2 ) d t s 设计器( d t sd e s i g n e r ) :它主要用于o l a p 与数据仓库间的传输与 兰州大学研究生学位论文数据仓库技术在医院病案统计分析中的应用研究 转换数据。 3 ) s q ls e r v e r 查询器( s q ls e r v e rq u e r yp r o c e s s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论