已阅读5页,还剩71页未读, 继续免费阅读
(航空宇航制造工程专业论文)医疗保险信息系统异构数据集成的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医疗保险信息系统异构数据集成的研究与实现 ii 摘 要 近十几年来, 信息技术和网络技术的高速发展, 加快了企业的信息化的步伐。 然而,由于历史原因或业务需要,企业往往同时具有几套不同的信息系统,这 意味着会有多个数据源同时存在。为了避免企业资源浪费并在最大程度上实现 数据共享,集成这些不同的数据源是现在许多企业面临的重要问题。 本文以 ox international 公司 ach(americas choice health plans)项目为背 景,为满足 ox international 公司信息共享化、异构数据源透明化以及支持决策 分析的要求,提出了 ach 医疗保险信息系统异构数据集成解决方案,研究了主 要的关键技术。 论文研究了异构数据集成的方案,论证了 ach 医疗保险信息异构数据集成 的可行性,分析了对构建数据仓库至关重要的 etl 技术,提出了基于 dts 技术 实现异构数据源的 etl 过程,分析了公司原有数据同步方案的弊端,提出了基 于 jms、xml 技术的数据同步新方案。 论文研究成果已经应用于ox international公司的ach医疗保险信息系统中, 目前系统运行良好。 关键词:关键词:医疗保险,异构数据集成,dts,etl,数据仓库,jms,xml 南京航空航天大学硕士学位论文 iii abstract the rapid expansion of information knowledge, reduction in computing costs, and spread of internet access have created lots of electronic data. due to historical reasons or the need of business expansion, there exist multitude heterogeneous data sources at the same time in many enterprises. how to avoid the waste of enterprises resources and realize the data sharing as soon as possible by integrating these heterogeneous data sources becomes what these enterprises care most. the research in this paper is based on the ach (americas choice health plans) project. to fill the requirements which include data sharing, accessing to heterogeneous data sources transparently and decision analysis support, a solution was provided in the paper. meanwhile, the paper studied the key technologies. the paper investigated three popular solutions on heterogeneous data integration, analyzed the feasibility of integrating hererogeneous data in ach (americas choice health plans) system by data warehouse system, studied the etl technology which is important to build data warehouse, and proposed to implement hererogeneous data s process of etl based on dts technology. in addition, a new solution based on jms and xml technology which can realize the data synchronization more effectively was provided. what has been researched in the paper has been being used in ach (americas choice health plans) system. now, the system is running on the safe side. key words: medical insurance, heterogeneous data integration, dts, etl, data warehouse, jms, xml 南京航空航天大学硕士学位论文 vii 图 清 单 图 1.1 论文研究内容及各章节的关系.5 图 2.1 数据集成系统.7 图 2.2 联邦数据库系统体系架构.10 图 2.3 中间件系统体系架构.11 图 2.4 数据仓库系统体系结构.13 图 2.5microsoft 的数据仓库框架 .17 图 3.1 数据仓库框架.20 图 3.2 数据抽取处理进程.21 图 3.3 一对一简单映射.23 图 3.4 数据加载形式.25 图 3.5 ach 医疗保险信息系统中的作业.26 图 3.6 sql 作业 schedule.26 图 3.7 etl 过程之间的关系.27 图 4.1 dts 的导入/导出向导.30 图 4.2 利用 dts 设计器设计 dts 包.31 图 4.3 dts 转换结构.32 图 4.4 dts 对象模型.33 图 4.5 ms sql 中的 dts 连接 .34 图 4.6 ms sql 中的 dts 任务 .35 图 4.7 数据源与目的列之间的映射类型.36 图 4.8 ms sql 中的 dts 工作流 .36 图 4.9 expprv.dat 文件格式.37 图 4.10 文本连接的创建与字段位置划分.38 图 4.11 expprv.dat 转换映射与 dts 任务实现.38 图 4.12 americaschoice 文件格式.39 图 4.13 excel 连接创建与源列映射.40 图 4.14 excel 数据源 etl 的 job 控制与 dts 实现.40 医疗保险信息系统异构数据集成的研究与实现 viii 图 4.15 x12n-837 标准 health care claim:professional 文档 .42 图 4.16 edi 账单信息示例.43 图 4.17 edi 文件分析流程与 vb 程序界面.44 图 5.1 jms api 体系结构.47 图 5.2 点对点消息模型.47 图 5.3 发布/订阅消息模型.48 图 5.4 jms 编程模型.49 图 5.5 原有数据同步方案.53 图 5.6 ach 数据同步新方案架构.55 图 5.7 jms 消息发布、订阅流程.57 图 5.8 jms 客户机创建的 xml 文档.59 表 清 单 表 5.1 jms 编程域和对象.48 承诺书 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立 进行研究工作所取得的成果。 尽我所知, 除文中已经注明引用的内容 外, 本学位论文的研究成果不包含任何他人享有著作权的内容。 对本 论文所涉及的研究工作做出贡献的其他个人和集体, 均已在文中以明 确方式标明。 本人授权南京航空航天大学可以有权保留送交论文的复印件, 允 许论文被查阅和借阅,可以将学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或其他复制手段保存论文。 (保密的学位论文在解密后适用本承诺书) 作者签名: 日 期: 南京航空航天大学硕士学位论文 1 第一章 绪论 1.1 引言 信息技术和internet技术的迅速发展极大地推动了社会的进步和发展。 现在, 在人们的日常生活、社会、企业中,都可以看到信息技术的身影。信息技术的 发展带给了企业更大的发展空间,但是信息的迅速膨胀又使得诸多企业面临许 多的问题。 一方面,企业实现信息化的过程往往是阶段性、历史性的。在不同的历史 阶段,企业可能会采用不同的信息系统,并且出于历史遗留原因,必须保证原 有系统正常运作,如何协作新老系统成为一个关乎企业信息系统运作效率的问 题。另一方面,企业的全球化使得企业扩展跨国业务分支,或者跨国合并、收 购其他企业。而扩展业务分支、合并、收购其他企业不可避免地要增加子信息 系统,这样如何扩展信息系统,如何兼容已兼并企业的信息系统以及如何实现 跨国部门之间的数据同步,成为此类企业所要面对的另一个重要问题。 从另一个层面讲,信息化提高了企业的运作效率,特别是在一定程度上实 现了企业内部之间的数据共享。然而,随着以上诸多问题的产生,使得企业内 部之间的数据共享变得复杂起来,多系统、多分支的存在会导致企业信息系统 出现数据冗余、数据不一致、数据语义不统一等问题以及信息系统之间难以交 互的问题。 为解决企业中面临的上述问题,数据集成技术慢慢发展起来。通过数据集 成服务用户访问位于不同物理位置、不同操作系统、平台变成可能。当然,其 中的实现过程根据企业的具体情况可能是复杂而繁琐的。在信息技术高度发达 的今天,仅仅实现数据集成已经不能满足某些行业的企业实时性的需要,特别 是诸如银行、医疗保险等行业。企业不同部门或者跨国部门之间根据业务需要 要求实现数据同步,这又是一个新的挑战。 1.2 数据库技术 现在,作为信息技术主要支柱之一的数据库技术在社会各个领域中有着广 泛的应用,如保险业、金融业、税务、通信公司等。数据库技术可以为各种用 户提供及时、准确、相关的信息,满足用户各种不同的需要。一般来说,数据 医疗保险信息系统异构数据集成的研究与实现 2 库技术是从文件管理阶段向数据库管理系统阶段演变而来的1。 在 20 世纪 70 年代以前,计算机主要用于科学计算和信息管理。操作系统 的文件系统就是专门管理磁盘中存储数据的管理软件,这些应用程序基本都是 独立开发的,没有统一的规划。这样,企业间不同的部门如财务、生产、营销 和人事等业务部门都会有自己的数据文件和自己的应用程序。而且各部门内部 可能根据业务需求会细分出更多的数据文件,比如人事部门需要人员清单文件 按、工资文件、津贴文件等等。随着数据量的剧增,这种数据管理方式凸显出 越来越多的问题,主要包括:大量数据冗余性、数据不一致性、数据联系弱、 数据安全性差,并且缺乏灵活性。 20 世纪 60 年代末期, 传统的文件管理存在的诸多问题随着现代数据库管理 系统的出现而得到解决。数据库是许多数据的集合,数据库管理系统(database management system,dbms)就是管理这些数据集合的计算机软件系统,数据 库管理系统也可以简称为数据库系统。 数据管理系统是在计算机硬件技术和软件技术的发展为基础上发展而来 的,它使用复杂的数据模型表示结构,提供了完整的数据控制功能,具有很高 的数据独立性,并且为用户提供了方便的接口使得用户可以使用查询语言操作 数据库中的数据,或者使用编程方式操作数据库,具有很好的系统灵活性。数 据库管理系统克服了传统文件管理方式的缺陷,提高了数据的一致性、完整性, 减少了数据冗余。 在医疗保险行业中,数据库技术显得尤为重要。医疗保险行业是一个比较 特殊、主题又特别强的行业。另外,由于其特殊性,必须对一定时期内的医疗 保险做长期存储,而且还要面对随时查询的问题。这样,医疗保险行业的数据 库中会存储大量的、多元化的数据,如病人基本信息、医生基本信息、看病账 单信息、历史记录、保险信息等等。很难想象在文件管理系统阶段如何处理庞 大的业务数据,而数据库技术在医疗保险行业的应用则很好地解决了诸多问题。 世界经济的环境下,市场竞争是激烈的,企业要想在竞争中立于不败之地, 必须对本身的业务、发展预先做出决策性判断,而其判断的依据是根据企业长 久时间以来沉积的历史数据。这就需要企业具有一个能提供决策分析的数据库 系统,数据仓库技术就是在这样的背景下发展起来的。 南京航空航天大学硕士学位论文 3 1.3 美国医疗保险体系简介 美国的医疗保障制度有别于世界上大多数工业化国家的社会保险型和国家 保险型的医疗保险制度,它没有形成一个全国统一的医疗保障制度,而是按照 市场需要逐步形成了以复杂多样的自由市场型为其主要特征的、复杂的、远没 有完善的医疗保险制度2。这是由美国社会普遍的价值观、三权分离的政治制度 以及国体联邦制等原因造成的。美国医疗保险系统主要由社会医疗保险、私营 医疗保险和管理式医疗保险三大部分组成3: (1)社会医疗保险:由联邦政府和州、地方政府所举办的,主要是帮助弱 势人群(老人、穷人等)的强制性的医疗保险计划。 (2)私营医疗保险:私营医疗保险公司在美国医疗保险中承担重要角色。 美国约 50医疗费用来自私营医疗保险计划,而且政府医疗保险计划的很多操 作工作是由私营医疗保险公司去执行。 (3)管理式医疗组织:是一种由保险人与医疗服务提供者联合提供服务的 医疗保险形式,这种医疗保险种类复杂。经过多年的实践,管理式医疗组织由 于其在节省医疗费用和提高医疗质量方面的成效,已成为美国占主导地位的医 疗保险形式。 美国的医疗保险的参保形式可分为团体健康医疗保险与个人健康医疗保险 两种4。 团体健康医疗保险主要用于雇主为本企业雇员及其家属投保的医疗保险。 此种形式的保险可以由雇主与一家或数家保险公司或其他医疗保险机构多方谈 判,讨价还价,寻求合理的保费和合适的保项,雇员只能参加雇主选定的保险 项目。 个人健康医疗保险主要吸纳不能享受团体健康医疗保险的人。个人健康医 疗保险的投保人没有选择健康保险的保障范围的自由,只能在给付水平、可续 保条款和自付额等方面进行选择。 美国医疗保险的多样性以及规则的复杂性使得处理医疗保险是一件相当繁 琐的事情,必须有专业人员才能进行和完成。很多公司为了减少人员开销、避 免为此投入过多的精力,就以一定的报酬把为员工寻找合适的保险公司和处理 账单的任务委托第三方保险管理公司(third part administrator, 简称tpa)来完成。 美国医疗保险主要分为三类: 传统主要医疗保险(traditional major medical)、 健康维护组织(health maintenance organization, hmo)以及首选医疗服务提供者 医疗保险信息系统异构数据集成的研究与实现 4 组织(preferred provider organization, ppo)。其中,ppo 综合了 traditional major medical 计划与 hmo 的元素,病人既可以在所选的名单中选择就医,也可以选 择合作范围以外的医生或医院;然而,如果不选择参加此项计划的医生(称为 none ppo),则要多付一定比例的费用。 ppo 计划是论文所涉及的医疗保险系统中主要医疗保险。 ppo 计划中, ppo 组织联系保险公司和医生。保险公司按计划提供给 ppo 组织一定数量的病人, 作为回报,病人的家属也可以申请参加保险,并且参加 ppo 组织的医生会按规 定给与病人一定数量的折扣。 而医生也会从 ppo 组织那里得到更多的病人就诊, 这样医生和病人在 ppo 计划中获得双赢。 在美国,ppo 组织很多,每个组织的政策和所能提供的折扣、项目也各有 不同。因此,通常许多大公司都通过经纪人联系 ppo 组织。经纪人会与 ppo 组 织谈判,通过比较,给公司各 ppo 组织为公司提供的医疗保险方案为参考,最 终由公司决定是否加入。 1.4 课题来源与背景 本项目是课题组与美国 ox international 公司的合作项目。美国 ox international 公司()是一家全球化的信息技术服 务公司,主要为客户提供相关解决方案,同时他们也作为 tpa 承接医疗保险的 处理工作。 本项目的主要目的是在美国 ox international 公司医疗保险业务的基础上, 构建 ach(america s choice health plans)医疗保险信息系统,实现公司最大 效率的数据共享,为管理层提供决策与分析支持。其所需的主要关键技术包括: 数据库技术、etl 技术、数据仓库技术、edi 技术、jms 技术、xml 技术等。 通过对 ach(america s choice health plans)医疗保险信息系统的业务需 求分析,在对这些关键技术进行深入研究的基础上,通过课题组的集体努力, 此系统已经成功地投入商业运作,且运行良好。构建 ach 医疗保险信息系统是 一项庞大的工程,本人主要负责 ach 医疗保险信息系统异构数据的集成与 etl 处理,所以本文的题目为: “医疗保险信息系统异构数据集成的研究与实现” 。 南京航空航天大学硕士学位论文 5 1.5 课题的研究意义 本文研究了异构数据集成的主要方案,论证了 ach 医疗保险信息系统异构 数据集成的可行性,分析了对构建数据仓库至关重要的 etl 技术,提出了基于 dts 技术实现异构数据源的 etl 过程,分析了公司原有数据同步方案的弊端, 提出了基于 jms、xml 技术的新数据同步解决方案。 通过对以上技术的研究及实现,可以为类似性质的公司或企业面对同类问 题时提供借鉴。特别是我国医疗保险行业还处于摸索阶段,对美国医疗保险信 息系统运作模式的研究有助于提高我国医疗保险行业的发展、有利于我国医疗 保险制度的完善,也为中国医疗保险信息系统的构建提供了可参考的模型。 1.6 论文内容安排 论文主要研究内容及安排如图 1.1 所示。 第二章 异构数据的集成 第一章 绪 论 (课题研究背景、论文研究主要内容 ) 第六章 总结与展望 第三章 etl技术 第四章 ach医疗保险信息系 统数据的etl实现 第五章 ach医疗保险信息系 统数据同步的实现 图 1.1 论文研究内容及各章节的关系 第一章 绪论 阐述了数据库技术的发展,分析了美国医疗保险体系的特征,简单介绍了课 题来源与背景。 第二章 异构数据库的集成 主要阐述了数据集成现状与难点, 研究了异构数据集成的三种方案及其不同 的特点,详细分析了 ach 医疗保险信息系统的特点与问题,论证了 ach 医疗 保险信息系统异构数据集成方案的可行性,介绍了微软的数据仓库框架。 医疗保险信息系统异构数据集成的研究与实现 6 第三章 etl 技术与 xml 技术 主要研究了 etl 的必要性和重要性,详细介绍了 etl 的四个实现过程,结 合实际对 etl 实现以及流程控制作了详细的阐述,分析比较了现在流行的集中 etl 实现工具的优缺点。 第四章 ach 医疗保险信息系统数据 etl 的实现 主要研究了微软提供的dts技术, 并结合ach医疗保险信息系统实际情况, 详细阐述了几种异构数据源的数据 etl 过程。 第五章 ach 医疗保险信息系统关键数据的数据同步 主要介绍了 jms 技术和 xml 技术,分析了原有数据同步方案的弊端,提出 了新的 ach 医疗保险信息系统数据同步解决方案,最后给出了 xml 创建、解 析、利用 jdbc 连接数据库以及 jms 消息发布订阅的主要代码,完成具体实现。 第六章 总结和展望 对全文进行总结,指出目前系统的不足,探讨了本项目今后的发展。 南京航空航天大学硕士学位论文 7 第二章 异构数据集成 2.1 异构数据集成概述 近十几年来,科学技术的迅猛发展和信息化的推进,使得人类社会所积累 的数据量已经超过了过去 5000 年的总和,数据的采集、存储、处理和传播的数 量也与日俱增5。现在,大多数的企业都已经完全或者大部分实现信息化,在信 息技术高速发展的今天,有的企业可能因为新业务需要或者合并其他公司而同 时具有多套不同的信息系统。这样,许多企业在不同部门之间的数据交互时, 就会面临许多比如语义不同、格式不同、数据质量千差万别等数据方面的问题。 这会严重阻碍数据在各部门之间和软件系统之间的流动和共享。 随着 internet 技术和网络技术的流行,访问位于不同物理位置的数据变得非 常便利。也使得用户访问位于不同物理位置的相关多数据源变成可能。在这样 的背景下,如果能够实现企业数据集成、共享,就可以使更多的人更充分地使 用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用,很大程度 上可以避免企业资源浪费。 数据集成是把不同数据来源、格式、特点、性质的数据在逻辑上或物理上有 机地集中,作为一个整体数据源为用户提供全面的、透明的数据访问。图 2.1 为 一般数据集成系统的模型。 数据源2 数据集成系统 数据源数据源 查询 用户 图 2.1 数据集成系统 数据集成的主要功能是使用户把焦点放在获取他们需要的数据上,而不是 放在怎样去获得这些数据上。数据集成系统为系统内数据源的数据提供一个集 医疗保险信息系统异构数据集成的研究与实现 8 成视图,用户可以通过视图像访问单独的数据源一样访问系统内所有的数据源。 这样,数据集成完全把用户从寻找相关数据源、与每个单独的数据源交互等负 担中解脱出来。 2.2 异构数据集成的难点 前面讲了,企业信息化过程中,不可避免的会出现信息资源的分化,企业 内部由于历史或业务的原因可能同时存在几种信息系统。与此同时势必会产生 过多的异构数据,异构数据的集成主要存在以下困难6: (1)平台异构。平台异构主要表现在以下方面7: 计算机体系的异构。系统内的各个成员数据库可以分别运行在大型机、小 型机、工作站、pc 或嵌入式系统中。 基础操作系统的异构。 系统内的各个成员数据库的操作系统可以是 windows nt、unix、linux 等。 (2)数据库管理系统的异构。系统内的各个成员数据库可以是同为关系型 数据库系统的 oracle、 sql server、sybase 等,也可以是不同数据模型的数据 库,如关系型、模式、层次、网络、面向对象等。 (3)语义异构。语义异构是指在系统内的各个成员数据库因为是独立创建 的,所以每个成员数据库都有自己对信息的描述方式。比如,ach 医疗保险信 息系统中,一成员数据库表中用字段“employee_ssn”表示病人社会保险号, 而在另一数据库中用字段“ee_ssn”表示病人社会保险号。在实际应用中,不 同的数据库表中具有同样的字段却表示不同的实际意义的情况很多。 (4) 语法异构。 语法异构主要是指系统内的各个成员数据库之间数据类型、 数据格式方面的差异。例如,在一个成员数据库中用“mm-dd-yyyy”格式表示 日期,而在另一个成员数据库中用“yyyy-mm-dd”表示日期。又如,整数类型 数据在 sql server 中用“int”表示,而在 oracle 中用“integer”表示。 以上几种情况是异构数据集成中比较共性的问题,而在实际应用中这些问 题往往是互相制约、互相联系的,所以一般不能孤立解决这些问题,通常需要 对这几方面综合考虑。 南京航空航天大学硕士学位论文 9 2.3 异构数据集成的方案 目前,企业级应用中,数据集成的方法很多,而且现在已经有许多成熟的 数据集成框架可以利用。通常,可以将数据集成方案分为两大类8:虚拟视图法 和物化方法。在虚拟视图法中,用户向集成系统提交查询命令,系统根据命令 对数据源进行操作。虚拟视图法又包括两种集成构架:联邦数据库系统和中间 件系统。物化方法即数据仓库法,它需要对系统内异构数据源率先进行 etl 处 理,然后将数据加载到中央仓库后才执行查询操作。这些技术特点各异,下面 对这几种模型作一下基本分析9。 2.3.1 联邦数据库系统 联邦数据库系统(fdbs,federated database system)不采用全局模式,在 维持局部成员数据库自治的前提下,对异构数据库的成员数据库进行部分的集 成,提供数据库的共享和透明访问,具有分布性、自治性和异构性的特征10。 在联邦数据库系统中,成员数据库是半自治性的,因为每个成员数据库都 是通过接口来实现成员数据库与联邦数据库系统中的其他成员数据库交互的。 成员数据库管理系统可以是中央数据库管理系统、分布式数据库管理系统或者 其它联邦数据库管理系统。 联邦数据库系统有两种模式:紧耦合模式和松耦合模式。紧耦合模式拥有 统一的访问模式。通常,紧耦合模式是静态的、难以演化的,因为一旦模式确 定后,很难再向系统中添加或删除数据源。松耦合模式没有统一的访问模式, 但是它提供了针对数据源查询的统一语言。这种模式下,成员数据库具有高度 的自治性,但是必须解决所有数据源的语义异构问题。 联邦数据库自上而下的把各成员数据库模式映射到一个公共的联邦模式, 并 负责在各模式之间的转换工作,自动解决网络传输和异构数据库操作问题。 医疗保险信息系统异构数据集成的研究与实现 10 联邦数据库系统 (fdbms) 成员数据库-a 成员dbms-a (集中式) 成员dbms-b (分布式) 成员数据库 b-1 成员数据库 b-2 成员dbms-其他 (fdbms) 网络层 成员数据库-a成员数据库-b成员数据库-其它 图 2.2 联邦数据库系统体系架构 联邦数据库系统通常建立在某一种具体的数据库管理系统之上。从联邦数 据库系统图 2.2 中可以看出,它的底层数据源相对独立,甚至与本身系统是对等 的,但通过任何一个数据源都可以访问其他数据源中的数据信息。在实现上, 其他关系型数据源中的表或非关系型数据源中的数据,通过包装器,以一定的 规则映射成本数据库系统中的表。通过联邦数据库系统,用户不仅可以使用数 据库系统本身提供的表,还可以像使用数据库中普通的表一样,来访问这些映 射数据。 联邦数据库是分布式数据库领域的一个分支,它和传统的分布式数据相比, 弥补了分布式数据库的不足,并且更容易实现。分布式数据库尽管能把各节点 的数据库作为一个整体连接起来,但是整个系统需要重新建立,这是一个规模 宏大的工程。同时,对于那些与整个系统关系并不是十分紧密的结点,它们很 难决定是参与系统还是脱离系统。联邦数据库可以很好的解决这个问题。在联 邦数据库系统里,每个参与系统的成员数据库,仍能保持原来的状态,可以自 主地决定自己的数据库模式,进行自己的操作,具有很强的自治性。这样,成 员数据库既是联邦数据库的数据提供者,也是用户;既可以继续自主地操纵自 己的数据库,又可以访问联邦数据库系统中的其他成员数据库11。 可见,联邦数据库系统非常适合既需要保证成员数据库独立、自治、可独 立查询,又需要成员数据库间协作、联合查询的情况。 南京航空航天大学硕士学位论文 11 2.3.2 中间件系统 中间件系统通过统一的全局数据模型来访问异构的数据库、遗留系统、web 资源等。由于中间件系统提供给用户的是全局数据模型,这样,用户即使不知 道数据源的位置、数据库名称或者访问路径也能够通过中间件系统进行相关查 询。 中间件系统与紧耦合联邦数据库系统在以下几方面存在差异12: (1)中间件体系结构可以拥有非数据库组件。 (2)在基于中间件系统中,数据源的查询能力可被限制,而且异构数据源 可以不支持 sql 查询功能。 (3)与联邦数据库系统中可以对数据源查询、插入数据不同,在基于中间 件系统的数据源中,通常只能进行查询操作13。 (4)基于中间件系统中的数据源拥有完全的自治性,方便在系统中添加或 删除数据源。 中间件 应用层 wrapperwrapper 数据源数据源 元数据 图 2.3 中间件系统体系架构 图 2.3 显示了一个典型的中间件系统体系结构, 从图中可以看出中间件系统 的主要组件是中间件和每个数据源对应的 wrapper(包装器) 。中间件位于异构 数据源系统和应用程序之间,向下协调各数据源系统,向上为访问集成数据的 应用提供统一的数据模式和数据访问的通用接口14。中间件在系统中主要功能 是: (1)接收用户基于统一全局模式下的查询。 (2)根据查询语句中对数据源的描述,将查询语句分解为针对单个数据源 医疗保险信息系统异构数据集成的研究与实现 12 的子查询语句。 (3)根据对数据源的描述优化查询语句。 (4) 将子查询语句分发到单个数据源对应的 wrapper, wrapper 将接收到的 子查询语句转化成本地数据库所认同的查询语句,执行查询操作。最后,中间 件将把各个 wrapper 返回的结果合并为结果集发送给用户。 中间件对用户屏蔽了异构数据库的物理位置、数据库管理系统等方面的差 异。而各数据源的应用仍然完成它们的任务,中间件系统则主要集中为异构数 据源提供一个高层次检索服务。 2.3.3 数据仓库系统 数据仓库(data warehouse)的提出是以关系数据库、并行处理和分布式技 术的飞速发展为基础的,是解决在信息技术发展中存在的拥有大量数据,而有 用信息相对贫乏的综合解决方案。数据仓库从数据库技术发展而来,但是数据 仓库与传统数据库相比有以下不同之处15: (1)数据仓库主要为决策分析设计的,数据仓库里的数据通常是历史性、 概要性的。数据仓库的用户也和传统数据库的用户不同,他们大多为分析人员 或者企业决策者。 (2)构建数据仓库的工作量是巨大的,针对数据仓库的工作大多是查询性 质的,并且这些查询往往是复杂的。 (3)数据仓库中的数据与数据库中实时性的更新不同,往往是只读的。 20 世纪 90 年代初期, 业内公认的数据仓库之父 w.h.inmon 在 building the data warehouse一书中对数据仓库的定义是这样的16: “数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用 于支持管理决策的制定过程。 ” (原文:a data warehouse is a subject-oriented, integrated, time variant, nonvolatile collection of data in support of management s decision-making process.) 数据仓库除了具有和传统数据库不同的特征外还具有如下特征17: (1)数据仓库是面向主题。操作性的数据是围绕着业务活动或者不同的功 能领域组织的,是针对某个单一的、固定的应用程序优化的。数据仓库是围绕 主题组织的,它使数据在格式上保持一致,并且对于最终用户来说更好理解。 (2)数据仓库是集成性的。由于历史或其他原因,操作性数据通常在数据 南京航空航天大学硕士学位论文 13 表述上存在矛盾,数据库间相互独立,数据往往是异构的。而数据仓库中的数 据集成是按照设计的规则对原有分散数据进行 etl 处理来实现的。这样,保证 了数据语义、风格的一致性,保证了数据仓库内的数据是关于整个企业的一致 的全局信息。 (3)数据仓库是随时间变化的。操作性的数据库往往只包含最近的数据; 而数据仓库则同时维护着历史的和当前的数据。并且,数据仓库通常按照一定 的时间周期从操作性数据库中导入数据。 (4)数据仓库是稳定的。与操作性数据库的实时更新不同,数据仓库的数 据一旦导入,就很少进行修改、插入和删除等操作,只是按照一定的计划加载 更新数据。稳定性使得我们可以对数据仓库进行最大限度的优化。 (5)数据仓库是支持管理决策的制定过程。操作性数据库的设计目的是支 持业务上的日常操作,优化数据更新的速度;而数据仓库则是用来支持战略性 的或战术性的管理决策的。 可以说,数据仓库是一个处理过程,该过程从历史的角度组织和存储数据, 并能集成地进行数据分析。宏观上讲,数据仓库就是一个大的数据库,它涵盖 了企业级应用中的所有数据库系统、数据源。这些数据库系统或者数据源中的 信息都要在经过 etl 处理后最终导入到数据仓库的中央数据库中,从而实现企 业异构数据的集成。图 2.4 为数据仓库系统体系结构。 integrator 应用层 wrapperwrapper 数据源数据源 元数据 数据仓库 查询 图 2.4 数据仓库系统体系结构 数据仓库一般来说有两种形式18: 医疗保险信息系统异构数据集成的研究与实现 14 (1) 部门级数据仓库,即数据集市(data mart)。数据集市的数据往往用来做 特殊范围的销售分析或生产线分析,其信息来自某单一部门或日常工作的处理 事项。 (2) 企业级数据仓库。数据仓库中的数据是从不同的系统集成到某一公用的 主题领域,如跨部门的分析、主管信息系统和数据挖掘应用程序都需要将整个 企业的信息集成在一起。不同的系统通常会产生数据不相容或不一致的情况, 因此企业级数据仓库维护和管理复杂。 数据仓库的创建方法有两种:集中式架构将整个企业的数据放在单一 且巨大的存储中;分布式架构将数据分布在多个数据集市中。 2.4 ach 信息系统异构数据集成方案的论证 上面分析了三种异构数据集成模型,在一定程度上,这三种模型解决了异 构数据库之间的数据共享与交互问题。这三种集成模型彼此之间存在以下的异 同: 联邦数据库系统主要面向多个数据库系统的集成,其中每个数据源都要映 射到每一个数据模式,这样就需要 n*(n-1) 个模式映射,如果集成的系统中有 大量的数据源,这将会是很大的工作量,给实际开发带来很大的困难。 中间件系统是目前比较流行的数据集成方案,它通过在中间层提供一个统 一的数据逻辑视图来隐藏底层的数据细节,使得用户可以把集成数据源看为一 个统一的整体。使用这种模型的关键问题是如何构造这个逻辑视图,并使得不 同数据源能映射到这个中间层。 数据仓库系统则在另外一个层面上实现数据库间的数据共享与数据集成, 它主要是为了针对企业某个应用领域提出的一种数据集成方法,也就是我们在 上面所提到的面向主题,并为企业提供数据挖掘和决策支持的系统。 通常来讲,不同的企业或者不同的用户在选择数据集成方案的标准各不相 同,他们会根据实际需要选择适合行业特征、实际情况的数据集成模型。 本课题为课题组与美国 ox international 公司合作项目,以美国 ox international 公司的医疗保险信息系统项目 ach(america s choice health plans) 为课题依托。ox international 公司的医疗保险信息系统有如下特点: (1)该系统针对美国医疗保险行业,具有很明确的主题性。系统内的数据 是按对象划分可分为账单信息(claims) 、历史账单信息(claim_history) 、病人 南京航空航天大学硕士学位论文 15 信息(employee) 、病人家属信息(dependent) 、组信息(group) 、医生信息 (provider) 、医生组织信息(ppo) 。 (2)该系统存在大量的历史数据。一方面,历史数据的保留在发生医疗保 险纠纷时可以提供有力的参考;另一方面,对决策分析人员来说,大量的历史 数据是进行业务分析以及预测的有力保证。 (3)该系统存在大量不同的数据格式。这是因为,系统内部每个部门所用 的数据库各异,每个组(group)为系统提供的病人(employee)信息数据格式 各异,而 ppo 组织不属于系统部门,拥有更自由的数据组织方式。 (4)该系统存在大量的异构数据源。这是由公司内部职能的分化以及信息 系统创建过程中软硬件环境不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年及未来5年市场数据中国光电材料行业投资分析及发展战略咨询报告
- 承德市政府公务员考试试题及答案
- 白山公务员考试真题试卷试题及答案
- 安溪县公务员考试试题及答案
- 恒美智造酶标仪产品知识图谱报告书
- 城市道路隧道拓宽改造工程商业计划书
- 2026年蔬菜种植公司不合格蔬菜产品处理管理制度
- 2026年能源加工公司客户信用评级管理制度
- 正线有碴轨道无缝线路铺设方案
- 十五五规划纲要解读:节地制度严格执行
- 汽车保养常识app课件
- 主板维修标准化流程
- 2025-2030中国智慧城市建设现状与未来投资机会分析报告
- 心理健康教案教育课件
- 骨科危重患者的急救及护理
- 企业政府项目管理制度
- 上海对外经贸大学《审计学》2023-2024学年第二学期期末试卷
- 泵站运行维护管理制度
- 50篇短文搞定高考英语3500单词
- 【整本书阅读价值及教学策略研究国内外文献综述3600字】
- (2025)《传染病防治法》综合培训试题与答案
评论
0/150
提交评论