数字化校园建设中ETL技术实现数据集成_第1页
数字化校园建设中ETL技术实现数据集成_第2页
数字化校园建设中ETL技术实现数据集成_第3页
数字化校园建设中ETL技术实现数据集成_第4页
数字化校园建设中ETL技术实现数据集成_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数字化校园建设中ETL技术实现数据集成 Research of Data Integration Based on ETL in Digital Campus Construction HE Xue-li (Guangzhou Vocational College of Technology resolve the business interoperability issues in different business systems. By the practice of ETL, guaranteeing data authority, uniqueness, completeness

2、 and accuracy, and creating a good data environment. 在教育信息化的建设实践中 , 构建数字化校园已成为实现学 校信息化的主要内容。数字化校园是以网络为基础 , 利用先进的 信息化手段和工具 ,实现从环境 (设备、教室等 ) 、资源(图书、讲 义、课件、信息等 )、到活动 (教、学、管理、服务、办公等 )的 全部数字化 , 在传统校园的基础上构建一个数字空间以拓展实现 校园的时间和空间维度 ,从而提升传统校园的效率 , 扩展传统校 园的功能 , 最终实现教育过程的全面信息化 1 。数字化校园的建 设不仅仅是校园地理和设施的信息化 , 更重要的

3、是以信息技术促 进教育的发展 , 建立多层次、创新型、开放式的环境。 随着数字化校园建设的不断推进 , 学院各部门在不同时期建 设的业务系统在发挥重要作用的同时也暴露出弊端 : 各个系统之 间互相独立 ,拥有各自的数据存储与访问方式 , 形成了一个个信 息孤岛 , 难以保障数据的权威性、 唯一性、完整性和准确性 ,也不 便于系统之间进行数据交换。 因此,实现数据集成 , 创造一个良好 的数据环境 , 消除这些信息孤岛成为数字化校园建设中亟需解决 的问题。 1 数据集成概述 数据集成又可称为信息集成 , 是解决数据互通的问题 , 数据 集成的核心任务是要将互相关联的分布式异构数据源集成到一 起,

4、 使用户能够以透明的方式访问这些数据源。集成是指维护数 据源整体上的数据一致性、提高信息共享利用的效率 , 透明的方 式是指用户无需关心如何实现对异构数据源数据的访问 , 只关心 以何种方式访问何种数据 2 。典型的数据集成方法有模式集成 法与数据复制法。 模式集成法的基本思想是 , 在构建集成系统时将各数据源 的数据视图集成为全局模式 , 使用户能够按照全局模式透明地 访问各数据源的数据 3 。用户直接在全局模式的基础上提交请 求 , 由数据集成系统处理这些请求 , 转换成各个数据源在本地 数据视图基础上能够执行的请求。 联邦数据库和中间件集成方法 是现有的两种典型的模式集成方法。 数据复制

5、方法将各个数据源的数据复制到与其相关的其它 数据源上 , 并维护数据源整体上的数据一致性、 提高信息共享利 用的效率。 数据复制可以是整个数据源的复制 , 也可以是仅对变 化数据的传播与复制。 数据复制方法可以减少用户使用数据集成 系统时对异构数据源的数据访问量 , 从而提高数据集成系统的性 能。最常见的数据复制方法就是数据仓库方法 4 。该方法将各 个数据源的数据复制到同一处数据仓库 , 用户像访问普通数 据库一样直接访问数据。 模式集成方法为用户提供了全局数据视图及统一的访问接 口,透明度高 , 但该方法并没实现数据源间的数据交互 ,用户使用 时经常需要访问多个数据源 , 因此网络依赖性强

6、 , 执行效率也相 对较低。数据复制方法在用户使用某个数据源之前将用户可能用 到的其它数据源的数据预先复制过来 , 用户使用时仅需访问某个 数据源或少量的几个数据源 , 这会大大提高系统处理用户请求的 效率 ,但很难保障数据源之间数据的实时一致性。模式集成方法 适用于被集成的系统规模大、 数据更新频繁、 数据实时一致性要 求高的情况。 数据复制则适用于数据源相对稳定、 用户查询模式 已知或有限的情况 5 。 2 数据集成方案的分析 在我院信息化建设过程中 , 各个部门根据自身的业务需求 , 购买或开发了各自的业务系统 (见表 1) 。这些系统之间拥有各自 的数据存储与访问方式 , 彼此独立。如

7、果采用模式集成方式的联 邦数据库系统 , 每个系统都要实现一个与虚拟共享库的接口 , 要 对原系统做相应的修改。 同样对于中间件的模式集成需要建立一 个全局的模式 , 需要花费大量的时间 , 更为重要的是目前现阶段 建立数据中心主要目的不是为了数据的查询 , 而是为了共享数据 的收集和交换。所以 , 单纯的模式集成法不能完全适应数字化校 园建设需求的方案。 在经过详细的需求调研、 分析与综合考虑各种因素后我们选 择数据复制法 , 建立数据中心数据仓库 , 为今后的应用需求提供 实现空间 , 而对于一些本身业务具有封闭性的系统则使用统一的 数据封装格式如XML通过通讯前置机来实现数据信息的共享。

8、 3 ETL技术实现数据集成 根据我院现有业务系统的实际情况,我们主要使用ETL技术 实现数据集成。 ETL(Extract-ransform-Load)6, 即抽取、转换、 加载,可用于构建数据仓库,是实现数据集成的主要技术。ETL负 责将分布的、异构数据源中的数据如关系数据、 平面数据文件等 , 抽取到临时中间层后进行清洗、转换、集成, 最后加载到数据仓 库中,成为联机分析处理、数据挖掘的基础。整个过程如图 1 所 示。 3.1 数据抽取 数据抽取可以根据学校的情况定义数据中心的数据表从某 业务系统的某张表抽取 , 数据抽取是通过配置源数据表与目标数 据表的选择 , 数据项的对应 , 数据

9、清洗的设定、 抽取条件等因素达 到数据抽取的目的。 抽取规则主要描述了数据抽取的顺序、 部分 抽取还是全部抽取、抽取时间等。提供数据的业务系统通过 CDC(Change Data Capture) 动态数据捕获机制 , 每次只捕获、集 成有变化部分的数据 , 从而减轻数据中心平台网络传输及系统处 理的负担 , 根据不同的业务采用不同的时间间隔定时轮循从业务 系统同步数据。 3.2 数据转换 转换定义了数据源和目标库的映射关系。 根据定义好的转换 模型,对输入数据进行转换 , 包括格式上和内容上的转换 ,可以选 择字段对应、字段组合等数据清洗方式。 3.3 数据装载 在运行了数据抽取与数据转换后

10、将数据装入到目标数据库。 主要的工作包括确定数据装入的次序、载入初始数据等。 采用 ETL 技术实现数据集成的方案具有以下几个方面的优 点。首先 , 各个部门可沿用自己的业务系统 ,节约了成本 ,也易于 推广。其次 , 将分散在各部门业务系统的数据集中到数据中心统 一存放 , 以师、生角色为主线 , 提供跨部门立体式的人事、教学、 科研、公共资产等综合数据 , 从而为教工、学生提供全方位的信 息服务。各部门需要共享数据时可以直接从中心数据库获得, 不 再需要通过手工或者映射方式从其它部门获得 , 减少了接口的数 量, 更不需要重复录入。第三 ,中心数据库的信息来自权威部门 , 保证了中心数据库数据的权威性和正确性 , 同时避免了数据的冗 余。将这些系统的数据抽取到中心数据库中进行数据共享, 并为 进一步的决策和应用提供数据支持是一种可行的解决方案。 4 结束语 数字化校园建设中解决信息孤岛问题 , 推进数据的集中和共 享,是一项紧迫的任务 , 只有解决了数据之间的互通问题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论