(计算机应用技术专业论文)etl在isbn中心业务系统中的研究与应用.pdf_第1页
(计算机应用技术专业论文)etl在isbn中心业务系统中的研究与应用.pdf_第2页
(计算机应用技术专业论文)etl在isbn中心业务系统中的研究与应用.pdf_第3页
(计算机应用技术专业论文)etl在isbn中心业务系统中的研究与应用.pdf_第4页
(计算机应用技术专业论文)etl在isbn中心业务系统中的研究与应用.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机应用技术专业论文)etl在isbn中心业务系统中的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北方工业大学硕士学位论文 摘要 本文介绍了e t l 原理、国内外数据转换技术以及e t l 工具发展等内容。在详细分析了 数据转换理论和现有的数据转换技术后,指出了现有工具的不足之处。本文结合i s b n 中 心业务系统的实际需求,提出了以x m l 技术为基础的e t l 工具解决方案,在一定程度匕解 决了传统e t l i 具对数据库服务器造成的负载问题,均衡了各服务器的利用率。 本文根据实际项目的具体需求,采用x m l 为主要技术手段,建立了如下的模型:异 构数据库元数据的获取模型、数据转换和清洗任务流定义模型、数据上载任务调度模型 等。作者研究了数据转换过程中需要解决的技术问题,并以前述模型为基础,开发了对 应e t l 四个阶段的数据转换工具,通过该工具能处理j d b c 所支持的数据库、e x c e l 文件, 以及基于多种异构数据库提取的数据之间的清洗与转换。使用者可以自己设计转换流 程、定义转换规则、定时调度转换任务,该软件具有较好的通用性和灵活性。作者用此 工其进行过多种数据转换的测试,效果较好。 作者在研究、开发与应用的实践中,总结出了进一步改进和完善浚软件的方法,这 是作者下一步要做的工作。 关键字:数据转换、异构数据库、数据集成、元数据、任务流 北方工业大学硕士学位论文 a b s t r a c t t h i sp a p e ri n 打o d u c e se t l p r i n c i p l e ,d a t at r a n s f o r m a t i o nt e c h n o l o g y , t h ed e v e l o p m e n t s t a t u so ft r a n s f o r m a t i o nt o o l s a f t e ra n a l y z i n gt h ed a t ai n t e g r a t i o nt h e o r ya n dt e c h n o l o g y , t h i sp a p e rh a sp o i n t e do u tt h ew e a kp o i n to ft h ee x i s t i n gt 0 0 1 t h i sp a p e rp r o p o s e se t lt o o l s o l u t i o nb a s e do nx m lt e c h n o l o g y , w h i c ha c c o r d i n gt 0t h ea c m a td e m a n do fi s b nc e n t e r s s y s t e mt h es o l u t i o np a r t l yt r a n s f e r st h el a r g el o a d i n gp r e s s u r eo fe x i s t i n gd a t a b a s es e r v e r , s o l v e st h el o a d i n gp r o b l e mo ft h ed a t a b a s es e r v e r , a n db a l a n c e su t i l i z a t i o nr a t i oo fe v e r y s e r v e rt oac e r l a i ne x t e n t a c c o u n t i n gt ot h en e wd e m a n dt h a tt h ea c t u a lp r o j e c tp u t sf o r w a r d ,t h i sp a p e ra d o p t s x m la st h em a i nt e c h n o l o g i c a lm e a n s ,a n ds e t su pt h em o d e ls u c ha st h em o d e lt oo b t a i nt h e m e t a d a t ao fh e t e r o g e n e o u sd a t a b a s e ,t h em o d e lb a s e do nx m ll a n g u a g ew h i c hu s e dt o t r a n s f o r ma n dc l e a nd a t aa n dt h et a s ks c h e d u l i n gm o d e lt oe x e c u t et h ew o r k i n gf l o w t h e a u t h o rh a ss t u d i e dt h et e c h n o l o g i c a lp r o b l e mt ob es o l v e di nt h et r a n s f o r m i n gc o u r s e b a s e d o l lt h em o d e lm i di nt h ep a s t ,t h ea u t h o r d e v e l o p st h ei n t e g r a t e dt o o l sf o rd a t aw h i c h c o r r e s p o n d i n gt h ef o u rs t a g e so f e t lt o o l s ,t h i st o o lc a l ls u p p o rr d b m s ,e x c e lf i l ea n dd a t a f r o mm u l t i s o u i u s e rc a nd e s i g nt r a r b f o r mf l o wa n dt l m :l s f o r mr u l e sh i m s e i f a u t h o rh a d t e s tt i f f st o o lw i t hm u l t i p l ed a t as o l l r c ea n dg i v eae x a m p l eh o wt h ed a t at ob et r a n s f o r m e d a t t h ee n do f t h ep a p e r , t h ea u t h o rt h i n k sw h a tn e e d st 0d oi nt h ef l l m l e r k e y w o r d s :e t l ,h e t e r o g e n e o u sd a t a b a s e ,d a t ai n t e g r a t i o n ,m e t a d a t a , w o r k i n gf l o w 2 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得些直王、业盍堂或其他教育机构 的学位或证书面使用过的材料。与我一同j 二作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 学位论文作者签名:卫謇签字日期:出年6 月g 1 = 1 学位论文版权使用授权书 本学位论文作者完全了解j e 立王业友堂有关保留、使用学位论文的规定,有 权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 蝴。本人授权韭友工些太坐可以将学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:王r 争 签字日期:b r 铽月f 6 日 导师签名 签字日期:时年月佑日 学位论文作者毕业后去向: 工作单位:北京用友软件股份有限公司电话:6 2 9 8 6 6 8 8 通讯地址:北京市海淀区上地信息路5 号邮编:1 0 0 0 8 5 北方工业大学硕士学位论文 引言 随着计算机软、硬件技术的发展,特别是i m r a _ n e t 和i n t e m e t 的出现,计算机在企业的 经营中起着越来越重要的作用。在信息化发展的初期,由于没有合理的整体规划,企业 采用了许多相互独立的计算机应用系统,随着时间的推移和技术的进步,形成了若干信 息孤岛。每个不同的应用系统是一个异构的数据源,它们之间的信息内容和组织方式都 不同,构成了一个巨大的异构数据库环境。 在信息化时代和全球经济竞争的新环境下,企业要做出一项决策,往往需要查询多 个基于各种异构数据源的业务系统和外部系统后,进行大量数据分析后才能做出此决 策,对异构数据的处理工作量大,且容易出现人为差错,从而影响决策的质量。同时, 随着企业的发展和信息化建设推进,往往出现以下闽题:对于大量的数据不能提供一个 统一的数据接口,不能采用一种通用的标准规范( 如使用不同的指标代码体系和编码体 系) 共享通用的数据源;随着业务的增加,对于管理人员要求的操作越来越复杂,越来 越多。用户分散,相互联系程度低。信息相对封闭,共享程度低;大量日趋复杂的办公 业务依然或多或少的靠手工处理进行流转;信息加工、处理手段差,影响信息质量,无 法直接从各级各类业务信息系统采集数据并加以综合利用,无法对外部信息进行及时、 准确的采集、利用,业务系统产生的大量数据无法提炼升华为信息,及时提供给决策部 门;已有的业务信息系统平台及开发工具互不兼容,无法在大范围内应用。 数据是一种重要的企业财富,它不仅能促进企业的业务运营,而且能用于企业的管 理、规划、趋势预测、战略分析等等。遗憾的是,许多企业在发现它的数据库能有效地 支持企业的业务运营的同时,却不认为它们的数据库也能有效地用于分析、规划和其他 的管理用途。企业如果能够将企业的业务信息有效的集成到数据仓库或类似数据仓库的 单一类型的数据源中。通过这些集成的数据可以提供了标准的报表和图表的功能。用户 能够通过把一个实体的多项重要的属性定义为多个维度,方便地汇总数据集,简化了数 据的分析处理逻辑,并能对不同维度值的数据进行比较,这在决策过程中非常有用。在 集成数据的基础上进行数据挖掘,就可以针对整个企业的状况和未来发展做出比较完 整、合理、准确的分析和预测。 由异构数据库构成的信息孤岛已经形成,企业原有的应用系统也不能够被废弃,同 时企业还要求从数据格式各异的数据库中提取有效数据进行决策支持分析。在这样的背 景下,如何从异构数据库中有效的抽取、转换、清洗、加载数据就成为了当前亟待解决 的问题。用于数据转换的e t l ( e x t r a c t ,t r a n s f o r m ,l o a d ) 工具,正是针对异构数据源 北方工业大学硕士学位论文 来抽取数据,进而转换为正确的、有效的、格式统一的数据,并最终保存到数据库中, 为企业发展提供数据的支持。因此,用于数据转换的e t l i 具成为解决企业信息化孤岛 问题的有效方案,而这方面的研究也成为当前数据研究的一个热点。 北方工业大学硕士学位论文 第一章概 述 1 1 背景及课题来源 1 1 1 背景 近年来随着市场竞争的进一步激烈化,企业对决策支持系统的依赖性越来越大,纷 纷要求建立数据仓库来存储决策所需的数据。 数据仓库的建立过程一般如下:首先进行数据库的设计,然后进行数据的采集、转 换和清洗,并将有效的数据保存在设计好的数据库当中,最后是进行深入的数据挖掘和 决策分析。数据仓库中的数据来自于各种不同的业务系统,需要从各个业务系统数据源 中抽取原始数据,然后经过洁理、转换、集成、聚集等一系列的处理,最后将产生的决 策数据加载到数据仓库中“1 。这个数据仓库数据的选择、抽取、加载和刷新过程被称为 e t l ( e x t r a c t ,t r a n s f o r ma n dl o a d ) 过程,具体的e t l 过程如图1 1 所示: = ;# 一 数数数数 ,一、i据 据据。 玲 据 = = = 兰兰篓喜黧乏习 抽 清转吲 装 扒 数据 s q l = ! 曼! 疆! 邀据源三至岁么,节 取 洗换 袭 影 仓库 多数据源蔗7r _ 一 ; e : _ _ ! 董 圈1 1e t l 过程 e t l 过程的实施是整个数据仓库系统开发实施中最重要的部分。据统计,整个数据 仓库系统开发中7 0 左右的时间和工作量都花费在e t l 过程的设计和实施上。同时e t l 过 程是整个数据仓库系统实施的关键,因为数据仓库中数据的正确性和有效性需要e t l 过 程来保证。e t l 过程的正确与否关系到数据仓库的可用性。e t l 过程的实现是整个数据仓 库系统实施的核心。 e t l 的提出虽然来源于数据仓库的建立,但是它却不仅仅应用于数据仓库方面。例 如企业应用集成的解决方案,可以在三个层面上实现,其中数据层上的集成就可以利用 e t l 工具来进行数据的抽取转换处理,从而直接进入应用软件的数据结构或数据库来集 成应用。又例如在电子政务方面、通讯领域、g i s 空间数据采集等方面,e t l - f - 具都在发 挥着巨大的作用,通过e t l s e 具的使用,能够采集到有效的数据为各领域提供基础的数 北方工业大学硕士学位论文 据支持。 1 1 。2 课题来源 本课题来源于“中国i s b n 中心业务系统及服务网站”项目。该项目将采用现代计 算机网络技术手段,建设以i s b n 书号管理为中心的业务应用系统。系统将实现各部门 信息资源共享、优化办公流程、提高办公效率;建立数据库,进行信息的收集、统计、 汇总,为决策提供辅助支持,为未来的数据挖掘和数据分析奠定基础。系统业务将围绕 书号实名申领、图书信息管理和出版社信息管理为中心展开【“。 在该项目中,需要对全国9 0 0 余家出版社来采集数据信息,包括年度选题信息、图 书信息、选题申报信息等几个方面。e t l 工具在i s b n 中心业务系统中能够为用户提供 方便的数据转换方式,使用户做到对图书、选题信息进行批量的数据处理,为用户提供 了方便的数据采集方式,降低了用户的工作强度。用户不仅可以通过该工具来连接常用 的网络数据库如m ss q l 来为i s b n 中心业务系统提供数据,而且可以将桌面数据库如 a c c e s s 和电子表格如e x c e l 中的数据,通过e t l 工具来采集到i s b n 中心业务系统数据 库中,为i s b n 中心下一步的业务工作提供数据支持。本课题研究的主要任务是设计与 开发满足i s b n 中心业务系统应用需求的数据集成的e t l 工具。 1 2 e t l t 具研究现状 1 2 1 国内状况 国内数据仓库的应用起步较晚,其应用范围主要集中在金融、证券、电信等少数行 业中,且大多数由国外数据仓库产品所垄断国内某些大学对数据仓库有些研究,如哈 尔滨工业大学开发的并行数据仓库管理系统p d 硼i s 、南京大学开发的数据仓库原型系统 s o f t b a s e w a r e 、华中科技大学数据库与多媒体技术研究所开发的原型系统d m _ d w ,但专 门针对e t l 的研究不多。 1 2 2 国外概况 国外数据仓库己经得到大规模的应用,几乎每个数据仓库厂商都有自己的e t l 系统。 市场上己经存在许多比较成熟的商用e t l 系统。典型的商用系统有i b m 的v i s u a l w a r e h o u s e ,0 r a c l e 9 i 的o r a c l ew a r e h o u s eb u i l d e r ,m i c r o s o f t 的d t s ,i n f o r m i x 的 a r d e n t ,d a t am i r r o r ,e t i 。下面重点介绍一下几个主流数据库厂商提供的数据仓库e t l 解决方案o ,。 v i s u a l w a r e h o u s e 。是i b m 数据仓库解决方案的重要组成部分,它提供e t l 的功能, 可以访问各种关系型数据库如d b 2 数据库家族、o r a c l e 数据库、s y b a s e 数据库和i n f o r m i x 和非关系型的数据如集成制造系统( i n t e g r a t e dm a n u f a c t u r i n gs y s t e m ,i m s ) 和v s a m 北方工业大学硕士学位论文 ( v i r t u a ls t o r a g ea c c e s sm e t h o d ) 。v i s u a lw a r e h o u s e 提供基于s o l 的简单转换和基于 u d p ( u s e rd e f i n e dp r o g r a m ) 的复杂转换,它具有高效装载的特性,v i s u a lw a r e h o u s e 的代理可以运行于w i n d o w sn t 系统、m x 年n o s z ,这就带来了针对位于这些平台上数据 中心的装入性能的改善,因为数据无需再通过w i n d o w sn t 上的代理。另外,除了现有的 基于s q l 的目标装载,v i s u a lw a r e h o u s e 现在还提供用于文件传输和装载过程管理的程 序。它可以定义工作流,实现交易视图( b u s i n e s sv i e w ) 的定时调度、条件调度、并行 调度和外部事件触发调度;管理数据迁移过程,监控执行状态和收集和报告数据仓库过 程的统计数数据。当用户有特殊需求时,可以通过编程接口编程实现或选择第三方厂商 ( 如e t i 和v a l i t yt e c h n o l o g y ) 的产品。 o r a c l e 9 i 提供o r a c l ew a r e h o u s eb u i i d e r 作为包括e t l 在内的一个综合工具。o r a c l e w a r e h o u s eb u il d e r 可以完成导入数据源定义、设计和创建目标数据库模式、定义和创 建源和目标之间的数据迁移和操纵、定义e t l 过程之间的约束性和流程、管理和更新源 定义和目标模式等多种任务。从o r a c l e 9 i 开始,o r a c l e 数据库的功能明显增强,尤其能 处理一些e t l 环境下的任务。e t l 处理流程可以显著地改变,数据库可以成为完整的数据 转换引擎由于o r a c l e 9 i 的新功能,许多传统的e t l 过程可能不再需要,而其它的有些过 程则可以更有效、更有可扩展性地执行。o r a c l e 9 i 不是为转换后载( t r a n s f o r mt h e nl o a d ) 或载入后转换( 1 0 a dt h e nt r a n s f o r m ) 的e t l 处理模式而设计的,取而代之的是,o r a c l e 9 i 提供了转换过程中载入( t r a n s f o r mw h i l ei o a d i n g ) 的e t l 新处理模式。o r a c l e 9 i 提供全 抽取( f u l le x t r a c t i o n ) 和增量抽取( i n c r e m e n t a le x t r a c t i o n ) 两种逻辑抽取方法。使 用平面表( f l a tf i l e s ) 、分布式操作( d i s t r i b u t e do p e r a t i o n s ) 、可传输表空间 ( t r a n s p o r t a b l et a b l es p a c e s ) 等方法进行数据传输操作。它提供多阶段转换 ( m u l t i s t a g et r a n s f o r m a t i o n ) 和流水线转换( p i p e l i n e dt r a n s f o r m a t i o n ) 的转换流程, 使用s q l p l s q l 、表函数( t a b l ef u n c t i o n s ) 的转换机制。它提供s q l * l o a d e r 、外部表 ( e x t e r n a lt a b l e ) o c ia n dd i r e c t p a t ha p i s ,e x p o r t i m p o r t 的加载机制。o r a c l e 9 i 提供t 多种新功能以增强e t l 处理的性能。o r a c l e 变化数据捕获( o r a c l ec h a n g ed a t a c a p t u r e ) 机制提供7 从o r a c l e 数据源捕获更新数据的功能。o r a c l e 9 i 的外部表特性,允 许外部数据如同其它常规表中的数据一样,在数据库中出现。多表插入( m u l t it a b l e i n s e r t ) 提供了一个新的s q l 命令,该命令可以将数据插入多个目标表中。o r a c l e 9 i 的表 函数支持流水线方式和并行方式,实现一系列复杂的转换而不需要中间临时表,避免了 在各种转换步骤中数据流的中断。可传输表空间是一种在o r a c l e 数据库之间移动数据的 高效机制,因为可传输表空间允许在不经过卸载或重载的条件下移动数据。通过可恢复 执行语句,如果运行时间长的数据库操作时发生了可修正的错误,o r a c l e 9 i 能够挂起或 北方工业大学硕士学位论文 继续执行当前的操作。 m i c r o s o f t 提供d t s 作为e t l i 具。d t s 能够从广泛的数据源抽取数据,可以支持以下 数据源:o l ed b 数据源,o d b c 数据源,文本文件。使用d t s ,用户能够完成以下任务: 在数据库管理系统之间拷贝表的模式和数据;创建定制转换对象,使其能集成到第三方 的产品中去;通过交互式或自动的方式从多个异构数据源导入和转换数据,在提供o l e d b 驱动程序的数据库管理系统中创建数据仓库和数据集市;创建和执行d t s 包( d t s p a c k a g e ) ,一个d t s 包完整的描述了所有的转换工作,一个d t s 包定义了一个或者几个数 据转换步骤,每一步能够完成一个不同类型的操作。此外,d t s 还提供d t s 导入导出向导 和d t s 设计器等工具来简化数据的转换工作。用户使用a c t i v e xs c r i p t 语言可以描述复 杂的转换规则,能够完成格式化和转换数据,自定义函数,创建、使用和改变存储在d t s 全局变量中的值,操纵c o m 对象,创建a d o 对象来存取数据库等几乎任何复杂的任务。此 外,d t s 还提供自动调度d t s 包中任务工作流的功能。 1 3 课题研究的主要内容 本课题主要研究开发基于x m l 的e t l 数据转换工具,跟据i s b n 业务要求,实现 异构数据源的数据采集、转化、加载功能。 中国i s b n 中心的数据采集系统包括对出版社的数据采集、出版物的数据采集、中国 i s b n 中心数据的采集以及音像司、图书司o a 系统数据的获取。数据来源有两种:第一种 是从出版社上报来的数据,即数据报送;第二种是从别的已有的相关系统中灵活地导入 到本系统中,也就是与其它系统数据库交换。其中数据报送部分采用w e b 页面直接填写 并报送数据到数据库,不属于本课题的研究范围。本课题主要研究第二种数据来源,也 就是通过数据e t l i 具来获取数据。 1 3 1 元数据模型管理 该部分主要研究了异构数据库的元数据模型的获取及应用。主要包括源数据库的元 数据模型建立与管理和目的数据的元数据模型建立与管理,其中的元数据模型主要使用 x m l 文件作为存储介质。 1 3 2 数据采集 数据采集这部分的研究是以数据建模为基础的,通过对元数据模型建立数据转换的 规则,进而进行数据的清洗和加载。主要包括转换规则的建立、任务流的调度、日志信 息的管理、错误数据的处理等,其中转换规则、任务流、日志信息和错误数据都是以x m l 文件为存储介质的。 北方工业大学硕士学位论文 1 4 研究意义 e t l 工具的开发研究工作一直一来都是国内外在数据仓库建设方面的重点研究对 象和热点,尤其在我们国内还处于初期阶段,无论是针对通用的数据仓库系统还是对于 特定实际应用都有很好的研究价值。今年来随着x m l 技术的进步和在多个领域的应用, 将x m l 技术应用于e t l 工具的研究也是一个创新之处,有着广泛的应用前景。本课题 也将重点研究x m l 技术在e t l 工具开发中的应用。 对于本课题的实际来源项目中国i s b n 中心业务系统及服务网站的建设,主要 是为了能够及时、准确的收集、统计全国出版物的具体数据信息,以掌握全国出版物的 第一手资料,为新闻出版总署和其他相关部门提供高质量的数据信息。同时,通过服务 网站不仅可以做到对外宣传让广大读者了解i s b n 的知识和出版业相关的法律知识,不 仅起到一定的市场监督作用,也保证了出版社和广大读者的权益。 该系统将利用现代化网络手段,实现i s b n 书号管理、出版物出版控制、出版物信 息收集、优化数据流通、提供分析汇总、提高办公效率,建立业内务部们、出版单位的 交流通道,并为社会提供详尽的出版物信息。进而为领导决策提供依据,为公务员办公 提供平台和信息支持,为出版单位提供交流通道。通过该系统的建立,可以进一步规范 我国的i s b n 中心管理工作,使我国的i s b n 中心与世界i s b n 组织接轨。 总的来说,本课题旨在重点研究符合中国i s b n 中心业务系统建设实际项目的、同 时又有通用性质的e t l 工具,同时将这一工具应用于i s b n 中心的业务实际,具有很大 研究意义。 1 5 本文的组织结构 本文的第一章概要地说明了课题的背景、来源、相关课题的研究情况以及本课题的 研究意义等等,接下来的几章主要做如下安排: 第二章主要对中国i s b n 的实际业务做一些简要分析,提出实际需求。 第三章首先主要介绍e t l 工具开发涉及到一些重要原理和相关技术,然后结合实 际项目讨论e t l 工具的设计与开发。 第四章给出了本文的研究目标、范围和采用的技术手段 第五章是本文的关键,在前一章讨论的基础上,提出e t l 工具的分析和设计方案。 第六章是项目的实施结果,将e t l 工具实际应用于i s b n 的业务系统建设,通过图 文方式展现e t l 工具的实际应用。 第七章对本题的工作做一些总结,提出本课题研究不足之处和对下一步工作的展 望。 北方工业大学硕士学位论文 第二章中国i s b n 中心业务系统分析 本章主要从i s b n 中心业务系统的项目背景、系统需求分析、系统应用框架、业务 系统结构等几个方面来介绍i s b n 中心的业务,以及数据e t l 工具在该业务系统里面所 起的作用和所处的地位。 2 1 项目概述 2 1 1 项目背景 中国i s b n 中心是新闻出版总署的直属事业单位,负责i s b n 系统的管理及统一组织、 协调、管理全国出版物条码工作等相关工作。 中国i s b n 中心的工作涉及到全国新闻出版行业的近6 0 0 家图书出版单位,3 0 0 余 家音像及电子出版物出版单位,业务量大涉及面广。 中国i s b n 中心业务信息系统及服务网站的建设,是为了提高i s b n 业务的管理水平, 及时、准确地收集、监控全国出版物信息,以掌握全国出版物的第一手资料,形成出版 物官方权威信息总汇,为总署领导和其他相关部门提供高质量的信息数据,为政府决策 提供准确、有力的数据支持0 1 。 2 1 2 i s b n 业务现状 目前中国i s b n 中心等相关部门均有计算机设备,条码中心有一个小型机房,备配 置比较好,有条件上i n t e m e t 网。但绝大多数计算机资源都应用于简单的文书处理、上 网查询资料等简单的办公活动。各地出版单位通过软盘和点对点通讯方式报送统计数 据。目前的信息化水平相对比较滞后,没有一个整体的、统一规划的数据库系统和信息 网络处理平台,无法做到数据的快速、准确、全面的收集、整理,制约了中心业务管理 水平,不能灵活有效地提供所需的分析数据。i s b n 中心办公现状如图2 1 所示: 北方工业大学硕士学位论文 图2 1i s b n 中心办公现状 2 i 3 使用范围 中国i s b n 中心网站的服务对象为总署领导、图书司、音像司、i s b n 中心、3 1 个省 分中心、全国范围内近6 0 0 家图书出版单位和3 0 0 余家地方音像及电子出版物出版,以 及面向社会的广大读者群。 2 1 4 项目目标 本项目的建设目标是:以i s b n 信息为主线,利用现代化信息技术手段,实现i s b n 分配、配发、收费、使用监管、国际i s b n 上报等中国i s b n 中心业务过程的计算机化管 理和全国各出版社i s b n 使用情况的监控;通过对实名申报信息、成书信息、选题信息 等重要数据的采集,达到对出版物出版信息监控、出版物信息收集、汇总的目的,在提 高部门内部办公效率的同时,为领导决策提供依据。 2 1 5 建设意义 本项目一旦建成,将形成一个服务于图书司、音像司、i s b n 中心及省级分中心、 6 0 0 家图书出版单位和3 0 0 余家地方音像及电子出版物出版以及广大用户的全国性网络 系统。 利用中国i s b n 中心业务系统可以完成在线i s b n 配发、条码申办制作、结算、出版 物数据报送、样本数据报送等多种功能;可以完成各相关部门查询、统计的要求。 利用中国i s b n 中心业务系统中的e t l 数据转换工具,可以实现与其他外部应用系 囤一 鱼 园一 甲毋由 | 北方工业大学硕士学位论文 统的数据共享和数据交换;保障在统一规划的数据库平台和网络信息平台上完成对数据 的实时、准确、全面的采集和处理,提升各使用单位的办公效率和业务处理水平,加强 对出版社、出版物和样本信息的统一管理和维护,更好的为决策、分析部门提供全面、 准确的依据。 2 1 6 总体结构 i s b n 中心业务系统及服务网站建设项目主要包括:机房建设、综合布线、计算机 网络系统、网络安全、业务软件系统和服务网站软件系统。中国i s b n 中心业务系统应 用网络拓扑图如图2 2 所示: 幽2 2i s b n 中心业务系统应用网络拓扑图 2 2 i s b n 业务系统需求分析 2 2 i 业务用例图 1 业务用例图 业务用例图提供了公司的工作、公司内的角色与公司外的角色的完整模型,同时指 定了机构范围,可以看到机构的内容和边界。而且,通过业务用例图的设计,可以迅速 北方工业大学硕士学位论文 表达业务的高层信息而不涉及所有细节和堆聚太多解释。 根据条码中心的组织结构和用户给出的需求描述,确定业务范围和核心工作。系统 的业务用例图如图2 3 所示,其中特殊标注的是需要e t l 工具提供解决方案的部分: b b n 中心 一。薰、 蠢j = ;! 浚 、谣i i 纱 分配s b n 号 业务制作室 制作条码 音像司 。7 f 镌 、。,蠢嚣 ,省级处理 誓_ e 囊国 遂爹、戎 条码收费 财务室 图2 3 业务用例图 2 业务角色描述 业务工人是机构中的角色,而不是位置。因此一个人可以扮演多个角色,但只能占 有一个位置a 我们用业务工人表示业务中的角色及这些角色的交互方式,通过描述每个 业务工人,我们可以了解这个角色的责任。 在上面的i s b n 业务系统业务用例图的描述中,业务工人有出版社、省图书处、省 音像处、图书司、音像司、i s b n 中心、业务制作室、财务室等8 个角色。他们的描述 如下: 北方工业大学硕士学位论文 出版社通过实名申报选题信息和及时反馈图书信息来申领书号,并负责出版社 信息的维护等; 省图书处负责审批出版社选题信息,并可以查询图书信息和图书司对选题信息 的审批等; 省音像处负责审批出版社选题信息,并可以查询音像信息和音像司对选题信息 的审批等: 图书司负责对在京中央级出版社和省图书处上报的选题信息进行审核,并可以 根据图书信息进行选题信息的比对并发布配号指令; 音像司负责对在京中央级出版社和省音像处上报的选题信息进行审核,并可以 根据音像信息进行选题信息的比对并发布配号指令; i s b n 中心根据图书司或者音像司发过来的配号指令进行书号配发,并且对出版 社上传的图书信息进行统计分析和维护; 条码制作根据i s b n 中心配发的书号及出版社重印书条码的申请进行相应的条 码制作,并负责维护条码制作的信息; 财务室负责条码胶片制作费的收缴和条码中心的其他财务工作。 3 业务用例描述 业务用例是机构中的一组相关工作流,告诉人们机构做什么,以及做什么会有利于 业务和参与人员的工作。机构中的全部业务用例一起完整的描述业务目标。 经过了对i s b n 业务系统的需求的调研,我们得到了十一个业务用例,通过这些用 例我们进行了业务建模,并描述了系统业务的整个范围和功能。为了更清晰的描述系统 的业务功能,现在将经过需求调研得到的系统业务用例的功能简要说明如下: 编 名称 简要说明 号 图书信息上该用例用来上报图书的基本信息。 0 1 报 该用例用来上报选题信息,可以通过网上直接报送, 0 2选题申报 也可以通过文件上传申报信息。 出版社信息该用例用来维护出版社基本信息。 0 3 维护 出版社信息该用例用来查询出版社的基本信息。 0 4 查询 北方工业大学硕士学位论文 图书信息查该用例用来查询图书的基本信息。 0 5 询 0 6省级审批省图书司或音像司通过该用例用来审批选题信息。 核对书号使该用例是“选题审批”用例的使用用例,用来实现书 0 7 用情况号使用情况与申报情况的比对,给出相异的数据项。 - 该用例用来确定选题最终的通过数量。0 8选题审批 0 9分配号段该用例用来为确定通过审核的选题分配号段。 1 0制作条码该用例用来制作条码,并记录条码制作的信息。 1 l 条码收费该用例用来记录条码的收费信息。 2 2 2 高层业务实体类图 在对系统的业务进行分析后,我们基本了解了系统的业务功能,并且得到了系统的 高层的业务实体类。这些高层实体类是业务活动中所涉及、生成的表格单据以及分析报 告和业务执行个体等,它将映射到我们下面进行的系统建模中的实体类。在系统的具体 实现过程中,高层实体类对应为数据库中的表单,用来存储系统中用到的信息。下面是 我们在分析后得到得高层业务实体类图,它反映了业务工作过程中需要的实体类。具体 如图2 4 所示: i 9 出版杜 , 图书信息 f i 塑 息 l , 音像信息 ,- 、 、 夕 音像申领信息核准申领信息条码制作收费信息 系统用户信息 图2 4 高层业务实体类图 2 2 3 高层实体类说明 出版社 该实体是用来记录出版社的基本信息的,包括出版社的名称、前缀号、地址、电话、 e m a i l 、传真、联系人等信息。 _ 图书信息 该实体用来记录图书的基本信息,其中包括图书名称、出版社名称、i s b n 号等信 、么黼、么厂羔( l 巨 北方工业大学硕士学位论文 息。 - 图书申领信息 该实体用来记录书号实名申领信息,其中包括图书名称、内容摘要、出版社前缀、 作者、申领批次等信息。 一音像信息 该实体用来记录音像的基本信息,其中包括影响名称、出版社名称、音像号i s r c 等信息。 _ 音像申领信息 该实体用来记录音像实名申领信息,其中包括音像名称、内容摘要、出版社前缀、 申领批次等信息。 核准中领信息 该实体用来记录审批全部通过的图书的实名申领信息和分配的号段信息。 一条码制作收费信息 该实体用来记录书号对应条码的制作信息和收费信息。 一系统用户信息 该实体用来记录使用该系统的用户的基本信息和工作权限,其中包括用户名、密码、 权限等信息。 2 3 应用系统框架 鉴于中国i s b n 中心业务系统及服务网站建设的要求,在系统的设计和实现中需要 重点突出数据中心的建设,同时通过系统完成各种业务流程的功能和信息发布的要求。 为此,我们设计了应用系统的框架图如图2 5 所示,将各个层面的进行分立、融合,强 调系统的组件化和可扩展性。通过这种方法能更好的保证系统的统一性、模块化、实用 性、安全性、灵活性、可管理、可扩展的要求。 参j 巩i 戥i 唧蚴鼬 菌一 垦 应用层( w e bl o g i c a l ) 冒县 数据层( s q ls e r v e r 数据库) 图2 , 5 应用系统框架图 北方工业大学硕士学位论文 中国i s b n 中心业务系统及服务网站的总体框架由下至上,分别为数据层、应用层 和表现层三层体系。 详细划分后在数据层的底层还有一层运行基础层,也就是指系统能够运行的基础设 施,包括网络、操作系统、服务器、工作站等,保证系统的正常运行。 数据层是指系统在运行过程中所产生数据的存放位置,数据存储层是整个应用体系 框架的关键核心部分,它使系统的数据交换、共享、交互层成为可能,同时,它也为更 深层的数据分析、数据挖掘、领导决策支持的依据。在这里,数据存储层包括多个数据 库,为管理系统实现数据共享提供有力的支撑。 应用层包括支撑层和业务层: 支撑层在这里起一个承上启下的作用,它以最先进的j 2 e e 规范和应用集成框架 为基础,由应用服务器提供j 2 e e 管理、运行的平台,配合消息中间件,将整个 系统融为一体。它是抽取业务系统中所涉及到的一些基本要素,并在此基础上 提炼加工,按照构件模式建立起来的基础服务平台,它们为管理系统提供了强 有力的支持。 业务层是在支撑层提供的各种服务和组件的基础上,实现的业务系统的各种管 理、使用和维护功能。其中包括数据的采集、处理、查询、分析、输出、存档、。 流程控制、行文管理、书号核发、条码制定、权限管理、业务咨询、信息发布、- 应用接口、以及通过支撑层搭建的其它应用系统等。 表现层是整个系统集成后的前台表现,系统应用层的各个政务应用通过一致的封 装,为广大的用户提供统一的访问门户。 2 4 业务系统结构 i s s n 中心业务系统分为数据管理、系统管理、书号配发、出版物管理、条码制作、 缴费管理、查询、统计分析、国际i s b n 业务、日志管理和个性化设置等多个子系统, 结构示意图如下: 北方工业大学硕士学位论文 图2 6 业务系统结构图 2 5 项目涉及的数据处理分析 中国i s b n 中心业务系统及服务网站主要包括了出版社数据库、出版物数据库和服 务网站数据库等。对这些数据信息的管理、维护和使用是i s b n 中心系统建设主要目的 之一,其内容主要包括:数据采集以及数据的处理等。下面重点介绍与e t l 工具相关 的数据采集部分的内容。 2 5 1出版社年度选题数据采集 出版社在每个年度末要申报下一年度的选题,此时申报的选题成为年度选题,该选 题主要提交给图书司、音像司,用来作为年度选题走向分析和年度书号数量分配的依据。 年度选题数据信息一般是先形成e x c e l 文件或者保存到a c c e s s 数据库,经出版社内部 讨论通过后提交给i s b n 中心系统。因此,此时采用e t l 工具来进行选蹶信息的采集, 能够充分的减少工作重复度,提高工作效率。 2 5 2出版社选题数据采集 出版社选题是出版社在一个年度开始后,根据出版的情况和稿件的情况,来向图书 司和音像司提交选题申请,经图书司审批通过后由i s b n 中心进行书号的分配。此时的 选题信息具有不定时性,少量选题可以通过i s b n 中心业务系统选题申报界面直接填写 并提交,这样的效率最高。但是对于有些已经建立了自己业务系统的出版社,它们自身 的系统中就提供了选题信息管理模块,此时,就可以通过e t l 工具来连接出版社自身系 统的数据库,从而向i s b n 系统申报数据。 2 5 3 出版物数据采集 对各类最终出版物进行管理,以便为业务系统及网站提供必要的查询,统计及业务 分析等功能所需要的数据。出版物数据的采集一般是在图书出版以后,为i s b n 提供出 北方工业大学硕士学位论文 版物的信息。由于许多出版社不仅仅面向i s b n 中心一家上级单位,因此需要填报数据 给不同的上级单位的系统,这样就造成了数据的大量重复录入,增加了操作员的工作量。 此时就可以通过提供的e t l2 1 2 具,将其它系统录入的数据导出为e x c e l 格式文件,就可 以进行数据的转换工作,进而达到数据采集的目的,这样就在很大的程度上降低了用户 的重复工作量,提高了工作效率。 北方工业大学硕士学位论文 第三章e t l 原理介绍与分析 为了能够设计出适合i s b n 中心业务系统实际并且通用性好的e t l 工具,就必须对 e t l 的原理有较深入的理解。这一章就从原理的角度对e t l 工具进行了介绍和分析,并 给出了相关概念的理解,同时给出了本课题的研究目标、范围和可以研究与实现过程中 采用的技术以及应用平台。 3 1 e t l 原理及相关概念 3 1 1 e t l 简介 e t l ,即数据抽i 玟( e x t r a c 0 、转换( t r a n s f o r m ) 、清洗( c l e a n i n g ) 、装载( l o a d i n g ) 的过 程,是构建数据仓库的重要环节 4 1 。e t l 过程就是数据流动的过程,从不同的数据源流 向不同的目标数据。但在数据仓库中,e t l 有几个特点,一是数据同步,它不是一次性 倒完数据就结束,它是经常性的活动,按照固定周期运行的,现在还有人提出了实时 e t l 的概念。二是数据量,一般都是巨大的,使得你将数据流动的过程拆分成e 、t 和 l 三个步骤。 3 1 2 异构数据库 异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透明访 问。每个数据库系统在加入异构数据库系统之前就已经存在,拥有自己的d b m s ,异构 数据库的各个组成部分具有自身的自治性,在实现数据共享的同时,每个数据库系统仍 保有自己的应用特性、完整性控制和安全性控制

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论