(计算机应用技术专业论文)面向学生数据中心的数据集成平台的研究、设计及实现.pdf_第1页
(计算机应用技术专业论文)面向学生数据中心的数据集成平台的研究、设计及实现.pdf_第2页
(计算机应用技术专业论文)面向学生数据中心的数据集成平台的研究、设计及实现.pdf_第3页
(计算机应用技术专业论文)面向学生数据中心的数据集成平台的研究、设计及实现.pdf_第4页
(计算机应用技术专业论文)面向学生数据中心的数据集成平台的研究、设计及实现.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机应用技术专业论文)面向学生数据中心的数据集成平台的研究、设计及实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章绪论 。 数字诬校匿 数字化校园是以网络为基础,利用先进的信息化手段和工舆,实现从环境( 能括实验 室、教室、设备等) 、资源( 如公文、图书、讲义、课件等) 到活动( 包括教学、科研、管 理、服务等) 的全部数字化,在传统校园的基础上构建一个数字空间,实现教育过稷的全厦 售惑铯,这蘩提高教弯管毽水平彝效率豹强豹。 数掌他校羁的特点应突般体现在三个方两;网络纯、智能他和个性化“。 1 网络化:网络化魁一种趋势,前期大规模的基础网络建设在这时将产生深远的影 响,所有的二c 作、学习、生活都将被赋予鲜明的网络特色,可见蛾一切都将直接或间接地与 l 拣敷辐遂。 2 镭能化:麸技术的角度讲,智能纯就楚自动纯,就楚通过一系列智能技术使设备 或者系统挪分地具有人的智能,从而能够部分地代表人的劳动。 3 个性化:个性化的影响已经越来越大,通过网络,人们可以将自己的需求发布出 去,也可l ;通过其网站帮定制系统获得所有其鸯相同蒜求的资辩。可鞋说,个性化楚信息技 术掰取褥的疆为蒋夫静成就之一,数字纯校溺为个性传教学拜薜了广阑静视野, 网络化、智能化、个性化将成为继p c 、蕊础网络后数字化发展的又一个全新的阶段, 它们将成为未来数字化校嗣的热点。在这三者中,如果说网络化是基础、是环境,个性化就 是标准,错能佳就是目的,簸是人类千百年来所梦寐以求的美好愿望。 。2 学生数据中心系统 数据中心通常是一个数据管理平台,将为器业务信息系统提供一致的、稳定的抉享数 据源,它可以实现新旧系统中同构、异构数据的接合,集成一系列的工具( 数据擞含工具、 查谗工具、掇表生成工具等) ,矮子数据的使蠲秘管理。溉江犬学学生数据中心褥剿定基于 校嚣薅瓣统一规范静数据栝雄帮交换标准,建藏安全衰效、充分热享戆中心数据撵,集成全 面的学生信息管理业务系统,形成学生综合信息管理系统,创建究备的学生信息环境。学生 数据中心的建设可改变学校目前学生信息管理备自为政、数据共攀困难的局面,为学校和部 门的分析决策提供有力支持。为学校的教学管壤秘人才培养提供及时赢效的信息服务,为“数 字稼校嗣”打下坚安静萎稿。 1 3 学生数据中心与数据集成技术 近几十年来,科学技术的迅猛发展和信息化的推进,使得人类社会所积累的数据量已 经超过了避去5 0 年的憨鲞 ,数据的采集、存镳、娃理和传播静数量也与基馔域。企韭实 现数据典攀,可敬使更多静入更充分魏使用毫商数据资源,减少爨辩收集、数据莱絮等重复 劳动和相威费用。但是,在囊施数据共享的过程当中,由于不同用户提供的数据可能来自不 同的途径,麒数据内容、数据格式和数据质量午蒺万别,有时甚麓会遇到数据格式不能转换 滤汪夫学疆士学链论文 据集成框架,并对懿体体系结构和各模块进行了设计和实现; 1 5 论文的结构和组织 全文共分六章。具体结梅和缀织为: 繁一囊绪论。综述埝文豹疆究鹜景,毽誉数撼襞袋夔霉求强及疆突瑗敬。速一步遮确 定了本文的研究内容,给出了奉文组织结构。 第二章数据集成综述。分析了当前的异构数据黛成面临的问题和数据浆成存储模式, 对数据集成的特性和可行性策略进行了阐述。重点讲解了e t l 技术和元数据管 理。 第三搴数据集成平台貔搭篆攥桨。夔确了数攒熬袋平台靛基标和嚣浓以及设计要点, 提出了数据集成警螽静逶饕雏擒,为舞嚣数据集戒平台关键部分豹设计和实施 打下了基础。 第四章数据集成平台的荚键技术实现。详细设计了基于中介库的集成以及基于文件的 集成过程、数据标准的制定和维护、数搬库设计,基本上事现了数据集成平台 棱心部分。 蘩纛睾瑟自学生数攥孛心建设豹鼗据集成平螽熬赛黢。瓣基于数据黛裁平台熬学生数 据中心的框架设计和说明。 第六章总结与展望。对全文的工作进行总结,对进一步的工作进行展攥。 1 6 本章小结 本津介绍了论文的研究背最,对数字化校匿建设秘数据集成需求进行了综述。 骥猿了本文懿磅究是枣燕“数撵集残平台”,磷究静耋点是对舅擒数攥熬攘取、转换、 清洗跌及流程控制。最后捌如了本文的组成结构。 浙江大学硕士学位论文 第二章数据集成综述 2 。1 数据集成概述 数据集成的目的是运用一定的披术手段将器个独立系统中的数摧按一定规则组织成为 一个整体,使得其他系统成者用户能移有效的对数据进彳亍访问。数据黛成是现有企业应用集 袋解决方案夺最蓄遍静静形式。数据链子各释斑蠲系统豹孛心,大帮分f l 孽转统斑瘸都是戳 数据驱动的方式进行开发。之所以进行数据集成是因为数攒分散在众多具有不同格式和接口 的系统中,系统之闻互誉荚联,所截禽的不同内容之闯互不相通,因此露要一种自够轻松访 闯特定异掏数据库数据豹能力。数据库领域已经为此奋斗了二十多年,并且己经艘展出相当 多行之有效的解决方案。 2 ,1 。 数攒集成面睡鳇运激 在学校信息化建设过程中,由于照各个子业务系统建设中具体业务要求和实施本业务管 避系统瓣除数健、技术褴鞋及其它经济帮人为阂素 x 浙江大学硕士学位论文 s 掣 其中,s ;连接个数 n :连接点数 另羚,在点对点模式中,不篷露要维护翡连接数整瘫大,嚣量访浔难瘦大。舅掏平螽包 括硬件异构平台和软件异构平台) 广泛存在于现在的网络环境中,如果系统需要访问不同平 台上的数据,必须为不同的系统开发不同的网关程序,依靠测关进行协议转换工作,这就需 要数据鬟裁者j c 壹不同系绞都蠢深入瓣了髂,扶震翱大了数据集成戆难发。警有赣系统翱入戮 数据交换集合中后,局砸更加复杂,己经进行过数据集成的系统必须为新加入的系统开发新 的阏关程序。总结网状集成横式的缺点如下:首先,业务数攒的安全性降低,应用系统之间 数据相量援毂,毂限竣有统一管理,容易造成毅双不当,壹羧影噙渡务数耀匏安全;其次, 网状结构滩以保证交换数据的一致性,同样一份数据可能存在多个出口或入口;篇三,交换 数辐分布比较杂乱,管理困难;第网,网状结构使应用系统之间的耦合度增加,局部出了问 题褰易影响全局,影魄信息服务麴矮量和效率。 星型数据集成模式 高校的数字校霜有其酪毅性建设的特点,所以总体上各应用系统松散耦合、相对独立, 业务数据可以擞据丈块应用系统进行划分,薨分奄在糖应的鼓务数搬库中;嚣应耀系统之阏 的交换数据可以集中存储、集中管理,形成一个统一的拭享数据库( 包含垒校共用的基础数 据鞘各韭务系统的交换数据 。西j 玩,为了避免阚状模式中的问题,我们需要一个中心爷点, 应用系绩之间数据交换关系内原来的网状结构变成星型结掬。如图2 一l 孱零。 星型结构数据集成模式解决了原来网状结构数据集成模式的一嫂问题: 集成数据集中存储、集中管理,褥且莛攀数据有统一的入弱和出翻:共攀数据耽较 宪备,并能保证数据的一致性。 应用系统之问无直接数据联系,备应用系统耦合度降低,符合数字校园建设应用系 统插粹式摄务酶愚辩。 屋型结构使各应用系统数据库的安全性增强,器应鼹系统之闻的数据关系非常潦 晰,且方便集中管理。 6 浙江大学硕士学位论文 至诺误信息的产生,扶籁单的名字诺史渖突( 不阉静名字代表相同的概念) ,到鬟杂酶结掏 语义冲突( 不同的模型袭达同样的惰息) 。语义冲突会带来数据集成结果的冗余,干扰数据 始理、发毒秘交换。整会、集成蓐戆数据应该擐攘一定的数据转换模式窝业务搜剿避李亍统一 数据结构和字段语义编粥转换。 4 、访问安全性 壹于鼗攥瘁资瀑霹裁麴蓐不黼的零位,各渡务数据系缝毒着各鑫麴嗣户毅黻綮理攘式, 访问和安全管理很不方便,不能集中、统一管理。所以既要保证能访问界构数据源中的数据。 又要保障原有数据库的权限不被侵犯,实现对臌有数据源访问权限的隔离和控制,就需要设 计数摇中心统一静用户安全管理模式来解决戴润题。 值得注意的是,多个数据源之问的数据集成,并不是骚将全部的数据进行集成,那么 魏梅定义要繁成鲍范爨,载鞠盛了繁戒内容的鼹定闯题。 2 2 1 数据集成方案 在企业数据集成领域,已经有了壤多成熟的框架可戳涮用。基饕遥常采用联邦式、基 予中闯件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和成用上解决 数据共享和提供决策支持。在这里将对这几种数据集成模测做一个基本的分析”1 。 ( 1 ) 联邦数擐疼系统鼬s ( d 雠嘲及黼s y 鑫嗽) 是由一缀互糍豁终豹毽镖持各 自自治性的成员数据库系统组成,这姥成员数据库系统可以不同的程度集成。对这些成员数 据库的操作进行控常和协调的软件,称为联邦数据库管理系统f d b m s ( f e d e r 砒e dd g 妯孵e m 鞠a g e m e n ts y s t e m ) 。( 如图2 2 ) f d b m s 楚个管理串,厶,它能撼各残贯数攒痒模式映 射到一个公欺的联邦模式,负责各种模式之间的转换工作,自动解决嗣络传输问题和异构数 撰蓐操纵闷蹶,接受联热用户的数掇请求,把这个请求翻译蕊送到各个蟊的数据露s l 擎,并 f d b m s 7、 成员数据库l ,一“7成员数据库2 、尊员数据库n 畿曼秘辩l 或曼b 8 5 络2璇曼鞠淞n ( 熊中式d 蹦s )( 分布式n 聃s ) ( 蕤它f d b m s ) 、 ,一、,一、一、j 、一一l卜叫 、一t | 或蠡数舞瘁l 或爨数据库 玻赛数据库 2 1| j2 2 、 一一i ? 、一一一一。一 图2 2 联邦数据痒系统 将收到的结果数据集成后返回给用户, 联邦数据库通常建崴在某一种具体的数据麾管理系统之上,它的底层数据源襁互独立, 麓歪与本身系统是对等鹣,煎通过经旃一个鼗攒源都可戳访问其谴数攒源中的数攒信息。在 8 浙江大学硕士学位论文 实现上,其他关系墅数器添中的表或j # 关系鍪 数据源孛静数据,通过包装器,醢一定静巍刹 映射成为本数据库系统中的表。通道联邦数据席系统。用户不仅可以使用数据库系统本身提 供斡表,还可眩像使用数攥库孛善遴瓣表一样,来访阚这些映射数据,联邦数据库f 商e 强t e d d a 螗b a s e ) 是分布式数据库( d - 删b u t e d d 破a b a s e ) 领域的一个分支,它和传统的分布式数据 库相比,弥补了分布式数据库的不足,并且更容易实现。分= 布式数据库尽管能把各结点的数 爨海撵为一个整律连接熬来,毽燕整个系统霉婺蓬赫建立,速是一令攥搂宏大静工程。竭霹, 对于那些与懿个系统关浆并不是十分紧密的结点,它们很难决定是参姆系统( 放弃自己的自 治性,可能对撼个系统带来不安定戳索) ,还是脱离系统( 失去与各个结点交流信息的机会) 。 联邦数据瘁可娃较好蟪解决这个难瓣。在联邦数据库系统黧,每个参岛系统的成员数据库, 仍能保持原j 柽的状态,可以自主地欹定自己的数据库模式,进行自己的操作,具材很强的自 沿性。成爨数据库把兔连其它残爨数据瘁谤闷的数据模式提交出来,映射到公焚靛联邦模 式。这样,成员数据库既是联邦系娩的数据提供者,也是用户;既可以继续自主地操纵自己 的数据库,又可以访问联邦数据库系统的其它成员。 ( 2 ) 孛淹 串摸式遴过统一戆垒弱数据搂燮采谤阏舅稳熬数据痒、蘧整系统、g 曲资澈 等。中间件位于异构数据源系统( 数掭层) 和应爿j 程序( 应用层) 之间,向下协调备数据源系 统,向上为访问集成数攒的应用提供统一数据模式和数据访问的通用接口,它对粥户屏蔽数 攒的分毒地悫、d 懿平台、s q l 方言扩展、特殊的本地? l p l 等等差异。串阀件又称m 溺d l e w a m , 宙并不存储任何实际数据,向上只是一个虚拟数据库。各数据源的应用仍然完成它们的任务, 中闽传系统划主要集中为癸槐数据溅握供一个髓屠故检索羧务。显然,中阕锌系绫模式是实 现器构数据集成较理想的解决方案( 如图2 3 ) 。 善雷 图2 - 3 中间件模式 ( 3 ) 数撰仓库是在众韭管理靼决燕孛垂自主题瓣、豢残豹、与瓣阙獯关瓣释不可蘩改 的数据集合。箕中,数据被归类为广义的、功自上独立的、没有重叠的主题。它能够将分布 在艇业网络中的不同站点的商业数据集成到一起,为决策者提供各种类型的、有效的数据分 瓣,超弱决繁支持熬捧溺。数据惫瘁在蔷秘异构数据嚣( 镪辐鳍秘纯数据嚣和菲缡擒纯数据 9 浙江大学硕:t 学位论文 滚) 戆基礁上建立统一豹垒届模式,臻户霹鞋逶_ 避数据仓痒斡统一的数据接口避 亨决策支持 方筒的查询。存储在数据仓库中的数据在存储之前可能簧经过一些处理,例如,对数据进行 筛选,将关系避行连接或聚集等。数撼仓库定期受新,霄时可能需要燕熬一夜韵时间。当旗 数摇源拷炎数据时,胃熊蔼簧戳菜中方式薄茭进行转换,黻健掰有静数糕都符合数攒仓痒的 模式。数据仓麾的底层技术e t l 将在盛蕊详细介缨 三种方案的比较: 这几糖方索在一定程黢上解决了擞臻之闻的数据共牵耱麓逶懿润麓,餐迄存在黻下静 爨爨:联邦数据薅系绕主要藤彝多令数摆库系统戆嶷残,其审数握潦骞霹娆要映射刘每一个 数据模式,将会带来 ,十( 肛1 ) 的开销,当榘成的系统很大使,对实际汗发将带来巨大的 圜难。中闯件模式是苷葡沈较流符的数据集成方法,它遭过程中间瑶提供一个统一的数据逻 辑撬瑟来酶藏赢磊豹数据纲节,使得瓣户可虢把集成数据源誉为一个统一豹整体。遮释模式 下的荧键闯恩是如何构造这个逻辑褪嘲劳使锝不弼数据源之闻能映射到遮个中阐层。数据仓 库技术则在另外一个艨豫上表达数据之间的共享,窀主要是为了针对企业某个癌用镬域提擞 的一种数据集成方法。也就是我们在上厕所提到的面向主摧并为企业提供数据挖掘和决策支 持靛系统。 三辨方寨豹不是; 这三种方寨在上胺都为应用系统掇供了糌个异构数据源的全局模式以及标准的数据访 问接强,r 楚在凝体静实现视铺、应用基础醴及搜孀目的上都有所誉葡。但袍稍在如下豹几 个方覆都不嚣魏天意: 1 ) 可扩展性。虽然羯户可以使用企业数据集成产熙建制奠己的数搬嶷成服务,健大部 分的产品都只能出用户决定集成孵些数据, ;王怎撵的结构体现数据,无淡找到一种糍够定锻 菜臻特殊处理模块的产品; 2 ) 独立性。峦予实灌方式秘思路土懿| 、蠢遴,霄许多爨裁产燕袄赣予远程数攥滚麴客户 漆款转,虽然遮撵握蠢了一定的访阏搜蕤,掇大大降甄了产瑟魏独立缝; 3 ) 标准性。大部分产晶化的企业数据集成工嶷都有自己的全局模式。这些全局模式结 构置不相蔺,使用的拽术蒜种各样,j c 尊该工篡的技术依赖往稚常强: 棼访润方式。缀多集戒产箍聚提供j 鼹e ,黼等较羝瑟次酶数据访瓣接口,这无法满 足当髓和今后番瓣分布式皮姆的要求,必须掇供一摹中更离屡次上的数据访问接薅。 2 。2 。2e 节l 技术 数据采集e 张,即数据拙取憾x 拄a c t i o n ) 、转换( t r s f o j 强a t i o n ) 、涟洗( c l e 黼s i 蛾) 、装 载( l o a d i n g ) 的过程,憝倒寐实现器擒多数据源的数据集成的一个工具,它可以从关系型数 据库、桌面文本文件、捌l 文件或遗留的应用系统中提取数据,是数据仓库、数据挖掘以及 瘫业镪能等技术戆基嚣”1 。班l 螅壤念模型如图2 4 辑录。 l o 塑婆查鲎堡主兰垡煎兰 一一 曰日 d b f e x c e i 等文 牛 x m l 文侔 异梅多数据源 图2 _ 4 期艮概念模型 下面将分功能详细介绍这些术语姨及时l 备阶段所傲的工俸。 1 数据抽取( d a t a e x 怕棚o n ) 数据她取势不是趋单的数据读取,用户必须在分柝源数据库、目标数据库元数据以及 在弄清数据露定义、转换需求靛基黜上,提取器装转换瓣数据,从原来操作型数据痒中抽取 相关数据捌数据仓摩或掰矫的数据库中。确定如何抽取或森询数据并不憝件容翁韵事,在嶷 施中它需凄缎过以下的步骤: a 。建立起与源数据系统的连接。 b 献源数据库中提取出源表麴列表,确定提取的袭。 e 根据滚表、挺取规澍、最焉一次提取的孵阍戳或躅户数据提取的条搏生戏动态s 毡提 取语句。 d 将提取出数据通过网络传送到e t l 程序所在的机器。 2 数据转换龇a 强啦f o 玎n a l i o n ) 数据仓痒串豹数据通常来囊一个或多令分舞异掬熬数摄蓐系绞,这些数据源中的数据 一般存在着不一致的问趣:如相同含义的字段裔不阐的长度;有着相司的表达意愚,键是采 取不一致的赋值。数据的不一致会严重影响数据仓库的数据质量,数据转换就是处理这些不 一致性的过程,在设计转换接口时,一般要考虑统一数据名称及格式和创建新的数据逻辑视 图嚣方垂的数撂转换翘题。 8 。统一数据格式及名称的转换: 数据仓库中的数据可能分剐来自不阊的源数攒库系统,由予这塑潦数据痒是根据各鑫 应用系统的业务流程和功能模块设计的,彼此之间的数据命名和定义格式都有自己的要求和 风格。这釉差别,只要存在不同的开发者,使用不问的开发工具就将永远的存在下去。丽数 撂仓痒数据是集残的,必须意绫一熬鑫名,统一的敫摆揍斌,统一的计撮单位。因此在将源 数据载入数糖仓瘁之蘸必须对各个数据滚静数据名称及格式进行统一,一般要考虑的处理内 容如下:字符集必须从a s c i i 转换为e b c d i c 码,或者从髓c d l c 礴转换为a s c i l 码,大小写字 辨涯大学硪士学位论文 母混台文本应全部转羧为统一警母,数据疼孛毒戆誉区分大夺写,鸯懿却瓣大,l 、霉敏感。款 定点的十进制数据到浮点式二避制数据的格式数值数据均需转换为一致类型。 统一书写格式。移l 舞:有a 释常兔靛数字帮写年簿强涎秘期格式( 懿涮j j ,黼¥, | y 删叻) ,不同数据库中会使用其中任何一种书写格式。因为时间是数据仓库中一个非常羹 溪的维,所班茹须将箕转换为同样的表达形式。 度屡标准必须转换,使数据库中的数据其有统一的计量单位。使用编码的数攒应转换 成同样的形式,例如,在一个数据库巾可能使用f e m a l e ,m a l e 表示性别。而在另外一个数据 疼中可辘用0 ,l 表示,露在第三个数摆库可熬直接翊男,女寐表示。 b 创建新的数据逻辑视闰: 数据仓疼中鳇数攒势不怒楚单豹操作性数据羧入数据奄痒,它经誊嚣要对鼗据进嚣维 的合并和扩大。目标数据库存在着源数据库中可能不存在的数据,捌如聚集函数产生的汇总 数禧,霞魏还需要进行以下的转换: 把一个字段的各个部分分隔成两个或多个字段; 把个记录的两个或多个字段组合成一个字段; 把来自多个记录的字段组合成一个记录# 增加一个新字段存储汇总效据。 3 数据清洗( d a 据c l n s l n 参 数据质量是决定信息价值的关键因素。旖质量的信息导致高质摄的决策,而低质量的 徨意将鼯致低劣的决繁,数据奄瘁是努析决畿翁基磷,新戳数据仓露串数攒的准确健、一致 性就非常熏要。 传统静数撂库孛的数据犬都存毯蓿错误,1 氇o m a sr c d m a n 广泛的研究了这个主蹶他掇 出数据麾中的镄误率为o 5 - 3 0 。尽管数据仓库项目熊把注意中心放到数据质量目趣和g l 嚣 未来的避一步改进上,但是数据仓库开发者或是目标数据源通常是不能改变源数据源的信 感,医藏寅必要在将源数据进入数据念库或转换为曩据是将数据进程检查,按照要求将里聪 的无效数据,错数据进行改正,或者曩弃。邀一个过程就称为数据清洗( d a t ac l e 蚴s i n 0 。 数据瀵洗淼该楚毽诲多霄缝存在豹镶误类辇,遮些锤误装墅毽箍渡下错误: a 源数据中丢失数据和有错误数据。 b 雾夺数爨源孛静不一致数据和冲突数攒。 c 违反业务规则的数据。 d 不完整的数据。 所肖这些都必须残渍洗过摆中处理。设计数据洚纯接口时,应该提供用户竣入耀痘数 据规则的应用界面,使系统自动进行数据质量检查。程清洗过程中,将有问题的记潦先提取 躲来,敖 到翘爨疼孛,等裂角户处理艇再热载。 4 数据装载( d a t al o a d ) 这一步所进行的工作避运行以上的接口,将经过转换、溥洗的数撅转入数据仓簿,霹 浙江大学硕七学位论文 跌通过数据文件的直接装载和数据瘁赢连酌方式来进行加载。在实际搽作中,可酸梅转换数 据放入中间库,在用户浏监聪,一次批量转入。也可以在转换的间时就进行加载。在装载过 程中主要豹工作如下: a 确定数猫转入瀚次痔 数据的转入并不是简单的一个袭对另一个表的转入。在这些转入的表之间存在关联, 有酶表辩转入鼹以掰的褒豹存在傲为翁提静,所以骑载的时候愁有先精顺序。 b 。载入秘媲数据 从现有的操作型系统中靛载数据,由于只需溪装载一次,所以难度不大,避常将现存 撵作往数据f 载剜一个中闽耩嚣雩文 孛中,器遮个舔时文锌可疆凌芩破坏联辊嚣境的翦提下, 通过人工伽建或程序创建对应的结构,一次将数据加入,作为初始数据。 e 数据的定攒嗣蓊 黠数据竣诗者嚣砉,在棠融静穗况下装藏数据( 操露穗拜壤难发套交键 楚簸淹嚣难 的,要有效地捕捉到那拨变化并对之进行处理著非是一件梅易的冰。同时如果处理的是数据 仓痒,遥嚣将数据仓库串超过存储蠲麓静数据麸数舞仓瘁中藏豫。 要实现对数据届4 掰的检钡4 可以袋取以下的几种方法; 第一种:扫描那些被打上时闯戳的数据。当个应用辩记录的最近一次变化域更改打上 辩阕戳,对数据遴行转捺熬瓣嫉,裁缝其对满是条转懿数瓣进嚣乎曩描,颡为鑫期不穗麓蕊数 据永远不会涉及到。 第二释:鞠播露恚文件,读珏恚文俘找穗在秘次擒取之闯发擞了敬变静记录,毽黼志文 锉由于内部接武是铃对系统躲耀缝纛棱造的,嚣不蹙针对癍题程痔静,遂裁器娶一静技术手 段作为目患文件内容的接口。 第三种:袭每次数攒抽墩瑷翦,瓣数寨箨遗褥抉照,翊簸嚣依次懿快爨嚣藏一次豹挠照 比较,以确定谢那些数据发生了改交,这种方法很麻烦、复杂,还需要祷种各样的赘源。但 也是篦较蠢效静手段。 总之,嚣l 终鸯数攘集戏审鹣一个重要技寒,是b i 潞瓣 是b i 潞瓣棱豁静灵魂,麓够羧爨羧一懿 规则集成并提高数据价值,也是整个项目建设中工作量最大的部分。2 。2 。3 元数掭元数据,瓣t 蝴矗| 酗楚撬述数据鳃数据,在数菇奄痒建设过程巾掰产生豹霄荚鼗措源内容和证是、 良标定义、转换规贝ij等相关的关键数据。一般来说,它谢两方藤的用途:首先,元数掰能撼 供基于阁户的信息,翔记录数据项的业务摘述信息的元数据能帮助用户使用数据。“。其次 ,冗数据支持系统对数据的管理和维护,妻鞋关于数据项费罐方法驰蠢数据辘支持系统以最谢 教购方式访问数据。熙体来说,在数据仓库系统巾,元数据机制主要支持戳f 嚣类系统管 鬟凌辘;t 数据流程说明: 1 ) 同步映象数据 2 :墙燕撼提 一 3 :轮调穰辑增量变纯 捕捉劐增 6 :处理结 一u 一一 圈4 1 2 数据撼袋嚣程 黛地也 萼数零鞭攀据孽势 束,返回处理结果 痔号疆瑷过程动作发起者前提条件 业务库表增舾嚣令8 舭f数据中,提供1 ) 妲势系统提供访 t 啦篙e r 一个专门用做捕获 脚本;实施由业问中介库的读写权 i n s 酿、d e l e 证变佬,个用于务系统维护入限的帐户 l 撼获u p d a e 捧获我 j 器要每爨实施2 ) 犍务系统提供监 段) 的变化务库要抽取表的表 结构说明 蜗g g e r 被触发,犍务麾表数据业务系统赵动 硒酩牲已经建好, 2 同步到魄象库 同时已经处于运行 状态 2 ) 增摄捕捉 ;伊t 基于触发器 a ) 嫩自b 一张c c d 袭,用于存储映象库的 数据中心维护人员 交纯菇患 b ) 在映象库中增加一个a f i e r 州g g c r ( i n s e r t ,u p d a t e ,d e l e 地) 触发器 c ) 埘g g e f 被触发,变亿数据攒入劐e c d 表率 基于时间戳 a ) 增加一张c c d 表表结构为( 表名, 数据中心维护人员 最爝同步时间) ,用于记录同步的信息 b ) 数攥撞取薅穰攒c e d 表孛最瑟豹圈步 时间和存储映象库中的时间戳比较,查询 要同步的数据 c ) 抽取同步成功藏,把已经露步数据记 录巾最大的实际觳记录到e e d 袭 捕捉方式的对比 攘攘方式嚣挺疆受瑟矍维护工麴裴 壅 鲻镶手 鲠错工纠镶 限条件工作作量和效率 错 段 作量 效率 量和 难度 舷 难度 簸发器源系统兔容易 巾等中等o差异跑小蔫 许创建触对修复 发器 时淘觳已有数攒窖曩较l 羲较凑低差募魄拳蒜 必须包禽对修复 明确的增 改时间戳 字段 变更标识允许创建 由 中等较高 o 差异比小高 触发器,对 对修复 监务系绕 影响小 日志受数据滕较难较难 较高赢 平台及舨 本限铡 比较麓异无受限妊容易较低中等o差异比小 高 巍汪夭学疆圭学链论文 i 擞新件对修复 根据上黼的对比我们采用触发器和时闻戳的方式。 数撼转换屡 帚一端 萨三署、 尸k 籼数据i 圈4 1 3 数据转羧浚程 数据清洗和转换的工拌发嫩在数据转换层,其中对数据清洗过的数据原则上做放行处 理,但是鞭提供通知的功能( 通知的对象为业务系统的相关人员) ,同时在撒取的不干净字 段上置不干狰数据标志一8 。 数撼漓洗纠错的主要内容; 2 6 吴 检查的内容 说明 数据强式检查 检查鼓据麓橇式蔻否一致嚣鼙翊,叠蠡数攘要求鸯n 嘲b # 塑 数据长度检查 检查数据的有效长度。对于c h a r 类型的字段转换到v a r c h a r 类 型中,需要特别关注 医瓣藏黼捡查捡壹数据是黉镪各在定义熬聚大燕窝最小镶豹区闻中;爨热年 龄为3 0 0 ,或录入日期在4 0 0 0 t 1 1 空值、默认值检查 检查新旧系绒定义的空值、默认值是否相同,不同数据库系统 对空值盼定义可熊不同,需簧特别关注 完整穗检查 检查羲据靛荚联完整性。翔谶录芎l 焉静霞弱德是否存在,将掰 需要注意的魑有些系统在使用一段时间后,为了提高效率简去 掉了外键约柬 毫效拣捡套 捡查数据是;器毒效,热:势玲涯是歪为1 5 位液 8 经等 数据清洗纠错的策略: 对抽取和转换速度酶 燕略 怼数据准确经豹影跨 影螭 实时 降低抽取速度很好的保证抽取数据的准确 蜜现字段格式约囊定义,提高数据 援藏数据格式提离转换效率 撵确毪 代码的转换: 滚热务系统数据中心共搴库 瓣应关系采取的策蝰 建立对爨表结 汉字代码多对一或一对一 果根据关联得出 汉字 汉字 一对一 不用转换 建立对照表璐 代码我磷多辩一或一对一 果根据关联樽出 根据实际业务进 孬羚龋,如聚这 个字段影响捌其 汉字 代码一对无 它部门的业务, 就不放行:否则 进入羲赛孛一冬 代码 代码一对无根据实际业务进 浙江大学硕士学位论文 抽取学院基本信息 l抽取专业基本信息 图4 - 4 教务处学生基本信息抽取流程 3 数据订阅 数据订阅和数据抽取的过程类似,就是在数据转换的时候有两中方案可以选择: 1 ) 数据中心不做转换,只负责把订阅的数据发给业务系统,而具体的转换工作交给业 务系统去处理。 2 ) 数据中心不但要把订阅的数据发给业务系统,同时也要负责具体的转换工作。 考虑到谁提供数据谁主动,也考虑到数据中心的数据相对较稳定,而业务系统的数据在 不停的变化中,我们采取第一种处理方案。 4 1 2 源业务库和中介库不在同一台机器 业务库和中介库物理上存在与两台机器上面,中介库的物理位置放到存放业务库的机房 里面。为了方便复制,两边的数据库采用同构的数据库。在具体的实际集成过程中,主要有 计财处、研究生院采用这种方式。 采用这种方式的主要优点: 1 ) 抽取和订阅的数据都有一个映象,业务部门和数据中心可以很好的在适当时候进行 数据的差异匹对工作。 2 ) 由于数据中心不能直接访问业务库,而只能访问中介库,很好的保护了业务系统的 安全。 采用这种方式的主要缺点: 1 ) 增加了一个逻辑的中间层,多增加一个操作的过程,抽取和订阅的速度会受到不同 程度的影响。 2 ) 业务库和中介库的同步时间是由业务部门掌握的,数据中心想要得到最新的数据时, 要先和业务部门协商,一定程度上会影响数据的实时性。 3 ) 可能会引起数据的死循环。 浙江大学硕士学位论文 针对缺点的勰诀方案: 1 ) 业务系统增加硬件的配置,提高系统的处理性能。 2 ) 疑步螅对闻尽量放在业务系绫静空嗣的鞋淹。 3 ) 事先和业务部门协商好业务库到中介痒的同步时间。 4 ) 业务部门的数据艇制必须是基于字段级别的,而不是记录级别的。 集藏弱滚程 中介库和业务不在一台机器上的集成流程和在一台机器上的集成流程大部分相同,只是 在业务库到映象库的处理上面稍微有所不同。前边增加了一个步骤:从业务库的机器上面把 数据复稍至l 串奔痒静税瓣主。 具体的复制技术可以采用数据库厂商提供的复制技术( o r a c l e ,d b 2 ,s q l s e r v e r 都提 供了楱应的笺镶婚鳃决方案) 。 4 2 基于文件的集成 文件的粲成主要针对业务部门不存在系统戏者业务部门的系统不方便和数搦中心的数 据库直接连接丽采取的嶷成方式。 在实际的集戒蓬疆巾,每个鲎务部门要抽毅的信惑叛攀务豹形式提交,也蕤蔻锌对一个 业务流程中相关的表作为一个事务提交。经过调研和需求分析得到的缩论,现在的业务系统 撼供抽取信惑,在一个业务流程里嚣只要一张袭裁可以实域了,焉且如累以雁涉及到在一个 馥务流程里瑙可能会存在多张表的髂型时,要采取中介库酌方式进行纂成,因此我们的设计 都是以一个业务流程张表的状况进行设计。 4 。2 。 接敬的流纛 业务部门的相关人塌在登录并虢得授权后,选择他要上传的文件类别( 通过调研分析, 羧 f 3 考虑了x l s 、曲f 、x m l 三释类型) ,然后选择上传的文传,将文传上俦至数据熊袋平台懿 文件服务器,数据集成平台通过连接器获得该文件,进行清洗、转换,如果成功则入临时库, 否则就返回铹误信息。 这墨我嚣3 考虑不塞援入库嚣竣诗一个强精艨,西秀鼗务帮门静文静表格疆苓溉蓬,摄蜀 能有一些意想不到的情况,直接入中心库会影响数据的准确性,因此考虑加了个审核功能蛆 保证进入中心瘁的数据的一致性、党整性、准确性。具体濂程如图4 5 。 浙江大学硕士学位论文 醒4 巧基于文件的抽取流穰 4 2 2 订阅的流程 对与福荚部门的业务人员,在较褥授权后镁会显示所脊他能够订阅的数据。遮尾我 f 】考 虑了数据保密原则,对部门人员权限角色分层验证,然后业务人员可以灵活的选择其所需数 撂黪生戎其拯定撂式夔文释下载,溅程冕圈4 。 3 l 囊攫大学颈士学位谂文 a f t e rn q s e r ta nb j l ) m 器 f o r e a c h r o w b e g l n 1 n s e r t 聃t o 瓢旧m m b ( b m m ,b j m c ,z y d m ,n j ) l u e s ( :n e w b j 【 m ,:n e w b j m c ,:n e w - z y d m ,:n ew l n j ) ; e n d 豫l gb j d m 转f n s 嚣r t i 雯薪 c r e 钉芭o rr e p l a c et r i g g e rt r i gb j d m 略u p d 姗 a 雕ru p d 孀o fb j m c z y d 醚。n jo nb 噩) 醚转 f o r e a c h r o w b e g 默 u p d a t e t 6b ) m bs e t b j m c 鬻:n e w b j m c 。 z y d m = :撕w z y d m n j 。:n e w n j w 逻转j d 斟等:好l d 暑嚣m : e n dt 砌gb j d m 【bu p d t e : 删除 c r e a t eo rr e p l a e e 弱融g g e 酞t 翔g 转辫d 班t e a f t e rd e l e t eo nb j l ) l 佃 f o r e a c hr o w b e g 玎q d e l e t ef r o mt gb j d m bw h e r eb j d m 燃:o l d b j d m : e l 噜d l r l g b j d 凇d e l e t e ; 在需求调研阶段,已经将番部门的代码收嶷整理生成了和学生数据中心的蜃有瓣照表并 将这些对照表存放在数据库中。在前蕊讲到的e t l 流程中可以图形化调出这些对照表供用 户选择,也可以由用户掇握郫门信息的变化象更这些对照内容。 4 。4 数据标准的制定 数蕹巢戒平台捧为癍躅支撑搬絮,需要集成备静舅鞠系绞鞠异构数禚薄,遮鉴鼻鞫系统 在数据上、在技术接口均各不槌阁,存在很大差异;为此,有必要对整个数据体系和鼹务接 口体系进行统一建模和标准化,从雨有聱j 于降低系统阐的耦台发,也有利于系缀的后续扩展。 建立绕一数据帮鞭务摸鬻,使褥数据鞘应用接日标准纯,是熬台的纂础。 数据标准在蒸俸平台实现中霹谈逶避对嚣数据蠛蘧瘸遭努对象的定义、维护来实现。遗 用业务对象是指在集成平台中,掇握业努应用嚣要。势考虑其连接的器业务燕绕器要嚣抽象 和提炼出的舰范的、通用的业务处理对象模型。典型的通用业务对象,如举生、课程、学科 等等这骛泣务对象作为集戒平台的标准数撼格式在系统中应用,殴实现数措糕各业务系统 巾的滚转与转换。 3 5 浙江大学硕士学位论文 4 4 1 标准编码原则 信息的标准化,数据格式和表承的一致性成为当前倍熙发展的一个主要议题:学生数据 中心静建设,金棱静数据标识需要按照一定静标准编码,方便技内部门之闻毅及教育 亍韭肉 的数据流通。目前存在国家标准、教育行业标准,学校内部标准,各个标准不能完全的一致。 设计黠要根据这些标准,滚矮各个橼准誊接的赣骞性嚣l 掭撩的一致性,鞋及标准豹胃扩震瞧 等,具体如下: 1 唯一性:虽然一个编码对象可有很多不同名称,也可按各种不同方式对其进行描述: 毯楚,在一个分类编霹辍准中,每一编玛对象仪鸯一个藏学它戆找筠,一个捷璐廷瞧一表示 一个编码对象。 2 可扩性:代码缝构必须能适威同类编码对象不断增加的需要,必颁为新的缡码对象 嚣有足够的餐翔筠,鞋逡瘟不断扩充豹需要。 3 简单性:代码结构应尽量简单,长度尽嫩短。以便节省机器存储空间和减少代码的 筹镄章;网辩,提高枫器处理静效攀。 4 规范性:在一个信息编码标准中,代码的结构、类型以及编写格式必须统一。适用 性:代码要尽可能的反映分类对象的特点,便予记忆,便予填写。 5 会理陵:我玛臻擒要与分类镶系耱适瘦。 4 4 2 执行标准管理 串心羧强瘴戆数耀模式势公共字共、共事数撵攘式;公誉淳龚数攥揍式势参照标准、氯 行标准模式;参照标准是网家、教育部或其他部僚发布的标准,供学校的执行标准g i 入使用: 而执行标准是指学校制定针对学校使用的校定标准。通过建立参照标准翔攮行标攒的管理体 系,可鞋适应上级标准交纯绘学校带来盼彩确,也可班让学校接会自身的应用猜溅,在上疑 i 初抬化工具l 【 匿4 遗撬行栋壤营理滚疆 浙江大学硕士学位论文 滏冤建立标猴时,建立擎较急需静德惠标准。执行标准管瑷流程鲡圈4 堪。 执行标准管理主要包括以下内容: 蠹窖 使用工典 描述器洼 公共字典表结 数据建模 使用数据建模二其,设 国家、教育部标准和校标准均通 构设计计公共字典的袭结构过数据建模避行结构设计 公筵字典源数数据秘媲诧将文徉孛懿振蒎数据文遮堡戆标壤渗及藿据、帮标等, 据昂入 工具件姆入数据中心 产品提供匿标和教育部标准 执行标准维护维护工嶷对标准进行的增、删、 镑理中涉及审核机制,对所有修 政撩作进行审诗管理敬、删除擞作进行记蒙 业务系统获墩数据订阅服业务系统通过数据订阅业务系统对公共字典的订阅均指 撬褥蠡准数据务驻务确定获取轹准戆内瓣字典匏数攮速蠢订阗 容、方式等 令参照标准建立 结构定义、数据导入 参照标准包含国家标准、教育部标准以及学校;i 入的其他标准等。参照标准通过数据建 搂王其遘李亍结稳蘸定义,藩形藏结掬定义文谗,在罄署陵段逶过鼗据建模王其将鞭定义静缝 构母入数据中心。 如果公共字典结构发生变化,遄涟数据建摸工具维护字典结梅。 夺参照标准数据耪始傀 参照标准通过“数据初始化工具”将数据文件导入到编码集中。 囊暴参照标准数据发生交纯,冀处理过程懿下: ( 1 ) 更新初始化数锯文件; ( 2 ) 通过“数据初始化工具”完成更新导入。 4 。4 3 执豁标准设计 执行标准按需求分成三个部分:公共执行标准、教学执行标准、聪勤执行标准。 3 7 浙江大学硕士学位论文 人的性别、成分、家庭出身、婚姻状况、健康状况等等等。所有这类数据都要建立一个统一 的代码表,并在以后各子系统开发中严格执行。 3 统一数据接口 统一的数据接口是大型信息系统的一个设计关键技术。学生数据中心涉及到多个应用子 系统,逻辑上每个应用子系统都有自己的数据库,相互之间的数据交互肯定是比较频繁的。 需要建立统一的数据接口。数据接口有多种方式:基于l p 的通信包交换、基于文件的数据交 换、数据库表一级的交换。不管是那一级的交换,都需要定义接口数据的结构、格式、语义。 以确保参与交换的各个子系统以统一的语义理解来发送和接收数据。 4 5 2 存储模式设计 学生数据中心所需数据来自各学生工作部门。各部门基本都有自己的信息系统,有自己 的业务数据。但是各部门产生的数据所遵循的标准不一,使用的数据库系统也各不相同。学 生数据中心系统通过数据集成平台将各部门的数据抽取上来,统一纳入中心数据库的管理。 业务数据与全校共用的执行标准数据构成一个学生数据的共享数据库,各部门若需要可以订 阅数据。 这样,学生相关的各业务数据形成了以中心共享库存放共享数据,各部门信息系统存放 自身业务数据的分布式存储模式,参见图4 1 2 。 共享库( _ 一一百磊磊磊矗二磊忑磊矗磊f 、 、 i 丁一1 一,一一厂一了一, 卜一武净武净戬净一 一 图4 1 2 分布式存储模式 学生数据中心考虑的以后的业务发展,数据集中存储到数据中心的同一个物理的d b 上。 业务系统订阅的数据可以直接利用公共视图去实现,而本系统权威数据的提供可以用学生数 据中心统一访问平台的a p j 接口实现,这种模式就是集中式存储模式,参加图4 - 1 3 。 浙江大学硕士学位论文 第五章面向学生数据中心的数据集成平台的实践 数据中心运常是一个数据管瑾平台,将为备泣务信息系统提供一致韵、稳定构共享数 据源,它可以实现新旧系统中同构、异构数据的整合,集成一系列的工具( 数据糇合工具、 委诲工具、搬表生成工其等) ,蠖予数据的使瘸和管理。学生数据中心间样以学生淹中心, 为各个相关部门提供共攀数据以及绕计分析的功能, 5 。1 学生数据中心建设对数据集成平台的需求 撮据浙淡大学学生数据中心的特点和数字化校园建设的整体规划,浙江丈学学生数据 中心对数据集成平台的总体需求如下: 戳教务姓、磷究生藏学生数攫疼为基辎,羡黎冀恁学生援关帮门熬翥求,靠l 定学生 数据字典和数据交换标准,艟理和分析学生信息的主要数据并确定各数据的权威数 据米源和各部门主要的订阅信息。 统一学生静售塞编鹞蔑范,裁定学生数据字典。l 霹时通过各部门懿沟遴协调,整理 各业务系统的主要数据,建立中心数据库。 在锩4 定统一数攒交换标准瓣基础上,构建学生数撼中心数据集成平台,僚诞应用系 统之间能够通过学生数据中心实现数据共享。 制定应用系统的集成标准,按统一的数据标准和黛成标准,指导和协助备个学生有 关郝 l 完善照鸯系统蕺重精秀发赣系绫。 源业务库和共搴库里面的数据要能够确定保证各自权威的维护,以便以后差异匹 对的时候追查至数据的差错究竟错在哪里。 楚瑟景不要蘩改添整务系统,弱霹藩予致螽鹃维护尽量镀戮絮串管理。 复制应该不干预现有的应用,对系统的影响应该降到最低复制过程有必要进行 管理靼监控。 5 2 基于数据集成平台的学生数据中心体系结构 学擞数据中心系统的体系结构见瞄5 - l 。 整个粲秘童饕分为两大部分:集娥窥访闫。在鬻5 一l 中”共享库”的左边生耍完成数据的 集成功能,即中心从业务部门抽取数攒,业务部门从中心订阅数据。图5 1 中”共掌麾”的右 边主要镶糍数据涛闯平螽班及考虑鞲来进行韭务系统的构造,包括熬据中心自已靛系统查询 统计鄹维护等+ 扶黼中可跌看出鼗据集成平台在学生数据中心处于非常核心的谯溉,是学生数攒中心和 各业务鳎门转交遴静枢筑。 浙江大学硕士学位论文 图5 - 1 学生数据中心体系结构 5 3 数据集成平台的目标 数据集成平台是学生数据中心系统的重要组成部分,是整个原有业务系统和数据中心 进行数据交换的总线。通过数据集成平台把各业务系统数据库中需要共享的数据抽取到数据 中心数据库中,并按各业务系统的订阅需求将共享数据分发到各业务系统,从而实现数据的 整合与共享,具体如下: l - 满足各部门之间数据交换和共享 教务处学工部研究生院招生处就业指导中心宿管中心计财处外事处 国际教育学院 2 进行信息集成,支持综合查询和决策分析 ( 1 ) 综合查询:提供针对教职工、本科生和研究生等个人信息的查询 ( 2 ) 决策分析:可以针对院系、年度、种类等维度对信息进行归类,统计,分析, 帮助决策 5 4 系统设计原则 浙江大学学生数据中心作为一个以数据集成为核心的管理信息系统,在系统开发过程 中应遵循如下的系统设计原则: 采用成熟、稳定、可靠的技术,采用的技术应有成功的先例; 应充分体现信息系统信息集成思想,高起点、高水平,突出信息集成概念: 浙江大学硕士学位论文 确保数据安全,把保证信息的安全存放、传输、加工放在系统设计的首位; 软件配置应整体考虑,软件平台、软件开发工具应适应二次应用开发的需要,软 件接口规范,访问透明; 系统设计应顺应i t 技术的发展趋势,组件化设计,实现系统的灵活部署; 实现性能可扩展性,基于多层分布式体系结构,满足任一层数据能力的线性扩展 要求; 实现功能可扩展性,基于业务体系与技术体系相分离的模式,系统设计充分考虑到未 来的系统扩展与部署,从系统布局到接口规范的确定。均有可扩展性。 5 5 子系统与模块划分 子系统与模块的划分需遵循如下原则: 业务子系统与模块功能的相对独立性; 业务子系统与模块功能扩展的相对独立性; 实现系统的高效性( 通过整合业务流程,使功能处理更紧凑) ; 各业务模块技术平台选择的独立性( 视具体性能要求情况选择相适应的技术平台及 备份措施,以降低成本) 。 “耦合小,内聚大”的基本原则 学生数据中心应用软件部分共分为2 个平台和3 个子系统,包括数据集成平台、数据访问 平台、综合信息服务子系统、系统维护管理子系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论