




已阅读5页,还剩54页未读, 继续免费阅读
(计算机应用技术专业论文)电信bi中后台数据调度子系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学硕士毕业论文 电信bi 中后台数据调度子系统的设计与实现 摘要 随着电信服务市场竞争的日益激烈,各运营商意识到,单纯的“价 格战”已经不能满足企业发展的需要,而不断深入的企业信息化则成 为了各运营商提升自身竞争力的重要手段。电信企业b i ( b u s i n e s s i n t e l l i g e n c e ) 系统能够对企业的所有信息进行有效、合理的分析和 处理,为企业的决策者提供可靠的运营决策依据。 本文基于本人所参与开发的某省电信运营商的电信企业b i 系 统,详细叙述了电信企业b i 中后台数据调度子系统的设计和实现。 文中阐述了系统的架构和核心支撑技术,包括系统实施过程中所用到 的数据仓库、数据挖掘、0 l a p 等技术。后台数据调度子系统的设计 包括了以下主要处理过程:数据文件生成、数据预处理、数据文件抽 取与转换、数据在数据仓库中的筛选与汇总,子系统流程与调度,子 系统开发中的问题与反馈等。 本文的主要工作在于: ( 1 ) 通过本人所参与的某电信运营商电信b i 系统项目,介绍了电 信企业b i 系统中数据仓库的应用,并结合当前国内电信数据仓库的 特征进行分析说明; ( 2 ) 通过本人所开发某电信运营商b i 系统中的后台数据调度子 系统,阐述了数据调度的相关技术和该子系统具体的设计与实现过 程; ( 3 ) 针对本人参与的项目实施情况进行分析,指出了现在的后台 数据调度子系统存在的问题和应该改进的地方; 电信b i 系统已经成为数据密集型企业的信息系统建设的重中之 重。后台数据调度子系统作为整个系统中处理信息量最大、流程最复 杂的部分,对整个系统的运行效果起着至关重要的作用,可以帮助电 信企业在建设成功的电信b i 系统的过程中踏出坚实的一步。 关键词:电信企业b i 系统数据仓库技术后台数据调度数据预处理 北京邮电大学硕士毕业论文 d e s i g na n di m p l e m e n t a t i o no f b a c k g r o u n dd a t as c h e d u l i n gs u b s y s t e m i nt e l e c o mb u s i n e s si n t e l l i g e n c e a b s t r a c t w i t ht h ei n c r e a s i n 百yf i e r c ec o m p e t i t i o no ft e l e c o ms e i c em a r k e t ,a uo p e r a t o r s r e a l i z em a tm es i m p l e ”p r i c ew a r ”h a sb e e nu n a b l et 0m e e tt h en e e d so fe n t e 印r i s e d e v e l o p m e n t ,w h i l et h ec o n s t a n td e e p e n i n go fe n t e 叩r i s ei n f o 咖a t i o nh a v eb e c o m ea l l o p e r a t o r s i m p o r t a n tm e a n st oi m p r o v et h e i rc o m p e t i t i v e n e s s t e l e c o me n t e 叩r i s e b u s i n e s si n t e l l i g e n c es y s t 锄s u p p o r t se 虢c t i v ea n dr a t i o n a la n a l y s i sa n dp r o c e s s i n g o fa l lt h ei n f o m l a t i o no ft h ee n t e 印r i s e ,p r o v i d i n gar e l i a b l eb a s i sf o rd e c i s i o nm a k i n g i nt h eo p e r a t i o nf o rt h ee n t e r p r i s ed e c i s i o n - m a k e r s t h i sp a p e rp r o v i d e sad e t a i l e d d e s c r i p t i o no fd e s i g n a n di m p l e m e n t a t i o no f b a c k g r o u n dd a t as c h e d u l i n gs u b s y s t 咖o ft e l e c o m 吼t e 印r i s e sb is y s t e mb a s e do n m yp a r t i c i p a t i o ni n t h ed e v e l o p m e n to ft e l e c o me n t e 印r i s e sb is y s t e mo fs o m e p r o v i n c i a lo p e r a t o r t h i sp a p e r i n t m d u c e st 1 1 es t n l c t l l r ea n dc o r c s u p p o r t i n g t e c h n o l o 舀e so ft e l e c o me i l t e 印r i s e sb is y s t e m ,i n c l u d i n gt e c h n o l o 百e su s e di 1 1t h e p r o c e s so fs y s t e mi m p l e m e n t :d a t aw a 代h o u s e 、d a t am i l l i n g 、o l a pa n ds oo n t h e d e s i 印o fb a c k g r o u n dd a t as c h e d u l i n gs u b s y s t e mi n c l u d e st h em a i np r o c e s s :d a t a 6 1 e sg e n e r a t i o n ,d a t ap r e t r e a t m e n t ,e x t r a c t i o na n dt 啪s f o m a t i o no fd a t af i l e s ,d a t a 矗l t 耐n ga n ds 眦姗a 叫i nt h ed a t aw a r e h o u s e ,s u b s y s t e n lp r o c e s s e sa n ds c h e d u l i n g , s u b s y s t e mi s s u e ss u c ha sf e e d b a c ka n di n t e 印r e t a t i o na 1 1 ds oo n t h i sp a p e rm a i n l yf o c u s e so nm ef o l l o w i n ga s p e c t s : ( 1 ) t h r o u g hm ep r o j e c to ft e l e c o mb is y s t e mo fs o m ep m v i n c i a lo p e r a t o rt h a ti h a v ep a r t i c i p a t e di n ,i n t r o d u c et h ea p p l i c a t i o no fd a t a 枞o u s et e c l m 0 1 0 9 yi n t e l e c o me n t e 印一s eb is y s t e m ,a n dd oa n a l y s i sa 1 1 de x p l a i nc o m b i n e dw i t ht h e c h a r a c t e r i s t i co fd o m e s t i ct e l e c o md a t aw 缸e h o u s e : ( 2 ) a c c o r d i n gt om eb a c k 伊o u n dd a t as c h e d u l i n gs u b s y s t e mi nb is y s t e mo f s o m ep r o v i n c i a lo p e r a t o rm a tih a v ea t t e n d e dt od e v e l o p ,e x p l a i ns o m er e l a t i v e l 北京邮电人学硕士毕业论文 t e c l l l l o l o g yo fd a t as c h e d u l i n ga 1 1 dt 1 1 ep r o c e s so fd e s i 印a i l di m p l 锄e n to fs u c h s u b s y s t e m ; ( 3 ) a n a l ) ,z eb a s e do nm ye x p 谢e 1 1 c eo fd e v e l o p i n gi nt h i sp r o j e c t ,p o i n to u tt 1 1 e p r o b l 锄sa i l dl o c a t i o n st 1 1 a ts h o u l db ei m p r o v e do ft h ec u r r e n tv e r s i o no fb a c k 伊。o u n d d a t as c h e d u l i n gs u b s y s t e m ; t e l e c o mb is y s t e mh a sb e e i lm ek e ys y s t e mo fm em o s ti m p o r t a n ti n f o m a t i o n s y s t 锄si ne n t e 印r i s e sw i md e n s ed a t a a st h ep a r tt od e a lw i t hm e1 a 略e s tm h n b e ro f i n f o 啪a t i o na i l dt h em o s tc o m p l e xp r o c e s s ,b a c k g r o u n dd a t as c h e d u l i n gs u b s y s t e i i l p l a y sar a t h e ri m p o r t a i l tr o l ei nm ew h o l es y s t 锄,h e l p i n gt e l e c o me n t e 叩一s e sc a r 巧 o u tm es o l i ds t 印i i lt l l ep r o c e s so f b u i l d i n gas u c c e s s 如l t e l e c o mb is y s t e m k e yw o r d s :t e l e c o me n t e 叩r i s eb is y s t e m b a c k g r o u n dd a t as c h e d u l i n g i v d a t aw 鳅i h o u s et e c l l l l o l o g y c i a t ap r e t r e a t m e n t 北京邮电大学硕士毕业论文 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:乏幽= 魈 日期:竺呈三丝 、各种格式( e x c e l 、h t m l 、x m l 、r t f 、t x t 等) 和手工录入的数据在进入到本系统后中,进行进一步的数据转换、数据清沈 子层及数据汇总。 数据存储层:数据存储层包括0 d s ( 0 p e r a t i o n a ld a t as t o r e ,操作数据存 储) 、d w ( d a t aw a r e h o u s e ,中央数据仓库) 和d m ( d a t am a r t ,数据集市) 。 o d s 层用以存储业务系统的数据,通常用于卜3 个月的细粒度的原始数据。 0 d s 层的数据与业务系统保持一致,但不是把原业务系统产生的所有数据不加选 择地进行存储,而是选择了将要整合进入基础数据仓库的部分数据进行存储。数 据仓库是信息的逻辑和物理存储。在数据仓库的实施过程中,对于某些主题的业 务分析问题,可能会按照主题采用数据集市的方式对数据进行进一步的组织。所 以在中央数据仓库的基础之上根据分析需求创建相应的从属数据集市。数据仓库 北京邮电大学硕士毕业论文 将成为企业的数据支撑平台,它与o l t p 型数据库的最大区别是:保存大量的相 对较长时期的历史数据。 数据展现层:数据仓库是对数据集市的数据支撑,几乎所有的业务分析都需 要通过进一步组织数据集市来实现,以满足性能、灵活性的要求。数据集市的建 设主要面向部门、地市和重要的领导,根据其关心的主题、数据层次、数据粒度 不同,构建相应的数据集市,数据集市的构建逐步向满足个性化分析需求的方向 发展。在数据集市的基础上,依靠展现工具如:b o 、c o g n o s 以及系统自身的专 题分析和k p i 模块可以将所需要的数据呈现在用户面前,以满足查询、分析的需 要。 从属数据集市的数据直接来自于数据仓库。采用这种方式,可以保持整体数 据的一致性。为一些访问数据仓库十分频繁的关键业务部门建立从属数据集市, 可以提高查询的反应速度。 数据稽核层:数据稽核是指在每个数据加载周期中,保证数据仓库系统中数 据同数据源中数据业务意义上的一致性及数据的准确性。数据稽核的目的是保证 数据在处理过程中的各个环节中数据正确、完整,为此在电信企业b i 系统中, 应开发专门用于数据稽核的程序模块,在数据处理的每个环节完成时对数据进行 稽核,确保数据完整和正确。 稽核方法如下:在每个环节处理完成后进行抽样稽核( 从数据源开始,到抽 取出来的文本文件,到转换后的文本文件,到装载到数据仓库数据,到数据集市 中的c u b e 数据) ,一方面对总量进行稽核,另一方面对数据正确性进行验证,分 别对每一维度上的数据进行稽核。对稽核结果进行记录并报告,发现稽核错误的 数据发e m a i l 或s m s 通知系统管理员。 数据稽核程序与后台数据调度子系统统一处理,配合数据集成自动执行。 2 3 后台数据调度子系统分析 2 3 1 后台子系统的位置和作用 后台数据调度子系统并不是e t l ,传统意义上的e t l ( e x t r a c t t r a n s f o r m l o a d 的缩写) 指的是数据抽取、转换、装载的过程,而后台数据调度不仅包括以 上功能,它还包括数据的后期汇总和关联处理,e t l 只是整个后台数据调度子系 统的一部分,作为b i ( b u s i n e s si n t e l l i g e n c e ) 的核心和灵魂,后台数据调度 子系统能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向 目标库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是 一座大厦的设计蓝图,数据是砖瓦的话,那么后台数据调度子系统就是建设大厦 北京邮电大学硕士毕业论文 的过程【1 3 】。 后台数据调度子系统是数据仓库的重要组成部分,数据的一致性、完整性、 有效性关系到以后数据仓库的建设和数据挖掘的成败。e t l 技术是实现数据集成 的通用部分和中间技术细节,使后台数据调度子系统的开发人员把精力集中在分 析数据需求和数据语义映像方面的工作,以加快后台数据调度的进度。据调查 e t l 是后台数据调度中最主要的组成部分,通用e t l 技术研究有它的实际意义。 另外,某些新出现的分析型应用如0 l a p ( 在线分析处理) 、d s s ( d e c i s i o n m a k i n g s u p p o r ts y s t e m ,决策支持系统) 等也需要e t l 技术的支持。因为这些应用一方 面需要从许多不同质的数据源中获得时常更新的信息,另一方面又希望这些信息 以统一的格式存储在某个固定的地点以便于访问。显然,只有e t l 技术才能解决 这种信息来源和信息访问之间截然相反的矛盾【l4 1 。 2 3 2 后台子系统架构 据仓库 据集市 图2 6 后台数据调度实现过程的简单流程图 如图2 6 所示,后台数据调度子系统可以分为五部分: ( 1 ) 数据抽取。数据抽取是指将电信企业b 1 分析功能需要的数据按一定格式 从数据源中提取的过程。这些数据包括:业务数据和编码数据。对于数据量较大 的数据,如呼叫详单等,可以先转换为文本文件,然后从文本文件中进行抽取, 避免影响业务系统的性能;对于数据量较小的数据,如编码表等,可以直接从操 作数据库中抽取。 就抽取数据的时效性而言,包括增量抽取、完全抽取等方式。增量抽取即每 次只抽取自上次数据抽取以来产生的增量数据。增量抽取的优点是抽取的数据量 小,从而转换和加载的数据量也小,能够极大提高数据加载性能。完全抽取是抽 1 4 北京邮电大学硕士毕业论文 取业务系统中指定业务的所有数据,在两种情况下采用完全抽取方式:数据量很 小,采用完全抽取方式性能更高时;实在无法分离出增量数据时。数据抽取的时 机,必须尽可能避开业务系统的高峰时段,比如在夜间业务系统比较闲时。 ( 2 ) 数据集成。在数据仓库构建中,有1 0 一2 0 的从源字段到目标字段的映射 需要进行集成整合。为了将源数据转换为目标数据,这些复杂集成要完成比简单 移动更多的分析和处理。这些分析和处理要解决以下几个问题:标识符问题,这 是许多公司在建立数据仓库时所遇到的最困难的集成问题之一。当同一业务实体 存在于多个系统,并且没有明确的办法确认这些实体是否为同一实体时,往往会 发生这个问题。这个问题很难用自动方式解决。通常,要先采用复杂的算法找出 所有可能的匹配。在数据仓库中存入所有可能的匹配有时是可以接受的,但有时 这些匹配在存入数据仓库之前必须先进行人工检验。为此,很多企业采用两阶段 策略:第一阶段是隔离阶段,在这一阶段中,为不同实体的每个具体值都指派一 个唯一标识符:第二阶段是调和阶段,确认哪些实体是相同的,然后将这些实体 的各个具体值合并在一起。第二就是目标数据的多个来源问题当同一个目标数据 有多个来源时,很难保证该数据的各个来源总能保持一致。实际上,这种情况下 数据冲突的可能性比存在冗余值的可能性更大。解决冲突的简单办法是指定某一 系统为主要系统。其他的还有数据缺失问题和派生数据计算数据等问题。 ( 3 ) 数据转换。数据转换是指对从业务系统中抽取的源数据根据数据仓库系 统模型的要求,进行数据的转换、清洗、拆分、汇总等处理,保证数据按要求装 入数据仓库。以下原因可能会使数据转换工作变得复杂: 源数据系统同目标数据仓库系统在模型上的差异性。 源数据系统平台不一致:数据仓库系统的数据源可能包括基于不同平台 的数据库的数据。 _ 源数据结构的不一致:有些数据源由于历史的原因,导致同一个表在不 同的时期数据结构不一致。 源数据定义不规范导致错误数据。 对数据的约束不严格,导致无意义数据。 存在重复记录。 -由于平台系统的不同,可能会存在大量的转码工作。 根据实际情况,数据转换工作一般会在以下几个环节中具体实现:在抽取过 程中进行数据处理;使用异步数据加载,以文件的方式处理;在数据加载过程中 进行数据处理;进入数据仓库以后再进行数据处理。 采用在数据抽取过程中进行数据转换时,必须考虑抽取的性能以及对业务系 统性能的影响:采用异步数据加载需要以文件方式处理时及整个流程的协调性工 1 5 北京邮电大学硕士毕业论文 作和大量的非语句的编程,必须充分考虑中间磁盘的存储量以采用在数据加载过 程中进行数据转换时,必须考虑加载性能:采用先将数据装载到数据仓库后再处 理时,必须考虑数据仓库引擎的海量数据处理能力。 ( 4 ) 数据清洗。数据清洗( 数据清洁或洗涤) ,是通过探测并删除数据的错误 和矛盾以确保数据质量。数据清洗的目标是保证数据的一致性,确保数据的参照 完整性和数据的精确性。清洗和刷洗是两个可以互换的术语,是比简单变换更复 杂的一种数据变换。在这种变换中,要检查的是字段或字段组的实际内容和隐含 内容,而不仅是存储格式。一种清洗是检查数据字段中的异常值,这可以通过范 围检验、枚举和相关检验来完成。另一种是检查整条记录是否重复,可以通过 s q l 或一些算法实现。 有效值检验:范围检验是数据清洗的最简单形式,它是指检验一个字段中的 数据以保证它落在预期范围之内,通常是数字范围或同期范围。枚举也相对容易 实现。这种方法是对照数据字段可接受值的清单检验该字段的值。相关检验稍微 复杂一些,因为它要求将一个字段中的值与另一个字段中的值进行对比。通常, 数据清洁规则往往是这些不同方法的结合。 复杂的重新格式化:数据刷洗的另一主要类型是重新格式化某些类型的数 据,这种方法适用于可以用许多不同方式存储在不同数据来源中的信息,必须在 数据仓库中把这类信息转换成一种统一的表示方式。例如,对于英文地址信息, 由于没有一种获取地址的标准方式,所以同一个地址可以用许多不同方式表达出 来。这就要求将地址解析成几个组成部分,然后将这些组成部分进行转换并重新 排列成统一的格式。 ( 5 ) 数据加载。数据加载就是将从源业务系统中抽取、转换后的数据加载到 数据仓库系统中。一般来讲,不同的数据仓库提供厂商,都会有自己的数据加载 工具以及深入编程的接口。a p i 对于用户而言,需要重点考察的是数据加载工具 的加载性能,比如移动公司每天都产生大量的数据,所以要求数据加载工具必须 具有高效的加载性能。有两种加载技术:使用数据仓库引擎厂商提供的数据加载 工具进行数据加载和通过数据仓库引擎厂商提供的编程a p i 进行数据加载。在两 种数据加载技术中,前一种对于开发人员来讲操作比较简便:后一种方法需要部 分程序编写工作,但性能上可能会好一些具体选择什么技术,必须根据实际的 系统及数据量情况进行权衡。数据加载策略主要包括两方面的内容:加载周期及 数据追加策略。加载周期是指多长时间从业务系统中抽取并向数据仓库中加载 次数据。数据追加策略是指数据每次是如何向数据仓库系统中追加的。动态数据 仓库是数据仓库系统未来的发展趋势,利用动态数据仓库可以实现数据仓库同业 务系统的协同工作,将数据仓库系统的功能由战略制定扩展到战术实施。这就要 1 6 北京邮电人学硕十毕业论文 求数据仓库中的数据必须同数据库中的数据保持同步,这里就引伸出一个数据加 载周期问题。对不同业务系统采用不同的加载周期,但必须保持同一时问业务数 据的完整性。 2 3 3 后台子系统接口分析 电信企业b i 系统与外部系统之间有信息交换的需要,灵活、统一的外部数 据接口对于电信企业b i 系统的功能发挥有着较大的影响。电信企业b i 最终是服 务于运营系统的,因此其结果要传递到外部的运营系统。电信企业b i 系统的接 口部分,是指电信企业b i 系统与其它系统完成的数据交换,包括: _ 生产子系统主动定时生成、提供给电信企业b i 系统的源信息。 _ 电信企业b i 系统向其它系统提供的用于统计分析的展现层信息。 一 电信企业b i 系统为支持生产型处理( 如o l t p 查询) 而提供的收集层、 存储层信息。 对各类业务系统与外接系统接口所传输的数据应保证传输的一致性、正确 性、高效性和安全性。由图2 6 可以看出,系统外部数据接口提供电信企业b i 系统连接各种外部系统的通用数据接口,其中包括:综合营帐系统、大客户管理 系统、客户服务系统、综合结算系统以及计费系统等外部系统的数据接口。系统 问数据交换可以采用以下两种方式: ( 1 ) 实时数据交换:双方商定互相认可的协议,在协议基础上开发系统数据 接口进行系统互联,实时交换数据; ( 2 ) 定时数据交换:双方商定互相认可的协议,根据协议规定的标准开发数 据导入接口,在规定的时间定时将有关数据通过介质方式送交对方,实现数据的 交换。 后台数据调度子系统负责绝大部分系统与外部系统的接口功能。 北京邮电人学硕+ 毕业论文 第三章后台数据调度子系统设计 通过前面两章的介绍,我们对后台数据调度子系统的背景知识、相关技术和 体系架构有了总体的认识,本章讲通过本人所参与的某省运营商电信b i 系统中 后台数据调度子系统的开发情况,详细的对后台子系统的设计情况进行介绍。包 括:后台子系统的模块划分、设计要点和接口原则,后台子系统的数据调度分析 以及概要设计和详细设计。通过本章的说明,可以对后台数据调度系统从业务需 求到模块划分以及相关的具体部件设计情况有个清楚的认识。 3 1 后台数据调度子系统设计要点 3 1 1 后台子系统模块划分 在后台数据调度子系统中,我们可以大体分为以下几个基本模块: 异 兀用户接口模块 各 上 户 常 数 元数据读取模块 处iuj 据 土 师 模 配置模块 惜 理 1 ,亡 上“ 模 z 茂 块 元数据写入模块 块 图3 一l 客尸端模块 ( 1 ) 客户端模块。结构如图3 1 所示,该模块主要实现与用户的交互,并将 用户确认的信息存入元数据模块。用户接口模块与用户进行交互,用户通过该接 口输入所要建立的目标表,包括字段名、类型、主键等信息:元数据读取模块从 元数据模块读取与用户输入信息相匹配的规则,经用户确认后的信息由元数据写 入模块写入元数据模块( 数据的匹配和用户确认的工作由配置模块完成) ,由元数 据模块对规则进行管理;配置模块将最后确认的规则进行整理和配置,并将规则 传递给元数据写入模块:元数据写入模块负责将规则按照元数据的格式写入元数 据库。值得一提的是,在规则无法匹配的情况下将产生异常,异常模块将对这些 北京邮电人学硕士毕业论文 异常进行处理并按照元数据的格式要求存入元数据库,元数据模块中的索引程序 再处理这些信息,调整扫描的参数【l 引。 ( 2 ) 元数据模块。如图3 2 所示,元数据模块由元数据仓储管理模块、信息 索引模块和处理异常模块组成。实现了数据库结构扫描和存储元数据的功能。首 先,元数据模块中的元数据索引模块扫描源数据库和目标数据库的体系结构信 息,并存储在元数据库中;在用户定义了数据集成规则后,系统从元数据库中取 得源数据库和目标数据库的体系结构信息,建立从源数据库到目标数据库的字段 映像,再定义流程中的转换规则和加载规则,定义完成后把规则保存在元数据库 中:当用户选择一个己经定义好的数据集成工作,并执行时,系统从元数据库中 取得该数据集成工作的抽取、转换、加载规则,并进行解析、分配到不同的线程 中:当数据处理完毕后,把本次的作业执行统计信息保存到元数据库中。 客户端模块服务器模块异常数据 j lj l 1 r1 r 1r 元数据仓储管理模块l t 处理异常模 信息索引模块 块 元数据模块。 l 异构数据源 图3 2 元数据模块图 这里的元数据库内容不仅仅只包含业务数据源和数据仓库的元数据,而是包 含跟整个系统相关的元数据,而且可以根据需要扩展内容,包含跟整个数据仓库 系统相关的元数据,目前设计包括以下几个方面的元数据【l6 】: 业务数据源的元数据。包括数据库信息、数据库模式、业务数据的表结构、 业务数据字段的属性、数据的完整性约束等。其中数据库信息包含数据库类型( 如 o r a c l e ,d b 2 ,i n f o r m i x 等) 、数据库版本号数据库名、访问数据库的u r l 、访问 数据库的用户名密码等信息,数据库模式包含数据库的c a t a l o g ,s c h e m a 等信息, 业务数据的表结构信息包含表所属的c a t a l o g 或s c h e m a 、表名、表的描述、表 所包含的字段等信息,业务数据字段的属性信息包含字段名、字段取值的数据类 型、字段的主外键信息、字段取值合法性校验、字段取值是否允许为空、字段取 值是否允许重复等信息,数据的完整性约束主要包含主外键约束信息。 数据仓库的元数据。主要用于两方面的用途,一方面是为数据抽取任务配置 管理提供信息,另一方面是提供数据仓库的数据业务描述信息、数据来源信息, 为不懂计算机技术的业务人员能够理解数据仓库中的数据服务。数据仓库的元数 1 9 北京邮电大学硕士毕业论文 据包含的内容较多,一部份内容跟业务数据源元数据内容相同,包括数据仓库信 息、数据仓库模式、数据的表结构、数据的字段属性、数据的完整性约束,不同 部分的内容包括数据仓库的视图、触发器、存储过程、索引、维、层次结构、数 据粒度、主题领域、汇总算法等。其中数据的字段属性除了一些通用信息之外, 还包括该字段的来源信息、转换处理信息。 转换规则的元数据。在系统里,把所有的转换规则都作为一种资源,相关的 函数调用信息都作为元数据存储在元数据库,所有新增加的转换函数都需要进行 注册,把相关信息存储到数据库。这样可以实现转换函数的动态管理,可以根据 需要灵活增添新的转换函数,可以适应业务变更或新增业务的需求。这里的元数 据内容包括转换函数名、转换函数参数的数据类型、转换函数的功能描述、转换 函数的返回值等。 抽取任务的元数据。抽取任务的元数据主要是描述业务数据源到数据仓库的 映射配置信息。在进行数据抽取时,工作流引擎调用相应抽取任务的元数据,并 根据其提供的语义来进行抽取、转换和装载数据。抽取任务的元数据内容包括源 字段信息、转换规则信息、目标字段信息等。其中源字段信息可能包含一个字段 信息,也可能包含零个或多个字段信息,并且在包含多个源字段时,还存在先后 顺序,这要根据具体的抽取任务和转换规则而定。转换规则信息可能包含零个转 换规则、一个转换规则或多个转换规则信息,如果是多个转换规则时,还存在各 个转换规则先后顺序的制约。对于以上两种复杂情况,我们就先用x m l 来描述源 字段、源字段的先后顺序、转换规则、转换规则之间的逻辑关系及目标字段,把 整个抽取任务用一个x m l 文件来描述,然后作为元数据存储到元数据库中。 模块接口调用的元数据。在这个系统里,把各个独立的模块也作为一种资源, 把它相关的描述信息和调用信息作为元数据存储在元数据库,这样其它应用程序 和模块就可以根据模块的元数据调用该模块。模块接口调用的元数据内容包括模 块的功能描述、模块可供调用的接口名字、模块可供调用的接口的各个参数描述。 这种把各个模块作为一种资源,并把相关的接口调用信息作为元数据存储在元数 据库的设计思想,可以使该系统具有更好的集成性、可扩展性和易维护性。 数据库连接信息的元数据。连接数据库的方式有很多,如直接访问数据库、 通过数据库的0 d b c 驱动程序连接数据库、通过数据库的j d b c 驱动程序连接数据 库、通过部署在中问件( 如w e b l o g i c ,w e b s p h e r e 等) 上的连接池j n d i 来访问数 据库等多种方式。为了使该工具对数据源有更好的支持并能更灵活的访问数据 源,我就把访问数据源的各种形式作为元数据存储在元数据库中。所以数据库连 接信息的元数据内容包括数据源的类型、访问数据源的方式( 如果同时存在多种 访问方式,还存在优先级问题) 、各种访问方式相对应的驱动程序、数据源的u r l 、 2 0 北京邮电大学硕士毕业论文 访问数据源的用户名和密码等。 数据库操作元数据。数据库管理员或数据仓库管理员有可能对源数据库或数 据仓库进行创建或修改触发器、表、视图、索引、存储过程等各种数据库操作, 但是各种不同类型的数据库,其数据库操作在语法或结构上会有所不一样,有的 差别可能还很大。为了屏蔽各个数据库之间操作的差异性,给用户提供一个统一 的操作界面,我们把可能涉及的各种数据库类型的数据库操作语法和结构统一封 装,作为元数据存储到元数据库。数据库操作元数据内容针对不同类型的数据库 操作有不同的内容,但是都是对数据库操作的语法和结构进行封装,在这里就不 对各种数据库操作类型的元数据内容进行详细阐述。 增量数据抽取元数据。增量数据抽取在整个数据集成过程中,是相对比较复 杂和难度比较大的一个部分。根据增量数据源的获得方式,目前常见的增量数据 抽取方式有主要有以下几种:触发器、数据复制、时问戳、日志、快照等。 ( 3 ) 异常处理模块。在数据抽取过程中,会发生各种异常,如数据库服务器 异常、数据仓库服务器异常、数据库连接异常、网络异常、抽取任务的转换规则 异常、断电异常、抽取过程中某个抽取任务出错率太高异常等,出现以上各种异 常时,就需要对抽取现场进行断点保存,以便下次抽取时能从相应的断点继续进 行抽取,同时这些异常数据还可以经过转换后存入元数据库,以元数据的形式存 在,这样可以实现信息的反馈。从某种程度上看,异常处理模块可以看成元数据 模块的一部分,如图3 2 所示。但是异常处理模块也有自己的特征,如:异常检 测、断点保护、应急程序触发等,所以在某种程度上又可以看成是独立的模块, 如图3 1 所示。 图3 3 服务器模块 ( 4 ) 服务器模块。是后台数据调度子系统实现数据提取、数据转换、数据清 2 1 北京邮电大学硕士毕业论文 洗和加载的地方,如图3 3 所示。异构数据源包括业务数据库、) ( m l 文件、文本 文件、w e b 文件等,这些数据经数据提取模块提取后进行数据缓冲,并进行转换 和清洗。数据提取、数据转换、数据清洗和数据加载这四个模块所采取的操作策 略均按元数据模块中的规则进行智能转换。 调度模块的作用是从元数据库读取数据提取等规则后,能够按照规则的要求 自动调用数据处理程序实现智能化:规则读取模块的作用就是从元数据模块中读 取数据操作所用的规则。如果数据集成过程中出现异常情况,经集成信息整理模 块将这些信息存贮到元数据模块。最后经过数据即成的数据被存贮到目标数据库 完成数据集成过程。在元数据模块中还提供这些规则的默认规则,当从客户端无 法获取其规则时采取这些默认规则。 3 1 2 后台子系统设计要点 数据调度过程应遵循以下原则: 数据调度过程要保证业务逻辑的一致性; 一数据调度过程要保证数据的完整性、及时性、正确性和规范性; 一保证数据调度过程的安全性; 保证数据调度过程的效率; - 平衡数据调度过程数据处理与各业务系统正常运转的资源、时间分配; _ 管理数据调度过程元数据; 同时,数据调度过程的设计过程应遵从以下策叫1 。7 】 ( 1 ) 数据抽取策略 表3 1 数据抽取策略 抽取策略比较点同步实时抽取异步数据抽取 输入对象业务系统数据源或其它系统数据源 业务系统数据源或其它数据 源提供的数据文件 源数据系统资源占刚不占用 源数据使川类别变化更新数据 流水型增长数据 数据量较小海苗 数据逻辑复杂简单 实施复杂程度系统开发者自主掌握 源数据提供者需要做较多的 借口工作 安全性一般,若数据系统按需求进行严格的高,与源数据系统隔离 数据授权可获得较好安全性 北京邮电人学硕+ 毕业论文 ( 2 ) 数据转换策略 表3 2 数据转换策略 转换方法比抽取过程中进以文件方式处理,数据加载过程中进入数据仓库以后 较点行数据处理异步数据加载进行数据处理再进行数据处理 一 转换效率 低高低尚 限制因素机器处理能力、机器处理能力、源占用机器处理能数据仓库引擎的处 源数据类别、数数据类别、数据逻力、源数据类别、理能力 据逻辑复杂度辑复杂度数据逻辑复杂度 源数据类别变化更新数据流水型增长数据所有类型所有类型 源数据逻辑复杂简单复杂都可以,但需要自 复杂程度己写存储过程。 实现复杂程可利用工具产建议自己根据数 可利用工具产生 较复杂,且难以维 度生转换逻辑据源结构,构造转转换逻辑护。 换程序 投资保护 可能需要第二可能需要第三方 可能需要第二方不需要,成本较低 方工具i 下具上具 断点处理重新处理需要断点处理重新处理重新处理 处理方式 进程 建议使用线程 进程 数据库提供 一一 安全性一般,如果数据高向向 源进行授权可 提高 转储空间 不需要需要可能需要 不需要 输出对象一般直接输出声称适合数据仓一般直接输出到输出到数据仓库 到数据仓库库导入的文件,再 数据仓库 由数据仓库导入 工具加载到数据 仓库 ( 3 ) 数据装载策略 数据加载策略要考虑加载周期及数据追加策略两方面。 根据电信运营商业务数据的实际情况,加载周期要综合考虑业务分析需求和 系统加载的代价,对不同业务系统的数据采用不同的加载周期,但保持同一时间 业务数据的完整性。数据的追加策略根据数据的抽取策略以及业务舰则确定,一 般有以下三种类型:直接追加、全部覆盖、更新追加。 直接追加:指每次加载时直接将数据追加到目的表中。对于典型的流水数据, 一般采用此方法,如清单等。 北京邮电大学硕士毕业论文 一全部覆盖:如果抽取数据本身已包括了数据的当前和所有历史状况,可对 日标表采用全部覆盖方式。典型情况是资费规则定义的数据可以采用全部 覆盖的方式。 _ 更新追加:对于需要连续记录业务的状态变化,并用当前的最新状态同历 史状态数据进行对比的情况可采用更新追加的方式。典型情况是客服记录 数据的加载。 在实施时,具体采用何种方式,要综合考虑效率、业务实现等因素。 3 1 3 后台子系统接口原则 典型的数据抽取接口包括数据库接口和文件接口,对于不同数据平台、不同 源数据形式、不同性能要求和业务量的业务系统以及不同数据量的源数据,将采 取不同的数据抽取接口。 数据抽取接口采用专用数据库驱动接口,更具接口的具体情况将提供a p i 接口编程实现数据的抽取,以提高数据抽取效率同时减少对业务系统的性能的影 响。为了保证系统的稳定性和接口的规范化、标准化,系统的接口设计应该遵循 如下原则: 正确性:保证接口数据的有效性、无二义性。 一扩展性:考虑系统的建设现状,不仅满足现有系统的需求,也需要考虑 系统的演进对接口的要求。 适应性:针对不同类型的接口,适应其特殊的需求。 健壮性:具有相应的错误处理机制。 一安全性:保证系统的安全性,和企业经营数据的保密性。 3 2 后台数据调度流程说明 后台数据调度子系统中涉及到的主要工作是对于数据调度流程的设计,此步 工作首先需要对于业务的深入理解和对数据调度相关技术的较好把握。在本人所 参与的某电信运营商电信b i 中后台数据调度子系统的开发中,关于数据调度流 程比较重要的是对数据预处理和数据流的设计。 3 2 1 数据预处理 现实世界的数据一般是“脏”的、不完整的和不一致的。数据预处理有助于 数据质量的提高,从而为其后的挖掘过程的精度和性能提供保证。由于高质量的 2 4 北京邮电大学硕士毕业论文 决策依赖高质量的数据,因此数据预处理是建造数据仓库过程中后台数据调度过 程的重要步骤。 数据预处理的方法包括:数据清理、数据集成和转换、数据规约。 ( 1 ) 数据清理。用于填充空缺的值,识别孤立点、消除噪声并纠正数据中的 不一致。 空缺值的出现可能有多种原因。有些感兴趣的属性,并非总是可用的:有些 属性在输入时可能认为是不重要的而没有被录入。空缺的数据,特别是某些属性 上缺少值得元组可能需要推导。推导方法参考如:忽略元组、人工填写空缺值、 使用一个全局变量填充空缺值、使用属性的平均值填充空缺值、使用与给定元组 属同一类的所有样本的平均值。 噪声是一个测量变量中随机错误或者偏差。数据含噪声可能有多种原因:收 集数据的设备可能出现故障;在数据输入时出现人为或计算机的错误;数据传输 中的错误也可能出现。去掉噪声可以采用分箱、聚类、计算机和人工检查结合、 回归等方法。 不一致数据。对于一些事务,所记录的数据可能存在不一致。由于数据集成, 也可能产生不一致。有些数据不一致可以使用其它材料人工地加以更正。 ( 2 ) 数据整合和变换,包括: 数据整合。是指将多个数据源中的数据结合起来存放在一个一致的数据仓库 中,这些源数据可能包括多个数据库、数据立方体或一般文件。数据整合的一个 问题是模式集成,这涉及实体识别问题。数据仓库的元数据可以帮助避免模式集 成中的错误。数据整合的另一个问题是冗余。有些冗余可以被相关分析检测到, 另外元组的重复也应当进行检测。数据整合的第三个问题是数据值冲突的检测和 处理。这可能是因为表示、比例或编码的不同。 数据变换。指将数据转换成适合于分析的形式。涉及以下内容: - 平滑:去掉数据中的噪声。这种技术包括分箱、聚类和回归。 一 聚集:对数据进行汇总和聚集。这一步通常是用来为多粒度数据分析构 造数据立方体。 数据概化:使用概念分层,用高层次概念替换低层次数据。 _ 规范化:将属性数据按照比例缩放,使之落入一个小的特定区问。比较 常用的规范化方法有三种:最小最大规范化、z s c o r e 规范化、按 小数定标规范化。 _ 属性结构:构造新的属性并添加到属性集中,以帮助分析过程。 ( 3 ) 数据规约。用来得到数据集的规约表示,它小得多,但仍接近于保持原 数据的完整性。数据规约的方法有如下几种: 北京邮电大学硕士毕业论文 一数据立方体聚集。 _维规约,包括逐步向前选择、逐步向后删除、向前选择和向后删除的结 合以及判定树归纳等技术。 _ 数据压缩,包括两种常见的有损压缩技术:小波压缩、主要成分分析。 一数值压缩,包括回归和对数线形模型、直方图、聚类及选样等几种方法。 _ 离散化和概念分层产生。 3 2 2 后台子系统数据流图 在此,以本人所参与的某电信运营商电信企业b i 系统为例,说明在具体的 后台数据调度子系统中,数据的处理过程。 如图3 4 所示,为竞争对手分析而设计实现的后台数据调度数据流程图。 我们知道,各电信运营商通过电信企业b i 系统不仅想看到有关自身数据的 分析展现,对于竞争对手的经营情况也更是电信企业的各级领导们所关心的。虽 然在自身
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025浙江衢州市柯城区招聘公办幼儿园劳动合同制教师19人笔试参考题库附答案解析
- 2025浙江宁波市余姚市疾病预防控制中心(余姚市卫生监督所)招聘编外人员1人笔试备考题库及答案解析
- 2025东营市东凯中学招聘劳务派遣教师(25人)笔试模拟试题及答案解析
- 2025安徽医科大学附属安庆第一人民医院第二批招聘8人笔试模拟试题及答案解析
- 新产品手册及市场推广策略方案
- 历史专业本科生毕业论文
- 2025广西来宾市忻城县民政局招聘编外人员1人笔试模拟试题及答案解析
- 2025中国人口与发展研究中心编制内工作人员招聘2人考试参考题库附答案解析
- 2025广东广州市天河实验幼儿园招聘编外聘用制专任教师1人笔试模拟试题及答案解析
- 2025辽宁朝阳市北票市高中等教育招生考试委员会办公室北票市域内选调专业技术人员14人考试模拟试题及答案解析
- 《现场管理培训》课件
- 下颌骨骨折护理查房
- 基于无人机的公路平整度与车辙自动检测
- 医疗大数据共享平台
- 有限空间作业审批表
- 0.4kV不停电作业资质认证练习试题及答案
- 高一离子方程式书写专题训练及答案
- 北京市海淀区2020-2021学年七年级下学期期末历史试题(答案)
- 铲车司机安全生产岗位责任制
- 新媒体运营PPT完整全套教学课件
- 渝20TJ11 浮筑楼板隔声保温系统构造 难燃型改性聚乙烯复合卷材(蜂窝型)DJBT 50-143
评论
0/150
提交评论