




已阅读5页,还剩61页未读, 继续免费阅读
(计算机科学与技术专业论文)etl在反洗钱系统中的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
e t l 在反洗钱系统中的设计和实现 摘要 2 0 世纪中期以来,洗钱活动日益猖獗,给世界各国带来了严重 的损失和影响,因此,完善法律法规,建立反洗钱机制,通过科技 手段对银行交易数据的检查,发现洗钱等金融犯罪活动的线索,联 合其他监管机构对此类犯罪活动进行打击,是我国金融工作中一项 重要而紧迫的任务。然而,反洗钱系统从复杂、海量、异构的业务 数据中进行数据分析和处理,发现系统中存在的洗钱行为是相当困 难和低效的。目前我们需要做的工作就是利用e t l 技术,对业务数 据进行抽取、转换、清洗,并装载到反洗钱系统数据集市中,为反 洗钱系统提供干净、完整、正确的数据,提高反洗钱系统的性能, 以便快速高效的发现存在的洗钱行为。 基于此,本文主要介绍了e t l ( d a t ae x t r a c t ,d a t at r a n s f o r m ,d a t al o a d ) 技术 的概念和实现方式,分析了e t l 在反洗钱系统中的必要性和重要性。根据m 银行的反洗钱需求和实际的业务环境,进行包括数据模型和元数据管理在内的 e t l 的设计和实现,通过e t l 任务调度,实现了从业务数据到反洗钱系统数据 集市的数据抽取、数据转换和数据装载。目前本反洗钱系统已经运用于m 银行, 集成统一的数据,高效准确地帮助业务人员完成了业务数据的筛选和采集,极 大地提高了反洗钱工作的效率和质量。 关键词:e t l ,反洗钱,数据集市,元数据,数据模型 t h ed e s i g na n da p p l i c a t l 0 no fa n a n t i m o n e y l f w n d e r i n gs y s t e m b a s e do ne t l a b s t r a c t s i n c et h em i d d l eo f2 0 t hc e n t u r y ,m o n e y - l a u n d e r i n gh a sb e e nm o r o a n dm o r er a m p a n t ,w h i c hb r i n g sm u c hl o s i n ga n di m p a c t st oa l lo ft h e w o r l d i t sa ni m p o r t a n ta n du r g e n tm i s s i o nf o ro u rc o u n t r yf i n a n c ew o r k t o i m p r o v et h el a w ,e s t a b l i s ha n t i m o n e y - l a u n d e r i n gm e c h a n i s ma n d s t r i k ea g a i n s tt h e m o n e y l a u n d e r i n gc r i m et h r o u g h t h ei n f o r m a t i o n t e c h n o l o g ym e a n s h o w e v e r ,i t sv e r yd i f f i c u l t ya n dl o we f f i c i e n c yt o f i n dt h em o n e y 1 a u n d e r i n ga c t i o ni nt h ea n t i - m o n e y l a u n d e r i n gs y s t e m , w h i c ha n a l y s e sa n dd i s p o s e st h ed a t ai nt h ec o m p l e x ,a b u n d a n ta n d i s o m e r o u sb u s i n e s sd a t a n o ww en e e dt ou s et h ee 1 1 lt e c h n i ct oe x t r a c t , t r a n s f e r ,c l e a n ,a n dl o a d t h eb u s i n e s sd a t at ot h ed a t am a r k e to f a n t i m o n e y l a u n d e r i n gs y s t e m ,i no r d e rt op r o v i d et h ec l e a n ,i n t e g r i t y , a n da c c u r a t ed a t a ,i m p r o v et h es y s t e m sp e r f o r m a n c e ,a n df i n dt h e m o n e y 1 a u n d e r i n ga c t i o na ss o o na sp o s s i b l e a sm e n t i o n e da b o v e ,t h i sp a p e rd i s c u s s e dt h ee t l ( d a t ae x t r a c t , d a t at r a n s f o r i l l ,d a t al o a d ) t e c h n i cc o n c e p ta n d 圈几m a n n e r s ,a n a l y s e d t h ee t l se s s e n t i a l i t yi nt h ea n t i m o n e y l a u n d e r i n g ,a n dc o m p l e t e dt h e e t l sd e s i g na n da p p l i c a t i o ni n c l u d i n gt h ed a t am o d e la n dm e t a d a t a m a n a g e m e n tb y t h emb a n k sa n t i - m o n e y - l a u n d e r i n gd e m a n da n d b u s i n e s se n v i o r m e n t t h r o u g ht h es y s t e m s 酗几t a s ka t t e m p e r ,w e a c h i e v e dt h ed a t ae x t r a c t ,d a t at r a n s f o i t na n dd a t al o a df r o mb u s i n e s s d a t at ot h ed a t am a r k e ti nt h ea n t i - m o n e y - l a u n d e r i n g n o wt h e a n t i m o n e y l a u n d e r i n gs y s t e mw a sa p p l i e di nt h emb a n k ,w h i c hh e l p e d t h ep e r s o n n e l st of i l t e ra n dc o l l e c tt h eb u s i n e s sd a t ae f f i c i e n t l ya n d a c c u r a t e l y ,a n di m p r o v e d t h e e f f i c i e n c y a n d q u a l i t y o ft h e a n t i - m o n e y l a u n d e r i n gs y s t e m k e yw o r d s :e t l ,a n t i - m o n e y - l a u n d e r i n g ,d a t am a r k e t ,m e t a d a t a , d a t am o d e l 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京 邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的 同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢 意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 e t 期: 塑至:兰:兰芝 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规 定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大 学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可 以允许采用影印、缩印或其它复制手段保存、汇编学位论文。( 保密的学 位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非 保密论文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:童鳋墨 导师签名: 日期: 羔! ! ! :! :塑 日期:迦i :兰:! 篁 北京邮电大学硕士研究生学位论文 1 1 研究背景 1 1 1 e t l 介绍 第一章绪论 e t e ,e x t r a c t i o n - t r a n s f o r m a t i o n l o a d i n g 的缩写,中文名称为数据抽取、转 换和装载。 e t l 负责将分布的、异构的数据源中的数据:如关系数据、平面数据文件 等抽取到临时中间层,然后进行清洗、转换、集成,最后装载到数据仓库或数 据集市中,成为联机分析处理、数据挖掘的基础。 e t l 作为b l d w ( b u s i n c s si n t e l l i g e n c e ) 的核心和灵魂,能够按照统一的规则集 成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是 实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图, 数据是砖瓦的话,那么e t l 就是建设大厦的过程。e t l 包括三个方面:首先是抽取, 将数据从各种原始的业务系统中提取出来,这是所有工作的前提;其次是转换, 按照预先设计好的规则对抽取的数据进行转换,使得本来异构的数据格式能够统 一起来;最后就是装载,将转换好的数据按计划增量或者全部导入到数据仓库中 f l o 可以说,e t 雠传统的业务系统和数据仓库之间架立起了一座桥梁,确保新 的数据能够源源不断地进入数据仓库。虽然e t l 的技术含量相对来讲不算高,但 其涉及到大量的业务逻辑和异构环境,因此在一般的数据仓库项目中,e t l 部分 往往是牵扯精力最多的,一般来讲,开发e t l 要占到整个工作量的6 0 - 8 0 乜1 。 1 1 2 反洗钱介绍 洗钱犯罪自上世纪6 0 年代发现以来,日益成为国际有组织犯罪的伴生物, 世界各地的毒品和武器走私犯、跨国犯罪集团和恐怖主义分子都想方设法通过 “洗钱圩来隐瞒其不法钱财的来源,避免在使用过程中露出马脚,落入法网, 洗钱的手段和方法越来越多,其危害也越来越大。在一些国家,这些非法所得 有可能超过政府预算,从而导致政府经济失控,对一国的政治和经济安全构成 了很大威胁。因此,反洗钱是目前国际社会普遍关注的焦点和热点问题,一些 国家相继通过制定反洗钱法律制度、建立相应的组织机构和反洗钱工作机制打 第1 页 北京邮电人学硕上研究生学位论文 击洗钱活动。 反洗钱( a n t i m o n e y l a u n d e r i n g ) ,是指为了预防通过各种方式掩饰、隐瞒 毒品犯罪、黑社会性质的组织犯罪、恐怖活动犯罪、走私犯罪、贪污贿赂犯罪、 破坏金融管理秩序犯罪、金融诈骗犯罪等犯罪所得及其收益的来源和性质的洗 钱活动,依照本法规定采取相关措施的行为。 反洗钱对维护金融体系的稳健运行,维护社会公正和市场竞争,打击腐败 等经济犯罪具有十分重要的意义。洗钱是严重的经济犯罪行为,不仅破坏经济 活动的公平公正原则,破坏市场经济有序竞争,损害金融机构的声誉和正常运 行,威胁金融体系的安全稳定,而且洗钱活动与贩毒、走私、恐怖活动、贪污 腐败和偷税漏税等严重刑事犯罪相联系,已对一个国家的政治稳定、社会安定、 经济安全以及国际政治经济体系的安全构成严重威胁。“9 1 1 事件之后,国 际社会更加深了对洗钱犯罪危害的认识,并把打击资助恐怖活动也纳入到打击 洗钱犯罪的总体框架之中。针对目前国内国际反洗钱和打击恐怖主义活动所面 临形势,中国政府也加大了反洗钱的工作力度。人民银行也从组织机构和制度 建设以及加强监管方面加强反洗钱工作。于2 0 0 3 年1 月3 日中国人民银行颁 布了人民银行1 ,2 ,3 号令,加大金融机构对于反洗钱的监管力度。为了适应 反洗钱的需要,十届全国人大常委会第二十四次会议2 0 0 6 年1 0 月3 1 日下午 表决通过了中华人民共和国反洗钱法,自2 0 0 7 年1 月1 日起施行。中国人 民银行2 0 0 6 年1 1 月6 日第2 5 次行长办公会议通过了金融机构大额交易和 可疑交易报告管理办法嘲,2 0 0 6 年1 1 月4 日予以发布。2 0 0 7 年2 月,人民 银行反洗钱监测分析中心,下发了大额和可疑报告要素,及报告的数据接口规 范的相关文件,并于2 0 0 7 年3 月1 日可按新接口试报送。 1 2 e t l 在反洗钱系统中的重要性 虽然反洗钱引起了国际国内的重视,制定了相关的反洗钱法,但是对于金 融机构来说,反洗钱工作的开展和执行还是有着非常大的困难。主要体现在以 下几个方面: 1 海量数据:金融机构每r 的交易量是非常大的。例如,在我国的中型 的全国股份制商业银行每日的交易量大约是1 8 0 万笔。对于这1 8 0 万 笔的数据,如果通过人工筛选并且发现洗钱行为,几乎是不可能的。 2 业务数据的多平台:业务处于不同平台,不同数据源中不同关系数据 库中,发现洗钱行为常是对客户、账户、柜员等的发现和考察,要从 不同系统中,进行某个客户、账户、柜员的交易分析,以便发现洗钱 第2 页 北京邮电人学硕上研究生学位论文 行为,存在很大的难度。 3 处理效率:只对每日如此巨大的交易量进行分析,还不能满足发现洗 钱行为的要求。更多的洗钱行为还需要对多日,甚至是半年的数据进 行分析,才能发现洗钱行为。这样的需求,给反洗钱系统的设计带来 巨大的挑战。 4 由系统集成和历史数据造成的原因主要包括:业务系统不同时期系统 之间数据模型不一致;业务系统不同时期业务过程有变化;旧系统模 块在各业务系统之间相关信息的不一致;遗留系统和新业务、管理系 统数据集成不完备带来的不一致性这一系列的因素对反洗钱系统的实 现都是一个巨大的挑战。 从存在的问题中,我们可以知道,面对如此异构、复杂、海量的数据是反 洗钱系统设计和实现的基础和亟待解决的问题,要完善一个反洗钱系统,首先 就应该考虑如何解决数据问题,为反洗钱系统提供一个干净、完整、正确、无 重复信息的数据,才能作进一步的处理,提高系统效率。 合理对数据进行抽取、转换和装载是相当关键的一步。在反洗钱系统设计 中,由于业务数据系统比较零散和不统一,将很大程度上降低了系统的性能和 速度。因此,首先将设计一个反洗钱数据集市的数据模型,其次将重点对业务 数据进行分析,设计一个从业务数据系统到反洗钱数据集市的数据抽取、数据 转换、数据装载的过程,此过程就是在前面提到的e t l 过程。 一个良好的e t l 过程,需要考虑业务数据处理的要求,考虑数据传递过程 中如何解决这些多样性和不确定性,以及数据转换的复杂性等方面。e t l 的设 计是针对具体的应用相关的,针对不同的业务和分析模型有不同的e t l 要求。 因此,合理设计和实现e t l 过程,引入元数据管理的功能,将原始大量杂乱、 不符合反洗钱系统要求的数据,进行e t l 以后,转换成反洗钱系统所规定的数 据模型,并装载到数据集市中,有利于反洗钱系统进行后续的计算、处理和分 析,发现有问题的交易,即可能的洗钱行为,并对此交易相关的客户、账户等 一系列实体进行预警和监控,并完成反洗钱上报等操作,以实现一个健全、完 善、高效的反洗钱系统。 1 3 问题的提出 为加快与国际接轨,履行对国际组织的有关承诺,也是为维护我国的国际 形象,近年来,我国政府和相关部门加速了反洗钱立法和机制建设进程,要求 第3 页 北京邮电人学硕上研究生学位论文 提高对反洗钱工作重要意义的认识、完善反洗钱组织机构,建立健全内部协调 机制,并加大科技投入,尽快建成一套可以进行检索、分析和预警的可疑交易 监测系统,以降低人工操作成本和风险,提高反洗钱工作水平和效率。设计和 实现个完善的反洗钱系统是目前的重要工作。在做好此工作之前,就应该结 合具体客户的业务数据,进行分析,并按照反洗钱系统数据集市中数据模型的 要求设计数据转换的方法,实现e t l 过程,将干净、有效、规范的数据装载到 反洗钱系统数据集市中,以便进行反洗钱系统的后续处理,规则的计算等,对 可能存在的洗钱交易进行预警,监控等操作。因此,如何将分布的、异构的、 重复的业务数据装载到反洗钱数据集市中,这将是目前反洗钱系统中的一大难 点和重点问题。 这就需要根据反洗钱系统数据模型的要求,来设计和实现一种方案,完成 对业务数据的抽取、转换,并装载到反洗钱数据集市中,需要做到以下几点: 1 多业务系统源数据; 2 解决数据一致性和集成化问题; 3 确定数据抽取的时间,采取自动实现任务调度来进行数据抽取; 4 数据抽取方式将实现全量更新和增量更新; 5 实现批量的数据处理; 6 对历史数据进行保留; 7 具有灵活的扩展功能。 在本文中,我们推荐使用e t l 技术来实现以上要求,并设计元数据管理, 对业务源数据进行管理,以便系统进行高效数据抽取和转换,最大可能地提高 数据的质量,实现反洗钱系统监控和处理,及时发现洗钱行为。 本人在研究生学习期间,有幸参与了m 银行反洗钱系统的项目开发和实施, 根据m 银行业务数据和反洗钱数据集市数据模型要求,参与设计开发e t l 的设 计,并将其应用到反洗钱系统中。 1 4 主要研究内容 1 介绍e t l 技术 本文主要介绍了e t l 和相关知识:e t l 的逻辑架构,数据抽取、数据转换、 数据装载和e t l 作业控制服务;e t l 的三种实现方法:e t l 商业工具实现、代码 第4 页 北京邮电大学硕士研究生学位论文 编程方式实现和成熟工具产品与代码编程相结合的实现方法,以及数据仓库, 数据集市、元数据概念等。 2 反洗钱系统中e t l 的设计 本文主要介绍了反洗钱系统的背景,反洗钱系统总体设计和反洗钱系统中, e t l 过程概述和e t l 作业控制服务的介绍,并设计了元数据管理、数据模型、 e t l 过程和控制服务等。 3 反洗钱系统中e t l 的实现 本文主要介绍了反洗钱系统中e t l 的实现,主要包括实现过程中系统平台 的选择,e t l 执行过程、e t l 元数据管理和e t l 任务管理的实现的前台展现。 1 5 本文结构 本文共五章: 第一章绪论介绍了论文的研究背景,主要阐述了e t l 和反洗钱的概念,e t l 在反洗钱系统中的地位,提出了本文要论述和解决的问题; 第二章介绍了e t l 技术的理论知识和e t l 的三种实现方式,介绍了常用的 e t l 商业工具,以及数据仓库、数据集市、元数据等相关知识; 第三章介绍了反洗钱系统概述,详细介绍了本人参与的反洗钱系统中e t l 的设计模块; 第四章介绍了反洗钱系统中e t l 的实现和相应模块的前台展现; 第五章对本论文的工作做了总结和展望。 第5 页 北京邮电人学硕十研究生学位论文 2 1 e t l 介绍 2 1 1e t l 简介 第二章e t l 综述 e t l ( e x t r a c t t r a n s f o r m 功a d 的缩写,即数据抽取、转换、装载) 作为b i d w ( b u s i n e s si n t e l l i g e n c e ) 的核心和灵魂,是建立数据仓库中最重要的处理过程之 一,它涉及形形色色的环境,采用多种技术手段,将数据从各种不同的操作型 数据源提取出来,负责完成数据从数据源向目标数据仓库转化的过程,是实施 数据仓库的重要步骤。 在提出与e t l 相关的关键问题之前,先简单介绍一下功能步骤:对于最初 的大量刷新和追加的数据装载来说,他们的顺序应该是追加的变化的触发、更 新和增量装载的过程、数据抽取、转换、整合、清洗、以及应用到数据仓库中 去。下图2 - 1 是一个数据仓库e t l 的参考图: 决定所有的数据源,包括内部和外部 决定数据仓库中需要的所有的目标数据 图2 - ie t l 处理过程中的主要步骤 将几个源数据结构组合成数据仓库目标数据库中的行。 将一个源数据结构分成若干个结构后放入目标数据库中的若干行。 第6 页 北京邮电人学硕上研究生学位论文 从源系统的数据字典和目录中读取数据。 从多种文件结构中读取数据,包括平面文件、索引文件、旧系统数据 库。 装载大量原子事实表的细节。 为大量聚集表或事实表做聚集。 将数据从源系统平台上的一种格式转换成目标平台上的另一种格式。 得到输入字段的目标值( 例如:从出生日期得到年龄) 。 将晦涩的数值改变成对用户有意义的值。( 例如:将1 和2 转变成男性 和女性) 基础层设计。 2 1 1 i逻辑架构 图2 2e t l 过程逻辑架构图 上图2 2 抽象地描述了一般e t l 过程的架构,从操作型的数据源,经过数据中 转区,最后到达数据仓库或数据集市的数据处理过程h 1 。 底层是整个e t l 过程中都涉及到的数据存储层: 数据源( o d s ) 左边是数据源的提供者,事务系统是业务信息的显见来源。源系统数据存储 类型由源系统规定。如一般的关系型数据库,平面文件或是e r p 系统等。理解源 系统的本质对于创建d w 结构、e t l 过程结构等非常关键。各种工具、连接和服务 都部分依赖于数据的来源以及输出的数据内容。 数据中转区( d s a ) 第7 页 北京邮电大学硕十研究生学位论文 中部是数据中转区( d a t a s t a g i n g a r e a - d s a ) ,是数据准备的工作台。数据中 转区的作用主要包括:1 ) 可快速接受数据采集系统传过来的大量数据,缩短数据 采集时间,减少数据采集对应用系统的冲击:2 ) 实现对多个数据源的统一数据采 集,提高了采集数据的可靠性、一致性:3 ) 暂时保存了要装载的数据,避免了数 据转换系统对数据源的直接操作,减少了对数据源的影响:4 ) 对数据进行转换清 洗的操作。在这里是大部分数据转换的地方,也是产生大部分数据仓库增值的地 方。如代理键的转换,在整个企业中都是有用的,只要执行一次就很有意义。 数据仓库( 或数据集市) ( d wo :r 蹦) 右边的是数据仓库包括维度表与事实表的存储,数据仓库的数据结构是根据 用户分析的主题需要来组织的,将所有数据组合为对组织的单一而又有相关性的 视图。 图2 - 2 展示了e t l 过程中三个数据的存储层。e t l 过程的数据的移动过程: o d s - d s a - d w 。每一层数据是存在一个依赖关系,最上层描述的是e t l 的活动过 程,通过抽取程序,把所选的数据源的当前快照或者捕获数据源数据变化,按需 求追踪和充实新数据,抽取并挑选出数据,首先传送到数据中转区,根据目标的 要求,按照一定的规则把数据进行转换和清洗,合并后,并把结果通过装载程序 刷新或更新到数据仓库的事实表与维度表中。e t l 过程保证来自不同系统、不同 格式的数据和信息模型具有一致性和完整性,并按要求装入数据仓库。从不同异 构数据源流向统一的目标数据。其间,数据的抽取、清洗、转换和装载形成串行 或并行的过程。e t l 的核心还是在于t 这个过程,也就是转换,而抽取和装载一般 可以作为转换的输入和输出,或者,他们作为一个单独的部件,其复杂度没有转 换部件高。 我们主要关心的问题是要解决在适当的时间通过适当的转换,将数据从a 点正确地转移到b 点。了解如何将数据存储联系起来,帮助确定e t l 活动过程 中需要包括哪些内容,发现各种元素的范围。实际需要的数据存储依赖于业务 需要以及提取和转换处理的复杂性。 下面就从数据抽取、数据转换、数据装载这三个方面进行简单的介绍说明。 2 1 1 2 数据抽取( e x t r a g t ) 数据抽取是从数据源获取符合需要的数据的过程。主要是针对各个业务系统 及不同网点的分散数据,充分理解数据定义后,规划需要的数据源及数据定义, 制定可操作的数据源,制定增量抽取的定义。数据抽取过程会过滤掉数据仓库中 第8 页 北京邮电人学硕士研究生学位论文 不需要的源数据字段,并进行格式和类型转换。 抽取模式 在数据仓库创建过程中一般有两种抽取的模式: 1 完全刷新:对移入中间数据库的数据进行完全复制。该复制可能替换 数据仓库中的内容,及在新的时间点上添加完整的新副本,或者与目 标数据进行比较,以便在目标中生成一条修改记录。 2 增量更新:只捕获源数据中修改的数据,如何捕获数据修改与数据源 本身是密切相关的,实际上是逐个实现的问题。 压缩解压 当打算长距离传送大量数据时,数据压缩是提取流程中的重要功能。利用 压缩功能可以节约1 3 到1 2 甚至更多的传输时间。 加密与解密 当打算长距离传送大量数据时,数据的传输安全也是提取流程中的重要功 能。在传输前,对数据或数据文件进行适当的加密,是非常有必要的。 2 1 1 3 数据转换( t r a n s f e r ) 数据转换是指对从业务系统中抽取的源数据根据数据仓库系统模型的要 求,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格 式数据的一致性和完整性,并按要求装入数据仓库。数据转换中的一个重要任 务就是提高数据质量。 选择:数据转换过程的开始部分,选择是从源系统得到的整个记录或者部 分记录,选择的任务通常构成了抽取功能本身的一部分,但是有时,源结构可 能不会很适合数据抽取期间的必要部分的选择,在这种情况下,就应该先抽取 整个记录,然后将选择工作作为数据转换的一部分来进行1 1 1 。 分离合并:在数据转换过程中对部分源记录进行进一步分离的操作,在数 据仓库环境中,对很多源系统中选中部分的合并操作,是更加普遍的现象。 转化:包括多种对单独字段的基本转化,有两个主要原因:一是在数据转 换中对不同源系统进行标准化;二是使这些字段对用户来说可用和可理解。 集成:集成是将业务数据从一个或几个源中取出,并逐字段地将数据映射 到数据仓库上新的数据结构,结合成一个新的实体。集成包括生成代理键,将 各种键从一个系统映射到另一个系统,并将代码映射到完全描述。还包括负责 第9 页 北京邮电大学硕十研究生学位论文 维护转换过程中的主键检查。 参照完整性检查:指某个表中的数据与另外一个表的数据相匹配。参照完 整性检查可以在数据库层面上管理,但这样做会降低灵活性,所以作为转换处 理的一部分。它只是不允许装载数据。 数据类型转换:包括将某种数据类型( 或格式) 转换到另外一种数据类型( 或格 式) ,如i b m 大型机字符集e b c d i c 转换成a s c i i 码格式,从某个数据库将日期、 数字,字符表示形式转换到另一个数据库中。 计算、导出、分配:这些都是运用在需求处理过程中确定的业务法则而进行 的各种转换。包括字符串操作,日期,时间的算术运算、条件语句以及基本的计 算等功能。 数据聚集:对数据按照不同分组进行汇总等统计计算。对于事实表中的度量 字段,他们通常是通过数据源一个或多个字段运用聚集函数得来的,这些聚集函 数为s q 珠准中,包括s u m 、c o u n t 、a v g 、m i n 、m a x 。 空值:因为许多传统系统中无法表示空值,程序员就采取一些不可能发生的 值对空值进行填空,从源中提取数据时,这些空值的替代值看上去与合法值一样, 会使分析人员误解:所以必须识别这些空值的替代值,并制定出在数据库中处理 空值的规则。 2 1 1 4 数据装载( l o a d ) 装载经转换和汇总的数据到目标数据仓库中,可实现s q l 或批量装载。数据 装载策略包括装载周期和数据追加策略。装载过程中应该避免生成日志,利用成 批的转载功能( 比如,创建索引和聚集等) 。 初始装载:第一次对所有的数据仓库表进行迁移; 增量装载:根据需要定期应用运行过程中发生的变化; 完全刷新:完全删除一个或多个表的内容,并重新装载新的数据( 初始装载 是对所有表的刷新) 。 在初始装载后,可以通过两个方法对数据仓库进行维护并保持其数据最新: 更新:对数据源中增加的变化的应用; 刷新:在特定周期中完全的重新装载。 第1 0 页 北京邮电大学硕+ 研究生学位论文 2 1 1 5 e t l 作业控制服务 e t l 处理过程是分为前面提到的数据抽取、数据转换、数据装载三个阶段, 而要完善整个e t l 的实施,还将考虑到e t l 作业控制服务的,这个服务是通过 一些独立作业控制环境来进行管理的,它包括如下内容: 定义作业 定义一组作业的步骤,并且指明作业之间的各种关系,即是写入数据仓库的 流程。指定的表装载失败,将会影响到是否装载依赖该表的其他表。 作业调度 提供类似于基于时间和事件的调度,包括监控数据库标识,检查现有文件或 比较创建日期。 监控 系统提供有关装载步骤,开始时间和进行多长时间等信息,告诉用户e t l 过 程系统执行了那些步骤,提供了每个处理的平均时间报告等。 创建日志 指收集有关整个装载处理的信息,当作业执行出错时,日志信息会支持某个 处理过程的恢复和重启。 异常处理 在某些时候,装载处理可能会使用带有不正确数据类型的记录,或者没有参 照完整性检查。系统需要有一个地方来存放所有被拒绝的行,可接受的错误数以 及合理的退出方式。 错误处理 在e t l 过程中必须规划好不可恢复的错误情况,提供灾难恢复、终止和重启 的功能,减少灾难带来的影响。 通知 这种功能的重要性与用户数量及其数据仓库的依赖程度紧密相关。 2 1 2e t l 实现 目前在e t l 过程中经常采用三种方法,第一种是借助专业的e t l 商业工具实 现;第二种是代码编程方式实现;第三种是e t l 商业工具与代码编程相结合, 下面进行介绍。 第1 1 页 北京邮电大学硕士研究生学位论文 2 1 2 1 e t l 商业工具实现 e t l 商业工具主要通过专门的工具实现数据的抽取、转换、装载的功能, 借助工具可以快速的建立起e t l 工程,屏蔽复杂的编码任务,提高速度,降低 难度、可扩展性强、安全稳定等,但缺少灵活性,前期需要投入大量的成本嘲。 选择e t l 商业工具时,主要考虑以下几个方面:对平台的支持、对数据源 的支持、数据转换功能、管理和调度功能、集成和开放性、对元数据的管理等。 e t l 商业工具中典型的代表产品有i n f o r m a t i c a 的p o w e r c e n t 、a s c e n t i a l 的d a t a s t a g e 、o r a c l e 的o w b 、m i c r o s o f ts q l s e r v e r 2 0 0 5 的s s i s 服务等。 i n f o m a t i c a 介绍 i n f o r m a t i c a w 直致力于为客户提供具有强大的元数据管理、数据集成和个 性化分析递送功能的世界通行标准的数据综合平台n 。 产品特点: 1 ) 图形化设计,无需编码,快速开发和部署; 2 ) 积极、开放的元数据,跟标准兼容( c 1 j i m ) ( i i i ) ; 3 ) 对广泛数据源的支持和通用的数据连通性; 4 ) 对实时数据源的支持; 5 ) 先进的会话管理、工作流机制; 6 ) 高性能和负载均衡( 多服务器、并发、分区、s e r v e rg r i d 等) ; 7 ) 可扩展及分布式的体系结构; 8 ) 国际化支持,可处理任何字符集; 9 ) 对数据质量和数据清洗的支持; 1 0 ) 支持各种平台:w i n d o w s 、u n i x 操作系统; 11 ) 开放性,提供a p i s 和s d k 。 i b md a t a s t a g e 介绍 i b mw e b s p h e r ed a t a s t a g e ( 下面简称为d a t a s t a g e ) 为整个e t l 过程提 供了一个图形化的开发环境,它是一套专门对多种操作数据源的数据抽取、转换 和维护过程进行简化和自动化,并将其输入数据集或数据仓库的集成工具口1 。 第1 2 页 北京邮电大学硕上研究生学位论文 产品特点: 1 ) 直接连接多种的数据源,包括:文本文件、x m l 文件、企业应用程序; 几乎所有的数据库系统:比如d b 2 、o r a c l e 、s o ls e r v e r 、s y b a s e a s e i o 、t e r a d a t a 、i n f o r m i x 等以及可通过o d b c 连接的数据库、w e b s e r v i c e s 和s a s 、w e b s p h e r em q : 2 ) 支持多国语言; 3 ) 支持并行运行力; 4 ) 便捷的开发环境:d a t a s t a g e 的开发环境是基于c s 模式的,通过 d a t a s t a g ec l i e n t 连接到d a t a s t a g es e r v e r 上进行开发。这里有一 点需要注意,d a t a s t a g ec li e n t 只能安装在w i n d o w s 平台上面( 在 w i n 2 0 0 0 x p 上运行过) 。而d a t a s t a g es e r v e r 则支持多种平台,比 如w i n d o w s 、s o l a r i s 、r e d h a tl i n u x 、a i x 、h p - u n i x ; 5 ) 命令行形式的运行:e t lj o b 支持在d a t a s t a g es e r v e r 侧用命令行形 式的调用,可以用d s a d m i n 命令来管理d a t a s t a g e 的p r o j e c t ,包括 p r o j e c t 的新建,删除以及一些环境变量的增删( d a t a s t a g e7 5 1 下 未能通过d s a d m i n 来设置全局n l s 和一些项目属性) 。使用d s j o b 命令, 能够同步或非同步的运行d a t a s t a g e 的j o b ,并传递需要的j o b 参数, 能够检查j o b 运行的状态,并能恢复j o b 的运行状态。 0 耶o r a c l ew a x e h o u s eb u i l d e r 介绍 o r a c l ew a r e h o u s eb u il d e r 是用于全方位管理数据和元数据的综合工具。它 提供对数据和元数据的数据质量、数据审计、完全集成关系和维建模以及整个生 命周期的管理。 产品特点: 1 ) 提供提取、转换和装载( e t l ) ; 2 ) 整合来自不同数据源的数据: 3 ) 从原有系统中移植数据; 4 ) 分析和审计数据质量; 5 ) 关系和维结构数据建模; 6 ) 设计和管理公司元数据; 第1 3 页 北京邮电大学硕。 :研究生学位论文 7 ) 清理数据以提供质量信息。 m ic r o s o f ts q l s e r v e r 2 0 0 5s si s 介绍 s q ls e r v e ri n t e g r a t i o ns e r v i c e s 提供了构建企业级数据整合应用程序所 需的功能和性能引。 产品特点: 1 ) 开发环境:直观的开发界面被集成在b u s i n e s si n t e l l i g e n c e d e v e l o p m e n ts t u d i o 中。在s t u d i o 中,还可以构建与分析服务、报 表服务共享的解决方案,包括源控制、元数据整合等: 2 ) 可视化调试;有了可视化调试的功能,开发人员的工作效率能够达到 一个更高的水准; 3 ) 支持多种数据源的数据连接; 4 ) 高效率转换:在s s i s 中包含了许多有效的组件,用于数据和字符相互 转化、计算列、用于分区和筛选的条件操作符、查找、排序、聚集以 及合并等。高级组件简化了其他复杂的操作; 5 ) 可靠性。 2 1 2 2 代码编程方式实现 通过代码编程的方式实现e t l ,目前在我国占有8 0 左右的市场占有率哺1 。 其最大的优点在于有较高的灵活性、提高e t l 运行效率、低成本、能够快速达 成项目功能需求、满足复杂的业务处理、具有较好的扩展性等。但也有一些不 足的地方,比如编码复杂,对技术要求比较高;往往以项目为单位进行,标准 化和规范性均较差等。常用的编程方法有:p b 、j a v a 、s o l 、存储过程、c c + + 等。在反洗钱系统中,主要通过代码编程方式实现,其中代码编程是通过存储 过程进行的,由于项目实旌比较单一,相对有较大的优势。 2 1 2 3e t l 商业工具与代码编程相结合 e t l 商业工具与代码编程相结合的实现方式,此实现方法结合了e t l 商业 工具和代码编程两种方法的优势,实现e t l 功能,整体上提高了e t l 的开发 速度和效率,并提高了灵活性。 第1 4 页 北京邮电大学硕+ 研究生学位论文 2 2 e t l 相关知识介绍 e t l 是一种数据处理的过程,正如前面章节所提到的,它实现的是数据从 原始业务数据系统到目标数据系统的数据抽取、转换和装载的过程,它是对数 据的处理。因此,e t l 中所用到的数据是如何存储的将是我们关心的话题,下 面将对e t l 设计到的相关的概念进行简单介绍。 2 2 1 数据仓库 数据仓库是数据分析和决策支持的理想环境,它包括从多个异构数据源经 过抽取、清洗、汇总、转化,按一定的数据模型加载到个集成的数据中心环 境全过程,企业管理人员,分析人员可以在这个环境下发掘有价值的信息。数 据仓库之父b i l li n m o n 对数据仓库的定义为:“数据仓库是为支持管理决策建 立的、面向主题的、集成的、稳定的,随时间变化的数据集合。 n 5 】【翻 对于数据仓库的概念,我们可以从两个层次予以理解。首先,数据仓库用 于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次, 数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包 含历史数据,而且存放在数据仓库中的数据一般不再修改。 根据数据仓库概念的含义,数据仓库拥有以下四个特点: 面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之 间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个 抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题 通常与多个操作型信息系统相关。 集成的:面向事务处理的操作型数据库通常与某些特定的应用相关,数据 库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的 数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除 源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局 信息。 相对稳定的:操作型数据库中的数据通常实时更新,数据根据需要及时发 生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是 数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就 是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定 期的加载、刷新。 第1 5 页 北京邮电大学硕卜研究生学位论文 反映历史变化:操作型数据库主要关心当前某一个时间段内的数据,而数 据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时刻( 如开始应 用数据仓库的时刻) 到目前的各个阶段的信息,通过这些信息,可以对企业的发 展历程和未来趋势做出定量分析和预测。 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基 础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者, 供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把 信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的 根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,也是一个过 程。 2 2 2 数据集市 对数据仓库而言,灵活性和性能( 速度) 是一对矛盾体,要保障灵活性以 满足尽可能多用户的查询需求会影响整个数据仓库的性能。为了解决灵活性和 性能之间的矛盾,数据仓库体系结构中增加了数据集市:一种小型的部门或工 作组级别的数据仓库。数据集市存储为特定用户预先计算好的数据,从而满足 用户对性能的需求。数据集市也可叫做“小数据仓库 n 训。 数据集市主要分为两种类型:独立型数据集市和从属型数据集市。独立型 数据集市直接从操作型环境获取数据,从属型数据集市从企业级数据仓库获取 数据。数据仓库规模大、周期长,一些规模比较小的企业用户难以承担。因此, 作为快速解决企业当前存在的实际问题的一种有效方法,独立型数据集市成为 一种既成事实,它是为满足特定用户( 一般是部门级别的) 的需求而建立的一 种分析型环境,它能够快速地解决某些具体的问题,而且投资规模也比数据仓 库小很多。 多个独立的数据集市的累积,是不能形成一个企业级的数据仓库的,这是 由数据仓库和数据集市本身的特点决定的。数据集市为各个部门或工作组所用, 各个集市之间存在不一致性是难免的。因为脱离数据仓库的缘故,当多个独立 型数据集市增长到一定规模之后,由于没有统一的数据仓库协调,企业只会又 增加一些信息孤岛,仍然不能以整个企业的视图分析数据。 2 2 3 元数据 第1 6 页
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南大校区围堰工程施工方案
- 民宿管理面试题库及答案
- 2025年教师招聘之《小学教师招聘》题库必刷100题含答案详解【典型题】
- 教师招聘之《小学教师招聘》综合提升试卷及答案详解【考点梳理】
- 2025年教师招聘之《幼儿教师招聘》每日一练试卷附参考答案详解(夺分金卷)
- 2025年教师招聘之《幼儿教师招聘》每日一练试卷附参考答案详解(能力提升)
- 教师招聘之《小学教师招聘》综合提升练习试题含答案详解【黄金题型】
- 2025年艾梅乙培训试题(含答案)
- 共青餐饮联合整改措施
- 教师招聘之《幼儿教师招聘》考前冲刺练习试题含答案详解(巩固)
- GB/T 36713-2018能源管理体系能源基准和能源绩效参数
- GB/T 17769-1999航空运输集装器的管理
- 药品注册审评员考核试题及答案
- 机器人常用手册-系列中文版-epx2900a00使用说明书
- 小学硬笔书法课教案(1-30节)
- optimact540技术参考手册
- 光伏电站组件清洗周边除草治理方案
- 建筑面积测绘报告范本
- 校园物业考评表
- 2019版外研社高中英语选择性必修三单词默写表
- 核质保监查员考试复习题(答案)
评论
0/150
提交评论