




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.上海浦东发展银行 上海浦东发展银行基于数据仓库的数据集市解决方案文件状态: 草稿 正在修改 正式发布文件标识:SPDB-DATAMARKS当前版本:V1.5作 者:完成日期:2007-08-09版 本 历 史版本/状态作者参与者起止日期备注1.02007-7-271.12007-08-021.22007-08-021.32007-08-061.42007-08-081.52007-08-09目 录1系统综述52总体解决方案52.1基于数据仓库建立数据集市52.2系统逻辑框架72.2.1原业务系统逻辑框架72.2.2架设统一数据集市后的系统逻辑框架82.3数据集市模型概述102.3.1统一数据
2、集市模型概述102.3.2ODS数据模型概述112.4系统数据流程112.5数据存储方案122.6数据仓库到ODS的ETL数据采集方案122.7ODS到数据集市转换方案132.7.1公用数据部分132.7.2应用特有数据部分132.8应用时间窗口的解决方案132.9后续应用对原应用的影响分析142.10外部接口方案172.10.1数据仓库接口172.10.2外部系统接口172.11实施方案182.11.1工作界限划分182.11.2实施方法192.11.3实施计划242.12系统软硬件建议262.12.1系统硬件262.12.2系统软件273系统建设目标271 系统综述上海浦东发展银行数据仓库
3、的建设目前已经初具规模,随着相关数据逐步积累,数据仓库的资源已经完全可以满足各类分析系统的数据需求,按照浦发银行的技术架构,数据集市的建设已经迫在眉睫。数据集市的建立可以解决各系统数据获取得问题,并在集市范围内得到最大程度的共享,数据集市可以根据各系统的数据需求,建设成一个高度整合的业务系统数据平台,经过整合后的数据便于应用的掘取、操作,发挥最大的效能。数据集市的建立可以有效缓解数据仓库时间窗口的争用问题,加快各系统数据获取的速度。同时统一的数据集市可以有效解决信息不对称等多方面的问题,而且方便将来的统一管理,降低费用,提升效能、增进安全,使得行内系统整体架构更加合理化、科学化。2 总体解决方
4、案2.1 基于数据仓库建立数据集市随着反洗钱系统、运行内控系统、审计系统等项目的启动,各个系统的技术架构必然都统一规划为从数据仓库获取数据。数据仓库的建设是以数据的整合、历史存储为主,数据本身无法直接满足各类应用的需求,并且过多的应用直接访问数据仓库的并发需求对数据仓库造成的负荷是很严重的,按照总体架构科学化、合理化以及本着行内应用架构统一规划的大原则,建设统一数据集市的要求变得非常迫切,整个建设范围总体上包括统一的ETL过程、统一的ODS模型和统一的数据集市模型,以满足外围应用系统数据的需求,规范化以及合理化应用的系统框架。按照浦发银行技术架构,数据仓库的建设采用“自顶向下”的建设思路,即首
5、先建设全行统一的数据仓库,在数据层面对全行数据进行整合,做到各类数据的完整、统一、准确、规范;再从业务层面,基于数据仓库建设各类应用的数据集市,满足应用的需求。数据仓库的数据来源于各类业务系统及外部数据;数据集市的数据来源于数据仓库;各类应用的数据源来自数据集市。从数据的采集路径与环节看,路径清晰,环节简单,对原系统影响很小。数据集市的数据单一来源于数据仓库,系统的安全性比较高,并且避免了重复的数据整合与转换工作。因此浦发银行数据集市的建立必须基于数据仓库完成。2.2 系统逻辑框架2.2.1 原业务系统逻辑框架原业务系统都具有一个ODS数据库和DM数据集市,ODS用以装载从数据仓库采集的数据,
6、保证数据完整后再导入DM中供系统分析和使用,ODS的作用是起到一个缓冲,当从数据仓库中采集的数据由于种种意想不到的原因出现部分数据不完整等情况时不会影响到当前应用系统的数据正确性,避免出现计算结果无法从业务上得到解释的情况发生。存在的问题:1) 数据仓库窗口征用,各业务系统数据来源都来自数据仓库,且数据量大,将大量占用数据仓库留给业务系统抽取数据的时间窗口,并且各应用抽取数据中存在重复数据部分,若能将ODS进行整合,势必减少数据抽取总量,从而减少数据抽取总时间花费;2) 繁多的ETL工程,对于每个应用必须单独开发ETL工程取数,当应用不断增加,开发和维护ETL工程将变成不小的负担,如果能从设计
7、上合理规划ETL过程达到各应用共用的目标,就可以减少ETL过程的数量;3) ODS数据冗余,各业务系统都拥有一个ODS数据空间,且以面向应用的形式存储,造成空间的冗余;4) 各DM存储的数据未最大程度利用,由于各业务系统需要用到一些相近甚至相同的数据,所以各业务系统的DM中必然都存储着这些数据的”副本”,如果能够互相访问这些数据,那么可以节省存储空间。2.2.2 架设统一数据集市后的系统逻辑框架建设统一的ODS逻辑数据结构,从数据仓库中采集的数据首先将进入统一的ODS数据空间中,数据通过完整性和一致性验证后再进入统一数据集市,统一数据集市将数据在逻辑上分为各应用系统特有数据和应用系统公用数据,
8、在物理上存储在统一的数据空间中,而应用系统的数据源直接应用于统一数据集市上。此框架中统一数据集市采用SybaseIQ,利用其成熟的功能,可以设置多个数据库引擎(节点)连接同一个数据存储,而各个逻辑数据部分通过不同的用户进行访问,由于SybaseIQ仅支持1个可读写节点,所以需要将应用系统中的写操作和读操作分别连接相应的节点以达到良好的性能,后期可以扩展多个只读节点,解决CPU和内存的瓶颈问题,使前端应用系统的查询等功能得到更快的响应。解决的问题:1) 减少数据仓库窗口占用时间,整合ODS以后,装载数据的过程被统一成1个,当后续增加新的系统应用时,只需要扩展ODS模型结构,整个ETL过程仍然是唯
9、一的;2) 减少ODS的冗余,整合ODS后,原先的多个ODS重复数据占用的存储空间被释放,同时由于数据在ODS中基本以面向主题的方式存储,冗余较小;3) 最大程度的利用数据资源,整合DM以后,将划出公用数据部分,供所有应用系统共同使用,这部分数据在存储中仅有1份,结合各应用特色部分数据,确保了各应用系统的数据是完整的,在 SybaseIQ中,各部分数据通过不同的用户来区隔,通过灵活配置用户权限来达到安全性的要求,这种结构同时可以很好的利用SybaseIQ在I/O方面的优势;4) 良好的扩展性,当后续增加应用时,仅需要扩充ODS和统一数据集市模型以及ETL过程,并不会影响到原有系统。2.3 数据
10、集市模型概述2.3.1 统一数据集市模型概述统一数据集市模型将基于反洗钱、运营内控、非现场审计3个应用的数据需求进行概要公用数据模型设计,未来在应用的扩充上以数据需求为驱动在模型上进行丰富和扩展,公用数据模型设计的基本原则是能使后续应用能够很好的融入这部分模型。数据集市模型分为4个部分:1) 公用数据部分,主要包括:客户信息、帐户信息、交易流水等公用属性部分,以及地址(国家、地区、省份)、产品、机构和代码表等;2) 运营内控特有数据部分,主要包括:指标数据、预警结果、预警规则配置数据等;3) 非现场审计特有数据部分,主要包括:统计数据、审计预警等;4) 反洗钱特有数据部分,主要包括:指标结果、
11、衍生数据等。注:具体数据模型需待分析各应用数据模型后才能完整提出。2.3.2 ODS数据模型概述ODS数据模型采用面向主题的方法,按照第三范式规则进行设计,原则上与数据仓库模型类似,减少数据的冗余,达到数据临时存储进行缓冲的目的,同时可以减少甚至避免ETL在抽取过程中的转换过程,减少数据仓库时间窗口的征用时间。2.4 系统数据流程1) 数据集市的建立是由实际的业务需求驱动的,随着各类业务需求的提出,数据集市的建立会逐渐完善。2) 数据集市会根据数据仓库的实际情况,对业务需求进行分析,明确业务满足度;3) 在数据集市需求分析期间,数据仓库提供充分的支持,并验证分析结果(业务模型与数据仓库模型的映
12、射)的正确性;4) 如果部分数据需求在当前数据仓库中没有,而在源系统中存在,建议数据仓库对这部分数据进行加载,使得获取数据的统一来源是数据仓库,保持架构的统一;5) 数据集市按照分析结果,将数据整合进数据集市模型,并由业务系统验证数据的正确性;6) 进入生产阶段,数据集市每日会根据各个业务系统的综合需求进行数据的抽取。2.5 数据存储方案从数据仓库采集数据到ODS过程中,将尽量减少转换等操作,以减少数据仓库的征用时间,从ODS到统一数据集市过程中再进行衍生数据等的计算,之后数据集市保存各应用需要的数据,而ODS中的数据在保存一段时间后将被删除。1) 数据集市数据获取以增量方式为主,对无法判断增
13、量的数据以全量方式获取;2) 数据在ODS中保留N天的时间(具体保留时间需要视应用需求而定),以达到对业务系统数据提供的缓冲,同时避免当各个系统补数据时反复地从数据仓库中抽取数据;3) 每日从数据仓库获取的数据在ODS中以切片方式保存,在系统频繁增删的情况下可以保持系统的高性能,避免产生大量数据碎片;4) ODS的数据空间要留有足够的冗余,以满足业务系统全量初始化的需求。2.6 数据仓库到ODS的ETL数据采集方案在应用业务数据需求通过数据仓库验证后,数据集市小组需要开发从数据仓库采集数据到ODS数据模型的ETL工程,通过优化和调试,确保ETL过程是高效率、高稳定的,主要目标减少对数据仓库时间
14、窗口的占用,ETL过程将减少转换的过程。为了便于ETL过程批量加载,设计和开发ETL过程应避免依赖性,这样在调度策略上可以更加灵活。随着基于数据集市的应用的增多,对于资源以及时间窗口争用的矛盾会变得突出,在ETL过程调度策略上根据实际情况对各应用进行优先级排序,在ETL过程和ODS到数据集市的转换过程中避免应用间的依赖性,减少耦合性,这样通过2个方面加快应用获取数据的效率:1. 批量优先加载优先级高的应用所需要数据的那部分ETL过程;2. 采用在ETL过程和ODS到数据集市的转换过程分步并行的方式,以保障优先级高的应用对于数据需求时间点的要求。例如:由于运营内控应用对于数据的需求时间点要求最高
15、,可以优先加载运营内控需求数据的这部分ETL过程,一旦满足运营内控需求部分的源数据到达ODS,便激活ODS到数据集市转换过程关于运营内控部分的脚本,而ETL过程并不停止,执行脚本的过程可以充分利用ETL数据加载过程中闲置的CPU和内存资源。2.7 ODS到数据集市转换方案2.7.1 公用数据部分由于公用数据部分不涉及业务逻辑、算法等,也不包涵过多的转换等操作,所以ODS到数据集市公用数据模型部分转换脚本由数据集市小组统一进行开发和验证,结果与应用之间进行确认。2.7.2 应用特有数据部分各应用特有数据模型部分转换涉及到业务逻辑和算法,数据集市公布ODS数据接口和数据集市模型接口,由各应用定制完
16、成特有数据部分的转换,在这个过程中数据集市小组提供各应用足够的支持。2.8 应用时间窗口的解决方案在整体框架中,应用系统获取数据需要有2步:1. 数据从数据仓库抽取到ODS中;2. 再从ODS通过脚本转换到数据集市中。如果后续需要添加应用到数据集市模型中,那么对于这2步产生的时间窗口影响是完全不同的。对于第1步数据从数据仓库抽取到ODS过程,随着应用的增加,一般数据的抽取量会增加,势必将延长抽取耗费的时间,但是由于统一ODS模型中会含有后续应用所需要的部分数据,所以总抽取数据量小于两边数据量之和,另外由于ETL工具DataStage支持并行抽取,可以通过多台硬件服务器节点同时抽取数据,在开发合
17、理的情况下可以显著减少抽取总时间花费。对于第2步,由于数据进入ODS以后通过脚本转入数据集市中是在SybaseIQ内部进行,SybaseIQ素以I/O消耗小而著称,所以这步的时间消耗主要受CPU和内存的影响。由于各个应用之间没有依赖性,故可以通过执行脚本的先后来满足各应用之后的时间需求。通过分析,可以预见时间窗口问题需要在整个解决方案中进行规划,并需要与数据仓库沟通寻求解决办法。2.9 后续应用对原应用的影响分析以上图例表示单一应用X的获取数据的时间描述Ø 状态A:数据仓库时间窗口打开,供ETL抽取数据的基准时间为T;Ø t1:ETL过程耗时;Ø 状态B:ETL过
18、程结束需要T+t1;Ø 脚本1:将ODS中数据转入数据集市中公用数据模型部分,单一运行需要t2;Ø 脚本2:将ODS中数据转入数据集市中X应用特有数据模型部分,单一运行需要t3;Ø 状态C:由于并行运行脚本A和B,数据到达C状态的总消耗时间小于T+t1+t2+t3;Ø 脚本3:从数据集市公用部分数据计算X应用特有数据,需要时间t4;Ø 状态D:应用可用状态总花费时间小于T+t1+t2+t3+t4。下面我们来看后续增加一个应用对原应用X带来的影响情况:在前面单一应用情况分析的基础上,由于后续增加应用后各部分数据量的增加,在原先每个步骤上都相应的增
19、加了Wx的时间消耗,我们进一步分析Wx便可对整个影响有个大致的评估。Ø w1:增加应用后需要抽取所增加应用的数据, w1需要视增加的应用需要抽取的数据量而定,由于ETL过程是并行处理的,可以减少部分抽取时间;Ø w2:增加应用后公用数据量基本不变,但由于并行执行各应用的脚本占用CPU和内存资源,w2为受此影响后的时间花费;Ø w3:增加应用后X应用特有数据量不变,但由于并行执行脚本占用CPU和内存资源,w3为受此影响后的时间花费;Ø w4:增加应用后X应用需要从公用数据模型计算的数据量不变,但由于并行执行多个应用的脚本占用CPU和内存资源,w4为受此影响
20、后的时间花费。通过以上分析,后续增加应用后在并行情况下应用所受到的影响受应用的个数、数据量以及CPU和内存的影响,还可以通过设置脚本执行的先后次序来减少所带来影响,有利于保障个别对数据时间窗口要求较高的应用。2.10 外部接口方案2.10.1 数据仓库接口数据仓库中数据的获取采用数据不落地方式,利用ETL抽取工具(行内统一采购DataStage)将数据直接抽取进入ODS数据模型,经过整合的ETL过程避免开发和维护的紊乱。2.10.2 外部系统接口ODS和统一数据集市可以建设在SybaseIQ内,可以更好的提高数据加载的效率。应用系统获取数据将很便捷和高效的通过脚本来实现。2.11 实施方案2.
21、11.1 工作界限划分数据集市建置实施过程中各方面需要承担的工作内容可以概括如下:1) 数据集市小组ü 设计数据集市数据模型;ü 设计ODS数据模型;ü 开发DW->ODS的ETL Job;ü 开发ODS->DM公用模型的脚本;ü 与应用项目小组联合调试ETL和脚本;ü 根据应用整合测试反馈修改数据模型;2) 应用项目小组ü 提交应用的数据需求;ü 提交应用的数据模型;ü 开发ODS->DM应用特有模型的脚本;ü 与数据集市小组联合调试脚本;3) 数据仓库小组ü 验证
22、数据集市小组整理后的应用数据需求;ü 在数据集市从数据仓库获取数据过程中提供充分的支持。2.11.2 实施方法目前浦发需要应用统一数据集市的项目有3个,分别是反洗钱、运营内控、非现场审计项目,所以在数据集市的建置方法上有2种方案供选择:1. 采用统一规划统一实施的原则建置,由各应用提交数据需求和数据模型,数据集市小组进行全局分析和考虑,设计规划ODS模型和数据集市模型,这样做的好处是模型的设计会更加成熟可靠,缺点是所有应用项目必须等待数据集市建置完成后才能付诸实施,项目的延期必定造成损失。2. 采用循序渐进的原则建置,以某个具体应用为先行应用的方法,初步建置数据集市,将来以陆续添加应
23、用的方式扩展数据集市,这样做的好处是可以结合目前项目的进度进行搭建,而不需要等待所有应用提交数据需求和数据模型的时间,缺点是初期模型势必无法做到非常成熟。即便是采用这种方式,由于模型设计等时间是无法缩短的,所以需要浦发根据目前应用的具体情况选择最合适的先行应用。无论采用何种构建方式,最终都可以达成成熟的模型,需要结合浦发结合实际情况进行选择。以下分别讨论2种方式。2.11.2.1 统一规划统一实施统一设计和规划数据集市的开发和实施分成3个大阶段:第1阶段,收集各应用数据需求和数据模型,从全局角度进行分析,并与数据仓库就数据需求内容进行沟通,需要数据仓库验证是否满足应用需求,数据集市小组结合各应
24、用的数据需求和数据模型进行统一规划和设计数据集市和ODS的模型;第2阶段,数据集市小组开发和调试从数据仓库采集数据到ODS的ETL过程以及ODS到数据集市公用模型部分的转换脚本,同时公布ODS以及数据集市的模型,由各应用定制从ODS加载数据到数据集市的脚本;第3阶段,将各应用挂载到数据集市上进行测试,根据各应用的反馈进行部分修改,通过稳定性观察后最终达成验收并正式运行。2.11.2.2 循序渐进构建以一个具体应用为先行应用的方案,设计和建置统一数据集市,前期数据集市设计公用数据模型和先行应用特有数据模型,后续再陆续添加其它应用,这样可以减少对多个应用项目所造成的影响。前期的重点落在合理的、科学
25、的设计数据集市中公用数据模型部分,这样在后期添加应用时对于公用数据模型部分可以控制到基本不修改或者修改幅度很小,同时还要考虑到其它尚未确定的应用将来加入统一数据集市的情况,使得成果得到最大程度的利用。以循序渐进的方式,规划数据集市建置分为多个步骤:n 第一步:以一个具体应用为前期应用,设计数据集市模型,开发数据仓库到ODS的ETL工程,此步意义在于通过实践确认切实可行的将应用迁移到数据集市的方法;n 第二步,在前期应用构建的数据集市模型中添加后期应用数据模型,开发ODS不满足前期应用需求部分数据的ETL过程,在不影响已经上线使用中的前期应用系统正常运行的前提下,将后期应用成功的纳入统一数据集市
26、中,此步另一层的意思在于验证添加后期应用到数据集市的流程、正确方法等,为后续的应用开辟成熟的道路,后续应用的添加也要在之前的成功经验之上进行复制,添加后续规划的其它应用到统一数据集市之上,随着基于数据集市的应用的增多,对于资源以及时间窗口争用的矛盾会变得突出,所以在添加应用之前必须对各应用的数据量和时间窗口进行评估。如上图所示第一步以先行应用构建数据集市又可以分成多个阶段:l 设计阶段,由各应用项目组提交应用数据模型和数据需求文档给数据集市小组,数据集市小组并行进行以下工作:ü 分析和设计数据集市模型,数据集市模型分析主要精力集中在公用数据模型部分,因为这部分的合理性和科学性直接影响
27、数据集市的价值,要使得公用部分模型能够满足后续应用的需求,所以需要在设计过程加入必要的前瞻设计;ü 数据集市小组与数据仓库小组就先行应用数据需求进行分析验证和沟通,确认当前数据仓库是否满足应用数据的需求,数据集市小组在分析验证的结论上设计ODS数据模型,先行应用的数据需求将构成数据集市的全部,而后续不论是增加哪个应用,对于数据仓库已提供的数据不会再提出需求,可以避免数据仓库的重复工作;l 开发阶段,在明确了ODS数据模型和前期数据集市模型的基础上,需要数据集市小组和先行应用项目组并行开发从数据仓库采集数据到ODS的ETL过程以及ODS转换数据到数据集市的脚本,开发过程中可以相对独立,
28、但由于ODS数据来源于ETL的抽取过程,所以在调试、测试阶段需要安排联调:ü 数据集市小组需要负责开发2块内容:a) 数据仓库抽取先行应用需求数据到ODS的ETL过程,将来扩展应用时不再需要开发这部分相同的ETL过程;b) 转换ODS数据到数据集市公用数据模型部分的脚本;ü 先行应用项目组需要根据公布的ODS数据模型接口和数据集市数据模型的接口,根据自身业务逻辑的需要定制开发转换的脚本;l 测试阶段,由于模型的设计和搭建是一个过程,需要不可避免的对模型进行修改,可以将这个过程穿插在先行应用项目的上线过程中,一方面既提供了先行应用测试的数据,另一方面为也提供了一个“磨合”的过程,根据先行应用的反馈进行必要的修改,直至最终成功将先行应用装载到数据集市模型中,通过稳定性观察后最终达成验收并正式运行;l 生产阶段,在先行应用稳定步入生产阶段后,需要按照最初规划开始着手扩展其它应用的事宜,借鉴先行应用的经验是相当重要的,力争后续应用的添加过程更加合理、更加科学。2.11.3 实施计划为使数据集市能稳定上线,并获得此实施案之最大效益保障,根据不同的实施方法安排工作项目,每一阶段预估时程及各方配合事项需待各方进一步讨论规划,部分工作项目可能根据实际情况并行或分步进行。 以下列举本项目之工作项目及各项目预计时程(理想情况下),由于部分工作项目是并行执
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 园路花砖购销合同协议
- 藏族考试语录 及答案
- vte考试题及答案
- vb大学考试试题及答案
- uc考试试题及答案
- 2-6-Dimethyl-5-methylene-3-oxo-heptanoyl-CoA-2-6-Dimethyl-5-methylene-3-oxo-heptanoyl-coenzyme-A-生命科学试剂-MCE
- R-3-Hydroxylauroyl-CoA-R-3-Hydroxylauroyl-coenzyme-A-生命科学试剂-MCE
- 24-Hydroxycholesterol-d4-生命科学试剂-MCE
- DB61T 557.16-2012 富硒鸡蛋规范
- DB61T 560.1-2013 长柄扁桃育苗技术规程
- 2025年第九届“学宪法、讲宪法”知识竞赛题库及答案(中小学组)
- 2025年大型上市公司合同管理与合规制度
- 2025年北京市中考语文真题(含答案)
- 学前教育学完整-2017课件
- 小学英语“教学评一体化”实施
- 超长混凝土结构温度应力分析
- 金沙县网约车从业资格考试模拟试卷
- T∕ACSC 01-2022 辅助生殖医学中心建设标准(高清最新版)
- 集装箱吊具图纸
- 中医内科学专业高级职称考试大纲―正高级
- 《机械基础教案》(劳人版第六版)
评论
0/150
提交评论