数据仓库技术及其在金融行业的应用_第1页
数据仓库技术及其在金融行业的应用_第2页
数据仓库技术及其在金融行业的应用_第3页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据库技术及其在金融行业的应用/、八1. 前言数据库仓库( DW )技术从 1991 年开始出现,经过多年的摸索和应用,目前在一些发 达国家已经建设得比较成熟, 为企业综合与灵活的分析型应用提供了强大的数据支撑, 为管 理层的分析决策和操作层的智能营销提供了技术保证, 为企业带来了多方面的收益。 而在国 内,数据库仓库仍处于尝试或初级建设阶段。国内的金融行业,随着外部监管和信息披露的压力、内部管理和决策分析的需要,在 建设分析类应用时, 也正在逐渐从孤立的数据层向统一的数据仓库层规划和转移。 建立数据 仓库能够减少对数据层的重复投资和资源浪费、 统一数据标准、 监管和提高数据质量、 消除 信息

2、孤立、支持综合分析和灵活及时的分析型应用、适应管理和发展、提高业内竞争力。本文对数据库技术做一个概括性的介绍,并对国内外金融行业数据仓库技术的应用现 状做一个简单分析。2. 数据仓库概念2.1. DW 的提出2.1.1. 需求业务系统的建设与逐渐完善,巨量数据信息的积累。 分析类需求不断增加,传统分析类应用造成巨大的资源浪费和管理困难。 业务数据平台异构、数据来源口径多、标准不统一、信息孤立。 整合部门级应用,建设企业级应用,满足综合分析、复杂查询、智能营销等高级需求。2.1.2. DW 概念的提出MIT 在 20 世纪 70 年代对业务系统和分析系统的处理过程进行研究,结论是只能采用 完全不

3、同的架构和设计方法。1988 年, IBM 为解决全企业数据集成问题,提出了信息仓库的概念,确立了原理、架 构和规范。但没有进行实际的设计。1991年,Bill Inmon提出了数据仓库概念,并对为什么建设数据仓库和如何建设数据仓库进行了论述。 Bill Inmon 被称为数据仓库之父。2.2. DW 的四个特征2.1.1. 面向主题OLTP 应用或支持独立分析的应用是面向应用组织数据,数据分散,不利于综合分析。为 OLAP 应用提供数据支撑的 DW 是综合分析业务需求对不同源系统数据进行提取、 提炼,按主题重新设计数据模型和重组数据,覆盖所有的应用。主题是在较高层次上将企业信息系统中的数据综

4、合、归类,并进行分析利用的抽象。 例如对于一个银行来说, DW 所面向的主题域可能包括当事人、协议、产品等。2.1.2. 集成共享由于源系统的数据平台异构、数据标准不统一、数据模型差别大,在建设数据仓库时 要进行数据集成,为所有应用共享统一标准的数据。数据集成的工作主要包括三个内容。 数据清洗:按照数据质量管理的要求进行数据清洗,保证进入数据仓库的数据都是符 合规范且可以使用的。数据转换:将不同标准的数据进行转换与统一,并保证可以回溯。 数据整合:不同源系统的数据在数据仓库中可能会进入到相同的模型中,要对源系统 与数据仓库模型的差异进行分析整合。2.1.3. 随时间变化DW 自己不产生源数据,

5、 但需要根据源数据进行数据加工和汇总。 DW 中加工后的基础 数据和汇总数据是随时间不断变化的。2.1.4. 不可更新这是指在 DW 中不会更新从源系统中传过来的细节数据。 在进行数据转换时,一般也并不删除原值。2.2. DW 与 DM 、ODS 的关系2.2.1. DW 与 DMDM 是数据集市( Data Mart ),相当于部门级或应用级的数据仓库,一个企业内部一般 建有多个 DM ,不为种类的分析型应用使用。 各 DM 分别设计和建立, 数据标准和数据模型 没有统一。 DM 建设难度小,容易成功,但随着数据集市越来越多,无法解决数据冗余、数 据质量、 数据标准不统一、 统计数据不一致等

6、问题, 无法满足综合分析和智能查询的业务需要。DW 是指企业级数据仓库, 一般一个企业内部只建立一个, 数据层大集成, 可以为所有 分析型应用所使用。由于技术条件的限制, DW 在前几年的建设初期,难度很大,遭到过大 面积的失败。目前所指的数据仓库实际上包含了数据集市和前期数据仓库的概念,可以说是数据集 市和数据仓库的融合。 数据仓库内部即可建立企业级整合统一的数据层, 同时也可建立为部 门级决策支持所设计的数据集市。2.2.2. DW 与 ODSODS是操作型数据存储(Operational Data Store)。与DW 相同的是,它也是面向主题 的;是集成的(可能是部分集成) 。与 DW

7、 不同的是, ODS 要具有同时支持分析型应用和操 作型应用的特性, 因此它存储的数据是当前的, 需要实时刷新, 却不一定要求存储非常大量 的历史;基础数据是随业务而更新的。ODS 也经历了多种应用形式,它曾做在数据仓库的前端,做一些初级的数据整合,数 据快进快出, 例如这可以支持要求每小时做一次分析的应用。 它也曾作为初级形式的数据仓 库,例如支持面向电子商务的 ODS。ODS 产生的技术背景是由于早期的 DW 因为技术条件的限制,不存储细节数据、难以 实现频繁的更新和删除,不能支持实时性要求较高的分析应用。但ODS 具有数据同步复杂(一般需要两次数据落地) 、数据共享困难、数据冗余、管理复

8、杂等问题。目前由于条件的 成熟, ODS 和 DW 也有走向融合的趋势,在数据仓库内部分为动态数据区和表态数据区, 分别相当原来的 ODS 和 DW 概念。2.2.3. 走向融合后的 DW集成原来的DW、DM和ODS,融合后的企业级数据仓库,在内部划分出多个数据层 次。在近期业务数据区, 能够为一线业务人员提供战术性决策和操作智能; 在长期历史数据 区,能够为管理人员提供战略性决策分析和复杂查询。 即可支持部门特色的应用, 也可支持 跨部门的企业级综合应用。整合后的企业级数据仓库(EDW)简化了数据管理和维护流程,减少了数据冗余和延 迟,减小了投资成本和协调工作, 满足多种级别智能型应用的需要

9、, 为企业创造长期的价值。3. 数据仓库架构3.1. 数据仓库架构的构成广义的企业级数据仓库(EDW )包括基础平台和分析型应用。 基础平台又可分为技术架构和数据架构。技术架构包括 ETL 体系、数据访问体系、数 据存储体系、安全管理体系等;数据架构包括数据标准、数据质量、数据模型、数据管控、 数据接口等。32数据仓库技术架构元数据管理体系:技术元数据、业务元数据、操作元数据源数据层用户层核心国结信用卡文件源数据层中间服务层数据服务层一OLAP服务器FT数据ODBC/FastExportETL服务层数据 文件odBc数据 文件数据数据缓整合/存区区集市应用服务器应 用 负BI工具Query载

10、匀 衡ReportiJDBCWEB服务器单一视图KPI单 点 登 录 门 户个性定制 安全管理应用发布访问控制层外部数据接口银监会网 络 负 载 匀衡 http业务 用户以二二A数据其它 K 文件单元n加载数 据文件单元1单元2DW调度控制库I单元1单兀2单元n证监会人民银行信息发布决策 人员知识工作 者侦测器日志管理引擎依赖和触 数据质量 发规则库规则库工任务执行代理二任务调度引擎安全管理体系:网络安全、数据安全、操作系统安全、应用安全如上图所示,数据仓库技术架构由八个组件组成:源数据层、ETL服务层、数据服务层、中间服务层、访问控制层、用户层、元数据管理层、安全管理层。源数据层:作为ETL

11、层的数据抽取源,为 EDW提供原始数据支持。本层设计要考虑源系统状况 和数据抽取方式,确定存储方式、数据量、交付时间、对时间窗口的影响,以及数据文件规 范、文件压缩方式、传输模式、文件发送位置等规范信息。ETL服务层:完成数据文件转换和加载,并负责管理和调整数据仓库中所有作业的依赖关系,管理 整体作业流。数据服务层:一般包括四个层次。数据缓冲区支持ETL处理;基础数据层基于面向主题的物理数据模型,用于保存数据仓库基础数据;汇总层是建立在基础数据之上的主题级汇总数据;应用数据层(数据集市)是建立在基础数据区和汇总数据区之上的一组数据库,分别对应一类应用主题。中间服务层:OLAP服务器通过 ODB

12、C等接口从数据仓库批量获取数据,按多维设计模型生成立方 体,支持BI软件包的多维展现请求。BI软件包通过 ODBC等接口访问数据仓库,支持业务用户的灵活查询和固定报表请求; 还可通过OLAP接口访问多维数据库支持业务用户的多维分析请求。应用服务器:提供一个具有高可用性和负载均衡功能的基础平台,以支持BI软件包和其它应用软件包的运行。访问控制层:主要包括 WEB、认证、安全、门户四方面的服务。该层为用户层提供HTTP服务、门户的单点登录、用户统一认证、 提交用户层请求到中间服务层,对用户实施安全策略,为用户管理报表、查询文档,提供个性化定制等。用户层: 数据仓库系统用户既包括进行系统建设的开发人

13、员、系统运行人员和系统管理人员, 又包括最终使用系统的业务用户,这里主要对业务用户进行描述。业务分析人员主要是指使用应用界面访问数据仓库系统的总各业务部门、各分行的业 务用户。该类人员使用数据仓库主要生成或预览定义报表,进行相对固定的查询和多维分 析。管理决策人员主要包括各部门的领导、总行和分行领导。数据仓库系统为管理决策人 员分配专门的系统资源, 建立最为直观方便的存取界面, 为决策人员赋予最大的信息访问权, 实现对信息的自由访问。知识工作者是指各部门、各分行较为高级的用户。可以对指定的主题、指标进行自定 义的灵活分析和比较。分析的方式包括自定义查询和报表、多维旋转和穿透钻取等。元数据管理:

14、 元数据管理是将分散在数据仓库各环节的、独立的元数据统一存储在元数据存储库中, 并将各个元数据有机的联系在一起, 实现对数据流的跟踪管理, 向前可以进行数据的血缘分 析,向后可进行影响性分析。安全管理: 安全管理主要包括网络安全、操作系统安全、数据安全和应用安全,这里不做专门介 绍。可参考相关技术资料。3.3. 数据仓库数据架构数据仓库的数据架构分数数据流向、数据模型、数据标准、数据质量、数据管控和数 据保留策略与容量规划六个部分来简单介绍。数据流向:一种比较典型的数据仓库数据流设计模式是,先通过 ETL 服务将源系统数据加载到临 时数据区,本区主要用于源系统数据和 ETL 运行数据暂存;然后

15、通过数据加工将详细历史 数据、 客户信息、账户信息、交易信息等数据存储到基础数据区; 然后可定期进行账户信息 和客户信息等汇总, 将数据存储到汇总数据区; 最后可将应用分析所需的数据存放到应用数 据区。数据模型: 由于数据仓库建设经验的积累,各行业有其比较成熟的数据仓库数据模型,例如在金 融行业, Teradata 和 IBM 各有其自己的数据模型。成熟的数据模型产品对建设数据仓库有 一个很好的经验和方法论指导,但客户化依然具有很大的工作量。数据标准: 数据标准化是一项关键工作。进行数据标准化工作必须有专职数据管理员,制定配套 的管理流程;数据标准化包括数据映射和制执行准规则, 如识别规则、

16、归并规则、 重要口径 等;数据标准化工作还包括统一的业务定义,进行总体规划。数据质量: 数据质量也是一项关键工作,数据质量太差的数据仓库,其应用价值可以几乎为零。 数据质量问题来源广泛、 复杂,可以设计或借助现成的数据质量检查系统进行数据质量检查。 保证质量的工作内容主要包括: 定义及初始度量、 分析及发现错误、查找问题根源、解决质 量问题、监控改进过程、发现及分析改进中的异常。数据管控: 建立统一的数据管理体系框架,主要有三个层面组成:管理策略、方法和内部体系, 其核心是工作内容包括数据规划、 数据标准制订和管理、 数据质量管理。 数据管理体系的建 立和完善是一个长期持续的过程。数据保留策略

17、和容量规划: 数据保存周期受三个关键需求驱动:业务分析的需求;法规需求、审计与投资者情况 披露;基于历史数据为客户提供额外的服务。在确定了数据仓库建设策略之后,可以进行数据容量规划,这包括计算用户数据量、 计算磁盘空间需求、分析目前容量现状及对策等工作。3.4. 数据仓库应用架构国际先进银行的企业级数据仓库实践表明,实现需求主要有三种应用模式:灵活分析、 数据挖掘(如评分系统) 和应用开发。应用系统的开发离不开需求的成熟和稳定, 只有通过 大量的灵活分析和数据挖掘的应用, 才能形成成熟稳定的应用需求, 反之, 使用系统在业务 中的大量使用,又会促进分析人员更加深入、有效的分析探索数据。灵活分析

18、 具有 IT 和业务两方面的知识和技能,利用查询工具进行任意的数据探索和查 询,以回答各种未预定义的业务问题;数据挖掘 在灵活分析的基础上对某些业务问题进行数据属性层面的提炼和归纳,如典 型的评分模型、违约模型等;应用系统 是指联机或批量访问数据仓库的应用系统,典型的应用有营销管理系统、利 润贡献度模块、反洗钱应用、关键指标 /平衡计分卡应用。在进行分析应用的建设规划时,要根据业务需求的急迫程度确定业务实现的优先次序, 并制定一个分析型应用的评估模型。4. ETL 设计与工具介绍4.1. ETL 概念ETL 具有如下的含义: E (Extraction,抽取)、T (Transformatio

19、n,转换)、L (Loading , 加载)、C (Cleansing,清洗)。ETL是DW系统的基础。DW中的数据来自源业务系统, ETL 的主要功能正是完成对源业务系统的数据抽取、清洗、转换和加工,生成DW 中基础层和应用层数据。ETL 过程由处理单元和处理流程两部分组成。数据转换清洗规则主要体现在处理单元 中;处理流程体现的是处理单元之间的正确顺序。ETL 系统要有运行监控体系,监控是否有异常; ETL 必须实现流程自动化。4.2. ETL 的模式ETL 有 E-T-L 和 E-L-T 两种模式。E-T-L 模式一般需要有一个强大的 ETL 服务器,而 E-L-T 模式则需要强大的数据库

20、引 擎,对 ETL 服务器的配置要求不高;ETL 过程占用数据库服务器的E-T-L 模式将转换过程从数据库服务器脱离开来,减少时间窗口。可以将查询和加载分离开来,互不影响。E-T-L 模式的工具通常利用元数据实现整个加载转换流程。E-T-L 模式更适合用于从外部数据源直接一步加入目标数据库, 同时无需用到目标数据 库现有数据的情况。 E-T-L 模式不太适用于在加工过程中需用到目标数据库中现有数据的情 况,特别是当这个现有数据比较大的情况, 例如数据仓库模型中常用的历史拉链算法。 E-T-L 模式不太适用于目标数据库内部的再加工,如数据仓库基础层向中间及应用层的加工。4.3. ETL 任务与任

21、务拆分原则ETL 任务:制订数据接口规范 制订数据采集和传输规范ETL 策略设计ETL 体系结构设计设计和开发数据采集 /传输程序 /脚本设计和开发数据加载程序 /脚本 进行数据质量检查ETL 设计和开发总结汇报构建和测试初始加载的程序和处理流程构建和测试日常加载的程序和处理流程撰写 ETL 系统用户操作和使用手册ETL 任务拆分原则:ETL 任务拆分得太精或太细都不好。拆分需要考虑如下因素:性能;前续任务等候时 间;事务的完整性和及最小化;任务的易管理性;脚本的可读性。ETL 任务拆分的最佳实践:以目标表为单位进行拆分;以源数据到达时间的不一致性 进行拆分;以算法不同进行拆分。4.4. 业界

22、主流 ETL 工具简介DA TASTAGE :Ascential 公司,现已被 IBM 收购POWERCENTER : Informatica 公司SUNOPSIS :SUNOPSIS 公司,现已被 ORACLE 收购SAGENT :GROUP 1 公司DATA INTEGRATOR :BO 公司DECISIONSTREAM : COGNOS 公司TOS ( TalendOpenStudio):开源软件其中, Informatica 和 Ascential 公司是领导者。5. 数据仓库前端设计5.1. 企业级数据仓库的应用模式EDW应用模式可分为:固定报表、应用系统、灵活查询、数据挖掘。OLA

23、P/固定报表 提供日常业务管理统计,辅助发现业务发展趋势。固定报表是数据仓 库信息共享的主要途径之一,是最重要的展现方式。 部分常用的、能够提炼出共性的灵活查询可能会转化为固定报表。固定报表信息所涉及的维度和度量是确定的、权威的;信息具有普遍性,简单和容易理解,对用户要求不高;固定报表不依赖单一业务系统,需要全局视图。分析型应用系统绝不仅仅是固定报表随意的堆砌, 而是特定的业务逻辑整合,可以帮助 用户逐步访问与分析一系列交互式的报表。 分析型应用一定是服务某个业务主题的, 例如风 险管理、营销管理等。灵活查询提供解决那些无法预定义的查询分析需求以及查询问题时的详细钻取。灵活查询随时发生,可由任

24、何部门发起;有应对突发需求的相应能力;可能是简单统计或某项明细数据查询,也可能是某种复杂逻辑的处理;灵活查询具有特定的目标、特有的度量、专用的视角和算法。数据挖掘是从大量详细数据中提示出隐含的、先前未知的并有潜在价值的信息的过程, 主要基于人工智能、机器学习、模式识别、统计学等技术,做出归纳性的推理,从中挖掘出 潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。 数据挖掘一般需要跨业务领域进行综合关联分析,信息全面;针对的是某个特定领域的特定问题,应用范围和服务领域具有专用性;数据挖掘使用的统计技术和模型的产生结果都具有高度的抽象性;数据挖掘模型需要进行周期性的回顾和调整。各应用模

25、式分解参考特征:项目固定报表应用系统灵活查询数据挖掘建设目标回答简单、常规 的业务管理、统 计类问题支持复杂业务逻 辑,完成特定功能进行数据探索和查询,回答各种 未预先定义的业务问题通过建模归纳提炼数据 蕴含的行为模式,侦查数 据潜在规律,捕捉历史信 息和未来表现之间关系业务逻辑相对简单,可预 定义、预加工服务某特定业务 主题业务问题无法预定义,有特定的 目标、度量、专用视角和算法复杂面向用户普通用户特定用户高级用户数据挖掘专员使用频度固定周期频繁、周期性岀现随时发生不高,建模成功以后只需 要定期计算评分结果使用模式查询工具+数据 开放用户界面分析工具专用软件包用户 界面可以有或无有无无应用产

26、岀汇总表、保留结果依赖具体应用而疋表现形式不唯一,可能是一个查 询的运行结果、一些数据、或一 个分析模板主要是评分信息的描述 性信息,计算结果保存数据范围明确已有数据结合用范围不明确,使用明细数据居多大量明细、历史数据,范特点户从界面带入的 数据广特殊技术无软件包或者自行 开发查询分析工具高级统计分析、人工智能等技术典型示例各机构产品余额统计等客户关系管理、风险管理等测算未到期存款余额总量等申请评分、行为评分、流 失评分等52 用户角色和统一用户管理用户角色:DW的数据可分为三层:缓冲层、基础层、语义层(即汇总和应用数据层)。不同用户访问不同的数据层。80%的用户只需访问语义层,这一般是普通业

27、务人员;20%的用户可能访问基础层,但其80%的时间仍然只访问语义层,这一般是高级业务人员和数据挖掘人员;只有很少的技 术用户和审计可能偶尔需要访问缓冲层。不同用户访问的数据权限不同,例如不同分行的用户需要访问不同的分行逻辑视图。对不同角色用户需要制定不同的数据开放策略。统一用户管理:用户权限和用户角色设置比较复杂,不同工具和软件一般都有自己的用户管理机制。 必须在整个系统范围内实现统一用户管理,由系统管理员对系统内各组件的用户进行统一规划和管理。5.3. 应用系统体系架构应用系统可以直接基于DW,也可以采用由 DW导出数据给外部集市的方式,具体哪种应用采用哪种方式,需要根据实际情况具体分析。

28、直接基于DW的应用尽可能采用统一Portal入口,多采用 B/S架构,绝大部分用户采种统一管理,单点登录。基于DW也可以为少数高级用户独立开放C/S访问接口,这些用户具有较高的灵活性,通常直接通过数据库用户进行适当的权限管理即可。基于导出集市的应用通常不集成于统一Portal,可根据自身情况合理选择架构方式,可采用B/S架构也可采用 C/S架构。5.4. 主流前端工具及应用常用OLAP工具:Hyperi on EssbaseMicrosoft An alysis ServiceOracle Express Server(9i) / An alytic Workspace Man ager(10

29、g)Sybase IQIBM DB2 ServerCognos Powerplay 常用前端工具:Hyperion Client(Brio) - 有业内最好的 EISBOCognosMSTRCrystal ReportExcel6. DW 数据模型设计6.1. 关系模型和多维模型关系模型是使用规范的二维表表示数据以及数据间的关系,设计关系模型要使用规范 化理论。多维模型使用数据立方体( Cube )来表示现实世界中的复杂关系,基本组成是维( Dimension )、度量( Measure)。 维是对数据进行分类的一种结构,用于从特定角度观察数据,例如时间、地区、产品 等。使用维主要用来选择针对

30、期望详细程序的层次的数据、分组对细节数据综合(聚集)到 相应的详细程序的数据层次。度量(指标) 是 数据的实际意义,一般是一个数据值度量指标,例如销售量、销售额 等。数字型指标和聚集函数是度量的两个组件。Cube 是一个多维模型构成的多维数据空间,其逻辑上相当于一个多维数组。6.2. 多维分析的基本动作多维模型的分析动作是将 Cube中的数据进行可视化展现的方法。切片:从立方体中切出一个二维。如选定时间维 1998年 1月,取出产品和地区两个维 的数据关系。切块: 从立方体中切出一个小三维。如选定时间、产品和地区,取出分析数据。 旋转: 改变一个报告或页面显示的内容。如把一个横向为时间纵向为产

31、品的报表旋转 为横向为产品纵向为时间的报表。钻取: 向上钻取获得更高层更宏观的数据,向下钻取获得到更低层更详细的数据。6.3. 多维数据模型的实现技术ROLAP ( Relational OLAP ): 利用关系数据库来存储和管理基本数据和聚合数据,并利用一些中间件支持缺失数据 的处理。具有良好的可扩展性。关系二维表使用两类表(事实表和维表)来表示多维结构。事实表(Fact)用来存储变量值和维的码值。维表用来存储维的描述信息,包括层次和类等。MOLAP ( Multidimensional OLAP ):利用多维数据库来存放和管理基本数据和聚合数据,其中需要用到稀疏矩阵处理技术。 对预综合的数

32、据进行快速索引。HOLAP ( Hybrid OLAP ): 利用关系数据库来存储和管理基本数据,利用多维数据库来存储和管理聚合数据。6.4. 维度建模步骤选取业务处理过程: 业务处理过程由一个或多个源系统存储其活动数据。 建立的第一个模型应该是一个最有 影响的模型,它应该对最为紧迫的业务问题做出回答,并且数据是可获取的。定义事实表的粒度: 事实表的粒度是指事实表每一行的具体含义。应优先考虑为业务处理获取最有原子性 的信息而开发维度模型。 原子数据是所集的最为详细的信息, 该数据不能再做进一步的细分。维度模型的细节性数据是安如泰山的,并随时准备接受业务用户各种分析的需求。 选取维度:用一组维度

33、表来描述事实,每个维表包含了若干离散值。这些维度包含所有可能的描 述信息。常见的维表有日期、产品、客户、交易类型等。维表不能太大,太大可能需要拆分。确定数字事实: 事实确定要衡量和分析的内容。如数量或消费金融等。6.5. Teradata 公司的金融行业数据模型产品Teradata 公司有一套预先构建的金融行业 DW 逻辑数据模型 FS-LDM ,是一套较成熟的 产品,利用它可以直接开始数据仓库模型客户化设计。 FS-LDM 包括十大主题。PARTY (当事人)主题: 当人事是指银行作为一个金融机构所服务的任意对象和感兴趣进行分析的各种个人或团体客户、潜在客户、代理机构、雇员、分行、部门等。一

34、个当事人可以同时是这当中许多 种角色。Internal Organization (内部机构)主题: 内部组织机构是指企业的内部组织和业务单元,如分行、客服中心、支行、储蓄所、 部门、销售团队等。在技术上它是一种特殊的 PARTY 。不仅包括自身的内部组织机构,还 包括其他的内部组织。PRODUCT (产品)主题: 产品是金融机构销售或提供的可市场化的产品、产品包和服务。如果有必要,在模型 中可以包括竞争对象所提供的产品。AGREEMENT (协议)主题: 协议是当事人之间针对某种特定产品或服务而签立的契约关系。例如银行的账户,保 险公司的保单等。包括协议的申请、报价、还价以及开立等完整信息。

35、ASSET (资产)主题: 当事人的资产主题是所有可能采集到的各种当事人的资产(负债)信息,包括有形的 和无形的各种客户资产 /负债,同时还可以存储银行向外租赁的各种资产信息。可能是客户的不动产、商品存货、珠宝、机动车辆、以及在其他金融机构的存款、贷款等。7. 数据仓库项目实施方法论7.1. 重视数据管控数据仓库建设是一项长期的持续改进的任务,仓库中的各层数据会不断的丰富、完整。 在这个过程中,制定和实施一套数据管控策略、保证数据质量是至关重要的。数据管控的工作内容包括制定管控任务和指导原则,建立组织结构,进行业务改善建 议和结果追踪, 规划好数据管理的落地功能, 获得用户的支持和参与, 调整

36、方案计划确保满 足用户期望的质量、可用性、实用性和性能。数据管控的重点是组织管理和流程。好的实施经验有:持续推进元数据精细化管理;建立数据质量评估模型;做好数据生 命周期管理;制定物理模型优化策略和 ETL 加载优化策略;推进主数据和参考数据标准体 系建设7.2. 制定数据质量改进方案保证数据质量五个“一”工程:必须有一个跨部门以上领导的重视和牵头;必须有一 个专门负责解决数据质量问题的组织; 必须有一个专门负责解决数据质量问题的平台; 必须 有一个专门负责解决数据质量问题的流程;必须有一个专门负责侦测数据质量问题的工具。数据质量保证工作的好建议:以源系统数据质量为重心,兼顾数据仓库的数据质量

37、, 特别是业务统计指标的计算规则的统一; 从单个系统的数据质量向多个系统之间的数据整合 质量问题转移, 以数据标准为出发点, 提出数据整合的业务规则以及异常处理; 从数据质量 问题的发现到数据质量问题的治理进行转移, 协调业务和科技, 进行上游数据质量治理和下 游数据质量修复的工作流程的建立。7.3. 数据仓库项目的特征七要素数据仓库项目不是技术主导型项目,是一个大的集成项目,更注重方法和流程。 数据仓库项目需要持续的建设。数据仓库项目需要持续的成熟度评估和改进和建议,逐渐找出合理的策略。 除了一般的项目管理方法外,更重要的是实施方法。不同阶段的实施方法需要技术和业务紧密结合的组织架构的支撑。

38、 需要坚持不懈地推动业务的参与。基于基础平台结合应用建设的大项目群管理必须建立有效的管理机制。8. DW在金融行业的应用与发展8.1 BOA 典型的成功DW建设情况BOA的元数据管理:15年前已建立元数据管理系统,IT和业务部门均设有元数据专家。源系统的变化通过变革流程通知到DW。详细到数据要素(Data Eleme nts)真正发挥DW窗口的作用,能够为业务人员及应用开发人员提供如下信息:DW中有什么数据,这些数据从哪里来,到何处去,加工逻辑是什么。没有针对元数据管理的权限控制,BOA认为元数据信息对每个人都有价值,合法的局域网用户均可访问DW对应用的支持模式是 PULL,而不是国内普遍使用的 PUSH,大大减轻了 DW支持 人员的工作量,很大程度上得益于元数据的广泛应用。数据标准制定与维护:BOA通过主参考数据(Master Referenee Data)和客户参考数据(Customer Referenee Data)达到支持DW的数据整合,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论