信用卡数据仓库系统设计毕业论文.doc_第1页
信用卡数据仓库系统设计毕业论文.doc_第2页
信用卡数据仓库系统设计毕业论文.doc_第3页
信用卡数据仓库系统设计毕业论文.doc_第4页
信用卡数据仓库系统设计毕业论文.doc_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

沈阳师范大学学士学位论文 1 信用卡数据仓库系统设计毕业论文信用卡数据仓库系统设计毕业论文 目 录 绪论 1 第一章 数据仓库简介 1 1 1 数据仓库出现的背景 1 1 2 数据仓库的特性 2 1 3 数据仓库的技术要求及需要解决的问题 2 1 4 数据仓库系统与 OLTP 系统的比较 3 1 5 本章小结 3 第二章 可行性分析与需求分析 4 2 1 可行性分析 4 2 2 需求分析 4 2 3 本章小结 11 第三章 项目概述 12 3 1 项目背景 12 3 2 项目总体描述 12 3 3 项目内容描述 12 3 4 本章小结 13 第四章 信用卡中心数据仓库项目总体设计 14 4 1 项目总体设计思路 14 4 2 项目整体流程规划 14 4 3 项目总体设计原则 15 4 4 本章小结 15 第五章 信用卡中心数据仓库项目详细设计 16 5 1 项目的概念模型设计 16 5 2 项目的逻辑模型设计 16 5 3 项目的物理模型设计 22 沈阳师范大学学士学位论文 2 5 4 项目的物理数据库设计 24 5 5 ETL 调度的设计 29 5 6 用 COGNOS工具展示报表的表样的设计 30 5 7 本章小结 32 第六章 项目的实现及报表展示 33 6 1 系统环境需求 33 6 2 项目实现过程 33 6 3 项目实现过程中用到的 ETL 算法 34 6 4 项目报表展示 35 6 4 本章小结 38 后记 39 致谢 39 参考文献 40 附录一 41 1 项目中用到的相关工具及技术介绍 41 2 配置运行环境时需要注意要点 42 附录二 44 1 项目包里的 PRO CREDITCARD 文件夹下的各种 PL 文件说明 44 2 PERL 部分脚本代码示例 46 沈阳师范大学学士学位论文 3 绪论 随着我国市场经济的繁荣和发展 国内信用卡业也获得了飞速发展 伴随着信用卡 业务量的不断增长 国内信用卡行业的市场竞争也日趋激烈 因此各大银行需要建立专 门的组织机构和专业队伍从事数据分析工作 数据分析的内容包括为业务管理提供统计 报表 在市场营销 风险管理 客户关系管理等方面 利用报表分析工具对信用卡数据 进行深度的挖掘 利用分析成果指导业务决策 本课题基于数据仓库和数据集市的基本理论 以实际开发过程和开发成果为基础 主要从总体技术方案和数据库设计两个方面 描述了某银行信用卡数据分析集市的设计 和实现 主要内容包括以下几方面 数据仓库平台 ETL 技术 作业调度 数据模型建设 cognos 报表展示 第一章数据仓库简介 1 1 数据仓库出现的背景 在数据库技术的支持下 一大批成熟的业务信息系统投入运行 为企业发展做出了 巨大贡献 各类信息系统大多属于面向事务处理的 OLTP 系统 经过多年的运行 积累了 大量的数据 而管理决策层对数据分析基础平台的需求却日益强烈 数据仓库概念的提出者是美国著名信息工程专家 William Inmon 博士 他在 90 年代 初提出了数据仓库概念的一个表述 他认为 数据仓库是一个面向主题的 Subject Oriented 集成的 Integrated 相对稳定的 Non Volatile 反映历史变化 Time Variant 的数据集合 用于支持管理决策和信息的全局共享 它的出现主要由两方面 的因素 1 需求的变化 业务系统的建设逐渐完善 分析类需求不断增加 不断增加的信息孤岛导致数据集成问题不断增加 2 技术发展非常迅速 关系数据库技术日趋成熟 报表和复杂查询处理起来非常困难 各个系统之间数据不一致 沈阳师范大学学士学位论文 4 1 2 数据仓库的特性 数据仓库的特性有以下几个 面向主题的 Subject Oriented 是指数据仓库内的信息是按主题进行组织的 而不是像业务支撑系统那样是按照业务功能进行组织的 集成的 Integrated 是指数据仓库中的信息不是从各个业务系统中简单抽取出 来的 而是经过一系列加工 整理和汇总的过程 因此数据仓库中的信息是关于整个企 业的一致的全局信息 非易失的 Non Volatile 数据仓库的数据通常以批量方式加载和被访问 历史 数据一般不被更新 当产生信息的后继变化时 变化会被记录下来 这样 数据仓库中 就保留了数据的历史状况 随时间变化 Time Variant 是指数据仓库内的信息并不只是反映企业当前的状 态 而是记录了从过去某一时点到当前各个阶段的信息 通过这些信息 可以对企业的 发展历程和未来趋势做出定量分析和预测 而信息本身相对稳定 是指一旦某个数据进 入数据仓库以后 一般很少进行修改 更多的是对信息进行查询操作 依据上面的定义 有人可能会把数据仓库简单地理解为仅仅是一个大型的数据存储 机制 是一个静态的概念 实际上 数据仓库更像一个过程 这个过程涉及数据的收集 整理和加工 生成决策所需要的信息 并且最终把这些信息提供给需要这些信息的使用 者 供他们做出改善业务经营的正确决策 数据仓库的重点与要求就是能够准确 安全 可靠地从业务系统中取出数据 经过加工转换成有规律信息之后 为管理人员进行分析 使用 因此数据仓库是一个动态的概念 应该称为数据仓库工程 Data Warehousing 1 3 数据仓库的技术要求及需要解决的问题 数据仓库中没有联机的数据更新 只有非常少的一些锁定需要 而且对于远程处理 接口的需要也只是最基本的 但是数据仓库的技术需求比较多 1 管理大量数据的能力和元数据管理 2 能够管理多种介质 高效地装载数据 3 能够轻松容易有效的使用索引和监视数据 4 对于接口 用各种不同的技术接受和传送数据 5 允许程序员 设计者对数据存放位置的控制并能从一批介质上将数据快速 完 全地恢复 沈阳师范大学学士学位论文 5 现有的操作型数据库系统 OLTP 用来处理分析型应用存在很多的问题 都能在数 据仓库中得到解决 例如 1 数据可信性 两个部门提供的数据是不一样的 让管理者无所适从 2 数据动态集成问题 不同的需求 要求将操作型环境和分析型环境相分离 3 历史数据问题 单项系统之间保留的历史数据时间范围不一致 无法满足 DSS 分析的需要 4 报表的生产率问题 由于 OLTP 的单项系统导致数据的分散性和相同元素定义 不一致导致不可能把数据转换成信息 1 4 数据仓库系统与 OLTP 系统的比较 1 5 本章小结 本章主要讲述了数据仓库出现的背景及数据仓库的一些相关特性 数据仓库作为一个分析型的系 统 用来为管理层的决策 管理行为提供服务 与传统的操作型的系统相比较 数据仓库系统拥有很 多的特性和优势 沈阳师范大学学士学位论文 6 第二章可行性分析与需求分析 2 1 可行性分析 可行性研究是抽象和简化了的系统分析和设计的全工程 它的目标是用最小代价尽 快确定问题是否能够解决 以避免盲目投资带来的巨大浪费 而现存系统存在的问题及 薄弱环节有以下几点 1 目前信用卡系统并非完整的核心系统 由尚未集中的重要数据需要集中整理 前台交易系统数据繁多 操作量太大 系统的实时性较差 2 银行卡的发卡结构不合理 信用卡渗透率低 3 授权中心业务过于繁忙的问题 而新建成的数据仓库系统能满足根据业务需求抽取仓库中的相关数据 制成卡量 时 间分析统计表 卡量 地区分析统计表 客户量 时间分析统计表 客户量 地区分析统计 表 从技术上有系统主要采用 cognos 报表开发工具结合 oracle 数据库来完成 从经济 上有提高银行的业务率 提高查询效率 减少分析人员的工作时间 从操作可行上有系 统采用的 cognos 报表展现工具 该报表工具采用 excel 格式是大家熟悉报表样式 从社 会因素上有各大银行都在建立自己的数据仓库系统 这是未来发展的趋势 也是银行未 来有利竞争的关键因素 综合以上的几个方面 系统具有很高的开发可行性 2 2 需求分析 需求分析是为了项目能顺利的开发 减少大量开发成本 减小开发风险 而且有利 于进一步定制软件开发的细节问题 便于用户与开发商协调工作 2 2 1 以下表格是客户提出的报表业务需求 均需满足 1 发卡量满足的要求 以时间 地区为纬度 得到各项指标 指标业务定义 总发卡量所有卡片量 卡表里所有记录不作任何剔除 有效卡同时满足以下条件 1 卡片状态为不 1 2 的 2 卡片在有效期内的 3 剔除开卡半年外未激活卡 4 对应账户的锁定码状态非 R L S D T 类 注意本指标为时点值 当月新增发卡量激活日期在当月的卡片 按 2009 08 月份为当月 沈阳师范大学学士学位论文 7 新客户发卡该客户在统计周期 即 2009 08 月之前 之前从未 持有过卡 即持有有效卡的 在统计周期内有符合 上述定义的客户新增发卡量 老客户发卡在统计周期之前已持有卡 在统计周期内 即 2009 08 月内 有符合上述定义的客户新增发卡量 一年以上回流客户发卡客户曾持有卡 统计周期前 12 月前 即 2008 08 01 已注销名下所有卡片 统计周期内有新增发卡 一年以内回流客户发卡客户曾持有卡 统计周期前 12 月内 即 2008 09 01 后 已注销名下所有卡片 统计周期内有新增发 卡 当月发卡当月注销统计当月发卡当月注销 新增过期失效卡在统计周期内失效的卡片 当年发卡当年注销统计年初至统计日期新增发卡量 在同期间注销的 卡量 2 客户量报表满足的要求 以时间 地区 性别三个纬度 满足各项指标 指标业务定义 总客户量所有的唯一客户记录数 有效客户量统计时点客户至少有一个有效卡的 当月新增客户量该客户在统计周期之前从未持有过卡的客户 在统 计周期之内拥有至少一张有效卡的 当月注销客户量该客户名下最后一个卡在当期内注销的客户量 人均持卡有效卡 有效客户量 人均余额有效卡的总余额 有效客户量 累计注销客户所有卡中 在统计时点已为注销的客户 过期客户统计时点客户名下所有卡片已过有效期 必须为非 注销客户 其它客户总客户量 有效客户 累计注销客户 过期客户 沈阳师范大学学士学位论文 8 3 账户报表满足的要求 以时间 地区作为纬度 满足各项指标 指标业务定义 总账户数所有的账户数量 有效账户数所有账户中 销户日期不为 3000 12 31 的 且账户 状态不为 C 当月新增账户数在统计周期内新增的有效账户 当月注销账户数在统计周期内销户的账户 户均余额有效账户余额汇总 有效账户数 总逾期余额逾期状态不为 0 的有效账户余额汇总 2 2 2 数据描述 静态数据 源表数据 2 2 3 码表中各字段的取值范围分析 源表中给出的三张表格客户信息汇总表 CCM CUST AGG INFO 账户信息汇总表 CCM ACCT AGG INFO 卡信息汇总表 CCM CARD AGG INFO 中 在以后的详细设计 中都会建立码表 所以必须在需求分析阶段确立各个代码表选取字段的取值范围 以便 确立字段的取值类型及字段长度 沈阳师范大学学士学位论文 9 表 2 2 3 码表中的相关字段的取值分析 ORG 代码101 102 013 发卡机构代码 发卡类别代码001 002 009 营销渠道代码01 02 05 09 账户余额 上期余额 活动状态代码000 100 账户状态代码D A I Z 逾期状态代码0 4 5 6 9 封锁码状态代码C Z U 信用额度 发卡机构代码 营销渠道代码00 0S 02 0X 01 03 09 BIN 编号356839 406252 622658 543159 LOGO 代码303 003 016 013 012 103 203 226 233 202 卡面类型代码00 01 02 03 04 77 06 卡片状态代码0 封锁码状态代码0 U S Y L 人民币本周期总授权限额 美元本周期总授权限额 卡等级标识01 02 字段取值范围 性别代码M F 证件类型代码01 04 09 学历代码01 02 03 04 05 国家代码CHM 婚姻状况代码01 02 住房类型代码01 02 03 04 05 06 职务代码00 01 02 03 04 职称代码03 行业代码00 25 95 单位性质代码0 机构代码 营销渠道代码01 02 09 授信额度 取现额度 可用额度 公私客户标识代码1 员工标志0 1 客户逾期状态1 2 4 5 6 沈阳师范大学学士学位论文 10 2 2 4 样本数据取值分析 表 2 2 4 样本数据取值分析 选取字段取值类型及字段长度取值结构是否有不符合的数据 卡号VARCHAR2 50 19 位数值无 客户号VARCHAR2 50 19 位数值无 账户号VARCHAR2 50 19 位数值 前 3 位是 0无 卡的到期日DATE 7 日期大于 2009 08 31无 卡的开卡日期DATE 7 小于销卡日期且 2009 08 31 无 卡的激活日期DATE 7 在开卡日期和销卡日期之间无 卡的销卡日期DATE 7 大于开卡日期无 账户状态代码VARCHAR2 3 取值范围是 D A I Z无 账户余额NUMBER 22 数值可以大于 小于 等于 0无 逾期状态代码VARCHAR 1 取值范围是 0 9无 账户的开户日期DATE 7 开户日期小于销户日期无 账户的销户日期DATE 7 销户日期大于开户日期无 2 2 5 入仓字段选取分析 表 2 2 5 入仓库的字段选取分析 需求项 分析指 标 选取字段选取原因 总发卡量卡号统计所有卡号就可以满足需求 卡号 到期日满足卡片在有效期内 开卡日期 激活日期 剔除开卡半年内未激活的卡 有效卡 销卡日期筛选非注销卡条件 卡号 当月新增发卡量 激活日期根据激活日期可以选出满足条件的卡片 卡号 客户号 开卡日期选出客户从未持有过卡 新客户发卡 激活日期满足卡是新增发卡 卡号 客户号 开卡日期选出曾持有过卡的客户 老客户发卡 激活日期满足卡是新增发卡 卡号 客户号 销卡日期选出在统计周期之前已注销名下所有卡 一年以上回流客 户发卡 激活日期统计周期内有新增发卡 卡号 客户号 一年以内回流客 户发卡 销卡日期选出在统计周期之前已注销名下所有卡 沈阳师范大学学士学位论文 11 激活日期统计周期内有新增发卡 卡号 开卡日期在当月开卡 当月发卡当月注 销 销卡日期在当月注销卡 卡号 到期日统计周期内到期的新增过期失效卡 销卡日期统计周期内销卡的 卡号 开卡日期统计周期开卡 当年发卡当年注 销 销卡日期统计周期销卡 总客户量客户号 客户号 卡号 到期日 开卡日期 销卡日期 有效客户量 激活日期 统计周期客户持有至少一张有效卡 客户号 卡号 开卡日期统计周期前是否持有卡啊 到期日 销卡日期 当月新增客户量 激活日期 统计周期后至少拥有一张卡 客户号 卡号当月注销客户量 销卡日期销卡日期在当月则此客户为注销客户 客户号 卡号 到期日 开卡日期 销卡日期 人均持卡 激活日期 有效卡 有效客户量 客户号 账号有效卡对应的账号 账户余额 卡号 到期日 开卡日期 销卡日期 人均余额 激活日期 有效卡 客户号 卡号客户名下所有卡片累计注销客户 销卡日期卡片是否为注销卡 客户号 卡号过期客户 销卡日期此客户必须为非销卡客户 沈阳师范大学学士学位论文 12 到期日此客户到期日在统计时点前 客户号 卡号 到期日 开卡日期 销卡日期 其他客户 激活日期 总客户量 有效客户 累计注销客户 过期 客户 总账户数账号 账号 销户日期销户日期为 3000 12 31有效账户数 账户状态代码账户状态不为 C 账号 当月新增账户数 开户日期开户日期在统计周期内此账户为新增账户 账号 当月注销账户数 销户日期销户日期在统计周期内此账户为注销账户 账号 销户日期 账户状态代码 有效账户户均余额 账户余额 账号 销户日期 账户状态代码 有效账户 账户余额 总逾期余额 逾期状态代码逾期状态代码不为 0 2 2 6 报表需求满足度分析 表 2 2 6 报表需求满足度分析 报表展示结果分析过程满足程度 总发卡量根据凭证表按照日期 地区分组能 有效发卡量根据凭证有效历史表按照日期 地区分组能 当月新增发卡量 根据凭证表选出激活日期为周期内史表 按 照激活日期 地区分组 能 新客户发卡情况 根据凭证表选出激活日期在当月的用户 并 且统计时间前开卡记录为空 能 老客户发卡情况 根据凭证表选出激活日期在当月的用户 并 且统计时间前开卡记录不为空 能 一年以上回流客户发卡情况 根据凭证表选出激活日期在当月的用户 并 且在当事人状态历史中销户状态的最大结束 日期小于 统计日期 1 年 能 一年以内回流客户发卡情况 根据凭证表选出激活日期在当月的用户 并 且在当事人状态历史中销户状态的最大结束 日期在 统计日期 1 年 与统计日期之间 能 当月发卡当月注销 根据凭证选择发卡日期 销卡日期在统计周 期内的卡号 能 新增过期失效卡根据凭证选择到期日在统计周期内的卡号能 沈阳师范大学学士学位论文 13 总客户量根据当事人表按照日期 地区分组能 有效客户量 在有效卡历史表中选出固定日期有效的卡号 通过关联当事人凭证关系历史选出关联的客 户号 再进行去重操作 能 当月新增客户量 通过凭证状态历史关联当事人选择出客户号 但是此客户号不存在根据凭证表关联当事人 凭证关系历史选择出在统计日期前开卡筛选 的客户号里面 能 当月注销客户量 当事人凭证关系历史选出在统计周期内状态 全为解除状态的客户号 能 人均持卡 有效卡的数量 有效客户量 能 人均余额 根据有效卡卡号关联协议凭证关系历史选出 其账户所对应的余额进行求和运算 有效客 户数量 能 过期客户 可以根据总客户量 注销客户量 客户名下 所有卡片都为失效状态的卡片量 能 其他客户 总客户量 有效客户 累计注销客户 过期 客户 能 总账户 根据协议表选着账号字段 进行 count 操作 就可 能 有效账户 协议状态历史选择统计周期状态是有效的账 号 进行 count 的操作 能 当月新增账户数协议表中开户日期在统计周期内能 当月注销账户数协议表中销户日期在统计周期内能 户均余额 通过协议状态历史选择出有效的账号关联账 户余额历史求出对应的余额在进行求和操作 有效账户数 能 总逾期余额 通过协议状态历史选择出状态为有效并且与 逾期状态不为 0 的对应账号关联账户余额历 史求出对应的余额在进行求和操作 能 2 3 本章小结 本章分析了本系统的可行性 分别从技术可行性 操作可行性 经济可行性 社会 可行性等各方面都进行了分析 另外对源系统给的报表进行了样本数据取值的分析和入 仓字段选取的确立和分析 这些需求的分析将影响到以后在报表中用户查询到的数据指 标的准确性 因此这部分内容还得在以后的开发过程中不断与业务人员沟通并完善 沈阳师范大学学士学位论文 14 第三章项目概述 3 1 项目背景 XXX 银行是我们公司的客户 是国内知名的股份制商业银行 在信用卡业务营销 方面的水平处于国内商行的前列 前两天 XXX 银行信用卡中心市场部的徐经理打来电话 希望我们帮忙建设卡中心 的数据仓库系统 以便了解信用卡的开卡情况和使用情况 为下一年的营销目标提供决 策支持 3 2 项目总体描述 本课题基于数据仓库和数据集市的基本理论 结合企业已有信息系统的现状和信息 总体规划 以实际开发过程和开发成果为基础 主要从总体技术方案和数据库设计两个 方面来描述描述 XXX 银行信用卡数据分析集市的设计和实现 1 设计和实现信用卡数据分析系统的总体架构 研究了成熟的基于数据仓库系统的数据分 析平台架构特点 结合企业现有信息系统架构和实际业务需求 设计了基于数据仓库的生产环境 应 用于报表类数据分析 2 设计和实现信用卡数据分析集市的数据架构 本系统把数据从源到应用的数据流向 分 为临时层 基础数据层 数据汇总层 报表集市层四大层次 临时层用于存放缓冲数据基本与源数据 保持一致 基础数据层用于企业数据仓库 存储细节和历史数据 整合了来自各个源系统的数据 数 据汇总层用于支持数据挖掘和支持数据集市 数据集市层则直接面向多维分析和灵活报表 四个层次 主要使用规范化结构特点 逐级汇总 各层次内部合理设计主题域和实体 形成不同的数据粒度 满 足不同的数据需求 3 3 项目内容描述 本课题所要建设的信用卡数据分析系统 它需要建设主要内容包括以下几个方面 1 数据模型建设 通过本项目的实施 完成数据仓库的基础层模型建设 本项目至少完成了当事人 协议和事件三个主题 数据模型包括逻辑模型和物理模型 逻辑模型使用 ERWIN 工具 物理模型的工具也是使用 ERWIN 可以使用 excel 工具 2 物理数据库设计 根据数据仓库的数据架构中不同的区域 设计了不同的 scheme 对数据进行存放 对 scheme 进行过相应的文档说明 沈阳师范大学学士学位论文 15 3 ETL 脚本开发 1 针对仓库临时层的样本数据 开发加载脚本将样本数据加载到 Oracle 数据库中 并使用了 Oracle 的加载工具进行加载 2 针对仓库的基础层数据模型 开发转换脚本将数据转换到基础层模型中 针对不 同的模型表 选择了相对应的 ETL 算法 脚本具体的技术形式使用 Perl 脚本嵌入 SQL 语 句的形式 3 针对报表展现部分 根据报表的加工逻辑开发 ETL 脚本对数据进行加工 供报表 展现使用 4 ETL 调度设计 因为本项目中没有采用现成的 ETL 调度工具 所以对本项目中 ETL 调度系统进行了 设计 具体包括 1 ETL 任务定义 包括命名规范及每个具体任务的命名 2 依赖关系定义 针对不同的 ETL 任务 确认其执行的前置依赖任务 3 自动化批处理程序的开发 5 报表开发 按照业务需求 利用报表工具 Cognos 开发出相关的报表来展示 3 4 本章小结 本章介绍了项目建设的背景 信用卡数据分析系统的总体技术方案和数据库的设计 并详细介绍了项目的内容和需要完成哪些工作 为下面的设计提供了素材 项目概述主 要的作用是清晰的定义了接下来项目的进行需要哪些工作 为后面的项目的规划作准备 沈阳师范大学学士学位论文 16 第四章信用卡中心数据仓库项目总体设计 4 1 项目总体设计思路 XXX 银行信用卡数据仓库建设采用 总体规划 分步实施 急用先行 的总体建设 思路 在建设实施层面 采用分步实施的原则 同时要求提高项目的可控性 减轻项目 风险 在应用建设方面 对于信用卡业务部门管理报表需求 以及董事长 行长等公司决 策层的管理要求 要优先实现 并且将来数据中心里数据量的积累 要求为管理层和运 营层的各种数据需求提供数据分析和报表展现服务 4 2 项目整体流程规划 1 项目整体规划流程图如下 2 项目实施过程中需要完成的任务有 需求分析 分析样本数据 根据每个业务需求指标确定口径 同时编写好需求规格说 明书文档 ODS 层 将样本数据导入数据仓库的 ODS 层 建模 逻辑模型建设 物理模型建设 沈阳师范大学学士学位论文 17 同时编写好详细设计文档 基础层 根据建好的物理模型 用 ETL 将数据从 ODS 层导入基础层 汇总层 根据业务分析需求将基础层数据用 ETL 导入汇总层 Cognos 展示 将数据结构导入 framework 继续进行加工分析 并打包和发布 最后在 Report Studio 中进行展示 4 3 项目总体设计原则 可扩充性原则 所选用的系统软硬件平台具有良好的可扩充能力 支持系统规模的 扩大和业务范围的扩展 能够满足今后业务发展的需要 在不更改系统整体架构的前提 下 方便的支持系统扩充 开放性原则 系统应遵循开放标准 适应将来业务和技术发展的需求 系统建设具 有较强的独立性和高度的可扩展性 除提供标准的开放式技术接口外 还能够完成与现 有相关系统的完全对接 先进性原则 系统技术架构与技术实现手段在金融行业内具有一定的领先性 前瞻性原则 系统总体架构和软件体系结构具有前瞻性 充分考虑未来业务发展和 管理的变化 方便对新业务和新需求的扩展和支持 高效性原则 系统具备对大规模数据量 大规模数量用户的处理能力 并在大数据 量以及大规模数量用户的情况下仍能高效地运行 稳定性原则 系统能满足业务高峰处理的需要 适应各种特殊情况给系统带来的压 力 安全性原则 系统建立在成熟稳定的硬件环境和应用软件基础上 通过完善的备份 恢复策略 安全控制机制 运行管理监控和故障处理手段来保障系统的安全 稳定 可维护性原则 系统提供对运行情况的完善的监测和控制功能 方便系统的维护 在系统处理异常时能够根据日志 快捷方便的定位出错误位置 原因 并可主动告警 4 4 本章小结 本章主要讲述了项目的总体设计思路及整体的流程规划 从项目的确定到项目的完 成里 总体设计虽然不是最重要的 但也是不可缺少的 在总体设计中 不必追求项目 的具体实施细节 不必纠结于一些编码的生成 这些工作可以在后面的详细设计中来做 在整体的角度来评估 衡量项目的整体流程和一些需要遵循的原则 沈阳师范大学学士学位论文 18 沈阳师范大学学士学位论文 19 第五章信用卡中心数据仓库项目详细设计 5 1 项目的概念模型设计 概念模型是现实业务的直接的 直观的反映 概念模型不需要经过太多的逻辑处 理就能实现 将现实中的业务逻辑和业务之间的联系用 E R 图能直观的表示出来 本项 目的概念模型如下图 图 5 1 1 项目的概念模型 5 2 项目的逻辑模型设计 5 2 1 逻辑模型的主题分析和确定 1 当事人 PARTY 是指银行作为一个金融机构所服务的任意对象和感兴趣进行分析 的各种个人客户或团体客户等 该项目中有客户量分析 都是个人客户 没有团体客户 所以确定个人客户为当事人主题 2 协议 AGREEMENT 是金融机构与客户之间针对某种特定产品或服务而签立的契约 关系 该项目中当事人客户和产品卡之间是用过账户建立关系的 所以确定账户为协议 主题 沈阳师范大学学士学位论文 20 3 事件 EVENT 是银行与客户或潜在客户之间的联系或交易活动 它记录了详细的 行为和交易数据 包括存取款 查询 网上交易等 该项目中有客户的各种交易记录 所以确定交易事件为事件主题 对每个主题进行的分割 是为了更加明确和清晰每个主题的结构 便于对业务需求 的阐释更加合理和规范 使建立的逻辑模型更加符合实际的业务需求 5 2 2 各个主题的划分和分析 1 当事人 PARTY 主题 1 根据项目需求对客户量的分析要求 我们需要获取的数据有总客户量 有效客户 量 当月新增客户量 当月注销客户量 人均持卡 人均余额 累计注销客户 过期客 户 其他客户 根据这些需求我们有以下分析 2 当成为银行的一个客户时 银行会给每个客户分配客户号 银行通过分析客户号 可以来统计该行客户的数量 所以需要建立当事人重要日期历史表 3 银行每次吸纳一个客户 基本信息都是要录入并保存的 例如 姓名 性别 出 生日期 证件代码等 所以需要建立当事人基本信息历史表 4 本次项目主要研究的是信用卡服务 所以一个客户的信用等级是至关重要的 根 据客户的收入情况 工作单位等信息来评估一个人的信用等级 然而一个人的信用等级 是可以变化的 不是一尘不变的 所以我们需要记录每个客户的限额历史 需要建立当 事人限额历史表 5 为了要判断每个当事人的状态 需要建立当事人状态历史表 当事人 PARTY 主题设计如下图 沈阳师范大学学士学位论文 21 图 5 2 2 1 当事人主题的逻辑模型 2 协议 AGREEMENT 主题 1 根据项目需求对账户的分析要求 我们需要获取的数据有总账户数 有效账户数 当月新增账户数 当月注销账户数 户均余额 总逾期额 根据这些需求我们有以下分 析 2 与客户号一样 每个账户号都有自己的基本信息历史表 用来记录账户的基本信 息 所以需要建立协议基本历史表 3 客户需要开立账户才能使用银行里服务 每个客户可以开多个账户 也可以注销 账户 而银行需要记录这些历史 所以还需要建立协议重要日期历史表 4 每个账户都有一个状态 根据它的状态来分辨它是否是有效账户 所以我们需要 建立一张协议状态历史表 9 5 每个客户有多个账户号 而每个账户号的限额是在变化的 所以需要建立协议限 额历史表 6 信用卡不是产品 是一种凭证 它不能单独作为一个主题 必须放在协议主题下 客户通过持有卡然后才有信用卡 所以建立一个协议凭证之间的关系历史表 7 为了使当事人和协议之间建立关系 我们需要建立当事人协议关系历史表 根据凭证的特点 建立凭证的基本信息历史表 如下图 图 5 2 2 2 凭证的逻辑模型 沈阳师范大学学士学位论文 22 图 5 2 2 3 协议主题的逻辑模型 3 事件 EVENT 主题 每个客户每天都会进行许多操作 每个操作都会产生数据 比如一次查询 一次转账 一次交易 银行需要记录这些操作 所以需要建立一张事件信息历史表 该表中的字段有交易事件编号 客户号 卡号 账号 交易日期 交易代码 原交易币种 原交易金额 10 事件 EVENT 主题设计如下图 沈阳师范大学学士学位论文 23 图 5 2 2 4 事件主题的逻辑模型 5 2 3 主题与主题之间的关系分析 每个客户有一个客户号 一个客户号下面有多个账户 一个账户号下面又有多张卡 一个客户号可以对应多个账户号 一个账户号可以对应多个卡号 客户只能通过账户管 理卡号 所以需要建立当事人和协议之间的关系历史 还有协议和凭证之间的关系历史 基础层 黄色为当事人主题 绿色为协议主题 蓝色为事件主题 如下图 沈阳师范大学学士学位论文 24 个个个个个 个个个 FK 个个个个 个个个 个个 个个 ORG个个 个个个个 个个个个 个个个个个个 个个个 FK 个个个个个个 个个 FK 个个个个 ORG个个 FK 个个个个 个个个个 个个个 个个 FK 个个个个个个 个个个个 个个个 个个个个 个个个个 个个个个个个 个个个个个个 个个 FK ORG个个 FK 个个个个个个 个个个个 个个个个个个 个个个个 个个个个个 个个个个个 个个个个个 个个个个个个 个个个个 MCC个个 个个个个个个 个个个个 个个个个 个个个个个个 个个个个个 个个个个 个个个个 个个个个个个 个个个个个 个个个个个个 个个个个个个 个个个个ID 个个个 FK 个个 FK 个个个 FK 个个个个个个 个个 FK 个个个个个个个个 FK 个个个个 ORG个个 FK 个个个个个个 个个个个 个个个个个个 FK 个个个个个个个 个个个个 个个个 FK 个个 个个个个 个个个个个个个个个个个个 个个个个 个个个个个个个 FK 个个个 FK 个个个个 个个个个 个个个个个个个 个个个 FK 个个个个 个个个个个个个 FK 个个个个 个个个个个个个 个个个 个个个个个 个个个个个个个 个个个 个个个个个 个个个个个个个个个个个 个个个 个个个个个 个个个个个个个个个 个个个个个个个个个 FK 个个个个 个个 FK 个个个 FK 个个个个 个个个个个个个个 个个个 个个个个个 个个个个个个 个个个 个个个个个 个个个个个个个个个 个个 FK 个个个个 个个个个个个个个个个 FK ORG个个 FK 个个个 FK 个个个个 个个个个个个个个个个个 个个个 个个个个个 个个个个个个 个个个个 个个 FK 个个个个 个个个 FK 个个个个个个 个个个 个个个个个 个个个个个个个个 个个 个个个个个个个个 FK 个个个个 个个 FK 个个个个 个个个个个个个个 个个个 个个个个个 个个个个个个个个个 个个个个个个个个个个个 FK 个个个个 个个个 FK 个个个个 个个个个 个个个个个个个个个个个 个个个 个个个个个 个个个个个个个 个个个个个个 FK 个个个个个个个个 FK 个个个个 个个个 FK 个个个个 个个个个个个 个个个个个个 个个个 个个个个个 个个个个个个个个 个个个 个个个个 个个个 个个个个个 个个个个个个个 FK 个个个个个个个 FK 个个个个 个个个个 个个个个个个个 个个个 个个个个个 个个个个个个个 个个个 个个个个个 个个个个个个 个个 FK ORG个个 FK 个个个个个个个个 FK 个个个个 FK 个个个个 个个 个个个个 个个个个个个 个个个 个个个个个 个个个个个个个个 个个个 个个个个个 个个个个个个个个 个个 FK ORG个个 FK 个个个个个个个个个个 FK 个个个个 个个个个 个个个个 个个个个个个个个个个 个个个 个个个个个 个个 个个个个 个个个个个 个个个个个个 FK 个个个个个个 FK 个个个个个个个个 FK 个个个个个个 FK 个个个个个个 个个个 个个个个个 个个个个个个 个个个 个个个个个 个个个个个个 个个个 个个个个个 个个个个个个个个 个个个 个个个个个 个个个个个个个 个个个个 个个个个个个 FK 个个 FK 个个 个个个个 个个个个个个 个个个 个个个个个 个个个个个 个个个个个 FK 个个个个个个个个个个FK个 图 5 2 3 所有主题及主题关系的逻辑模型 沈阳师范大学学士学位论文 25 5 3 项目的物理模型设计 5 3 1 当事人 PARTY 主题 根据逻辑模型关系分析得到物理模型如下图 图 5 3 1 当事人主题物理模型 5 3 2 协议 AGREEMENT 主题 根据逻辑模型关系分析得到物理模型如下图 图 5 3 2 协议主题物理模型 沈阳师范大学学士学位论文 26 5 3 3 事件 EVENT 主题 根据逻辑模型关系分析得到物理模型图如下图 图 5 3 3 事件主题物理模型 5 3 4 各主题之间的物理模型关系 根据逻辑模型关系分析得到物理模型图 基础层 黄色为当事人主题 绿色为协议主题 蓝色为事件主题 如下图 沈阳师范大学学士学位论文 27 PT TABLE CUST NO FK CERT NO CERT TYPE AG TABLE ACCT NO ORGCODE OPEN ACCT DATE CANCEL ACCT DATE BRANCH CODE CUST NO FK AG BAL HIS TABLE ACCT NO FK START DATE ORGCODE FK CURR BALANCE END DATE CERT TABLE CARD NO FK MATURITY DATE OPEN CARD DATE ACTIVE DATE CANCEL CARD DATE BRANCH CODE AG STA HIS TABLE ACCT NO FK START DATE ORGCODE FK ACCT STATUS CODE END DATE PT NAME TABLE START DATE CUST NO FK CUST NAME END DATE PT POPU STA INFO TABLE START DATE CUST NO FK DETAIL INFOR END DATE PT STA HIS TABLE START DATE CUST NO FK END DATE PT CERT REL HIS TABLE START DATE CUST NO FK CARD NO FK END DATE PT AG REL HIS TABLE ACCT NO FK START DATE ORGCODE FK CUST NO FK END DATE CERT STA HIS TABLE START DATE CARD NO FK END DATE AG CERT REL HIS TABLE ACCT NO START DATE CARD NO FK END DATE PT IMP DT HIS TABLE START DATE CUST NO FK IMPOR DATE END DATE PT TABLE PARTY CODE START DATE END DATE PARTY TYPE CODE FK PARTY SOURCE CODE FK AG IMP DT HIS TABLE ACCT NO FK ORGCODE FK START DATE IMPOR DATE END DATE CERT CERT TABLE CERT CODE INNER ORG CODE CERT TYPE CODE FK CERT STATUS CODE FK CERT STATUS REA CODE FK PAY CON CODE FK CERT LIMIT HIS TABLE START DATE CARD NO FK LIMIT END DATE 图 5 3 4 所主题及主题关系物理模型 5 4 项目的物理数据库设计 根据数据仓库的数据架构中不同的区域 设计了四个 scheme 进行对数据进行存放 分别为 源系统数据 临时区 基础层 汇总层 并在数据库中创建了四个用户 源数据 库 用户名 edw ods 基础层数据库 用户名 edw basic 汇总层数据库 用户名 沈阳师范大学学士学位论文 28 edw summary 1 edw summary 分别存放每一 scheme 的表 edw temp 用户管理临时区中的表 临 时区中表基于 ODS 层进行数据抽取 数据清洗等 2 edw ods 用户是存放从从 EXCEL 中抽取的数据 这一步首先经过数据清理 然会 经过 ETL 抽取过程把源数据存放在已经建立好的 ODS 层的表中 3 edw basic 用户是数据仓库基础层的用户 这一层首先要根据业务需求建立物理 模型 然后转化成物理模型 然后根据物理模型建立对应的基础层的表 然后用 ETL 过 程把 ODS 层中的数据抽取到基础层所建立的表中 4 edw summary 用户是数据仓库汇总层 这一层是根据业务的需求把我们需要的一 些数据先计算出来 在这一层建立一些表 用于存放这些数据 然后用 ETL 算法从基础 层抽取数据 进行轻度汇总 物理数据库为数据仓库储存历史信息 表建在 basic 用户下 严格按照物理模型建 表 表中各字段的字段名 数据类型及长度 中文说明均来自所给文档数据结构表 以下是各个主题建表情况 表 5 4 1 数据仓库的基础层中建表说明 a 个人当事人 PT TABLE 字段中文名英文名字段类型约束条件 客户号CUST NOVARCHAR2 50 主键 证件类型CERT TYPEVARCHAR2 10 无 证件号CERT NOVARCHAR2 50 唯一值 b 当事人姓名历史 PT NAME TABLE 字段中文名英文名字段类型约束条件 客户号CUST NOVARCHAR2 50 开始日期START DATEDATE 联合主键 客户号为外键 参照表 为个人当事人 参照列 为客户号 姓名CUST NAMEVARCHAR2 100 无 结束日期END DATEDATE无 c 当事人人口统计学信息历史 PT POPU STA INFO TABLE 字段中文名英文名字段类型约束条件 客户号CUST NOVARCHAR2 50 开始日期START DATEDATE 联合主键 客户号为外键 参照表 为个人当事人 参照列 为客户号 详细信息DETAIL INFOVARCHAR2 200 无 沈阳师范大学学士学位论文 29 结束日期END DATEDATE无 d 当事人状态历史 PT STA HIS TABLE 字段中文名英文名字段类型约束条件 客户号CUST NOVARCHAR2 50 开始日期START DATEDATE 当事人状态代码PT STA CODEVARCHAR2 50 联合主键 客户号为外键 参照表 为个人当事人 参照列 为客户号 当事人状态代码为外键 参照表为当事人状态码 表 参照列为代码值 结束日期END DATEDATE无 e 当事人重要日期历史 PT IMP DT HIS TABLE 字段中文名英文名字段类型约束条件 客户号CUST NOVARCHAR2 50 开始日期START DATEDATE 当事人重要日期代码PT IMP DT CODEVARCHAR2 50 联合主键 客户号为外键 参照表 为个人当事人 参照列 为客户号 当事人重要日期代码为 外键 参照表为当事人 重要日期码表 参照列 为代码值 结束日期END DATEDATE无 f 当事人凭证关系历史 PT CERT REL HIS TABLE 字段中文名英文名字段类型约束条件 客户号CUST NOVARCHAR2 50 开始日期START DATEDATE 当事人凭证关系代码PT CERT REL CODEVARCHAR2 50 联合主键 客户号为外键 参照表 为个人当事人 参照列 为客户号 当事人凭证关系代码为 外键 参照表为当事人 凭证关系码表 参照列 为代码值 结束日期END DATEDATE无 g 协议 AG TABLE 字段中文名英文名字段类型约束说明 账号ACCT NOVARCHAR2 50 ORG 代码ORG CODEVARCHAR2 3 联合主键 客户号CUST NOVARCHAR2 50 外键 参照表为个人当事 人 参照列为客户号 开户日期OPEN ACCT DATEDATE唯一 销户日期CANCEL ACCT DATEDATE无 发卡机构代码BRANCE CODEVARCHAR2 10 无 沈阳师范大学学士学位论文 30 h 账户余额历史 AG BAL HIS TABLE 字段中文名英文名字段类型约束说明 账号ACCT NOVARCHAR2 50 开始日期START DATEDATE ORG 代码ORG CODEVARCHAR2 3 联合主键 账号为外键 参照表为协 议 参照列为账号 账户余额CURR BALANCENUMBER 22 无 结束日期END DATEDATE无 i 协议状态历史 AG STA HIS TABLE 字段中文名英文名字段类型约束条件 账号ACCT NOVARCHAR2 50 ORG 代码ORG CODEVARCHAR2 3 开始日期START DATEDATE 协议状态类型代 码 AG STA STATUS CODECHAR 1 联合主键 账号为外键 参照表为协 议 参照列为账号 无 协议状态类型代码为外键 参照表为协议状态类型码 表 参照列为代码值 协议状态代码AG STA CODEVARCHAR2 3 外键 参照表为协议状态 码表 参照列为代码值 结束日期END DATEDATE无 j 协议重要日期历史 AG IMP DT HIS TABLE 字段中文名英文名字段类型约束条件 账号ACCT NOVARCHAR2 50 协议重要日期类 型代码 AG IMP DT TYPE CODEVARCHAR2 3 开始日期START DATEDATE ORG 代码ORG CODEVARCHAR2 3 联合主键 账号为外键 参照表为协 议 参照列为账号 无 重要日期IMPOR DATEDATE无 结束日期END DATEDATE无 k 当事人协议关系历史 PT AG REL HIS TABLE 字段中文名英文名字段类型约束条件 客户号CUST NOVARCHAR2 50 账号ACCT NOVARCHAR2 50 ORG 代码ORG CODEVARCHAR2 3 当事人协议关系类型代 码 PT AG REL TYPE CODEVARCHAR2 3 联合主键 客户号为外键 参照表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论