




已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
XXXX企业数据仓库概要设计说明书(文档编码:OM-BIDW-C001)(版本01.00.000)未经许可,不得以任何形式抄袭XXXX企业版权所有,翻板必究XXXX企业数据组2009年3月 开放无限基于短彩部的数据仓库设计概要设计说明书文档变更历史日期版本作者修改内容评审号变更控制号发布日期2009-03-1601.00.000黄浩初始版本2009-03-16目 录1前言32术语33系统环境及功能34系统数据流55系统内部功能框架75.1数据源层(Data Source)85.1.1描述85.1.2目标85.2数据装载层(ETL)85.2.1描述85.2.2目标85.3假定与约束95.4数据仓库层(ODS、EDS、DM)95.4.1描述95.4.2目标95.4.3假定与约束105.4.4系统模块(System Build Blocks)105.5前端展现层(Client Access)115.5.1描述115.5.2目标125.5.3假定与约束125.5.4需要的技能125.5.5待确定问题135.6元数据管理(MetaData Management)135.6.1描述135.6.2目标135.6.3假定与约束145.6.4需要的技能145.7调度监控系统(Dispatch Supervisor System)145.7.1描述145.7.2目标145.7.3假定与约束155.7.4需要技能1516开放无限短彩技术部数据组 1 前言本文档根据上次短彩部和互联网部的会议内容,从整个系统的高度形成公司基于短彩及技术部的数据仓库总体概念框架,对整个系统架构设计所需的功能模块进行明确划分,明确各功能模块的职责范围。2 术语 OM(OPEN MOBILE):XXXX企业科技有限公司 DW(Data Warehouse):数据仓库,数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合 ETL(Extraction-Transformation-Loading):数据抽取、转换和加载 ODS(Operational Data Store):运营数据存储 EDS(Enterprise Data Store):企业数据存储 DM(Data Market):数据集市 DSS(Dispatch Supervisor System):调度监控系统 MetaData Management:元数据管理3 系统环境及功能系统环境及功能如下图所示:从图中看到本系统目前的关联系统有: 短彩部系统:主要为上下行及report数据 WAP系统:考虑二期接入 应用下载系统:考虑二期接入 其他外围系统:暂时没有,作为后期扩展而设计OM数据仓库的主要用户角色有: 高层管理人员;该类用户主要是公司相关领导,通过OM数据仓库作出相应的决策,该类用户往往浏览OM数据仓库的企业KPI指标及相关报表。 业务/经理人员;该类用户主要是各部门领导如产品部、商务部、财务部等相关部门领导等,主要使用OM数据仓库查看部门KPI指标,浏览相关报表,进行多维分析等工作; 业务分析员;这类用户主要是资深的分析人员,通过OM数据仓库浏览报表并进行多维分析等工作 系统管理人员;该类用户对OM数据仓库进行系统的监控及维护等工作,并为其他用户提供支持;OM数据仓库应提供给用户如下的功能: 多维分析:多维数据分析是针对特定的分析主题进行多维数据模型的建模,使管理决策人员在多维数据模型的基础上进行快速、稳定和交互性的访问,通过切片、切块、旋转等操作进行各种复杂的分析和预测工作。 专题分析:专题分析模块利用各类主流的数理统计方法,通过不同分析工具(或模型)为专业分析人员(Super User)提供灵活、专业分析的工具,解决一些跨越主题的统计分析需求。本部分列举了一些较为复杂的分析模型,例如:客户流失预警分析、客户消费行为分析、客户发展分析、高额/欺诈分析、大客户异动分析、客户消费模型分析、业务推出对其它业务的影响分析的测算分析等等。 指标展示与告警:系统对用户非常关心的关键指标进行多种方式的展示,如展现企业每天经营的整体运营情况,主要包括一些实时性的业务关键指标如每天更新的客户数、活动客户数、总上行量、总下行量、下行成功量、收入、每天新增客户数、流失客户数等指标;对于相关指标可设置告警值,若指标值超出告警上下限则进行告警; 系统管理功能:为保证OM数据仓库能够稳定和安全的运行,系统应提供充分的系统管理功能,以对整个数据仓库系统的运行进行管理、协调及监控、系统备份和数据备份等等。4 系统数据流按照数据仓库的设计思路及功能,系统的数据流框架如下图所示: 5 系统内部功能框架系统的内部功能模块如下:从上图可以看到系统包括数据源层(Data Source)、数据装载层(ETL)、数据仓库层(StageODSEDSDM)、前端展示层(Client Access)、系统管理层(System Management)、元数据管理层(MetaData Management)及调度监控层(Dispatch Supervisor System)等。5.1 数据源层(Data Source)5.1.1 描述OM数据仓库的数据来自于MS SQL外部数据源,数据平台相对单一。5.1.2 目标由于用户常常需要访问以不同形式存放且处于不同平台上的业务数据及其他外部数据,因此需把这些外部数据经过数据抽取和转换等操作以标准一致且易于理解的方式存储在STAGE中5.2 数据装载层(ETL)5.2.1 描述 数据在进入数据仓库前,先存储在STAGE存储区,这部分数据是直接将数据源层的数据加载得到的,不做任何的逻辑处理。数据装载层对业务数据及其他外部源数据经过数据抽取、清洗、转换等操作形成标准一致、清洗后的数据,并存放在数据仓库系统中STAGE数据库中。5.2.2 目标数据装载层定义了数据从数据源系统存储到数据仓库中所进行的数据转换及数据清洗规则。它负责从源数据系统抽取数据并经各种转换操作后加载数据进入数据仓库系统中。从数据源系统进行数据抽取、数据转换和数据加载时应该要迅速并尽量减小对数据源系统、网络和数据仓库环境的影响。5.3 假定与约束 公司业务系统环境相对简单; 基于ETL方法公司的数据转换规则相对简单; 临时空间对于数据获取层来说可以单独开发。为了简化和优化ETL处理过程,临时空间中存储的数据可以是持续存储的;数据处理过程中的统计信息可以存放在临时空间中,但临时空间的数据对于前端用户来说应该是不可见的,临时空间的数据既可以是关系型的也可以以文件的形式存在。 目前的假设是数据获取层和数据处理层的临时空间可以共享,它们在物理上并不分开;5.4 数据仓库层(ODS、EDS、DM)5.4.1 描述数据仓库层是整个数据仓库系统的核心,进入数据仓库的所有数据都是在STAGE存储区经过一定的业务逻辑进行处理过的数据。ODS-EDS-DM的设计模式,体现了数据仓库设计的两个基本点:粒度和维度。从ODS-EDS-DM,数据的粒度依次递增,也就是ODS存储的是接近于原始数据源的明细数据,到DM模式,数据已经是经过深度汇总的;另一方面,ODS存储的是运营数据,基本上体现不了主题,而当数据经过深度汇总到DM模式,每个模式基本上就是一个主题,而主题的两个基本内容就是维度和计算值,因此在DM是根据一定维度进行深度汇总得到的面向主题的数据,也是直接面向业务部门不同用户的数据。5.4.2 目标将数据粒度化,通过具体的业务模型进行规范,使得数据在模型上规范化。 数据预处理:充分利用数据仓库中数据静态化的特点,将数据预处理,生成不同粒度的处理数据; 数据复用:数据仓库最核心的元素是数据,数据的复用度是数据仓库设计优劣的一个标准。数据的复用可以减少重复调度带来的系统负荷及数据不一致性问题; 数据结构优化:通过适度的粒度和维度设计,可以达到结构优化的目的。即将不同主题和粒度的数据存放在不同的物理表中。5.4.3 假定与约束 临时空间对于数据提升层来说可以单独开发。为了简化和优化ETL处理过程临时空间中存储的数据可以是持续存储的;数据处理过程中的统计信息可以存放在临时空间中,但临时空间的数据对于前端用户来说应该是不可见的,临时空间的数据既可以是关系型的也可以以文件的形式存在。 目前的假设是数据获取层和数据传送层的临时空间在物理上不分开并且可共享;5.4.4 系统模块(System Build Blocks)数据仓库层可以进一步分解如下:5.5 前端展现层(Client Access)5.5.1 描述用户与数据仓库的所有的交互需要在在前端展现层实现。在前端展现层需要实现应用信息的读取,一是元数据管理。应用信息读取模块提供工具让用户可以快速方便的得到他们想需要的信息。这个模块可以让用户通过读取数据仓库中不同层的数据存储来查阅报表进行分析,如同自己拥有一个信息系统。5.5.2 目标该层的主要目标是让用户从纷繁的存储数据中得到所需要有用的业务信息。还为了提供工具给用户,以便用户可以自由灵活的选择自己的需要。这些工具以及在Data Mart中准备好的数据可以有效的帮助用户作决策。5.5.3 假定与约束前端工具获取数据的途径会选择最优。虽然这样可能会增加整合的工作,但要是工具能最大程度上适应商务上的应用,这个是值得的。有大量需要查看静态报表和做简单查询的用户,有小部分需要动用大规模资源做分析。-5.5.4 需要的技能商务方面的认识,信息分析方面的知识,关于前端工具代码的编程,数据仓库的管理,数据仓库的结构以及Internet的安全知识。5.5.5 待确定问题WEB页面的展示方式5.6 元数据管理(MetaData Management)5.6.1 描述 元数据是描述数据仓库中数据的数据,元数据描述数据仓库环境中中的数据,例如数据源接口的格式、数据仓库中的表结构、ETL的各种转换任务、装载任务等,都是元数据。元数据管理就是需要将所有元数据集中统一管理,形成元数据库。在OM数据仓库环境中有三类元数据: 系统构建元数据。该部分元数据是在构建数据仓库应用(例如数据转换)和进行数据库设计、构建时产生的元数据,该部分元数据占了数据仓库环境元数据的绝大部分。 控制元数据。该部分元数据用于控制和管理数据仓库环境的运行,有两类控制元数据n 控制处理过程的元数据,包括数据源的物理结构、清洗转换规则等。n 用于数据仓库环境管理的元数据 业务元数据。5.6.2 目标元数据管理在数据仓库建设中相当重要。元数据管理的目的主要有: 收集整理对系统数据、各种处理过程、各种业务的详细描述,并集中存储元数据,以帮助IT人员对系统进行维护和分析。 为用户提供数据地图。数据仓库中存放了海量数据,有了元数据,用户可以在数据仓库海量的数据中,不用了解太多的技术细节和术语就方便快捷找到自己所需的数据,并清楚知道各个数据项的含义,提高用户的分析效率。 通过描述数据之间的依赖关系,能够进行影响分析,即对某部分数据发生修改,可以分析出该部分的改变会影响到其他哪些部分。 可以记录数据仓库整个应用的状态,方便跟踪和检查。5.6.3 假定与约束 基于目前的技术和资源情况,我们假定元数据管理是单向的管理。即元数据管理只是收集、存贮和发布使用元数据。对元数据的修改,系统不能自动实施,例如修改某个表的一个字段,原来是CHAR(10),现在需要变成CHAR(20),元数据管理只能分析出这个改变影响了哪些部分,如何修改受影响模块的代码则由手工完成,不需要元数据管理自动完成。 基于目前的情况,我们假定业务元数据限定在指标体系的范围。5.6.4 需要的技能 元数据分析 数据仓库架构 元数据模型5.7 调度监控系统(Dispatch Supervisor System)5.7.1 描述调度监控系统贯穿了整体系统的ETL层和DW层,整个系统中的作业调度(包括数据抽取、数据加载、存储过程执行等)、异常监控(作业调度对应的异常情况) 都由调度监控系统负责调度及监控。5.7.2 目标 ETL层调度监控:ETL调度监控能在规定的周期从数据源系统中抽取数据,生成符合一定格式的文本文件,再将文本文件以FTP的形式传输到指定的服务器上;然后将文本文件加载到目标数据库(STAGE)中。并能对整个流程做出异常监控,将监控结果反馈给相应的系统角色 DW层调度监控:主要是对DW中的所有存储过程进行调度,在DW中的存储过程调度分时间依赖和事件依赖两种情况,DW层调度要根据不同类型的调度进行不同的处理,并能对整个调度流程进行异常监控,将监控结果反馈给相应的系统角色。5.7.3 假定与约束 OM数据仓库中的调度只存在时间依赖和事件依赖两种类型 ETL层中的时间依赖是有周期性的,而不存在任意时间的调度5.7.4 需要的技能 调度算法 基于C+的消息响应机制5.8 系统管理5.8.1 描述系统管理层保证OM数据仓库能够稳定和安全的运行。它协调各子模块内部的运
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课件春望教学课件
- 课件昆虫教学课件
- 山东省日照市2025-2026学年高二上学期开学考试数学试题
- 押题宝典教师招聘之《小学教师招聘》模考模拟试题附答案详解(综合卷)
- 课件时空穿越
- 铸管制芯工专业技能考核试卷及答案
- 卡车漂移考试题及答案
- 爵位继承考试题及答案
- 酒厂应聘考试题及答案
- 印染助剂复配工质量追溯知识考核试卷及答案
- 2025年一级建造师《铁路实务》考试真题及答案解析
- 2025年GCP考试试题库含答案
- 2025浙江省知识产权研究与服务中心编外招聘12人考试备考试题及答案解析
- 医院检验科微生物进修汇报
- 医院门诊急救体系构建
- 2025年箱变考试题库
- 2025年G2电站锅炉司炉理论考试试题(1000题)含答案
- 第3课 学习有方法 第2课时(课件)2025-2026学年道德与法治三年级上册统编版
- 2025年幼儿园膳食工作计划
- 2025年中国电信校招试题及答案
- 《建筑工程资料管理》高职土建类相关专业全套教学课件
评论
0/150
提交评论