




已阅读5页,还剩55页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
安徽移动经营分析系统 架构设计 讨论稿 编写 编写 20032003 年年 4 4 月月 2121 日日 审核 审核 年年 月月 日日 批准 批准 年年 月月 日日 安徽移动通信公司 南京联创科技股份有限公司 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 I 目目 录录 1 前言前言 1 2 概述概述 1 2 1 系统的定位 1 2 2 系统建设目标 1 3 系统功能系统功能 1 3 1 功能定义 1 3 2 系统总体处理流程 1 3 3 系统总体结构 1 4 系统使用者系统使用者 1 4 1 使用人员 1 4 2 使用部门划分 1 4 3 地域划分 1 4 4 人员与功能对应关系 1 4 5 使用频度 1 5 技术需求描述技术需求描述 1 5 1 ETL 数据抽取 转换和加载 1 5 1 1 流程图 1 5 1 2 功能描述 1 5 1 3 输入与输出 1 5 1 4 数据存储 1 5 1 5 异常处理 1 5 1 6 功能扩展 1 5 1 7 界面要求 1 5 1 8 约束条件 1 5 1 9 安全性 1 5 1 10 指标 1 5 2 主题数据生成 1 5 2 1 流程图 1 5 2 2 功能描述 1 5 2 3 输入和输出 1 5 2 4 数据存储 1 5 2 5 异常处理 1 5 2 6 功能扩展 1 5 2 7 界面要求 1 5 2 8 约束条件 1 5 2 9 安全性 1 5 2 10 指标 1 5 3 多维数据加载 1 5 3 1 流程图 1 5 3 2 需求描述 1 5 3 3 输入和输出 1 5 3 4 数据存储 1 5 3 5 异常处理 1 5 3 6 功能扩展 1 5 3 7 界面要求 1 5 3 8 约束条件 1 5 3 9 安全性 1 5 3 10 指标 1 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 II 5 4 应用集成发布 1 5 4 1 应用集成体系结构 1 5 4 2 功能需求 1 5 4 3 技术策略 1 5 4 4 数据存储 1 5 4 5 异常处理 1 5 4 6 功能扩展 1 5 4 7 界面要求 1 5 4 8 约束条件 1 5 4 9 安全性 1 5 4 10 指标 1 5 5 元数据管理 1 5 5 1 流程图 1 5 5 2 功能描述 1 5 5 3 输入和输出 1 5 5 4 数据存储 1 5 5 5 异常处理 1 5 5 6 功能扩展 1 5 5 7 界面要求 1 5 5 8 约束条件 1 5 5 9 安全性 1 5 5 10 指标 1 5 6 系统管理 1 5 6 1 总体流程调度 1 5 6 2 安全管理 1 5 6 3 系统监控 1 5 6 4 数据的备份和恢复 1 5 7 系统外部接口 1 5 7 1 与数据源系统的接口 1 5 7 2 全国中心经营分析系统的接口 1 5 7 3 其它系统的接口 1 5 8 运行环境要求 1 6 附录附录 1 6 1 参考文献 1 6 2 术语定义 1 6 2 1 名词定义 1 6 2 2 业务功能需求级别定义 1 6 3 修改历史 1 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 1 页 共 60 页 1 前言前言 随着移动通信业务的迅猛发展 移动客户数量快速增加 同时 市场竞争 也更加激烈 面对日趋复杂的市场环境和客户越来越高的服务要求 如何通过 正确 有效的经营手段不断赢得客户 赢得市场成为移动运营商首要关注的问 题 目前 安徽移动拥有大量丰富而宝贵的生产运营数据 但缺乏科学 可靠 的手段进行数据的分析和信息的提取 难以及时 全面满足客户需要 为适应市场发展的需要 安徽移动按集团公司的相关要求 规范 并结合 自身的具体情况建设经营分析系统 经营分析系统的建设应遵循 整合业务数据 面向经营分析 的原则 整 合业务数据 是指经营分析系统必须构造面向主题的 集成的 稳定的 随时 间而变化的数据仓库系统 面向经营分析 是指系统必须智能地从数据中提 取与企业经营相关的信息和知识 为市场经营和决策人员制定客户服务 业务 发展和市场竞争等策略提供科学 准确 及时的依据 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 2 页 共 60 页 2 概述概述 2 1 系统的定位系统的定位 中国移动按照两级系统 三层结构的模式进行经营分析系统的的建设 安 徽移动经营分析系统是其中的一个二级系统 它负责安徽移动全省的经营分析 系统的工作 各地市不再另设经营分析系统 地市公司通过广 局域网连接 接 入位于省中心的经营分析系统 同时 安徽移动经营分析系统需满足集团公司 一级经营分析系统对于二级经营分析系统的数据交换需求 安徽移动经营分析 系统需预留与集团公司一级经营分析系统数据接口 集团公司经营分析系统 广域网 数据通信网 安徽移动经营分析系统XX省公司经营分析系统 一级 二级 XX地市终端 XX地市终端蚌埠市终端安庆市终端 XX地市终端XX地市终端 集团公司经营分析系统 广域网 数据通信网 安徽移动经营分析系统XX省公司经营分析系统 一级 二级 XX地市终端 XX地市终端蚌埠市终端安庆市终端 XX地市终端XX地市终端 2 2 系统建设目标系统建设目标 中国移动经营分析系统的建设目标是建立一个统一的数据信息平台 采用 先进的数据仓库技术和分析挖掘工具 提取企业数据中的有价值信息 为企业 的客户服务 市场营销等工作提供科学有效的支撑 提升企业的运营水平和竞 争能力 体现以客户为中心的经营理念 此次系统的建设目标是满足安徽移动 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 3 页 共 60 页 3 系统功能系统功能 3 1 功能定义功能定义 安徽移动经营分析系统从业务的角度 功能包括 关键指标展示 主题分 析 预定义报表 专题分析等 从技术的角度 经营分析系统功能包括 ETL 主题数据生成 多维数据加载 元数据管理 系统管理等 3 2 系统总体处理流程系统总体处理流程 1 ETL 过程负责从数据源系统中获取原始业务数据 通过数据转换 数据清洗过程 将符合企业 EDM 模型的数据加载到数据仓库中 这个过程是一个较为复杂的过程 根据实际的数据情况及处理情况 可能会由 ETL 服务器与数据仓库共同完成 2 主题数据生成过程负责将按照 EDM 模型组织的数据 根据不同的 业务主题 进行汇总和归并 生成满足用户分析需求的主题数据 3 多维数据加载过程将存储在关系数据库中的数据 加载到多维数据 库中 形成满足用户分析需求的 CUBE 4 元数据管理贯穿于整个数据仓库过程 记录相关的技术元数据和业 务元数据 并对其进行适当的管理 5 系统管理包括 安全管理 系统监控 流程调度等 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 4 页 共 60 页 3 3 系统总体结构系统总体结构 安徽移动经营分析系统网络拓扑图如下所示 安徽移动经营分析系统总体应用分布图如下 从逻辑上 完成经营分析系统的功能 需配置以下服务器 根据实际应用 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 5 页 共 60 页 的分布情况及机器的处理能力 某些服务器可以合并或共用 1 接口服务器 数据源系统与经营分析系统之间的桥梁 用于与原系 统进行数据通讯和数据交换 2 ETL 服务器 负责从接口服务器或直接从数据源系统抽取数据 并 将抽取得到的数据经过转换和清洗 将符合经营分析系统要求的加载到数 据仓库中 3 数据仓库服务器 经营分析系统的数据存储仓库 存储的内容包括 用户资料 清单帐单数据 历史数据 分析中间数据 分析数据等 4 OLAP 服务器 用于多维数据的存储 及对前台分析需求的数据响 应 5 数据挖掘服务器 用于实现数据挖掘应用 6 报表服务器 用于生成用户的预定义 自定义报表 并以文件的方 式存储全部或部分报表的统计数据 7 应用服务器 用于基于 WEB 的前台应用的集成 发布和管理 8 WEB 服务器 用户进行应用的 WEB 发布 9 元数据与系统管理服务器 用于进行元数据管理和系统管理 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 6 页 共 60 页 4 系统使用者系统使用者 4 1 使用人员使用人员 安徽移动经营分析系统的使用人员包括 业务人员 熟悉移动的相关业务 具备简单的计算机操作技能 通过系 统可进行简单的分析操作 决策分析人员 精通移动的全部业务 了解移动业务的整体发展趋势 熟悉常用的分析工具和分析方法 可进行复杂的分析操作及数据挖掘工 作 报表制作人员 熟悉计算机与报表工具的操作功能 通过系统可查看和 制作 发布报表 相关的各级领导 熟悉移动的相关业务 具备简单的计算机操作技能 主要通过关键指标展示跟踪 KPI 的变化情况 数据仓库管理员 精通数据库和网络管理知识 有数据库管理经验 进 行数据仓库存储层的相关管理工作 系统管理员 对经营分析系统需要涉及的所有系统管理配置信息有深入 的了解 负责经营分析系统的管理工作 日常维护人员 具备较强的计算机操作技能 可进行一定程度的编程工 作 负责维护经营分析系统正常运行所需进程的正常运行 4 2 使用部门划分使用部门划分 计费业务中心 经营分析系统的主要维护者 及部分业务功能的使用 者和实现者 市场部 经营分析系统的主要使用部门 使用的业务功能可覆盖整个 经营分析系统的业务功能 大客户管理部 主要使用经营分析系统中与大客户主题相关的业务功 能 包括主题分析与专题分析 财务部 利用经营分析系统中与财务相关的主题分析功能 进行分析 操作 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 7 页 共 60 页 网络部 主要使用经营分析系统中与网络相关的分析主题 其它相关业务部门 使用经营分析系统中与其部门相关的业务功能 4 3 地域划分地域划分 安徽移动经营分析系统的使用人员按地域划分见下表 操作人员 地域 业务 人员 决策分 析人员 报表制作 人员 各级 领导 数据仓库 管理员 系统管 理员 日常维 护人员 省中心 地市 4 4 人员与功能对应关系人员与功能对应关系 4 5 使用频度使用频度 经营分析系统的使用时间基本集中在每个工作日的日间工作时段 夜间为 分析数据准备生成时段 此时段应尽量避免频繁使用分析功能 系统管理员系统管理员 公司决策层公司决策层 部门主管部门主管 专业分析人员专业分析人员 一般业务人员一般业务人员 报表专题分析安全管理参数管理 OLAP 分析自定义业务 1系统监控数据库 查询自定义业务 2主题数据 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 8 页 共 60 页 5 技术需求描述技术需求描述 5 1 ETL 数据抽取 转换和加载数据抽取 转换和加载 5 1 1 流程图流程图 ETL 的一般流程如下图所示 根据不同的数据文件内容和对数据的要求 对于以上流程会略有变动 5 1 2 功能描述功能描述 5 1 2 1 数据抽取数据抽取 5 1 2 1 1 主要功能主要功能 主要是针对各个业务系统及不同网点的分散数据 在充分理解数据定义的 基础上 规划所需要的数据源及数据定义 确定可操作的数据源 制定抽取的 定义 从数据源系统获得分析所需的数据 典型的数据抽取接口包括数据库接口和文件接口 对于不同数据平台 不 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 9 页 共 60 页 同源数据形式 不同性能要求和业务量的业务系统以及不同数据量的源数据 将采取不同的数据抽取接口 在数据抽取时需要重点考虑数据抽取的效率 以 及对现有业务系统性能及安全的影响 中国移动经营分析系统的数据源具有如 下特点 数据量巨大 业务系统工作负荷重 7 24 运行 对系统性能 数据实时性的要求较高 鉴于以上特点 对于移动数据抽取接口一般情况下采用专用数据库驱动接 口 必要的时候采用 API 接口编程实现数据的抽取 以提高数据抽取效率同时 减少对业务系统的性能的影响 5 1 2 1 2 技术策略技术策略 数据的抽取必须能够充分满足数据仓库系统分析及决策支持的需要 同时 必须保证不能影响业务系统的性能 所以进行数据抽取时必须充分考虑这些因 素 制定相应的策略 包括抽取方式 抽取时机 抽取周期等内容 抽取方式 增量抽取 完全抽取等 抽取时机 尽可能避开业务系统的高峰时段 比如在夜间业务系统比较 闲时 抽取周期 对不同类型的数据源 应综合考虑业务需求和系统代价 制 定合理的抽取周期 满足对多种不同的数据来源的抽取处理 数据源包括中国移动相应业务系 统 企业外部数据源 能够提供某些数据的人工输入功能 如促销活动信息 社会调查信息等 支持多种不同系统平台和数据类型的数据抽取 包括各种关系型数据库系 统 各种文件方式的源数据等 充分考虑数据源系统的性能要求 根据业务量大小和数据量大小 尽量减 少对数据源系统的影响 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 10 页 共 60 页 在制定抽取策略时 需要对以上各项因素综合考虑 通常情况下 流水型增长且数据量大的数据适合采用增量抽取的方式 最 为典型的是清单 帐单类数据 变化更新的数据适合采用完全抽取的方式 最为典型的是反映当前状态的 资源配置类数据 对于两者结合的数据 如果能提取增量信息 则进行增量抽取 否则采用 完全抽取的方式进行 最为典型的是客户资料变更数据或其它的客户服务记录 数据 此外 对于抽取周期要考虑实际业务的需求和抽取进行的系统代价 在可 能的情况下 尽量缩短抽取周期 分析系统从业务系统中获取数据 根据集团公司的接口规范要求 抽取方 式基本以文件抽取方式为主 辅以数据库方式 对其它外部数据源 以手工录 入方式进行 注 根据接口规范 数据抽取主要由业务系统提供方以文件方式提供给分 析系统 5 1 2 2 数据清洗与转换数据清洗与转换 主要是针对数据二义性 重复 不完整 违反业务规则等问题 将从业务 系统中抽取的源数据中有问题的记录剔除 并根据数据仓库系统模型的要求 进行数据的转换 拆分 归并等处理 如统一定义标准 简单计算等处理 保 证来自不同系统 不同格式的数据的一致性和完整性 并按要求装入数据仓库 分类数据特征主要数据内容 流水型增长 INSERT 数据按增量方式产生 不涉及对已有数 据的更新操作 清单 帐单 定单等 变化更新 UPDATE 对已有数据进行更新资源配置信息等 数据操作 两者结合 INSERT DELETE UPDA TE 按增量方式产生新数据的同时 还对已 有数据进行更新 客服记录等 大清单 帐单等 源数据分类方式 数据量 相对较小 资源管理 系统管理类 数据 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 11 页 共 60 页 5 1 2 2 1 主要功能主要功能 数据清洗与转换主要完成由于以下原因造成的数据不一致性问题 1 源数据系统同数据仓库系统在模型上的差异性 2 源数据系统平台不一致 数据仓库系统的数据源可能包括基于不同平台 的数据库的数据 3 源数据结构的不一致 有些数据源由于历史的原因 导致同一个表在不 同的时期数据结构不一致 4 源数据定义不规范导致错误数据 5 对数据的约束不严格 导致无意义数据 6 存在重复记录 7 由于平台系统的不同 可能会存在大量的转码工作 5 1 2 2 2 技术策略技术策略 根据实际情况 数据转换工作一般会在以下几个环节中具体实现 1 在抽取过程中进行数据处理 2 使用异步数据加载 以文件的方式处理 3 在数据加载过程中进行数据处理 4 进入数据仓库以后再进行数据处理 采用在数据抽取过程中进行数据转换时 必须考虑抽取的性能以及对业务 系统性能的影响 采用异步数据加载需要以文件方式处理时 必须充分考虑中 间磁盘的存储量以及 ETL 整个流程的协调性工作 以及大量的非 SQL 语句的 编程 采用在数据加载过程中进行数据转换时 必须考虑加载性能 采用先将 数据装载到数据仓库后再处理时 必须考虑数据仓库引擎的海量数据处理能力 注 根据接口规范 除了第一种情况以外 别的情况都有可能碰到 5 1 2 3 数据加载数据加载 5 1 2 3 1 主要功能主要功能 主要是将经过转换的数据 根据相应的规则装载到数据仓库里面 可以通 过数据文件直接装载或直连数据库的方式来进行数据装载 可以充分体现高效 性 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 12 页 共 60 页 5 1 2 3 2 技术策略技术策略 主要加载技术 1 使用数据仓库引擎厂商提供的数据加载工具进行数据加载 2 通过数据仓库引擎厂商提供的 API 编程进行数据加载 数据加载策略要考虑加载周期及数据追加策略两方面的内容 根据中国移动业务数据的实际情况 加载周期要综合考虑业务分析需求和 系统加载的代价 对不同业务系统的数据采用不同的加载周期 但必须保持同 一时间业务数据的完整性 数据的追加策略根据数据的抽取策略以及业务规则确定 一般有以下三种 类型 直接追加 全部覆盖 更新追加 1 直接追加 是指每次加载时直接将数据追加到目的表中 对于典型的流 水数据 一般采用此方法 清单 帐务等数据可以采用直接追加的方式 2 全部覆盖 对于抽取数据本身已包括了数据的当前和所有历史状况 对 目标表采用全部覆盖方式 典型情况是资费规则定义等参数数据可以全 部覆盖的方式 3 更新追加 对于需要连续记录业务的状态变化 用当前的最新状态同历 史状态数据进行比对的情况采用更新追加的方式 典型情况是客服记录 数据的加载 具体采取何种方式 要综合考虑效率 业务实现等诸多因素 5 1 2 4 数据审核数据审核 5 1 2 4 1 主要功能主要功能 为保证分析系统中的数据同业务系统中数据在业务意义上的一致性 准同 步 及数据的准确性所引进数据核查功能 5 1 2 4 2 技术策略技术策略 数据正确性的保证是在数据的 ETL 过程中 但数据正确性的审计工作则是 在数据加载工作完成以后 一方面要从设计到实施的整个过程中确保处理流程的正确性 另一方面要 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 13 页 共 60 页 通过事后的检验来检查 ETL 的正确性 如发现差异较大 建议对数据源系统与 经营分析系统做一次数据同步 理想的情况是 审核工作必须在数据抽取 转换 加载等所有的阶段都要 进行 通常情况下 进行如下两步审核就基本达到数据审核目的了 文件审核 业务系统方和分析系统方定期出据接口文件详细信息报告 描述信息包 括文件名 文件大小 记录数等 从文件级角度来检验传输的正确性 文件名 文件大小 文件包含记录数 KPI 审核 业务系统和分析系统定义在指定时间点分别提交 KPI 报告进行关键业绩 指标审核 KPI指标值含义 生成时间 YYYYMMDDHHMI 统计周期 客户数参见 中国移动经营分析指标定义 CU0001 大客户数参见 中国移动经营分析指标定义 VC0001 新增用户数参见 中国移动经营分析指标定义 CU0043 用户到达数参见 中国移动经营分析指标定义 CU0041 GPRS用户数参见 中国移动经营分析指标定义 DA0002 本统计周期通信业务收入参见 中国移动经营分析指标定义 RE0003 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 14 页 共 60 页 本统计周期实收金额参见 中国移动经营分析指标定义 RE0069 本统计周期欠费金额参见 中国移动经营分析指标定义 RE0068 本统计周期移动电话业务总量参见 中国移动经营分析指标定义 BU0001 本统计周期非漫游通话时长参见 中国移动经营分析指标定义 BU0005 本统计周期内总服务次数参见 中国移动经营分析指标定义 SE0001 本统计周期内投诉人数参见 中国移动经营分析指标定义 SE0014 5 1 3 输入与输出输入与输出 5 1 3 1 输入输入 业务系统提供的接口文件 5 1 3 2 输出输出 主题数据生成所需要的表内容 5 1 4 数据存储数据存储 5 1 4 1 接口数据文件接口数据文件 在线存储 1 月 离线存储 1 年 5 1 4 2 ETL 日志日志文件文件 在线存储 1 周 离线存储 1 年 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 15 页 共 60 页 5 1 4 3 ETL 日志 存储在数据库中 日志 存储在数据库中 在线存储 6 个月 离线存储 2 年 5 1 5 异常处理异常处理 5 1 5 1 回退处理回退处理 若业务系统发现某日提供的接口文件数据有问题 或者因某种其它原因 需要将系统恢复到指定日期时系统状态 这时需要对整个系统进行回退处理 为了保持与业务系统数据的一致性 保持数据同步 需要将已入库的指定 日期以后的数据 以及由此生成的相关数据从数据库中全部删除 同时将指定 日期以后的备份文件或者替换的文件作为数据源重新纳入到经营分析系统中来 并一直运行到当前时间为止 5 1 5 2 异常记录处理异常记录处理 根据日志信息 针对异常的记录进行相应的处理 比如接口文件名不正确 接口文件格式不正确 连接数据库失败 存储空间不够等等 有些问题手工就 可以解决 有些需要与接口提供方协商 无法自动或简单修复的错误记录将交由业务分析人员与系统管理员共同研 究后做出决定 5 1 6 功能扩展功能扩展 5 1 6 1 数据源的增加数据源的增加 满足数据源的增加是显而易见的事情 因为系统设计之初对接口文件的个 数未知 必须保证数据源添加和减少的基本需求 此项功能扩展主要靠配置文件来实现 5 1 6 2 调度规则的改变调度规则的改变 同上 ETL 系统必须满足某一数据源因内容变化而引起的相应的抽取 清 洗 转换 装载等规则的变化 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 16 页 共 60 页 ETL 工具 DataStage 是一套专门对多种操作数据源的数据抽取 转换和维 护过程进行简化和自动化 并将其输入数据集市或数据仓库目标数据库的集成 工具 DataStage 能够处理多种数据源的数据 包括主机系统的大型数据库 开放 系统上的关系数据库和普通的文件系统等 DataStage 可以从多个不同的业务系统中 从多个平台的数据源中抽取数据 完成转换和清洗 装载到各种系统里面 其中每步都可以在图形化工具里完成 同样可以灵活的被外部系统调度 提供专门的设计工具来设计转换规则和清洗 规则等 实现了增量抽取 任务调度等多种复杂而实用的功能 其中简单的数 据转换可以通过在界面上拖拉操作和调用一些 DataStage 预定义转换函数来实现 复杂转换可以通过编写脚本或结合其它语言的扩展来实现 并且 DataStage 提供 调试环境 可以极大提高开发和调试抽取 转换程序的效率 此项功能扩展主要通过 DataStage 工具来具体实现 5 1 6 3 性能要求的提高性能要求的提高 5 1 6 3 1 多进程 多线程处理方式多进程 多线程处理方式 可以利用 ipc partition collector 等方式充分利用硬件性能 提高转换 效率 5 1 6 3 2 数据库调优数据库调优 针对数据库的调优方式在图形界面利用一些参数 可以根据实际情况 进行细致的调优 5 1 7 界面要求界面要求 5 1 7 1 ETL 规则修改界面规则修改界面 ETL 工具 DataStage 通过可视化操作界面可以方便的进行抽取 清洗 转 化 和装载规则的修改 详见 6 1 6 2 调度规则的改变 5 1 7 2 参数配置界面参数配置界面 提供可视化操作界面对相关程序运行参数进行配置 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 17 页 共 60 页 5 1 7 3 进程管理界面进程管理界面 提供可视化操作界面进行进程的调度管理 包括启动 停止 查看当前进 程运行状态等等 免去手工执行命令行之不便 5 1 7 4 日志监控界面日志监控界面 提供可视化界面对程序各环节产生的日志提供一个统一管理界面 便于方 便查看系统运行状况 在出现需要人工干预的情况下及时报警 5 1 8 约束条件约束条件 5 1 8 1 接口方约束接口方约束 数据提供方必须在双方协定的时间之前提供完接口数据 给足分析系统所 需要的处理时间 5 1 8 2 自身运行条件约束自身运行条件约束 必须提供足够性能的主机运行 ETL 系统 保证一定的处理速度和数据存储 空间 5 1 9 安全性安全性 5 1 9 1 内置安全机制内置安全机制 自动调度和加载的功能必须保证稳定性和安全性 应提供后备应急措施 ETL 处理过程具有完整的日志管理功能 完善的数据审核功能 并且有相关的 监控预警机制 保证 ETL 正常进行 不影响数据源系统和经营分析系统的正常 工作 5 1 9 2 开发使用安全性开发使用安全性 ETL 处理过程可以将 ETL 执行或开发的权限赋给指定的人 避免不相关人 员的误操作 并能记录操作人员的使用情况 进一步提高了安全性 5 1 9 3 其它安全机制其它安全机制 分析系统提供一套完善的监控系统 对各个子系统都能得到有效的监控 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 18 页 共 60 页 5 1 10 指标指标 5 1 10 1 支持平台的多样性支持平台的多样性 支持当今主流操作系统 包括 Sun Solaris HPUX IBM AIX Compaq Tru64 Linux 和 NT 2000 不支持 SCO Unix 5 1 10 2 支持数据源的多样性支持数据源的多样性 支持包括 DB2 Informix Oracle Sybase SQL Server Teradata SAS 专用接口 Text Excel ODBC User defined file FTP XML Message Queue Email Weblog 等方式的数据源 不支持 JDBC 5 1 10 3 转换功能的多样性转换功能的多样性 主要包括字段映射 映射的自动匹配 字段的拆分 多字段的混合运算 多数据源的关联 如果是只能利用数据库的 Join 请注明 支持关联条件的复 杂程度 等值关联和非等值关联 运算关联 多级关联等多种关联方式 自定 义函数的实现 可供编写自定义函数的语言和具体环境 内嵌的 Basic 语言 5 1 10 4 支持数据类型多样性支持数据类型多样性 支持的数据类型包括 Bigint Binary Bit Char Date Decimal Double Float Integer LongNVa rChar LongVarBinary LongVarChar Nchar Numerica NvarChar Real S mallInt Time Timestamp TinyInt VarBinary VarChar 自定义数据类型 5 1 10 5 其它特色功能其它特色功能 支持数据脏读 数据批量装载功能 自动完成时间类型的转换 对抽取的 环境变量配置情况 环境变量是否可以动态修改 记录拆分 动态修改抽取的 字段 行变列 列变行 排序统计 Sum Count Average First Last Max Min 度量衡等常用的转换 单 步调试功能 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 19 页 共 60 页 5 2 主题数据生成主题数据生成 5 2 1 流程图流程图 5 2 2 功能描述功能描述 5 2 2 1 数据入库数据入库 5 2 2 1 1 需求描述需求描述 从数据获取层 ETL 获得预处理后的数据做入库操作 5 2 2 1 2 技术策略技术策略 主题数据生成阶段的数据入库功能通过数据库存储过程来实现 在主题数 据生成阶段入库的数据主要是那些无法由数据获取层的数据加载功能直接加载 到数据仓库中的数据 这些数据往往和数据仓库中的一些数据相关联 需要对 数据仓库中的与之相关的数据进行处理以后 才能将这些数据加载到数据仓库 中 而对数据仓库中的数据进行处理是数据获取层 ETL 的各种功能所无法 完成的 必须通过数据库存储过程来完成 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 20 页 共 60 页 5 2 2 2 数据处理数据处理 5 2 2 2 1 数据提取 归并 重定义数据提取 归并 重定义 5 2 2 2 1 1 需求描述需求描述 数据提取指从不同资料表的众多字段中只获取那些和分析需求有关的字段 数据归并指将从相关联的资料表中提取的有价值的数据插入到同一张中间数据 表中 而重定义指为了满足分析的要求 需要对提取出来的一些数据进行转换 或计算 再插入到中间数据表中 5 2 2 2 1 2 技术策略技术策略 数据集市要求的数据往往分散在多张资料表中 若在生成数据集市时才根 据需要到相应的资料表中请求数据 必然使数据库在某一时刻出现大量的表关 联操作 降低数据库的处理效率 为避免这一数据库处理瓶颈的出现 可以每 天对数据获取模块 ETL 和主题数据生成模块加载到数据仓库中的数据进行 提取 归并和重新定义 生成数据粒度和资料表相同的中间数据表 在生成数 据集市时则通过相应的中间数据表获取数据 这样分散了数据库的负荷 提高 了处理效率 5 2 2 2 2 数据轻度汇总数据轻度汇总 5 2 2 2 2 1 需求描述需求描述 对数据获取层 ETL 和主题数据生成模块加载到数据仓库中的数据按照一定 的维度进行汇总 生成满足分析要求的轻度汇总数据表 5 2 2 2 2 2 技术策略技术策略 通过数据获取层 ETL 和主题数据生成模块加载到数据仓库中的数据其 数据粒度是数据仓库中最小的 根据数据仓库的特点 数据粒度越小 数据量 越大 因此刚刚进入数据仓库的数据其数据量是巨大的 如直接使用这种小粒 度的数据来生成数据粒度大的多的数据集市 需要进行几个步骤的数据分组汇 总 数据集市的生成过程会十分缓慢 所以每天对通过数据获取层 ETL 和 主题数据生成模块加载到数据仓库中的数据按照一些维度进行汇总 生成满足 分析要求的轻度汇总数据表 分散数据库的负荷 提高了处理效率 根据需要 可能会有多种粒度级的轻度汇总数据 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 21 页 共 60 页 5 2 2 3 主题数据生成主题数据生成 5 2 2 3 1 需求描述需求描述 对于某些主题的业务分析问题 可能会按照主题采用数据集市的方式对数 据进行进一步的组织 所以在中央数据仓库的基础之上根据分析需求会创建面 向不同主题的主题数据 5 2 2 3 2 技术策略技术策略 主题数据的数据直接来自于中央数据仓库 采用这种方式 可以保持整体 数据的一致性 根据数据仓库模型 从当前信息表 数据归并中间数据表 轻 度汇总数据表中获取数据 生成主题数据中各事实表的数据 满足分析需求 5 2 3 输入和输出输入和输出 5 2 3 1 输入输入 ETL 产生的接口表 ETL 产生的参数表 ETL 产生的资料表 5 2 3 2 输出输出 主题数据中的事实表 数据仓库存储过程运行日志表 5 2 4 数据存储数据存储 5 2 4 1 客户资料客户资料 在线存储 永久 5 2 4 2 用户资料用户资料 在线存储 永久 5 2 4 3 帐务资料帐务资料 在线存储 永久 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 22 页 共 60 页 5 2 4 4 服务使用资料服务使用资料 在线存储 6 月 离线存储 永久 5 2 4 5 客服资料客服资料 在线存储 6 月 离线存储 永久 5 2 4 6 资源资料资源资料 在线存储 永久 5 2 4 7 营销资料营销资料 在线存储 永久 5 2 4 8 结算资料结算资料 在线存储 6 月 离线存储 永久 5 2 4 9 网管资料网管资料 在线存储 6 月 离线存储 永久 5 2 4 10 接口表接口表 在线存储 1 周 离线存储 3 月 5 2 4 11 参数表参数表 在线存储 永久 5 2 4 12 历史表历史表 在线存储 2 年 离线存储 永久 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 23 页 共 60 页 5 2 4 13 事实表 日 事实表 日 在线存储 3 月 离线存储 永久 5 2 4 14 事实表 月 事实表 月 在线存储 1 年 离线存储 永久 5 2 4 15 事实表 年 事实表 年 在线存储 永久 离线存储 永久 5 2 4 16 归并中间数据表归并中间数据表 在线存储 3 月 离线存储 不存储 5 2 4 17 轻度汇总数据表轻度汇总数据表 在线存储 6 月 离线存储 不存储 5 2 4 18 操作日志操作日志 在线存储 1 年 离线存储 1 年 5 2 5 异常处理异常处理 5 2 5 1 回退处理回退处理 由于数据源系统提供了错误的数据或是经营分析系统自身处理的原因 或 其它的种种原因 会造成错误的数据进入数据仓库中 利用错误的数据进行分 析 其分析结果肯定是不准确的 因此在发现有错误时 就要进行数据回退 将系统恢复到错误数据进入系统以前的状态 保证数据仓库内部数据的准确性 和完整性 从而保证分析结果的准确性 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 24 页 共 60 页 如果是因为数据源系统提供的数据有问题或者经营分析系统的数据获取层 ETL 的问题而要求进行数据回退 这种数据回退 从主题数据生成角度来 看 称为被动回退 由 ETL 发起 回退点一般从 ETL 开始 主题数据生成的 数据回退过程由 ETL 的数据回退进程来调度 而如果是因为主题数据生成过程 中的问题而要求进行数据回退 这种数据回退称为主动回退 由主题数据生成 发起 回退点一般从中间数据表或轻度汇总表的生成开始 数据回退过程由主 题数据生成的数据回退进程来调度 5 2 5 2 存储过程调用失败处理存储过程调用失败处理 存储过程调用失败一般是因为存储过程的处理逻辑或是被存储过程处理的 数据库记录不正确 此时需要依据存储过程调用日志表记录的日志信息 修改 存储过程的处理逻辑或者异常的数据库记录 并由系统调度程序重新调用存储 过程 对于无法修复的异常纪录 由业务分析人员和系统维护人员共同研究后 做处理决定 5 2 5 3 数据库异常处理数据库异常处理 数据库出现异常时 根据数据库日志和相关帮助信息 修复数据库 对于 无法修复的数据库异常 使用最新的数据库备份或表空间备份恢复损坏的数据 库或表空间 5 2 6 功能扩展功能扩展 5 2 6 1 主题分析模型的变化主题分析模型的变化 在系统的使用过程中 用户观察某个主题分析模型的角度 维度 会发生 变化 而有些观察角度 维度 可能没有包含在已有的主题分析模型中 因此 主题分析模型会随之发生相应的变化 在根据某个主题分析模型设计数据仓库 中的事实表时 就考虑到了一些主题分析模型中没有提出而用户可能关注的观 察角度 维度 如果新的观察角度 维度 包含在事实表中 只需要修改一下 多维数据加载时的加载规则就可以满足用户的要求了 如果新的观察角度 维 度 在事实表中不存在 就需要修改事实表结构和相应的存储过程 并重新生 成事实表数据 再按新的要求加载数据 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 25 页 共 60 页 5 2 6 2 维表的数据发生变化维表的数据发生变化 在系统的使用过程中 维表的数据会发生变化 也就是说维的编码和含义 之间的对应关系发生了变化 此时 为了确保以前生成的事实表中维代码不因 为维表的改变而无法对应到正确的含义 就需要对含有该维度的事实表中的维 代码进行更新 使它们符合新的维表中的关系 5 2 6 3 数据仓库模型的扩展数据仓库模型的扩展 5 2 6 3 1 定义新的数据源或扩展原有的数据源定义新的数据源或扩展原有的数据源 在定义了新的数据源或者扩展了原有数据源后 设计相应的归并中间数据 表和轻度汇总数据表 根据分析需求设计事实表 修改数据库设计 为这些表 分配合适的存储空间 确定新的数据源表的数据在数据仓库中的处理流程 编 写相应的存储过程 修改系统调度程序 加入新增的存储过程 5 2 6 3 2 定义新的分析需求定义新的分析需求 在出现新的分析需求时 如果新的分析需求是已有事实表的一部分 则可 以生成一个满足需求的多维数据加载规则并加载数据 如果新的分析需求不是 已有事实表的一部分 可以通过扩展已有事实表结构或重新定义新的事实表来 满足需求 5 2 6 4 调度规则的改变调度规则的改变 所有的存储过程都是由 Unix C 程序自动调用的 该程序读系统调度配置参 数文件 当发现某个存储过程满足调度规则时 调用该存储过程 并记录存储 过程运行结果 因此 当调度规则发生变化时 只需要修改系统调度配置参数 文件 5 2 6 5 性能要求的提高性能要求的提高 要提高主题数据生成部分的性能 主要就是要提高数据库的性能 在硬件 资源允许的情况下 可以通过修改数据库实例配置参数或数据库配置参数 增 大那些能提高数据库性能的参数 来提升数据库的性能 在硬件资源一定的情 况下 可以通过优化存储过程 优化数据处理流程的方法来降低数据库的负荷 提升数据库的性能 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 26 页 共 60 页 5 2 7 界面要求界面要求 5 2 7 1 数据库参数配置界面数据库参数配置界面 使用数据库自身提供的管理界面 5 2 7 2 数据库监控界面数据库监控界面 使用数据库自身提供的管理界面 5 2 7 3 存储过程调度与运行状态监控界面存储过程调度与运行状态监控界面 由系统调度提供统一的管理界面 5 2 7 4 存储过程调用规则配置界面存储过程调用规则配置界面 由系统调度提供统一的管理界面 5 2 8 约束条件约束条件 5 2 8 1 数据库主机约束条件数据库主机约束条件 为了能发挥所提供的数据库主机的最大性能 希望主机的 CPU 个 和内 存 G 的比例为 1 2 或者 1 1 5 2 9 安全性安全性 5 2 9 1 存储过程调度的安全性存储过程调度的安全性 系统提供存储过程调度监控功能 当发现出现存储过程调用异常时 可以 立即停止存储过程调度程序 在修改导致异常出现的情况以后再启动自动调度 程序 并可以保证已经运行过的存储过程不会再次被执行 如果想再次执行 也可以通过修改系统调度配置参数文件来实现 5 2 9 2 数据库安全性数据库安全性 5 2 9 2 1 数据库中数据的安全性和完整性数据库中数据的安全性和完整性 数据是数据仓库的核心 经营分析系统的所有分析活动都要求数据库中的 数据是准确的 完整的 保证数据库的安全性 其中重要的一环就是要防止由 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 27 页 共 60 页 于设备或系统失效而意外损失数据或损害数据的完整性 首先可以通过只给需 要的用户赋予合适的数据库管理权限 其它的用户给赋予数据库的数据存取权 限 使数据库管理工作集中在少数数据库管理员手中 减少了因为误操作损坏 数据库的几率 同时还要对数据库中的数据进行备份 用以在数据库损坏时恢 复数据库中的数据 关于数据库中数据的备份具体参考 6 6 4 小节 小节 5 2 9 2 2 数据库中数据的安全存取数据库中数据的安全存取 这方面主要有两点 一是要防止越权存取有价值的数据 确保敏感信息不 被无须知道这些信息的人存取 二是要防止越权人员通过恶意删除或篡改数据 来进行破坏 这一点可以通过对数据库的不同用户赋予不同的数据存取权限来 实现 5 2 9 2 3 监控用户对数据库的操作监控用户对数据库的操作 要保证数据库的安全 就要能够监控用户对数据库的操作 知道每一个用 户现在正在做什么 在存取什么数据 这可以通过数据库自身提供的监控功能 来实现 5 2 10 指标指标 5 2 10 1 最大主题数据生成时间最大主题数据生成时间 能够在安徽移动允许的时间内完成 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 28 页 共 60 页 5 3 多维数据加载多维数据加载 5 3 1 流程图流程图 5 3 2 需求描述需求描述 5 3 2 1 数据加载数据加载 5 3 2 1 1 功能描述功能描述 当数据仓库中的事实表和维表数据更新后 由系统调度过程启动多维数据 加载过程 将更新的数据加载到多维数据库中 执行情况由多维数据加载过程 记录到相应的日志中 5 3 2 1 2 技术策略技术策略 根据不同的加载需要 使用完全加载 部分加载 覆盖加载 累加式加载 减式加载等策略完成不同的加载功能 5 3 2 2 数据计算数据计算 5 3 2 2 1 功能描述功能描述 数据计算部分是紧跟着数据加载部分的 当数据加载部分成功完成加载后 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 29 页 共 60 页 数据计算部分启动 对存储在多维数据库中的数据进行计算 并把计算执行情 况记录到日志中 5 3 2 2 2 技术策略技术策略 如果数据的完全合并计算已满足需求 就不需要开发计算脚本 直接执行 数据库默认的计算 如果大纲中的公式不能满足计算需求 或在不计算整个数据库的情况下就 可充分满足合并需求 则必须开发计算脚本 在开发计算脚本时 尽量考虑脚本模块化概念 通过写 API 应用程序 动态生成脚本 从而简化整个计算过程 5 3 3 输入和输入和输出输出 5 3 3 1 输入输入 数据仓库事实表 5 3 3 2 输出输出 多维数据 多维数据加载 计算日志 5 3 4 数据存储数据存储 5 3 4 1 cube 文件文件 5 3 4 1 1 数据文件数据文件 5 3 4 1 1 1 年数据文件年数据文件 在线存储 3 年 离线存储 永久 5 3 4 1 1 2 月数据文件月数据文件 在线存储 一年 离线存储 三年 5 3 4 1 1 3 日数据文件日数据文件 在线存储 一月 南京联创科技股份有限公司 安徽移动经营分析系统架构设计 版本 0 9 第 30 页 共 60 页 离线存储 一年 5 3 4 1 2 大纲文件大纲文件 在线存储 3 年 离线存储 永久 5 3 4 1 3 规则文件规则文件 在线存储 3 年 离线存储 永久 5 3 4 2 OLAP 模型表模型表 在线存储 3 年 离线存储 永久 5 3 4 3 元大纲表元大纲表 在线存储 3 年 离线存储 永久 5 3 4 4 操作日志操作日志 在线存储 1 年 离线存储 3 年 5 3 5 异常处理异常处理 出现异常后可采取的措施 包括 1 后备 定期对多维数据库采用后备管理 包括 建立各分析主题拷 贝件 副本 定期的信息转储等 2 降效
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 城镇污水收集处理工程规划设计方案(模板范文)
- 城市内涝治理项目可行性研究报告(范文模板)
- 登记注册合同示例
- 影视作品外景拍摄场地安全监管与应急支援合同
- 快递企业快递员工作绩效评价合同
- 非住家保姆合同模板
- 葡萄酒原产地品牌授权与销售合同
- 抖音平台网红孵化与商业合作合同
- 智慧灯杆项目投资计划可行性报告
- 公司校招生培养计划
- 2022岩棉薄抹灰外墙外保温技术规程
- 浙江2024年01月高考:《信息技术》考试真题与参考答案
- JJF 2110-2024稳定同位素标准物质研制(生产)技术要求
- 反比例函数教材分析上学期浙教版
- 国家开放大学《Python语言基础》实验1:Python 基础环境熟悉参考答案
- 义务教育语文课程3500常用字表
- 粉罐安装方案
- 重点部门医院感染预防与控制sop
- 生物信息学与人工智能的融合创新
- 雅思英语教学大纲
- 中医药农药的活性成分与作用机理
评论
0/150
提交评论