技术方案建议书（投标文件）.pdf

上传人：灯*** IP属地：河北上传时间：2019-11-02 格式：PDF 页数：72 大小：1006.06KB 积分：0 举报 版权申诉

已阅读5页，还剩67页未读，继续免费阅读

技术方案建议书（投标文件）.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

投标文件投标文件第一部分第一部分技术方案建议书技术方案建议书二零零四年十一月二零零四年十一月 XXXX 股份有限公司第 2 页目目录录第一章综述 . 6 1.1 系统功能的核心 . 6 1.2 系统平台的选取 . 6 1.3 工程各方的要求 . 7 1.3.1 中国* . 7 1.3.2 系统集成商 . 7 1.3.3 平台供应商 . 7 第二章系统架构 9 2.1 总体架构 . 9 2.1.1 数据仓库部分 . 9 2.1.2 数据集市部分 . 10 2.1.3 前台工具部分 . 11 2.2 硬件架构 . 12 2.3 软件架构 . 13 第三章数据源接入方案 15 3.1 交换网管接入方案 . 15 3.2 基础数据网管接入方案 . 16 3.3 智能网网管接入方案 . 16 第四章系统各层次分析专题 17 4.1 数据处理 . 17 4.1.1 ETL 描述 . 17 4.1.2 ETL 子系统概述 17 4.1.3 数据抽取 . 18 增量数据抽取 19 全量数据抽取 20 4.1.4 数据转换 . 21 4.1.5 数据加载 . 22 XXXX 股份有限公司第 3 页 4.1.6 ETL 管理和调度 23 4.1.7 数据获取的时机和频率 . 23 4.1.8 ETL 的高效性 24 4.2 数据存储 . 25 4.2.1 数据存储模式 . 25 4.2.2 数据仓库设计 . 25 数据仓库的意义 25 数据存储模型设计 25 基础数据层 26 应用数据层 26 4.2.3 数据集市设计 . 28 从属数据集市的意义 28 数据集市设计 28 4.3 数据访问 . 29 4.3.1 概述 . 29 4.3.2 多维数据分析 . 30 4.3.3 数据的探察 . 30 4.3.4 预警、排名 . 31 4.3.5 体系结构特点 . 32 伸缩性和增量增加 32 高可用性 33 集成性 34 基于角色的访问控制 34 瘦客户 Web 界面 . 35 4.4 元数据及管理 . 36 4.4.1 元数据类型 . 36 ETL 元数据 36 数据仓库元数据 37 数据集市元数据 37 XXXX 股份有限公司第 4 页数据访问层元数据 37 4.4.2 元数据的管理要求 . 37 数据的设计原则 38 4.4.3 元数据管理架构 . 39 集中式构架 40 分布式架构 42 混合式架构 43 管理架构比较 44 4.4.4 元数据管理方案 . 46 4.4.5 METACENTER 产品特性 . 48 4.5 数据建模方案 . 50 4.5.1 数据仓库建模方法 . 50 概念模型设计 51 技术准备工作 52 逻辑模型设计 52 物理模型设计 54 4.5.2 *集团综合分析模型初步方案 . 55 采用遵循 CWM 的数据仓库产品 55 表命名规则 55 数据模型设计思路 56 系统优化策略 59 4.6 统一门户方案 . 61 4.6.1 问题的提出 . 61 4.6.2 问题的分析 . 61 4.6.3 解决方案 . 62 用户的集中方案 62 统一认证和 SSO 方案 63 统一认证的接口方案 65 首页内容聚合简单方案 65 XXXX 股份有限公司第 5 页 4.7 实施建议 . 66 第五章系统选型专题 68 5.1 硬件选型 . 68 5.2 系统软件 . 68 5.3 网络设备 . 68 第六章系统安全策略 69 第七章系统备份策略 70 第八章系统网络建设专题 71 XXXX 股份有限公司第 6 页第一章第一章综述综述中国*网管综合分析系统是中国*在电信领域内网络数据分析支撑系统建设的一个大胆的尝试，无论中国*内部还是竞争对手都没有完全相同的应用案例，如何确保工程的成功建设是建设本期工程首先要考虑的问题。本章试图从不同角度分析，希望能为本期工程的建设提供帮助。 1.1 系统功能的核心系统功能的核心从本期工程的技术规范书来看，系统对功能的要求内容较为多样，并且面向不同的部门及管理层次。然而，从系统的建设目标及系统功能的层次逐步分解（数据抽取-数据存储-数据分析-数据呈现）不难看出系统最终需要的是对各专业海量数据从多个纬度进行纵向及横向的分析，发现网络中的问题，从而提升网络运行质量，支持网络规划、建设与发展。因此，我方认为进行指标的归一化管理、实现数据的指标的归一化管理、实现数据的 OLAP 分析分析是网管综合分析系统建设的功能核心。 1.2 系统平台的选取系统平台的选取系统平台作为网管综合分析的基础平台，是系统中各种应用的稳定、高效运行的保障，因此，在各个功能层面选用成熟的系统平台是系统成功建设的基本环节。本期工程技术规范书对系统各层次需选用的功能层面都进行了明确的要求，其意图也是希望本期工程的全部应用都应构建在一套完整的基础平台之上。因此，对技术规范书关键环节的真实满足程度是系统平台选取的关键对技术规范书关键环节的真实满足程度是系统平台选取的关键。例如：规范对应用核心功能 OLAP 分析的要求为： “OLAP 处理方式应包括 R-OLAP、M-OLAP 或者混合使用” ，但很多 R-OLAP 分析也同过虚拟 Cube 的创建实现所谓的 M-OLAP、H-OLAP 分析，但其实际效率及对系统处理能力的过高要求是不能满足系统在今后数据不断扩充情况下的 OLAP 分析支持的。 XXXX 股份有限公司第 7 页 1.3 工程各方的要求工程各方的要求作为本期工程的发起方，中国*有着对业务权威性的了解，但缺乏的是如何把专业的知识转换为实际的应用系统。在工程的各个阶段，作为工程建设的核心，建议在以下方面进行关注：调研阶段需求汇总：协调各相关部门及相关专业人员，将各专业的需求进行汇总、分类、分拣；需求转换：对归并的需求进行转换，尽可能的将业务需求转换为功能需求；选型阶段注重对平台选型的技术规范真实满足程度；实施阶段注重从工程实施角度进行总体控制；关注工程实施过程的每个细节，建议有专人全程参与工程的各个实施环节； 1.3.2 系统集成商系统集成商作为本期工程的承建方，系统集成商即具备了一定的业务需求理解能力、以及对各软硬件平台的集成能力。相对于其它两方，这既是其优势也是其劣势。但作为本期工程建设的关键环节，对系统集成商的要求体现在如下几个方面：是否能够理解各专业网管的业务需求是否能够将各业务需求转换为应用是否能够评估各种软硬件平台的可行性是否对推荐的解决方案有实际的应用是否有类似系统的成功应用案例 1.3.3 平台供应商平台供应商作为本期工程的基础平台的支撑方，平台供应商更侧重于对技术、行业的理解、并通过对技术的不断完善为软件应用提供各种支撑平台。作为本期工程的基础环节，对平台供应商 XXXX 股份有限公司第 8 页的要求体现在以下几个方面：是否能够提供一体化的解决方案提供的解决方式是否存在缺陷提供的软硬件平台是否成熟、实用是否在本行业有过类似的应用案例是否能够为其它两方提供完善的服务与支撑综上所述，我方认为选择成熟的基础平台、确定系统建设的核心、把握工程建设的各个环节是成功本期系统成功建设的必要条件。 XXXX 股份有限公司第 9 页第二章第二章系统架构系统架构 2.1 总体架构总体架构系统总体架构采用三层式数据仓库系统构架，包括数据仓库、数据集市和用户前端三部分来实现数据仓库系统。其逻辑结构如下图所示： 2.1.1 数据仓库部分数据仓库部分数据仓库部分的主要功能，是各个业务部门提供的数据以及相关的外来数据，设计符合信息分析要求的数据模型，建立自动数据处理机制，为决策分析提供完整、统一、准确的数据来源。其数据存储在关系型数据库中。数据仓库的主要操作包括：数据采集，每天定时从各业务系统抽取数据； XXXX 股份有限公司第 10 页数据清洗，保持数据一致性、完整性；数据转换，将数据按要求汇总、聚合或生成衍生数据，例如复杂技术指标；数据存储：将抽取、清洗、转换后的数据按预定义的数据模型存放在关系型数据库中。数据管理：对存储的关系型数据进行性能优化、定期备份和日常维护，进行安全性控制。为了实现上述功能，我们采用 DB2 Warehouse Manager 实现数据仓库。它本身具有数据访问，数据抽取，数据转换，和自动化处理和管理功能。它直接控制 DB2 数据库管理系统，实现数据存储。由于数据仓库综合了企业营业数据进行处理和存储，因此将形成名副其实的中心信息数据库，中心信息数据库里面包含的数据类型包括：历史数据准实时数据统计和汇总数据其他衍生数据，例如各种需要通过计算才能确定的指标等等所有类型的数据将按照数据仓库的数据模型设计指定的方式进行主题划分、处理和存储。因此，数据仓库的核心实际上是数据模型的设计，而数据模型的设计与中国*的详细需求密切相关。 2.1.2 数据集市部分数据集市部分在数据集市层面，应根据中国*不同用户的具体的分析需求，建立相应的分析模型以支持不同的应用。数据集市所用的分析方法将包括：静态报表动态查询多维在线分析数据挖掘 XXXX 股份有限公司第 11 页在数据集市的数据存储方面，对于报表和数据挖掘模型，数据存储在关系型数据库中；多维分析模型的数据则既可以存储在多维数据库里，也可以存储在关系型数据库中，当然其数据表要求被组织成星型或者雪花型模式，以支持多维分析。我们采用 DB2 OLAP Server 来实现多维分析，Intelligent Miner 来实现复杂数理统计和数据挖掘；对于诸如统计日报、周报、月报等访问量大的静态报表，我们建议直接在 DB2 Warehouse Manager 中生成 DB2 数据表实现。 2.1.3 前台工具部分前台工具部分前台工具通过配合不同的数据分析应用，用客户机或浏览器方式对数据进行可视化呈现，使得数据更容易被理解，其价值更容易被发现，大大提高了决策的准确性和作出决策的速度。 IBM 坚持数据仓库的开放性，支持广泛的前台工具，常用的包括 Brio，Excel，Analyzer 等三十多种。根据前台工具在中国的受欢迎程度、与 IBM 产品的连接效率以及易用性、易开发性，本方案推荐采用 DB2 OLAP Analyzer。 DB2 OALP Analyzer 可以连接多维和关系型数据库，让用户自由组合条件形成分析报表，它的特点是连接速度快，查询效率高，适用于制作用户经常访问、数据量大的分析图表。 BrioQuery 同样可以直接连接多维和关系型数据库，开发比较灵活，适合于在短时间内生成临时性报表和突发性查询，或者制作界面复杂而数据量适中的应用。用户可以根据具体应用的需求和特点来确定前台工具。 Analyzer 支持 C/S 方式和 Web/Browser 方式。对于 Web/Browser 方式，Analyzer 可以启动应用服务与 Web 服务器连接，当浏览器第一次访问该动态网页时，可以自动下载 Add-in 部件在浏览器上，使得浏览器具备在线多维动态分析的所有功能，包括报表旋转、数据钻取等等。通常来说，静态报表要占所有报表量的 50%以上，因此往往要求静态报表在 Web 上能够自动生成和定时分发，或者传递到电子邮件系统中，这是上述两者都支持的。如果要在 Web 上编写复杂报表，我们建议采用 Java 语言来编写，例如 IBM 的 VisualAge for Java 等，用户可以根据本身应用开发的习惯来选用。 XXXX 股份有限公司第 12 页 2.2 硬件架构硬件架构系统的硬件架构针对不同的数据需求分为四个层次：ETL 服务器、数据仓库服务器、数据分析/挖掘服务器、数据呈现服务器。各个层次可以根据对处理能力的要求不同，以及不同的工程实施的阶段进行有机的组合。本期工程将多层结构整合为一层：将 ETL 和数据仓库服务器整合为一台服务器，整合前分别部署 IBM DB2 WAREHOUSE MANAGER 和 IBM DB2 ESE（WITH DPF），整合后将两者集中部署；将 OLAP 服务器与应用服务器进行整合，整合后集中部署的软件包括： IBM DB2 OLAP SERVER、IBM DB2 OLAP SERVER、IBM DB2 OLAP INGEGRATION SERVER、IBM DB2 CUBE VIEW。合并后两台主机通过 DB2 实现集群功能。 XXXX 股份有限公司第 13 页 2.3 软件架构软件架构 IBM 解决方案可以针对电信领域综合分析业务提供一整套完整的解决方案，具备针对 TB 级数据的解决方案，全面支持 R-OLAP、M-OLAP、H-OLAP 分析方式，其软件结构参见下图。图例说明： XXX IBM 相关产品 XXX 应用功能基于 IBM 的软件架构，各 SI 所需完成的工作相对简化、系统整体运行的稳定性、效率也得以保障。基于 IBM DB2 的软件架构，各 SI 的工作如下图所示。 XXXX 股份有限公司第 14 页定制异构数据源的抽取策略，应用 ETL 工具完成数据的抽取、清洗策略数据归一化，完成数据建模，维护管理元数据。通过 R-OLAP 方式实现即席查询的相关功能应用相关报表工具的设计功能，为用户量身定制报表设计 Cube 的构成方式，为用户提供多种维度的组合查询方式。通过对商业智能工具提供的各种功能，实现基于数据模型的多种挖掘分析。 XXXX 股份有限公司第 15 页第三章第三章数据源接入方案数据源接入方案 3.1 交换网管接入方案交换网管接入方案交换网管接入的方式及优劣势分析参见下表：条目条目接入方式接入方式直接访问库表直接访问库表 ftp 话务报告话务报告 XML 文件方式文件方式国讯侧工作省网级数据库中，为综合业务分析系统建用户，并赋予新用户对相关数据数据库表的只读权限库表的只读权限国讯网管各采集机提供专用于给综合业务分析系统接入用的用户名用户名和密码密码，并赋予新用户 ftp 文件的文件的只读权限只读权限数据抽取：把自己系统已有话务库表中数据，转换为统一格统一格式的式的 XML 文件文件提供给 XX XX 侧工作编程序通过 ODBC 实时去采集话务数据、同步配置数据。编程 ftp 上国讯网管采集机，到相应原始报告目录下，ftp 话务原始报告回 XX 网管系统，分析原始报告入库数据分析：分析国讯提供的 XML 文件，把数据入库概述国讯的网管系统都用的 sybase 国讯的网管系统是 pm 目录下，以日期为名每天建一个目录；各天的目录下，每局每端口一天一个原始报告文件 XML 文件提交的方式可多种多样，最简单的是 ftp 方式，还有SOAP方式、 Socket 包方式、通过 MQ 中间件、其它 EAI 相关的方式等等，但其中直接 ftp 方式最简单省事优点效率高，接入模块国讯无编程量，XX 的编程量也国讯无编程量，XX 的编程量也很小，现有的分析接口是综合分析系统与专业网管系统 XXXX 股份有限公司第 16 页很小，保证尽快实现数据的全部接入报告程序根本无需改动的松耦合，更易于今后系统扩展不足对对方数据库可能有负荷要求（抽取策略：错开整点的话务报告入库时间、错开系统忙时查询时间）未来国讯的系统升级，若库表名称变了，需提前通知 XX，更改相关配置信息。静态配置信息与国讯各地市网管系统的同步，还是需要靠开放库表解决因为国讯的采集系统是每个局的每个端口每天存一个报告，该方式对在统计数据的呈现上会发生延时。未来国讯的系统升级，若文件存放目录变了，需提前通知 XX，更改相应的配置三种方式里最复杂，接入模块国讯与 XX 都有不小的开发量鉴于本次技术规范对工程周期的要求，我方建议采用直接访问数据库表直接访问数据库表的方式对国讯交换网管进行接入。交换网管数据库组织方式参见附表四。 3.2 基础数据网管接入方案基础数据网管接入方案基础数据网管的接入可先通过调用北电 ATM 系统的私有 api 函数进行抽取，待同期建设的预警系统正式上线稳定运行后，我方系统进行变更从预警系统接入。相关接入方式参见交换网管接入方案。 3.3 智能网网管接入方案智能网网管接入方案华为智能网网管目前的网管采用数据库接口，版本为 iManager I2000 V200R002D502, 数据库系统采用 SYBASE ADAPTIVE Server 11.9 for SUN solaris。数据库系统由 IN_OMC 数据库组成。网管系统提供用户 NmsGuest（口令同用户名）访问这个数据库中的相关表。智能网网管数据组织方式参见附表二、附表三。相关接入方式参见交换网管接入方案。 XXXX 股份有限公司第 17 页第四章第四章系统各层次分析专题系统各层次分析专题 4.1 数据处理数据处理 4.1.1 ETL描述描述数据处理层实现业务数据进入数据仓库前数据采集、抽取、清洗、转换的工作。数据抽取实现网管系统和其他外部数据进入数据仓库前数据读入工作，而且从各种途径汇集来的源数据并不是简单、直接地加载到数据仓库。数据仓库的数据模型是面向主题的，从某种意义上说，已经有了质的改变，源数据加载到数据仓库之前必须经过数据转换。数据转换的方式涉及析取、条件、合并、剔除、关系识别、扩展、校验、更新等过程，在技术上主要有互连、复制、增量、转换、调度和监控等几个方面。系统建设的很大一部分工作量就在数据的抽取、清洗、转换上。网管综合分析系统的建设关键是从许多来自不同的网管系统的数据中，提取出有用的数据，进行清理以保证数据的正确性，然后经过抽取（Extraction）、转换（Transformation）和装载（Load），即 ETL 过程，合并到一个企业级的数据仓库里，从而得到网管数据的一个全局视图，在此基础上利用合适的查询和分析工具、OLAP 工具等对其进行分析和处理（这时信息变为辅助决策的知识），最后将知识呈现给管理者，为管理者的决策过程提供支持。目前有专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化，并将其输入数据仓库或数据集市目标数据库的集成软件，我们推荐 Ascential DataStage LE 4.1.2 ETL子系统概述子系统概述网管综合分析系统按照数据仓库采用四层体系结构，即系统分为数据采集层、数据获取层、数据存储层和数据展现层。其中数据展现层软件主要包括 OLAP 软件、即席查询软件、报表生成软件、，数据获取层主要包括 ETL 软件。网管综合分析系统数据仓库平台 ETL 子系统具有如下特点业务源数据量大网管系统工作负荷重，7*24 工作 XXXX 股份有限公司第 18 页网管系统性能、实时性的要求较高 ETL 是数据仓库构建过程中重要的一个环节，也是最为繁复和耗时的一个步骤。为了满足数据仓库的需要，我们提供的 ETL 工具软件DataStage 具备以下能力：支持多种数据源的能力支持访问文本数据的能力支持图形化的数据匹配、数据转换界面提供模块化、可扩充的数据处理能力提供增量数据处理能力支持并行数据转移提供灵活的作业调度能力，能自动实现数据的抽取、转换和装载工作 ETL 过程包括了：数据抽取、数据清洗、数据转换、数据加载等环节。同时对 ETL 过程要求有管理和调度功能。 4.1.3 数据抽取数据抽取源数据的抽取工作主要完成对各种业务数据的收集工作，通过业务数据库和业务文本文件的访问达到此功能。抽取工作必须具有保证不能影响网管系统的性能的特点。对于业务数据抽取接口一般情况下采用专用数据库驱动接口，必要的时候采用 API 接口编程实现数据的抽取，以提高数据抽取效率同时减少对网管系统的性能的影响。对于源数据可以按照以下方式来进行分析：源数据分类方式数据操作分类数据特征主要数据内容流水型增长（INSERT）数据按增量方式产生，不涉及对已有数据的更新操作业务受理清单、话费帐单变化更新（UPDATE）对已有数据进行更新资源数据两者结合（INSERT/DELETE UPDATE）按增量方式产生新数据的同时，还对已有数据进行更新客户资料等 XXXX 股份有限公司第 19 页（1）抽取方式增量抽取、完全抽取等。通常情况下，流水型增长且数据量大的数据适合采用增量抽取的方式，最为典型的是清单、帐单类数据；变化更新的数据适合采用完全抽取的方式，最为典型的是反映当前状态的资源配置类数据；对于两者结合的数据，则进行增量抽取，否则采用完全抽取的方式进行，最为典型的是客户资料变更数据或其他的客户服务记录数据。（2）抽取方法通过 ETL 工具软件 DataStage 来进行抽取；DataStage 可以高性能地从文本文件读取数据，或者利用各个数据库厂商（如 SAP、ORACLE、DB2 等）自己提供的驱动程序来读取数据库服务器中的数据，以获取最高的性能；当然也可以通过 ODBC 来读取更为广泛的数据源。通过数据采集模块来完成从各个网管系统，并集中到数据采集服务器的临时数据区，供 ETL 工具进行抽取，抽取分为增量抽取和全量抽取。增量数据抽取增量数据抽取数据增量抽取是在系统数据初始化（全量抽取）操作之后，定期向数据仓库追加新增或者更新记录的操作。在分析型项目实施中，增量抽取的处理是一个很关键的过程，如何准确保留业务的历史痕迹，将直接影响以后数据分析的效果，增量数据的处理方式也有多种，包括： 1). 完全刷新的方式，适用于历史数据无需保留的情况； 2). 设置最新和最近的两种状态，适用于保留短期历史数据的情况；完全历史保留，适用于需要将该表的整个变化历史保留的情况，通常采取时间戳的方式。根据目前业务特点，以及一些具体的业务需求，我们在本系统中将尽量采取第三种方式满足历史数据保留及查询的要求。增量抽取涉及以下过程：数据量大业务受理数据相对较小产品目录、系统管理类数据 XXXX 股份有限公司第 20 页 1. 从数据采集系统或其他增量数据捕获系统中获得日志信息，整合到 ETL 日志和抽取配置表中。在这个过程中，需要识别日志中所标识的业务数据对象产生的具体原因，为具体的抽取过程提供处理依据。业务系统数据业务系统数据一天增量一天增量一天增量一天增量已抽取数据已抽取数据一天增量一天增量一天增量一天增量一天增量一天增量一天增量一天增量数据仓库数据仓库数据仓库数据仓库 2. 根据整合后的日志，执行 ETL 数据抽取程序，完成数据增量抽取。全量数据抽取全量数据抽取全量处理是指通过一次性抽取、清洗将业务数据源数据直接导入数据仓库的操作。全量操作一般情况下用于二种情况：系统初始化和重大数据灾难。系统初始化：系统初始化：系统初始化之前，业务数据源保存了全部的、完整的和一致的业务数据，并处于抽取就绪状态，数据仓库中没有相应的业务记录。系统初始化的目的就是将全部的业务数据全部装载到数据仓库中。重大数据灾难：重大数据灾难：在通常的情况下，系统只需要在系统初始化的时候进行一次全量操作即可。但是在某些情况下，如数据仓库端硬件系统问题造成数据全部或部分丢失，这样就不能有效的保证分析数据的真实性、一致性、完整性。如果遇到这种情况，可以在硬件等故障排除后，删除先前的数据，并重新进行全量操作。注：数据抽取的全量操作是以机构为单位进行的。也就是说，可以分系统进行系统数据初始化操作，而且当某个分支局的数据出现灾难问题时，可以仅对某个分支局进行全量操作恢复数据，而同时对其他分支局的数据没有任何的影响。数据抽取的全量操作共分为 4 个实现步骤： 1). 根据全量日志生成规则，从网管系统库表中生成 ETL 全量日志。 XXXX 股份有限公司第 21 页 2). 从第一步生成好的日志中按照一定的处理数据量进行全量抽取。理论上来说，一旦生成了全部的全量日志，系统是可以一次性将全部的数据都装载到数据仓库中的。但是考虑结合实际中的应用情况来看，一般的系统数据量都会在 GB 级，所以应该避免由于大数据量大事务型的数据库操作造成的一些系统级的损坏，如数据库的长事务回滚、相关应用程序 core dump 等问题。建议在生成全量系统日志后，按照一定数据量将抽取任务进行切割，将整个全量抽取任务转换成小块的抽取操作,如下图所示：数据仓库数据仓库数据仓库数据仓库 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量业务系统数据业务系统数据 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量数据抽取数据抽取数据抽取数据抽取数据抽取数据抽取数据仓库数据仓库数据仓库数据仓库 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量业务系统数据业务系统数据 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量业务系统数据业务系统数据 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量 5万数据量万数据量数据抽取数据抽取数据抽取数据抽取数据抽取数据抽取 3). 抽取完成后，将本次处理的全量日志中的相应记录进行已处理标示。检查是否还有剩余的未处理全量日志没有处理，如果还有未处理的日志记录就跳回到第二步继续进行抽取，直到所有的日志都经过处理，结束整个全量操作。 4.1.4 数据转换数据转换数据转换是指对从网管系统中抽取的源数据应根据数据仓库模型的要求，进行数据的转换、清洗、拆分、汇总等处理，保证来自不同系统、不同格式的数据的一致性和完整性。数据转换主要完成由于以下原因造成的数据不一致性问题：源数据系统同数据仓库系统在模型上的差异性源数据系统平台不一致，即数据仓库系统的数据源可能包括基于不同平台的数据库的数据源数据结构的不一致，即有些数据源由于历史的原因，导致同一个表在不同的时期数据结构不一致源数据定义不规范导致错误数据 XXXX 股份有限公司第 22 页对数据的约束不严格，导致无意义数据存在重复记录由于平台系统的不同，可能会存在大量的转码工作（1）转换方式：根据实际情况，数据转换工作一般会在以下几个环节中具体实现：在抽取过程中进行数据处理；使用异步数据加载，以文件的方式处理；在数据加载过程中进行数据处理；进入数据仓库以后再进行数据处理。（2）转换方法 DataStage 提供了极为丰富和方便的数据转换功能，而且可以提供很高的开发效率。这些转换可以大大改善业务访问性能，提供高效的分析基础。 4.1.5 数据加载数据加载数据加载就是将从网管系统中抽取、转换后的数据加载到数据仓库系统中。数据加载工作必须具有高效的加载性能。（1）加载方式数据的追加策略根据数据的抽取策略以及业务规则确定，一般有以下三种类型：直接追加、全部覆盖、更新追加。直接追加是指每次加载时直接将数据追加到目的表中。对于典型的流水数据，一般采用直接追加的方式；全部覆盖是对于抽取数据本身已包括了数据的当前和所有历史状况，对目标表采用全部覆盖方式。更新追加是对于需要连续记录业务的状态变化，用当前的最新状态同历史状态数据进行比对的情况采用更新追加的方式。具体采取何种方式，要综合考虑效率、业务实现等诸多因素。（2）加载方法在完成数据抽取和转换之后，DataStage 可以直接调用数据库厂商提供的高速 Load 功能进行快速数据加载，也可利用数据库厂商自己提供的数据驱动程序来将数据写入数据仓库 /数据集市服务器中。 XXXX 股份有限公司第 23 页 4.1.6 ETL管理和调度管理和调度由于我们对数据抽取的要求越来越高以及专业 ETL 工具的不断涌现，ETL 过程早已不再是一个简单的小程序就可完成的，目前主流的工具都采用像多线程、分布式、负载均衡、集中管理等高性能高可靠性与易管理和扩展的多层体系架构。因此，这就要求 ETL 在管理和调度功能上都具备相应的功能。管理和调度的基本功能包括：抽取过程的备份与恢复；升级；版本管理；开发和发布；支持统一以及自定义的管理平台；支持时间触发方式；支持事件触发方式；支持命令行执行方式；支持用户对计算机资源的管理和分配；负载均衡；文档的自动生成；调度过程中能否执行其他任务等。 4.1.7 数据获取的时机和频率数据获取的时机和频率数据获取就是从数据源抽取出所需的数据，经过数据清洗、转换,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。不同网管系统的数据产生周期变化不同，影响到对数据抽取的周期。对数据的采集根据网管系统的不同，有的可以定期（如周、旬、月）地采集和接收数据，有的则准实时采集和接收。一般来说，数据源系统在白天日常工作中比较忙，难以承载数据抽取的要求，因此一般在夜间比较闲的时候进行数据抽取，而数据抽取也不能占用大量的网管系统时间，这时需要通过数据中转区来减少数据抽取的时间，然后在其余的时间进行充分的数据转换和加载，减少网管系统和数据仓库的相互通信时间。 ETL 过程可以每天运行一次，批量处理前一天的数据，这样最终用户可以看到前一天的数据。这样进行批处理的数据加载成本较低，数据质量也可以进行充分的审计和保证。对按日采集的数据，应能在 35 小时以内完成抽取、清洗、加载、处理等全过程；对按月采集的各种数据，从数据到达到数据抽取、清洗、加载和处理应能在 48 小时内完成。但是，对一些应用来说，例如实时反欺诈，需要实时的数据，这时分析系统需要集成实时的原始数据。这时需要一些实时的消息传递中间件实现网管系统和数据仓库实时的数据通信。 XXXX 股份有限公司第 24 页 4.1.8 ETL的高效性的高效性 ETL 的工作量占整个网管综合分析系统工作量的 60%到 70%，怎样提供一个高效的数据抽取、转换、装载的过程也是建设本系统的成败关键之一。本方案中，提高 ETL 数据抽取、转换、加载效率的措施主要有： 1 1设立数据中转区设立数据中转区设立数据中转区除了可以减少对数据源系统的影响，提高抽取效率外，还可以在数据中转区中进行一些简单的数据预处理，提高转换效率。数据中转区是数据准备的工作台，从数据源采集过来的数据首先放在数据中转区中，并由数据转换和加载工具按照一定的规则进行转换，再加载装入数据仓库中。数据中转区的作用主要包括：数据中转区可快速接受数据采集系统传过来的大量数据，缩短数据采集时间，减少数据采集对业务支撑系统的影响；数据中转区实现对多个数据源的统一数据采集，提高了采集数据的可靠性一致性；数据中转区暂时保存了要加载的数据，避免了数据转换系统对数据源的直接操作，减少了对数据源的影响；当数据转换出错或失败时，可以从数据中转区中在次抽取数据进行转换，而不必从数据源系统中抽取，减少的数据源系统的负载，也提高了系统的效率。 2 2主动抽取主动抽取数据抽取过程是由 ETL 工具主动抽取，而不是数据源系统的“推送” ，这提高 ETL 过程的可控性，也能充分利用 ETL 服务器的性能，提高效率。 3 3部分编程与工具使用结合部分编程与工具使用结合对一些量特别大、关系特别复杂的数据转换来说，可能用 ETL 工具会有一定的性能下降，这时可能需要通过编程专门对这种转换关系进行优化，提高效率。 4 4并行处理技术并行处理技术充分利用硬件的 CPU 资源，采用并行抽取、并行转换和并行加载的技术。 5 5减少减少 I/OI/O 操作操作采用基于内存的数据库和基于内存计算的技术，使大量的计算在内存中完成，减少对硬盘 I/O 的占用，可大大提高效率。 XXXX 股份有限公司第 25 页 4.2 数据存储数据存储 4.2.1 数据存储模式数据存储模式数据存储层包括数据仓库和复制/传播组件。数据仓库组件定义了信息的逻辑和物理存储。复制和传播组件从企业数据仓库中存储的数据创建从属的数据集市。数据仓库是面向主题的、集成的、稳定的且随时间变化的数据集合。数据仓库是按照企业整体的信息模型、以最小的业务单元来组织并存储数据。这样既能保证数据访问的灵活性，又可保证最少量的数据冗余。在数据仓库的实施过程中，对于某些逻辑数据模型主题的业务分析问题，将按照逻辑数据模型主题采用数据集市的方式对数据进行进一步的组织。所以在数据仓库的基础之上根据分析需求会创建相应的从属的数据集市。 4.2.2 数据仓库设计数据仓库设计数据仓库的意义数据仓库的意义数据仓库是企业经营分析和决策支持的核心。分析需求的发展变化要求数据仓库系统中数据的存储必须具有足够的灵活性以满足这些变化的需求，这就涉及到数据存储模型的设计。数据存储模型设计数据存储模型设计数据仓库存储模型应结合数据仓库系统应用需求并结合现有的网管系统进行设计。数据仓库的粒度是设计数据仓库的一个重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合的程度。细化程度越高，粒度级就越小；相反，细化程度越低，粒度级就越大。参考费用、效率、访问便利程度和回答查询问题的能力，在数据仓库中创建两种粒度级。大部分的分析、查询是针对被压缩的、存取效率高的轻度综合级数据进行的。如果需要分析 XXXX 股份有限公司第 26 页更低的细节级，可以到详细数据层。基础数据层基础数据层网管综合分析系统的基础数据是按照主题来组织的。基础数据层只考虑数据本身的来源与属性，按照本身的数据之间的相互关系来组织数据，而不考虑数据的应用，即 “整合数据” ，其目的在于减少数据的冗余，提高系统的灵活性，能快速的实现新增主题和功能。应用数据层应用数据层应用数据层与具体的应用需求紧密结合，按照应用的要求来组织基础数据层的数据，面向应用，其目的就是针对面向主题，面向具体的应用，提高访问、执行、查询的效率，即 “面向经营分析” 。下图给出了基础数据层与应用数据层的关系。 XXXX 股份有限公司第 27 页客户情况分析日期地域标识客户性别客户年龄职业标识消费层次用户发展总量用户发展总量总量分析新增/流失用户总数活动用户数欠费用户数零次用户数年龄标始年龄标始年龄组划分年龄组年龄组性别性别标识标识性别名称客户性别客户性别地域标识地域标识地域名称地域地域时间标识时间标识标识名称时间时间消费层次标识消费层次标识消费层次划分消费层次消费层次日期地域标识客户性别客户年龄职业标识消费层次新增/流失用户量新增/流失用户量新增用户流失用户净增用户数年龄标始年龄标始年龄组划分年龄组年龄组性别性别标识标识性别名称客户性别客户性别地域标识地域标识地域名称地域地域客户标识客户标识客户类别客户地域客户年龄客户性别客户职业客户客户服务标识服务标识客户标识产品标识集服务资源标识集资费标识集入网时间用户用户/服务服务帐单标识帐单标识帐目标识费用值生成时间综合帐单状态综合帐单综合帐单时间标识时间标识标识名称时间时间消费层次标识消费层次标识消费层次划分消费层次消费层次记录标识记录标识服务标识生成时间时长通信流量帐目标识费用资费标识集清单清单如上图所示，我们以客户情况分析为例，我们可以根据实际需求基于基础数据层建立一个针对客户情况分析的分析主题，即形成应用层的信息数据，它的源数据可以来自帐务、客户、服务使用等基础数据层。可以看出经过这样的设计后，系统具有良好的灵活性，易于扩展新的主题和新的功能。综合以上的考虑，数据仓库逻辑数据模型遵循中国电信企业级数据模型（CTG-EDM），在此基础上采用第三范式（3NF）的设计，按照逻辑数据模型主题的方式组织数据，根据的实际需要，从详细数据出发，从的业务规则出发，而不是从现有的应用需求出发设计逻辑数据模型，以保证数据模型的可扩展性。 XXXX 股份有限公司第 28 页 4.2.3 数据集市设计数据集市设计从属数据集市的意义从属数据集市的意义在数据仓库的实施过程中，对于某些主题的业务分析问题，按照主题采用数据集市的方式对数据进行进一步的组织。所以在数据仓库的基础之上根据分析需求创建相应的从属的数据集市。从属数据集市的数据直接来自于数据仓库。采用这种方式，可以保持整体数据的一致性。为一些访问数据仓库十分频繁的关键业务部门建立从属数据集市，可以较好的提高查询的反映速度。数据集市设计数据集市设计首先建立数据仓库，存储详细数据及必要的汇总数据，业务用户可以根据自己的需要，从不同的角度对这些信息进行大量的分析，以发现其中蕴涵的大量的商业价值。之后再根据不同部门的业务需求，建立相应的部门级的从属数据集市。数据集市也是数据的存储管理形式，而针对数据集市的使用则是以联机分析处理（OLAP）和数据采掘（Data Mining）工具等为主。 OLAP 服务器端的数据组织方法，采用是建立专用的多维数据库系统，基于多维数据库的 OLAP 以多维数据库( MDDBMulti-Dimensional Database)为核心。多维数据库概而言之就是以多维方式来组织数据，以多维方式来显示数据。维是人们观察现实世界的角度，但多维数据库中的维并不是随意定义的，它是一种高层次的类型划分。多维分析所采用的方法多是基于数据立方体（cube），即通过对数据立方体的切片、切块、旋转、钻取等操作来实现对数据立方体快速的多维存取访问。可以说数据立方体（cube）是数据仓库或数据集市进行 OLAP 处理的一种表现形式。从属的数据集市可以是物理的，也可以是逻辑的。物理的数据集市，即按照网管系统的要求，将数据从中央数据仓库系统中抽取出来，采用分布式的方式，物理地存放到不同的数据集市中，用户可以通过 OLAP 工具实现多维分析。逻辑的数据集市，即将多维数据存储在中央数据仓库的关系数据库中。 XXXX 股份有限公司第 29 页 4.3 数据访问数据访问 4.3.1 概述概述数据访问层的主要功能是使数据分析系统使用人员通过报表和图形的方式，简便、快捷地访问数据分析系统中的各种数据并进行各种分析及预测操作。在此，OLA

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

技术方案建议书（投标文件）.pdf

文档简介

温馨提示

最新文档

评论

技术方案建议书（投标文件）.pdf

文档简介

温馨提示

最新文档

评论

相关文档