[工作范文]数据仓库在移动通信网络管理中的应用.doc_第1页
[工作范文]数据仓库在移动通信网络管理中的应用.doc_第2页
[工作范文]数据仓库在移动通信网络管理中的应用.doc_第3页
[工作范文]数据仓库在移动通信网络管理中的应用.doc_第4页
[工作范文]数据仓库在移动通信网络管理中的应用.doc_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章 引 言1.1 移动网络数据管理现状移动通信网络是由大量分布在不同地域的各种网元协同工作,为用户提供通信服务的。随着我国移动通信的迅猛发展,设备品种逐步增多,容量迅速增大,自动漫游服务的开展,对系统整体运行及话务情况汇报掌握和处理的要求也日益提高,这就对移动通信网络管理平台提出了更高的要求。要想在当今社会激烈的竞争环境下迅速、长足的发展,建立起一套自己的“数字神经系统”是必要的,即通过各路“神经” 对外界环境变化的迅速感知传输至“大脑”中枢,然后将经中枢处理得出的应对及预防措施及时反馈给各路“神经”。所以必须搭建起企业当前和今后发展的综合软件应用平台,优化工作流程,提高企业整体工作效率,及时掌握影响企业运作的关键指标与决策依据、突发事件、重大事件及关系紧密的行业、专业、市场信息,做到“信息掌握及时,管理高效顺畅”。针对信息化的应用,移动通信行业信息化进程得到巨大发展和广泛应用,运营网络系统、综合业务系统、计费系统、办公自动化等系统的相继使用,为计算机应用系统的运行积累了大量的历史数据。但在很多情况下,这些海量数据在原有的作业系统中是无法提炼并升华为有用的信息并提供给业务分析人员与管理决策者的。一方面,联机作业系统因为需要保留足够的详细数据以备查询而变得笨重不堪,系统资源的投资跟不上业务扩展的需求;另一方面管理者和决策者只能根据固定的、定时的报表系统获得有限的经营与业务信息,无法适应激烈的市场竞争。随着我国政府对电信行业经营的进一步放开和政策约束的调整以及客户对电信服务质量要求的提高、盗打、欺诈因素的增加等等,移动通信的经营面临更加复杂的局面,营运成本大幅度增加。各主要运营商之间的竞争已经从单纯的市场占有率之争转向对用户的全面服务之争,并且都竞相拓展更多的综合业务服务。因此,如何在激烈的市场竞争条件下,在满足客户需求和优质服务的前提下充分利用现有设备降低成本、提高效益,就成为决策者们共同关心的课题。依照国外电信市场的发展经验和历程,市场竞争中电信公司的成功经营之道是: 1、以高质量的服务留住现有客户; 2、提高通话量和设备利用率,用比竞争者更低的成本争取新客户,扩大市场份额; 3、放弃无利润和信用差的客户,降低经营风险和成本。 对于一个相对成熟的移动通信运营商来说,各运营与支撑系统所积累的海量历史数据无疑是一笔宝贵的财富,如何在这样的海量信息中挖掘出有价值的信息和知识,实现对移动网管的信息进行组织和管理将成为一个亟待解决的问题。而建设基于数据仓库的强有力的决策支持系统是解决这些问题的有效手段。该系统能够解决海量、快速变化数据,并且能够提供灵活、多变的网络管理功能实现,在移动通信网络管理中具有极大的应用和推广价值。据调查幸福杂志前500家企业中已经有85的企业建成或正在建立数据仓库,数据仓库像因特网一样,正在成为最快的IT增长点。1996年,全球企业在数据仓库上的投资达到16.8亿美元,且每年以19.1的速度增长。而面对日益庞大的移动通信业务量,目前世界上也已有多个国家的电信公司正在利用数据仓库技术提升利润空间。比利时国家电信经纪人使用数据仓库建立的顾客信息系统,其中数据仓库拥有超过1万亿字节的数据,包括四个多月的电话通信记录。通过欺骗检测功能,能够很快发现反常电话以及欺骗性的打电话方式,并能在造成重大经济损失之前终止这种欺骗行为2。此外,英国电信公司采用数据仓库应用系统保证了关键性业务的处理。香港的CLS通信公司、和记电信等公司都采用数据仓库实施了自己的CRM系统,以提升自己的竞争能力。数据仓库技术在移动通信领域的应用大致分为以下三个方面:一是基于呼叫详细记录(CDR)的呼叫/计费分析;二是基于产品和销售的营销/效益分析;三是基于网管业务管理和事务管理层的运行/维护分析14。前两种与企业的业务运营和市场竞争密切相关,是目前主要电信企业发展的重点。而针对网管和运行维护的分析对于提高设备的运行质量和服务质量起到非常关键的作用,是电信企业内部下一步实施的重点。本文讨论主题就属于这一范畴。1.2 移动网络数据管理存在的问题及数据仓库的具体任务1、移动网络数据管理存在的问题广东移动通信有限责任公司是我国最早也是最大的移动通信运营商之一,而深圳移动则作为收入最大的子公司,目前已经拥有近1000万用户,这个数量几乎是全国移动用户总数的1/30。深圳移动可以为用户提供覆盖全市和100多个国家与地区的联网自动漫游业务,其规模、质量与服务都居国内领先地位。深圳移动网络质量一直以来都在全国所有城市的网络指标评比中名列第一。为了适应移动运营市场日趋激烈的竞争,从1997年开始深圳移动就开始建设一系列集中的小型网络管理数据库系统,像本地网管系统、网络优化系统、110电子故障派单管理系统和智能网数据集中维护系统等,这批系统的建设能对网络当时承载业务运营数据进行初步的分析,也能指导当时的网络维护发展需要。在当时也都成为各兄弟公司参观交流取经的重点关注对象。随着移动通信行业近几年的爆炸式发展,业务运营支撑系统,网管系统、办公自动化系统和客户服务系统等IT支持系统先后建立,深圳移动已经积累了有关客户行为和企业运营的海量历史数据。其中,各种网络设备运行方面的数据信息是所有数据中最基本、最关键的部分,这些信息蕴藏着一批批网络维护管理人员的成败得失、经验教训,是公司企业决策、网络规划、网络管理的重要依据。挖掘其中的规律性,使全网运作更加稳定,为客户提供更加优质的服务,是全体移动通信网络人所共同追求的目标。目前,深圳移动通信网络上运行的网络设备类型众多,本地网全网有八十多个网元(包括交换部分、无线部分以及其它部分),采用的设备包括:爱立信设备、诺基亚设备、西门子设备、贝尔设备、华为设备。另外,整个网络系统需要考虑到与公司各部门的数据联网,以实现整个移动通信维护和服务系统的数据通信,而且各设备分散在各个物理地点,承担相对独立网络业务或者网络功能,信息共享难度大。如何安全有效地管理和重组数据,提炼出整体网络运行数据信息,以供企业网络规划以及企业经营决策参考,已成为移动网络维护工作者所面临的一个棘手但又亟待的问题。2、移动通信网络管理对数据仓库的迫切需求数据仓库正是在汇总各数据信息的基础上,进而支持数据挖掘、多维数据分析等新技术和传统的数据查询和报表功能。因此,必须充分利用计算机和网络技术、数据仓库技术,深层次地挖掘、分析当前和历史的业务数据,以及相关环境的有用数据,自动快速获取其中有用的决策信息,为企业提供快速、准确和方便的决策支持。通过对企业过去和计划完成的相关环境数据进行多角度多层次的分析,使决策者及时掌握企业的运行情况和发展趋势,并对指定计划和长远规划提供理论和数据指导,从而提高企业的管理水平和竞争优势。基于数据仓库技术的网络经营分析系统运用数据仓库技术,将分布在运行网络中不同信息岛上的数据收集到一起,存储在一个单一的集成数据库中4。利用这种集合信息,可使网络维护管理人员对很长一段时间内的历史数据进行分析,判断各种网络承载业务数据发展走势,为整体提升网络运营管理水平提供强有力的支撑。同时也将解决现行网络管理工作中人手少、数据提取困难,延时长等瓶颈问题。3、数据仓库的具体任务数据仓库的根本任务是把数据加以整理归纳,并及时提供给相应的管理决策人员,供他们做出改善其业务经营的决策,使信息发挥作用,支持决策。主要表现在: (1)数据仓库有效集成了企业的业务数据,提供了标准的报表和图表的功能。数据仓库的报表和图表是关于整个企业集成信息的报表和图表,其中的数据可来源于不同的多个事务处理系统。从而为企业提供了按照主题的多方位的决策支持。 (2)数据仓库可以对分布在不同系统的业务数据进行清洗和加工。数据仓库的源数据可能来自许多异构的事务处理系统,它们具有不同的数据格式和数据存储管理组织,数据仓库可以按照面向主题的原则对这些数据进行清洗和加工,使它们成为统一格式的易于使用的支持决策的数据。(3)数据仓库支持多维分析。多维分析是通过把一个实体的多项重要的属性定义为多个维度,使得用户能方便地汇总数据集,简化了数据的分析处理逻辑,并能对不同维度值的数据进行比较,而维度则表示了对信息的不同理解角度,例如,时间和地理区域是经常采用的维度。应用多维分析可以在一个查询中对不同阶段的数据进行纵向或横向比较,这在决策过程中非常有用。(4)数据仓库技术可以帮助企业决策者对企业未来状况做出预测。数据挖掘技术是数据仓库表现的关键技术。数据挖掘技术可以在已有数据中识别数据的模式,以帮助用户理解现有的信息,并在已有信息的基础上,对未来的状况做出预测。在数据仓库的基础上进行数据挖掘,就可以针对整个企业的状况和未来发展做出比较完整、合理、准确的分析和预测。 (5)成功的数据仓库系统可以为企业带来高的投资回报。结合企业业务现状,数据仓库可以建立在原有运行系统之上,企业可以在以分主题方式对原来运行数据重组的基础之上,为了某种支持特定决策的需要,再跨主题进行数据重组,这就需要数据集市(Data Marts)了。数据集市是聚集的、面向主题的数据仓库,它简单、灵活,并且建立速度更快,花费也更低廉。通常情况下,企业将建立一系列数据集市,用来处理一定范畴的问题,快速决策意味着企业可以对市场机会做出快速反应,这将为企业带来巨大的商业利益。1.3 论文的主要工作本文将重点讨论基于数据仓库的移动网络经营分析系统的方案研究和具体实施。首先以深圳移动为例,分析了移动通信网络管理数据分析的现状和问题,介绍了数据仓库的基础以及相关技术,特别是移动通信网络管理数据仓库应用所涉及到的关键环节,如OLAP分析以及三层结构技术。然后,结合移动通信行业在网络数据分析、应用方面的实际情况,给出了基于数据仓库技术和B/S体系结构的移动行业网络数据分析应用系统解决方案,详述了系统实现的具体方法,以及开发中所解决的关键问题。最后讨论了此系统各方面的性能状况,并充分考虑了系统未来的发展。1.4 论文的章节安排全文共分为四个章节,详细讨论了移动通信领域内网络管理数据仓库建设的问题现状、业务需求、功能开发、实施总结和展望。各章的内容安排如下:第一章介绍数据仓库的发展以及在国内外移动通信行业应用情况。结合深圳移动网络数据管理方面存在的问题,阐述了本研究项目的背景。第二章在了解移动行业需求和现有弊端的基础上,介绍了数据仓库的基本理论和技术。简单介绍了数据仓库发展历史、存储方式和组织结构。包括数据仓库规划、元数据的组织、详细设计、管理与维护和开发技术。也简单说明了数据联机处理分析技术。简要阐述了OLAP的概念、结构、分析方法和组织方式。第三章在了解数据仓库通用技术的基础上,针对深圳移动管理人员的具体需求,结合深圳移动的网络经营分析系统的建立,重点探讨了移动通信行业内网络管理数据仓库的实现方法。第四章将系统与同类系统进行了对比,搜集了用户的反馈意见,对系统的不足之处进行了分析,并对未来的工作进行了展望。第二章 数据仓库简介2.1 数据仓库的基本概念业界公认的数据仓库概念创始人W. H.Inmon博士在建立数据仓库(Building the Data Warehouse)一书中给出了数据仓库的定义:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程6。这个定义概括了数据仓库最主要的四个特征:1、面向主题主题是一个较高层次的数据归类标准,它是与传统数据库面向应用是相对应的,每一个主题基本对应一个宏观的分析领域。比如,一个保险公司的数据仓库所组织的主题可能为:客户、政策、保险金、索赔等,而按应用来组织则可能为:汽车保险、生命保险、健康保险、伤亡保险等。可以看出,基于主题组织的数据被划分为各自独立的领域,每个领域有自己的逻辑内涵但互不交叉。而基于应用的数据组织则完全不同,它的数据只是为处理具体应用而组织在一起,应用是客观世界既定的,它对数据的划分未必适用于分析的需要。2、集成的通过比较,可以发现原始数据(操作型数据)与分析型数据之间的区别如表2.1所示。表2.1 操作型数据与分析型数据的比较操作型数据分析型数据细节的综合的或提炼的在存取瞬间是准确的代表过去的数据可更新的一般不更新,只追加一个时刻操作一个单元一个时刻操作一个集合面向事务面向分析一次操作数据量小一次操作数据量大支持日常操作支持决策需求 从表2.1可以清楚地看到,操作型数据与适合于决策支持系统(DSS)应用的分析型数据之间的差别很大。由于数据仓库要用到分析型数据,因此在数据进入数据仓库之前,必须要通过加工与集成,首先要统一原始数据的格式,还要将原始数据进行从面向应用到面向主题的大转变。3、相对稳定的数据仓库反映的是历史数据的内容和历史趋势的变化,而不是当前数据情况。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少。因而,数据经加工和集成进入数据仓库后是极少或根本不更新的。4、反映历史变化数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行数据更新操作的。但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的7。数据仓库的数据随时间变化的特征表现在以下几方面:首先,数据仓库内的数据时限要远远长于操作型数据环境中的数据时限;其次,操作型环境存储的是当前数据,即在存取一刹那是正确、有效的数据,而数据仓库中的数据都是历史数据(哪怕只是几分钟前的数据);最后,数据仓库中的数据都是按照时间顺序追加的,它们都带有时间这一属性,标明了该数据的历史时期。2.2 数据仓库技术的发展历史计算机系统的功能从数值计算扩展到数据管理已有三十多年的历史了。最初的数据管理形式主要是文件系统,少量的在数据片段之间增加一些关联和语义而构成层次型或网状数据库,但数据的访问必须依赖于特定的程序,数据的存取方式是固定、呆板的。到了1969年,E. F. Code博士发表了他著名的关系数据模型的论文。此后关系数据库的出现开创了数据管理的新时代。近几十年来,随着大量新技术、新思路的涌现,并应用于关系型数据库系统的开发和实现,如客户/服务器系统结构、存储过程、多线索并发内核、异步1/0、代价优化等,这一切足以使得关系数据库系统的处理能力毫不逊色于传统封闭的数据库系统。而关系数据库在访问逻辑和应用上所带来的好处则远远不止这些,SQL的使用已成为一个不可阻挡的潮流,加上近些年来计算机硬件的处理能力呈几何级的递增,关系数据库最终成为联机事务处理系统的主宰。从20世纪80年代初到90年代前期,联机事务处理一直是数据库应用的主流。然而,应用在不断地进步。当联机事务处理系统应用到一定阶段后,用户便发现单靠拥有联机事务处理已经不足以获得市场竞争的优势,他们需要对其自身业务的运作以及整个市场相关行业的情况进行分析,从而做出正确的决策17,而这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。在如今这样激烈的市场竞争环境下,这种基于业务数据的决策分析,把它称为联机分析处理,比以往任何时候都显得重要。如果说传统联机事务处理强调的是更新数据库和向数据库中添加信息,那么联机分析处理就是从数据库中获取信息、利用信息。事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际的操作中,人们却发现要获得有用的信息并非如想象的那么容易,这主要表现在以下几点:1、所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,而不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一个数据库在理论上都难以做到两全。2、业务数据往往存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设。3、业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和查询。因此有人感叹二十年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。针对这一问题,人们设想专门为业务的统计分析建立一个数据中心,它的数据来自联机事务处理系统、异构的外部数据源和脱机的历史业务数据。这个数据中心是一个联机的系统,它是专门为分析统计和决策支持应用服务的,通过它可以满足决策支持和联机分析应用所要求的一切,这个数据中心就叫做数据仓库。这个概念在90年代初被提出来。如果需要给数据仓库一个定义的话,那么数据仓库就是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是如何从数据库中获取信息。数据仓库的概念刚出现,就首先被应用于金融、电信、保险等主要传统数据处理密集型行业。这些行业具有两个基本条件:第一,该行业有较为成熟的联机事务处理系统,它为数据仓库提供了客观的条件;第二,该行业面临市场竞争的压力,它为数据仓库的建立提供了外在的动力。目前,数据仓库的基本原理、框架架构以及分析系统的主要原则都已经确定,主要的技术,包括关系型数据存取、网络、C/S架构和图形化界面均已具备,在各个行业中的应用也随着现代社会商业模式的变革而进一步普及和深入。2.3 数据仓库体系结构严格说来,任何一个数据仓库结构都是从一个基本框架发展而来,实现时再根据分析处理的需要具体增加一些部件。图2.1 数据仓库的基本体系结构 为了能够将已有的数据源提取出来,并组织成可用于决策分析所需的综合数据的形式,一个数据仓库的基本体系结构中应有以下几个基本组成部分:1、数据源(Data Souece)指为数据仓库提供最底层数据的运作数据库系统及外部数据。2、包装器/监视器(Wrapper/Monitor)该模块的包装器 (Wrapper)部分负责把数据从原数据源使用的数据格式转化为数据仓库使用的数据格式和数据类型,而监视器(Monitor)部分负责感知数据源发生的变化,并把这些变化上报给集成器(Integrator)。 3、集成器(Integrator)将从运作数据库中提取的数据经过转换、计算、综合等操作,集成到数据仓库中。为了把新数据准确的集成到数据仓库中,集成器(Integrator)可能还要从原来或相关的其它数据源中获取进一步的信息,图中向下的虚箭头表示这种行为。 4、数据仓库(Data Warehouse)存储已经按企业级视图转换的数据,供分析处理用。根据不同的分析要求,数据按不同的综合程度存储。数据仓库中还应存储元数据,其中记录了数据的结构和数据仓库的任何变化,以支持数据仓库的开发和使用。5、客户应用供用户对数据仓库中的数据进行访问查询,并以直观的方式表示分析结果的工具。2.4 数据仓库的数据2.4.1 数据仓库的数据组织结构从原始业务数据库中获得的数据在数据仓库中被分成不同的层次,一般数据仓库数据组织结构如图2.2。图2.2 数据仓库数据组织结构 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级。由此可见,数据仓库中存在着不同的综合级别,一般称之为粒度。粒度越大,表示细节程度越低,综合程度越高。数据仓库中还有一种重要的数据元数据(Metadata)。元数据是关于数据的数据19,如在传统数据库中的数据字典就是一种元数据。在数据仓库环境下,主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数据,包含了所有源数据项名、属性及其在数据仓库中的转化;第二种元数据在数据仓库中是用来和终端用户的多维商业模型/前端工具之间建立映射,这种元数据称之为DSS元数据,常用来开发更为先进的决策支持工具11。2.4.2 数据仓库的数据组织方式 数据仓库的数据组织方式可分为虚拟存储方式、基于关系表的存储方式和多维数据库存储方式三种:1、虚拟存储方式 它没有专门的数据仓库储存数据,数据仓库中的数据仍然在源数据库中,只是根据用户的多维需求形成多维视图,临时在源数据库中找出所需要的数据,完成多维分析。这种组织方式较简单、花费少、使用灵活,但同时也存在一个致命的缺陷,即只有当源数据库的数据组织比较规范、数据比较完备并且没有冗余,同时又比较接近多维数据模型时,虚拟数据仓库的多维语义层才容易定义。而一般数据库的组织关系都比较复杂,数据库中的数据又存在许多冗余和冲突的地方,在实际中这种方式很难建立起有效的决策服务数据支持。2、基于关系表的存储方式 它是将数据仓库的数据存储在关系型数据库的表结构中,在元数据的管理下完成数据仓库的功能。这种组织方式在建库时有两个主要过程用以完成数据的抽取:首先要提供一种图形化的操作界面,使分析员能对源数据库的内容进行选择,定义多维数据模型;然后再编制程序把数据库中的数据抽取到数据仓库的数据库中。这种方式的主要问题是在多维数据模型定义好后,从数据库中抽取数据往往需要编制独立、复杂的程序,因此通用性差、很难维护。3、多维数据库组织方式它直接面向OLAP分析操作所需的数据组织形式,在数据仓库中对海量数据从感兴趣的视角、抽象层次上进行概括,便形成了针对不同目标的多维数据视图。它是对决策目标意义较为完整的描述,能够精确地为用户提出的问题进行分析处理服务。多维数据视图一般包括一组对分析感兴趣的量度,如客户和费用,每个量度包含一组具体化内容的维,如客户的类别、信用度等。多维的层次划分,基本上确定了每个垂直的汇总路径,可形成关于任一路径的分析。这种数据库产品也比较多,其实现方法不尽相同,其数据组织采用多维数组结构文件进行数据存储,并有维索引及相应的元数据管理文件与数据相对应。2.5 联机分析处理技术2.5.1 OLAP概述当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的操作型数据库的主要应用,主要是基本的日常事务处理,例如计费交易等。OLAP是数据仓库系统的主要应用,侧重决策支持,支持复杂的分析操作,以求剖析数据,使用户能多角度、全方位地观察数据库中的数据,从而深入理解包含在数据中的信息。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是维(dimension)这个概念,通过把一个实体的多项重要属性定义为多个维,使用户能对不同维上的数据进行比较。使分析人员、经理和执行者能够迅速、一致、交互地从各个方面观察信息,从而达到深入理解信息的目的。 2.5.2 OLAP的数据处理方式 OLAP有以下三种数据处理方法:1、关系数据库 即使活动的OLAP数据存储在关系数据库中,采用在关系数据库上完成复杂的多维计算也不是较好的选择。因为SQL的单语句并不具备完成多维计算的能力,要获得哪怕是最普通的多维计算功能也需要使用多重SQL。在许多情况下,一些OLAP工具用SQL做一些计算,然后将计算结果作为多维引擎输入。多维引擎在客户机或中层服务器上做大部分的计算工作,这样就可以利用RAM来存储数据,提高响应速度。2、多维服务引擎 大部分OLAP应用在多维服务引擎上完成多维计算,并且具有良好的性能。因为这种方式可以同时优化引擎和数据库,而服务器上充分的内存为有效地计算大量数组提供了保证。3、客户机在客户机上进行计算,要求用户具备性能良好的PC机,以此完成部分或大部分的多维计算。对于日益增多的瘦型客户机,OLAP产品将把基于客户机的处理移到新的Web应用服务器上。2.5.3 OLAP的分析方法OLAP有如下几种常用的分析方法:1、切片(Slice-dice):根据各维的实际情况,实施投影、选择等数据库基本操作。2、上钻和下钻(Roll up/Drill down):根据各维的层次提升或降低所观察的层次15。3、旋转(Pivoting):将两个维进行调换,加以比较。2.6数据挖掘技术2.6.1数据挖掘技术概述数据挖掘是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术。它建立在数据仓库基础之上,面向非专业用户,定位于桌面,并且支持即兴的随机查询。数据挖掘技术能自动分析数据,对其进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式,从而建立新的业务模型,以达到帮助决策者制定市场策略、做出正确决策的目的5。数据挖掘技术涉及数据库、人工智能、机器学习、神经计算和统计分析等多种技术。在数据仓库基础上挖掘的知识通常以图表、可视化界面等形式表示出来,但所挖掘的知识并不都是有意义的,必须进行评价、筛选和验证,把有意义的知识放到知识库中,随着时间的推移将积累更多的知识。知识库根据挖掘的知识类型分为总结性知识、关联性知识、分类模型知识、聚类模型知识,这些知识通过相应挖掘算法得到12。数据挖掘与OLAP都是分析型工具。联机分析处理作为验证型分析工具,更多地依赖用户输入的问题和假设,使得用户能够快速地检索到所需要的数据,而数据挖掘能够自动地发现隐藏在数据中的模式(Pattern)。2.6.2数据挖掘的方法在实际应用中,数据挖掘主要采用以下几种方法进行模式的发现: 1、相关分析和回归分析:相关分析主要分析变量之间联系的密切程度;而回归分析主要基于观测数据建立变量之间适当的依赖关系。相关分析是回归分析的基础。2、时间序列分析:与相关分析类似,目的也是为了挖掘出数据之间的联系,但时间序列分析更加侧重于数据在时间先后上的因果关系。 3、分类分析:分类分析首先为每一个观测赋予一个标记,然后检查这些被标记的观测,描述出这些观测的特征。这种描述可以是一个数学公式或者模型,利用它可以对新的观测进行分类。常用的几种典型的分类模型有线性回归模型、决策树模型、基于规则模型和神经网络模型。4、聚类分析:与分类分析不同,聚类分析的输入是一组未标定的记录,目的是根据一定的规则,合理地划分记录集合。聚类分析和分类分析是一组互逆的过程,因此在很多分类分析中适用的算法也同样适用于聚类分析。2.7数据仓库的构建 数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计同开发传统数据库设计方法有一定的区别。深圳移动网络经营分析系统是一个基于数据仓库技术的辅助经营决策系统, 对来源于深圳移动公司本地OMC系统数据库的原始数据进行加工,形成支撑网络经营分析的数据仓库,通过OLAP分析技术和数据挖掘技术,将与网络经营有关的数据用各种方法呈现出来,便于用户发现经营方面的有关问题。深圳移动的网络设备多种多样,业务也不断更新。因此数据仓库系统的原始需求不太明确,并且会不断变化与增加。提出需求者和开发者最初不能充分明确详细的需求,网络经营分析系统的用户所能提供的无非是需求的大的方向以及部分需求,而不能较准确地预见到以后的需求。因此,采用原型法来进行数据仓库的开发是比较合适的,因为原型法的思想是从构建系统的简单的基本框架着手,不断地丰富和完善整个系统。但是,数据仓库的设计开发又不同于一般意义上的原型法,数据仓库的设计是数据驱动的。这是因为数据仓库是在现存数据库系统基础上进行开发,它着眼于有效地抽取、综合、集成和挖掘已有数据库的数据资源,服务于企业高层领导管理决策分析的需要。但需要说明的是,数据仓库系统开发是一个经过不断循环、反馈而使系统不断增长与完善的过程,这也是原型法区别于系统生命周期法的主要特点。因此,在数据仓库的开发的整个过程中,自始至终要求决策人员和开发者的共同参与和密切协作,不做或尽量少做无效工作或重复工作。数据仓库的设计主要分为以下几步:2.7.1 概念模型设计进行概念模型设计所要完成的工作是:界定整个系统的边界及其内容。概念模型设计是在原有的数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,基于原有的数据库系统中有什么、怎样组织的和如何分布的等因素,然后再来考虑应当如何建立数据仓库系统的概念模型。一方面,通过原有的深圳移动公司本地OMC系统数据库的设计文档以及在数据字典中的数据库关系模式,可以对现有的数据库中的内容有一个完整而清晰的认识;另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。如何界定系统的边界,先要对数据仓库的需求进行了解。数据仓库是面向决策分析的数据库,无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性需求还是需要得到的:要做的决策类型有哪些?决策者感兴趣的是什么问题? 这些问题需要什么样的信息? 要得到这些信息需要包含原有数据库系统的哪些部分的数据? 这样可以划定一个当前的、大致的系统边界,集中精力对最需要的部分进行开发。因而从某种意义上讲,界定系统边界的工作也可以看作是数据仓库系统设计的需求分析,因为它将决策者对数据分析的需求用系统边界的定义形式反映出来。2.7.2 技术准备工作技术准备阶段的工作包括:技术评估,技术环境准备。这一阶段的可以得到的是:整个数据仓库技术评估报告、软硬件配置方案、软、硬件总体设计方案。管理数据仓库的技术要求与管理操作型环境中数据与处理的技术要求区别很大,两者所考虑的方面也不同。技术评估就是确定数据仓库的各项性能指标。一般情况下,需要在这一步里必须要确定的性能指标包括:管理海量数据的能力;进行灵活数据存取的能力;根据数据模型重组数据的能力;透明的数据发送和接收能力;周期性成批装载数据的能力;可设定完成时间的作业管理能力。 技术环境准备:数据仓库的体系化结构模型大体建好后,下一步的工作就是确定应该怎样来装配这个体系化结构模型,主要是确定对软硬件配置的要求;主要考虑相关的问题:预期在数据仓库上分析处理的数据量有多大?数据仓库的数据量有多大? 进出数据仓库的数据通信量有多大等等。根据这些考虑,就可以确定各项软硬件的配备要求。2.7.3 逻辑模型设计在逻辑模型设计里进行的工作主要有:确定数据仓库中数据粒度层次的划分;确定数据分割存放策略;关系模式定义;记录系统定义。逻辑模型设计的结果是,对每个当前要装载的主题的逻辑实现进行定义,并将相关内容记录在数据仓库的元数据中,包括:适当的粒度划分;合理的数据分割策略;适当的表结构划分;定义合适的数据来源等。 在概念模型设计中,确定了几个基本的内容划分,但数据仓库的设计方法是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若干个主题逐步完成的。所以必须对概念模型设计步骤中确定的几个基本主题域进行分析,并选择首先要实施的主题域。选择第一个主题域首先要考虑的是它要足够大,以便使得该主题域能建设成为一个可应用的系统;此外它还要足够小,以便于开发和较快地实施。如果所选择的主题域很大并且很复杂,甚至可以针对它的一个有意义的子集来进行开发。在每一次的反馈过程中,都要进行主题域的分析。 数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。确定数据仓库的粒度划分,可以使用在粒度划分一节中介绍的方法,通过估算数据行数和所需的DASD数,来确定是采用单一粒度还是多重粒度,以及粒度划分的层次。 在如何确定数据分割策略里,要选择适当的数据分割标准,一般要考虑以下几方面因素:数据量(而不仅是记录的行数)、数据分析处理的实际情况、简单易行以及粒度划分的策略等。数据量的大小是决定是否进行数据分割以及如何进行分割的主要因素;数据分析处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理的对象紧密联系的;还要考虑到所选择的数据分割标准应是自然的、易于实施的:同时也要考虑数据分割的标准与粒度划分层次是适应的。2.7.4 关系模式定义数据仓库的每个内容都是由多个表来实现的,这些表之间依靠主题的公共码键联系在一起,形成一个完整的主题。在概念模型设计时,就确定了数据仓库的基本内容,并对每个内容的公共码键、基本情况等做了描述,在关系模式定义里,将要对选定的当前实施的主题进行模式划分,形成多个表,并确定各个表的关系模式。2.7.5 物理模型设计 物理模型设计所做的工作是确定数据的存储结构,确定索引策略,确定数据存放位置,确定存储分配。 确定数据仓库实现的物理模型,要求设计时必须要全面了解所选用的数据库管理系统,特别是存储结构和存取方法,了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等,这些是对时间和空间效率进行平衡和优化的重要依据,了解外部存储设备的特性,如分块原则、块大小的规定、设备的I/O特性等。一个数据库管理系统往往都提供多种存储结构供设计人员选用,不同的存储结构有不同的实现方式,各有各的适用范围和优缺点,设计人员在选择合适的存储结构时应该权衡三个方面的主要因素:存取时间、存储空间利用率和维护代价。 数据仓库的数据量很大,因而需要对数据的存取路径进行仔细的设计和选择。同时可以设计多种多样的索引结构来提高数据存取效率。 在数据仓库中,可以考虑对各个数据存储建立专用的、复杂的索引,以获得最高的存取效率,因为在数据仓库中的数据是不常更新的,也就是说每个数据存储是稳定的,因而虽然建立专用的、复杂的索引有一定的代价,但一旦建立就几乎不需为维护索引的付出代价。 同一个主题的数据并不要求存放在相同的介质上。在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。 数据存放位置的确定还要考虑到其它一些方法,如:决定是否进行合并表;是否对一些经常性的应用建立数据序列;对常用的、不常修改的表或属性是否冗余存储。如果采用了这些技术,就要记入元数据。 许多数据库管理系统提供了一些存储分配的参数供设计者进行物理优化处理,如:块的尺寸、缓冲区的大小和个数等,它们都要在物理设计时确定。这同创建数据库系统时的考虑是一样的。在经营分析系统的数据仓库实现过程中,根据系统设计需要,共设计了三个数据库MASOURCE(原始数据库表)、MACONFIG(配置表信息)、MADATA(系统最终数据表),总共含有80个数据表,其结构大致如下:(以全网小区数据表举例说明)本表数据由底层程序插入MASOURCE(原始数据库表)中,然后通过调用存储过程把数据经过一定的公式配合配置表转换放入到系统的最终数据表中,用户只能进行查询数据,管理员可以增加、修改、删除一些不合理或者冗余错误的数据,本表数据随时可以维护,数据量随着时间的增加不断累积,拥有一年的数据对于经营分析就有了一定的基础,本数据的数据容量基本定在可以存放四年的数据。表3.1 全网小区数据表序号字段名中文描述类型长度1OBJECT_CLASS库内部的对象类型号INT2OBJECT_INSTANCE库内部对象实例号INT3NET_ID库内部的对象GSM网号INT4PROD_ID库内部的对象生产厂商号INT5CONTAINER_NET_ID父对象网号INT6CONTAINER_PROD_ID父对象生产厂商号INT7CONTAINER_CLASS库内部的父对象类型号INT8CONTAINER_INSTANCE库内部的父对象实例号INT9NE_CLASS网元类型号INT10NAME小区识别号VCHAR3211C_NAME小区识别中文名VCHAR3211-1C_SET_NAME区域中文名VCHAR3212RELATED_MSC归属MSCVCHAR3213RELATED_BSC归属BSCVCHAR3214RELATED_SITE归属SITEVCHAR3215CARRI_TOT载波总数FLOAT1616CARRI_AVAI载波可用数FLOAT1617CARRI_RATE载波可用率FLOAT1618SDCCH_TRAFFICSDCCH话务量FLOAT1619ATT_SDCCH_SEIZSDCCH的试呼次数FLOAT1620SDCCH_CALL_SEIZSDCCH的占用次数FLOAT1621DROP_CALL_SDCCHSDCCH的掉话次数FLOAT1622TCH_BLOCK_RATETCH拥塞率FLOAT1623TCH_DROP_CALL掉话数FLOAT1624TCH_DROP_RATETCH的掉话率FLOAT1625TCH_TRAFFICTCH的话务量FLOAT1626TCH_TRAFFIC_PERTCH每线爱尔兰FLOAT1627TCH_CDISSS4_RATE弱信号掉话FLOAT1628TCH_CDISQA_RATE质差掉话FLOAT1629TCH_TFSUDLOS突然掉话FLOAT1630TCH_TFDISQAUL上行质差掉话FLOAT1631TCH_TFDISQADL下行质差掉话FLOAT1632TCH_TFDISQABL双向质差掉话FLOAT1634TCH_CALL_REQ_NOHOTCH的试呼次数(不含切换)FLOAT1635TCH_CALL_SEIZTCH的占用次数FLOAT162.7.6 数据仓库的生成在数据仓库的生成里所要做的工作是接口编程和数据装入。 数据仓库的生成工作的成果是,数据已经装入到数据仓库中,可以在其上建立数据仓库的应用。首先设计接口,将操作型环境下的数据装载进入数据仓库环境,需要在两个不同环境的记录系统之间建立一个接口。初一看,建立和设计这个接口,似乎只要编制一个抽取程序就可以了,事实上,在这一阶段的工作中,的确对数据进行了抽取,但抽取并不是全部的工作,还应具有以下的功能:从面向应用和操作的环境生成完整的数据;数据的基于时间的转换;数据的凝聚;对现有记录系统的有效扫描,以便以后进行追加8。考虑这些因素的同时,还要考虑到物理设计的一些因素和技术条件限制,根据这些内容,严格地制定规格说明,然后根据规格说明,进行接口编程。从操作型环境到数据仓库环境的数据接口编程的过程和一般的编程过程并无区别,它也包括伪码开发、编码、编译、检错、测试等步骤。 在接口编程中,要注意:保持高效性,这也是一般的编程所要求的;要保存完整的文档记录;要灵活,易于改动;要能完整、准确地完成从操作型环境到数据仓库环境的数据抽取、转换与集成。 接着进行数据装入,在这里所进行的就是运行接口程序,将数据装入到数据仓库中。主要的工作是:确定数据装入的次序;清除无效或错误数据;数据老化;数据粒度管理以及数据更新等。 最初只使用一部分数据来生成第一个内容,使得设计人员能够轻易且迅速地对已做工作进行调整,而且能够尽早地提交到下一步骤,即数据仓库的使用和维护。这样既可以在经济上最快地得到回报,又能够通过最终用户的使用、尽早发现一些问题并提出新的需求,然后反馈给设计人员,设计人员继续对系统改进、扩展。网络经营分析系统数据仓库的数据主要是通过接口程序从交换机上取来,然后再存入到数据仓库中,接口程序的主要作用就是数据的采集。数据采集是整个系统运行的基础,所有与应用程序相关的数据都是从底层取到的,实现数据采集是非常关键的一部分。这部分数据主要从网络维护操作系统FTP十六进制统计报表数据文件获得:1、对十六进制文件进行加工分析转换成十进制文件。2、把这部分文件导入数据库,由于OSS系统自身将这些数据分类存成数据文件,每个OBJECT_TYPE作为一个文件存放,因此分析入库时针对每个OBJECT_TYPE建立一张数据表存放作为临时数据源。3、根据从文件分析的数据源以及深圳移动提供的公式分析整合这些数据。具体做法:先计算出小区级的性能数据,根据每个OBJECT_TYPE中的CELL_ID和BSC_NAME两个字段匹配出各个小区以及这个小区所属的BSC然后选取需要的COUNT计算出需要的性能数据;然后根据计算得到的数据结果再次整合,根据CELL_ID得到小区所属的基站,根据BSC_NAME得到小区所属的MSC,根据热点小区的配置表的关联可以得到小区的热点小区集;这时可以得到一张所有小区的性能数据表,并且小区的性能数据表中有RELATED_SITE,C_SET_NAME,RELATED_BSC,RELATED_MSC字段,利用聚集函数SUM并且GROUP BY需要聚集的网元级别的字段求和就可以得到需要求出的网元级别的性能数据。4、在每天凌晨一点半数据库自动进行一次运算,把前一天的24小时数据求和放入另外一张以天为时间粒度的数据表中得到以天为单位的各类网元的性能数据。另外比较24小时中的各个网元的话务量,把24小时中话务量最大的一个小时的数据放入一张网元的自身忙时表中,可以方便查询网元的忙时数据。这种设计方案解决了以前根据CDD配置数据中的CELL_ID匹配数据时如果小区割接时CELL_ID发生变化会导致这个小区数据丢失的问题,能够进一步保证数据的完整性,并且只要是OSS性能文件中存在的小区都可以计算出它的性能数据,不会存在由于性能文件中的CELL_ID与CDD配置参数中的CELL_ID匹配

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论