(计算机软件与理论专业论文)数据仓库技术研究及在电信经营分析系统的应用.pdf_第1页
(计算机软件与理论专业论文)数据仓库技术研究及在电信经营分析系统的应用.pdf_第2页
(计算机软件与理论专业论文)数据仓库技术研究及在电信经营分析系统的应用.pdf_第3页
(计算机软件与理论专业论文)数据仓库技术研究及在电信经营分析系统的应用.pdf_第4页
(计算机软件与理论专业论文)数据仓库技术研究及在电信经营分析系统的应用.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(计算机软件与理论专业论文)数据仓库技术研究及在电信经营分析系统的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士毕业论文数据仓库技术研究及在电信经营分析系统中的应用 数据仓库技术研究及在电信经营分析系统中的应用 摘要 电信运营企业是高技术密集型企业,也是较早使用数据库和数据 库管理系统的企业,在多年的运营中积累了大量的历史数据。同时现 在电信行业的竞争正变得越来越激烈,如何拓展市场,如何保有老用 户,如何争取新的用户等已经成为电信企业面对的重要问题电信企 业拥有的大量数据中可能蕴藏着回答这些问题的答案,但是现在并不 能直接地获取。因此,电信企业对于将积累的大量历史数据转变为可 以支持决策的知识的经营分析系统的需求越来越强烈。 数据仓库中的专题分析主要是探索业务部门比较关注的部分业 务发展情况,实现对业务发展的跟踪和业务预演,抽取出潜在的,有 价值的知识、模型或规则的过程。对于企业而言,专题分析可以有助 于发现业务发展的趋势,揭示已知的事实,预测未知的结果,并帮助 企业分析出完成任务所需的关键因素,以达到增加收入、降低成本, 使企业处于更有利的竞争位置的目的。 本论文的主要内容包括对基于数据仓库技术的电信经营分析系 统的研究和作者在电信经营分析系统的设计和实现中所做的工作。可 以分为如下两部分:1 、首先介绍了某电信经营分析系统的设计;然 后重点讲述了该系统中的数据抽取及转换模块的设计实现过程,对项 目中话单抽取时遇到的问题提出解决方案,并给出了改进的数据转换 模块结构的设计。2 、是对专题分析模块中资费分析的研究,首先是 对资费分析的调研,明确问题方向,提出解决方案,然后,针对该运 营商的话单数据进行了分析。 该文所描述的经营分析系统已经在某电信正式上线运行。 关键字:数据仓库e t l 电信经营分析系统专题分析 硕士毕业论文 数据仓库技术研究及在电信经营分析系统中的应用 t h ea p p u c a t i o no fd a l l a 、) i 馅。r e h o u s e t e c h n o l o g yi nt e l e c o mn l 妣g e m e n t a n da n a i y s i ss y s t e m t e l e c o me n t e 叩r i s ei sf i l l lo fa d v a n c e dt e c h n o l o g i e sa 1 1 dh a su s e d d a t a b a s em a n a g e m e n ts y s t e mf r o ml o n ga g o d u r i n gl o n gy e a r s 叩e r a t i o n l o t so fh i s t o r yd a t ah a sb e e na c c u m u l a t e d n o wt h ec o n t e s tb e 押e e n t e l e c o me n t e r p r i s e sh a sb e c o m es e v e r e rt h a l lb e f o r e h o wt od e v e l o p m a r k e t s ,h o wt ok e 印0 1 dc u s t o m e ra n dh o wt os t r i v ef o rn e wc u s t o m e r a r et h ei m p o r t a n tp r o b l e m st h a tt h et e l e c o me n t e r p r i s ec o n f r o n t s t h el o t s o fd a t ai nt e l e c o me n t e r p r i s em a yh a v ea n s w e rf o rt h e s ep r o b l e m s ,b u ti t i sn o te a s yt og e t s ot h ea d m i n i s t r a t i o na n da i l a l y s i ss y s t e mf o rt e l e c o m e n t e r p r i s e t ot r a n s a c t h i s t o r y d a t at o l ( 1 1 0 w l e d g e t h a t s u p p o r t d e c i s i o n m a l 【m gi sn e e d e dm o r ei n t e n s et h a nb e f o r e t h es p e c i a ls u b j e c ti nd a t a b a s ew a r e h o u s ei st h ep r o c e s st l l a te x p l o r e s t h es e r v i c ed e v e l o p m e n ts i t i l a t i o n ,t r a c e ss e r v i c ed e v e l o p m e n t ,r e a l i z e s s e i c ep r e v i e wa n de x t r a c tv a l u a b l ek n o 、) i ,l e d g eo rm o d e l so rm l e sf r o m h i s t o r yd a t a s p e c i a ls u b j e c tc a i lh e l pt e l e c o me n t e r p r i s ed i s c o v e rs e i c e d e v e l o p m e n td i r e c t i o n ,u n c o v e rt h el 【n o w nf a c t ,f o r e c a s tu 1 1 l 【n o w nr e s u l t a n d h e l pe n t e r p r i s e t o a n a l y z e c r i t i c a lf a c t o rt h a ti sn e e d e df o r 硕士毕业论文数据仓库技术研究及在电信经营分析系统中的应用 a c c o m p l i s h i n gt a s k s s ot h et e l e c o me n t e r p r i s ec a ni n c r e a s ei n c o m e , r e d u c ec o s ta n db em o r ec o m p e t i t i v et h a no t h e rt e l e c o me n t e r p r i s e s ,n l em a i nc o n t e n ti 1 1t h i s p a p e ri n c l u d e st h es t u d yf o rt e l e c o m a d m i n i s t r a t i o na n da n a l y s i ss y s t e mt h a tb a s e so nd a t a b a s ew a r e h o u s e t e c h n o l o g ya n dm ew o r kd 1 1 r i n gt h es y s t e md e s i g na n dr e a l i z a t i o n t h e r e a r et w op a r t s :1 i m r o d u c em ed e s i g np r o c e s sf o rt h ea d m i n i s t r a t i o na n d a n a l y s i ss y s t e ma n dm a i n l yt e l lt h ed e s i g na n dr e “i z a t i o np r o c e s sf o rd a t a e x t r a c t i o na n dd a t a 仃a n s a c t i o nm o d e l ,g i v er e s o l v i n gp l a nf b rc a l ld e t a i l r e c o r d ( c d r ) e x t r a 以o na 1 1 dg i v et 1 1 ei m p r o v e do 鸦a 1 1 i z a t i o nd e s i g l lf o r d a t a 缸a n s a c t i o nm o d e l 2 s t u d yt h er a t ep l a ns i m u l a t i o n f i r s td os o m e r e s e a r c h0 nr a t ep l a i l ,f i n dt h ep r o b l e m ,p u tf o 州a r dr e s o l v i n gp l a na n d t h e na n a i y z et h ec a l ld e t a i lr e c o r d ( c d r ) i 1 1t h et e l e c o me n t e 叩r i s e t h ea d m i n i s t r a t i o na n da i l a l y s i ss y s t e mh a sb e e np u ti n t 0u s e k e yw o r d s :d a t aw a r c h o u s ee t l1 1 c l e c o mm a n a g e m e n ta n d a n a l y s i ss y s t e ms p a c i a ls u b j e c ta n a l y s i s i 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均己在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处 本人签名: j 狂牡 本人承担切相关责任。 同期:趔6 :i :堑 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位 本人签名: 导师签名: 适用本授权书。 日期:丝! :! :兰2 日期: 趔墨:) :! i 硕士毕业论文数据仓库技术研究及在电信经营分析系统中的应用 1 1 课题背景 第一章绪论 建立数据仓库己经成为9 0 年代的热潮。遍及世界的公司正在试图利用多年来 存储在他们计算机内的信息。今天,大多数企业组织正在实施,或是正在计划实 施数据仓库方案,而这种工作是在i t 预算持续下降的大环境下实旌的。但是,目 前的数据仓库危机四伏。由于在不牺牲今天的竞争优势的前提下建立一个企业的 信息系统来支持企业的决策过程是一个重大的挑战,因此,在实施数据仓库的过 程中,存在着性能上的潜在危机。企业在实施数据仓库时,经常在短期可见的利 益和长远需求问作出选择。例如,实施一个使用方便而且短期内易于实现的决策 支持系统有可能影响该数据仓库的性能,而且对企业的长远需求来看不利。如何 实施一个高性能的数据仓库现在受到越来越多的关注。 电信行业是我国引入竞争较晚的一个行业,但是该行业的竞争也是越来越激 烈。各个电信企业都积累了庞大的客户和业务资料,并且都纷纷实施数据仓库来 充分利用这些宝贵的数据资料来增加竞争优势。由于竞争的激烈和各个电信企业 对数据仓库建设的高期望,各个电信企业的数据仓库的实施或多或少都受到了短 期内的成绩的压力,而在性能上打了折扣。因此,如何实施一个高性能的数据仓 库成为人们的焦点,从查询的响应时间,数据可用性,数据质量,数据流量和吞 吐量等各因素全面建设和衡量一个数据仓库系统势在必行。 硕士毕业论文 数据仓库技术研究及在电信经营分析系统中的应用 1 ,2本论文所做的工作 本人参加了某电信经营分析系统的整个实施过程,参与了多个模块 的设计与开发。主要是客户总量分析模块、业务分析模块的开发,及所 有专题分析模块的设计与开发工作。 论文主要是在某电信经营分析系统实现的基础上完成的。 内容安排如下: 第一章绪论:介绍了研究领域的背景,研究课题的提出。并概 括了整个经分系统做的工作。 第二章数据仓库技术:本章主要介绍了数据仓库系统使用的主 要技术:体系结构设计、模型设计、o l a p 及多维分析、数据挖掘技术。 第三章某电信经营分析系统的设计及实现:1 ) 根据源系统现 状和体系结构结合n c r 的数据仓库解决方案,给出了系统体系结构的设 计。2 ) 根据三范式理论给出了数据仓库、数据集市、专题分析的设计 模型。3 ) 详细说明了整个数据的抽取、转换与加载过程,并对其中遇 到的一些问题给出了解决方案,着重讲了对话单的特殊处理,并提出了 改进的数据转换的结构。 第四章专题分析应用的设计与实现:专题分析是主要是对业务 部门比较关注的部分业务发展情况进行探索。本章主要讲的是资费分析 模块的设计及实现过程,及它的实际意义,并对进一步的工作做了探索a 第五章论文总结,总结了项目成果,并对数据仓库未来的发展 做出展望。 硕士毕业论文数据仓库技术研究及在电信经营分析系统中的应用 第二章数据仓库技术 2 1数据仓库的概念 目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家w h i 姗o n 在其著作b u i l d i n gt h ed a t a w a r e h o u s e 一书中给予如下描述:数据仓库( d a t a w a r e h o u s e ) 是一个面向主题的( s u b j e c t o r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对 稳定的( n o n v 0 1 a t i l e ) ,反映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持管 理决策。对于数据仓库的概念可以从两个层次予以理解,首先,数据仓库用于支 持决策,面向分析型数据处理,它不同于企业现有的操作型数据库:其次,数据 仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史 数据,而且存放在数据仓库中的数据一般不再修改。 根据数据仓库概念的含义,数据仓库拥有以下四个特点: 面向主题。 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离, 而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是 指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型 信息系统相关。 集成的。 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互 独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽 取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一 致性以保证数据仓库内的信息是关于整个企业的一致的全局信息。 相对稳定的。 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓 库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某 个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有 大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 反映历史变化。 顶士毕业论文数据仓库技术研究及在电信经营分析系统中的施用 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据 通常包含历史信息,系统记录了企业从过去某一时点( 如开始应用数据仓库的时 点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋 势做出定量分析和预测。 2 2数据仓库的体系结构 数据仓库体系结构如图2 1 所示 图2 1 数据仓库的体系结构 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企 业内部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理 数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对 手的信息等等: 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键 是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数 据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和 技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。 针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题 进行组织。数据仓库按照数据的覆盖范幽町以分为企业级数据仓库和部 门级数据仓库( 通常称为数据集市) 。 o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织, 4 硕士毕业论文 数据仓库技术研究及在电信经营分析系统中的应用 以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分 为:r o l a p m o l a p 和h o l a p r o l a p 基本数据和聚合数据均存放在r d b m s 之中:m o l a p 基本数据和聚合数据均存放于多维数据库中:h o l a p 基本数 据存放于r d b m s 之中,聚合数据存放于多维数据库中。 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖 掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分 析工具主要针对0 l a p 服务器,报表工具、数据挖掘工具主要针对数据 仓库。 2 。3数据仓库的模型设计 2 3 1 概念模型设计 所要完成的工作是:界定系统边界;确定主要的主题域及其内容。 概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概 念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数 据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解, 看在原有的数据库系统中“有什么”,“怎样组织的”和“如何分布的”等,然 后再来考虑应当如何建立数据仓库系统的概念模型。一方面,通过原有的数据库 的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的 内容有一个完整而清晰的认识:另一方面,数据仓库的概念模型是面向企业全局 建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。概 念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体 技术条件的限制。 界定系统的边界 数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就 得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员 的面前: 要做的决策类型有哪些? 决策者感兴趣的是什么问题? 砸1 二毕业论文数据仓库技术研究及和电信经营分析系统中自0 戍用 这些问题需要什么样的信息? 要得到这些信息需要包含原有数据库系统的哪些部分的数据? 这样,我们可以划定一个当前的大致的系统边界,集中精力对最需要的 部分进行开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是 数据仓库系统设计的需求分析,因为它将决策者的数据分析的需求用系统边 界的定义形式反映出来。 确定主要的主题域 在这一步中,要确定系统所包含的主题域,然后对每个主题域的内容进 行较明确的描述,描述的内容包括: 主题域的公共码键; 主题域之间的联系; 充分代表主题的属性组。 2 。3 2 逻辑模型设计 在这一步里进行的工作主要有: 分析主题域,确定当前要装载的主题; 确定粒度层次划分; 确定数据分割策略; 关系模式定义; 记录系统定义 逻辑模型设计的成果是,对每个当前要装载的主题的逻辑实现进行定义,并 将相关内容记录在数据仓库的元数据中,包括: 适当的粒度划分; 合理的数据分割策略; 适当的表划分; 定义合适的数据来源等。 分析主题域 在概念模型设计中,我们确定了几个基本的主题域,但是,数据仓库的设计 方法是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若干个 硕士毕业论文 数据仓库技术研究及在电信经营分析系统中的应用 主题地逐步完成的。所以,我们必须对概念模型设计步骤中确定的几个基本主题 域进行分析,并选择首先要实施的主题域。选择第一个主题域所要考虑的是它要 足够大,以便使得该主题域能建设成为一个可应用的系统:它还要足够小,以便 于开发和较快地实施。如果所选择的主题域很大并且很复杂,我们甚至可以针对 它的个有意义的子集来进行开发。在每一次的反馈过程中,都要进行主题域的 分析。 粒度层次划分 数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层 次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类 型。确定数据仓库的粒度划分,可以使用在粒度划分一节中介绍的方法,通过估 算数据行数和所需的d a s d 数,来确定是采用单一粒度还是多重粒度,以及粒度 划分的层次。 确定数据分割策略 在这一步里,要选择适当的数据分割的标准,一般要考虑以下几方面因素: 数据量( 而非记录行数) 、数据分析处理的实际情况、简单易行以及粒度划分策略 等。数据量的大小是决定是否进行数据分割和如何分割的主要因素;数据分析处 理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理 的对象紧密联系的:我们还要考虑到所选择的数据分割标准应是自然的、易于实 旌的:同时也要考虑数据分割的标准与粒度划分层次是适应的。 关系模式定义 数据仓库的每个主题都是由多个表来实现的,这些表之间依靠主题的公共码 键联系在一起,形成一个完整的主题。在概念模型设计时,我们就确定了数据仓 库的基本主题,并对每个主题的公共码键、基本内容等做了描述在这一步里,我 们将要对选定的当前实施的主题进行模式划分,形成多个表,并确定各个表的关 系模式。 2 3 3 物理模型设计 这一步所做的工作是确定数据的存储结构,确定索引策略,确定数据存放位 置,确定存储分配。确定数据仓库实现的物理模型,要求设计人员必须做到以下 硕:t 毕业论文 数据仓库技术研究及在电信经前分析系统中的应用 几方面: 要全面了解所选用的数据库管理系统,特别是存储结构和存取方法。 了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等, 这些是对时间和空间效率进行平衡和优化的重要依据。 了解外部存储设备的特性,如分块原则,块大小的规定,设备的工o 特性等。 确定数据的存储结构 一个数据库管理系统往往都提供多种存储结构供设计人员选用,不同的存储 结构有不同的实现方式,各有各的适用范围和优缺点,设计人员在选择合适的存 储结构时应该权衡三个方面的主要因素:存取时间、存储空间利用率和维护代价。 确定索引策略 数据仓库的数据量很大,因而需要对数据的存取路径进行仔细的设计和选 择。由于数据仓库的数据都是不常更新的,因而可以设计多种多样的索 1 结构来 提高数据存取效率。 在数据仓库中,设计人员可以考虑对各个数据存储建立专用的、复杂的索引, 以获得最高的存取效率,因为在数据仓库中的数据是不常更新的,也就是说每个 数据存储是稳定的,因而虽然建立专用的、复杂的索引有一定的代价,但一旦建 立就几乎不需维护索引的代价。 确定数据存放位置 我们说过,同一个主题的数据并不要求存放在相同的介质上。在物理设计时, 我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将 不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时 间要求高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时 间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。数据存放位置 的确定还要考虑到其它一些方法,如:决定是否进行合并表:是否对一些经常性的 应用建立数据序列:对常用的、不常修改的表或属性是否冗余存储。如果采用了 这些技术,就要记入元数据。 确定存储分配 许多数据库管理系统提供了一些存储分配的参数供设计者进行物理优化处 理,如:块的尺寸、缓冲区的大小和个数等等,它们都要在物理设计时确定。这 硕士毕业论文数据仓库技术研究及在电信经营分析系统中的应用 同创建数据库系统时的考虑是一样的。 2 4o l a p 及多维分析 联机分析处理( o l a p ) 的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年提 出的。当时,c o d d 认为联机事务处理( 0 l t p ) 己不能满足终端用户对数据库查询分 析的需要,s 。l 对大数据库进行的简单查询也不能满足用户分析的需求。用户的 决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满 足决策者提出的需求。因此c o d d 提出了多维数据库和多维分析的概念,即0 l a p 2 4 1o l 垤的概念 根据o l a p 产品的实际应用情况和用户对o l a p 产品的需求,人们提出了一种对 o l a p 更简单明确的定义,即共享多维信息的快速分析。用户对o l a p 的快速反应 能力有很高的要求。系统应能在5 秒内对用户的大部分分析要求做出反应。如果 终端用户在3 0 秒内没有得到系统响应就会变得不耐烦,因而可能失去分析主线 索,影响分析质量。对于大量的数据分析要达到这个速度并不容易,因此就更需 要一些技术上的支持,如专门的数据存储格式、大量的事先运算、特别的硬件设 计等。0 l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统需要 事先编程,但并不意味着系统己定义好了所有的应用。用户无需编程就可以定义 新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。用户可 以在0 l a p 平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列 分析工具、成本分配工具、意外报警、数据开采等。多维性是o l a p 的关键属性。 系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全 支持。事实上,多维分析是分析企业数据最有效的方法,是o l a p 的灵魂。不论数 据量有多大,也不管数据存储在何处,o l a p 系统应能及时获得信息,并且管理大 容量信息。这里有许多因素需要考虑,如数据的可复制性、可利用的磁盘空间、 0 l a p 产品的性能及与数据仓库的结合度等。 9 硕士毕业论文 数据仓库技术研究及在电信经营分析系统中的应用 2 。4 2 多维数据模型 维 维( d i m e n s i o n ) 是人们观察数据的特定角度,是主题的基础,是对主题的一 种类型划分。例如,对企业就可以从时间的角度或产品类型的角度或者工厂为主 的角度来观察产品的生产情况。这里工厂位置、时间和产品类型各自为一个维度, 与关系数据库中的关键字相似。 人们观察数据的某个特定角度还可以存在细节程度不同的多个描述方面,称 为维的层次( h i e r a r c h y ) 。一个数据维又可必包含一个或者多个层次,层次是多 级结构中某一级别与其下一层级别之间的“父一子”关系,位于层次顶部的是“根 级”( r o o tl e v e l ) ,位于层次底部的是一个或者多个“叶子”( l e a f ) ”a l l ”级 是一个层次的根级,它里面包含了一个特殊成员,该成员把所有与根级紧邻的成 员进行了汇总,因此该级是一个数据维里最具综合性的级别。例如,描述时间维 时可以从年、季度、月、日等不同层次来描述,那么“a 1 l ”级、年、季度、月、 日就是时间维的层次。维的一个取值称为该维的一个维成员( m e m b e r ) ,如前例所 述每个工厂、每段时间、每种产品都是某一维的一个维成员。如果一个维是多层 次的,那么该维的维成员是在不同维层次的取值的组合。例如,”1 9 9 6 年第三季 度8 月1 2 日”就是时间维的一个维成员。通过把一个实体的多项重要的属性定义 为多个维( d i m e n s i o n ) ,使用户能对不同维上的数据进行比较。因此0 l a p 也可以 说是多维数据分析工具的集合。 度量值 度量值( m e a s u r e ) 是一组数据,当多维数据集的各个维都选中一个维成员, 这些维成员的组合就唯一确定了一个或者几个值。度量值是所分析的多维数据集 的中心值,是最终用户浏览多维数据集时重点察看的数字数据,是各维交叉的结 合点。前面所举例子中生产数量就是度量值。 单元 单元是多维数据集的原子元素,即为多维数据集的任意一个子集,单元也是 由度量值、层次以及维度组成,多个单元组成了多维数据集。要想获得特定的单 元,需要指定相应的成员和维度,这些成员和维度的交集就形成了想要获得的单 7 o 硕士毕业论文 数据仓库技术研究及在电信经营分析系统中的应用 超立方体 在多维数据库中,当维数等于三时,多维数组构成一个数据立方体:当维数 大于三时,多维数组便成了人们不能想象的超立方体。用立方体的形式来描述多 维数据库中数据的存储,称为立方体( c u b e ) 。一个多维数据集就是一个立方体, 是包含维度和度量值的多维结构。维度定义立方体的结构,而度量值提供最终用 户感兴趣的数值。立方体内的单元位置由各维度成员的交集确定,通过对度量值 进行聚合得到单元中的值。 2 4 30 l a p 多维数据库模式 实体一联系数据模型广泛用于关系数据库设计。在那里,数据库模式由实体 的集合和它们之间的联系组成。这种数据模型适用于联机事务处理。然而,数据 仓库需要简明的、面向主题的模式,便于联机数据分析。 最流行的数据仓库数据模型是多维数据模型。这种模型可以以星形模式、雪 花模式、或事实星座模式形式存在。让我们看看这些模式。 星形模式:最常见的模型范例星形模式:其中数据仓库包括( 1 ) 一个大的、包 含大批数据、不含冗余的中心表( 事实表) :( 2 ) 一组小的附属表( 维表) ,每维一个。 这种模式图很像星星爆发,维表围绕中心表显示在射线上。 雪花模式:雪花模式是星型模式的变种,其中某些维表是规范化的,因而把 数据进一步分解到附加的表中。结果,模式图形成类似于雪花的形状。 雪花模式和星形模式的主要不同在于,雪花模式的维表可能是规范化形式, 以便减少冗余。这种表易于维护,并节省存储空间,因为当维结构作为列包含在 内时,大维表可能非常大。然而,与巨大的事实表相比,这种空间的节省可以忽 略。此外,由于执行查询需要更多的连接操作,雪花结构可能降低浏览的性能。 这样,系统的性能可能相对受到影响。因此,在数据仓库设计中,雪花模式不如 星形模式流行。 事实星座:复杂的应用可能需要多个事实表共享维表。这种模式可以看作星 形模式集,因此称为星系模式,或事实星座。 在数据仓库中,数据仓库和数据集市是有区别的。数据仓库收集了关于整 个组织的主题( 如顾客、商品、销售、资产和人员) 信息,因此是企业范围的。对 硕士毕业论文 数据仓库技术研究及在电信经营分析系统中的应用 于数据仓库,通常使用事实星座模式,因为它能对多个相关的主题建模。另一方 面,数据集市是数据仓库的一个部门子集,它针对选定的主题,因此是部门范围 的。对于数据集市,流行星形或雪花模式,因为它们都适合对单个主题建模,尽 管星形模式更流行、更有效。 2 。4 4o l a p 存储结构 o l a p 有多种实现方法,根据存储数据的方式不同可以分为r o l a p 、m o l a p 、 h o l a p 。 r o l a p 表示基于关系数据库的0 l a p 实现( r e l a t i o n a l0 l a p ) 。以关系 数据库为核心,以关系型结构进行多维数据的表示和存储。r o l a p 将多维数据 库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一 类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述 信息。维表和事实表通过主关键字和外关键字联系在一起,形成了“星型模 式”。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多 个表来描述,这种星型模式的扩展称为“雪花模式”。 m o l a p 表示基于多维数据组织的o l a p 实现( m u l t i d i m e n s i o n a lo l a p ) 。以 多维数据组织方式为核心,也就是说,m o l a p 使用多维数组存储数据。多维数 据在存储中将形成“立方块( c u b e ) ”的结构,在m o l a p 中对“立方块”的“旋 转”、“切块”、“切片”是产生多维数据报表的主要技术。 h o l a p 表示基于混合数据组织的o l a p 实现( h y b r i do l a p ) 。如低层是关系 型的,高层是多维矩阵型的。这种方式具有更好的灵活性。 2 _ 4 - 5 多维数据模型上的0 l a p 操作 在多维数据模型中,数据组织成多维,每维包含由概念分层定义的多个 抽象层。这种组织为用户从不同角度观察数据提供了灵活性。有一些o b 廿 多维数据立方体操作用来物化这些不同视图,允许交互查询和分析手头数 据。因此,o l a j p 为交互数据分析提供了友好的环境。 典型的多维数据o l 垤操作: 上卷:上卷操作( 有些人称之为“上钻”操作) 或者通过沿概念分层向上攀升, 或者通过维归约,在多维数据立方体上进行聚集。当用维归约进行上卷时,一个 硕士毕业论文数据仓库技术研究及在电信经营分析系统中的应用 或多个维由给定的多维数据立方体删除。 下钻:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可 以通过沿维的概念分层向下或引入新的维来实现。由于下钻操作对给定数据添加 更多细节,它也可以通过添加新的维到多维数据立方体来实现。基于数据仓库和 0 l a p 技术的电信商务智能系统的研究与实现 切片和切块:切片操作在给定的多维数据立方体的一个维上进行选择, 导致一个子方。 转轴:转轴( 又称旋转) 是一种目视操作,它转动数据的视角,提供数据的替 代表示。 其它0 u 心操作:有些o l 廿还提供其它操作。例如,d r i l la c r o s s 执行涉及多 个事实表的查询;d r i l l et h r o u g l l 操作使用关系s q 工机制,钻到多维数据立方体的 底层,到后端关系表。 其它o l 操作可能包括列出表中最高或最低的n 项,以及计算移动平基于数 据仓库和o l 垤技术的电信商务智能系统的研究与实现均值、增长率、利润、内 部返回率、贬值、流通转换、和统计功能。 2 5数据挖掘 2 5 1 数据挖掘的概念 数据挖掘即从大量的数据中寻找出有用的信息。其目的是从海量数据中获取 有效的、新颖的、潜在有用的、最终用户可以理解的模式的过程。数据挖掘是一 种决策支持过程,它主要基于人工智能、机器学习、统计学等技术,高度自动 化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助 企业的决策者调整市场策略,减少风险,做出正确的决策。 数据挖掘的发展主要鉴于以下几点: 1 ) 数据的大量积累导致“人们被数据淹没,却饥饿于知识”。 2 ) 传统的统计分析工具和检索工具不能发现隐藏于数据中的深层次的知识。 3 ) 巨大商业利益的驱动。 4 ) 相关技术的发展,为数据挖掘的发展创造了条件。 硕士毕业论文 数据仓库技术研究及在电信经营分析系统中的应用 2 5 2 数据挖掘过程模型 在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什 么样的目标是必要的,有了好的计划才能保证数据挖掘有条不紊的实施并取得成 功很多软件供应商和数据挖掘顾问公司投提供了一些数据挖掘过程模型,来指 导他们的用户一步步的进行数据挖掘工作。比如s p s s 的5 a 一评估( a s s e s s ) ,访问 ( a c c e s s ) ,分析( a n a l y z e ) 行动( a c t ) ,自动化( a u t o m a t e ) ,和s a s 的s e 砌a 一采样 ( s 鲫p l e ) ,探索( e x p l o r e ) ,修正( m 。d i f y ) ,建模( m o d e l ) ,评估( a s s e s s ) 需要 注意的是数据挖掘过程并不是线性的,要取得好的结果就要不断反复重复这些步 骤。比如在“分析数据”时你可能觉得在“建立数据挖掘数据库”时作的不够 好,要往里面添加一些新的数据。 这些基本数据挖掘步骤包括: 1 ) 定义商业问题 2 ) 建立数据挖掘模型 3 ) 分析数据 4 ) 准备数据 5 ) 建立模型 6 ) 评价模型 7 ) 实施 数据挖掘技术主要体现在对各类算法的研究。数据挖掘算法研究过程如图2 所示,其过程主要是1 ) 在数据上选择算法2 ) 设置算法参数3 ) 根据设置的参数4 ) 产生最终的模 1 4 硕士毕业论文数据仓库技术研究及在电信经营分析系统中的应用 2 5 3 数据挖掘理论基础 图2 2 数据挖掘算法研究过程 有关数据挖掘的理论基础研究还没有成熟。坚实系统的理论基础对于数据挖 掘非常重要,因为它给数据挖掘技术的开发、评价和实践提供一个一致的框架。 数据挖掘的理 论基础有很多,比如包括以下内容: 数据归约( d a t a r ed u c t i o n ) 按照这一理论,数据挖掘的基础是减少数据 的描述。在大型数据库里,数据归约能换来快速近似查询的准确性。数据归 约技术主要包括奇异值分解( 在主要组件分析背后的驱动元素) ,小波,回归, 日志线形模型( 1 0 9 l i n e ”m o d e l ) ,直方图( h i s t o g r a m ) 簇,取样和索引树 构造。 数据压缩( d a t a c om p r e s s i o 根据这一理论,数据挖掘的基础是对给定 的数据进行压缩,它一般是通过按位、关联规则,决策树,簇等进行编码实 现的。根据最小描述长度原理( m i n i m u md e s c r i p t i o nl e n g t hp r i n c i p l e ) 认 为,从一个数据集合中推导出的最好的理论是这样的理论,即它本身的长度 和用它作为预测器( p r e d i c a t o r ) 进行编码的长度都最小。编码典型的是按位 编码。 模式发现( p a t e r n di s c o v e r y ) 这个理论基础是由于在数据库中发现模式, 1 s 硕上毕业论文数据仓库技术研究及在电信经营分析系统中的应用 比如关联规则,分类模型,序列模式,等等。它涉及机器学习,神经网络, 关联挖掘,序列模式挖掘,聚类,和其它的子领域。 概率理论( p r o b a b 订i t y t he 。r y ) 它基于统计理论。依据这一理论,数据 挖的基础是发现随机变量的联合的可能的分布,例如贝叶斯置信网络 ( b a y e s i a n be l i e f n et w o r k ) 层次贝叶斯模型( h i e r a r c h i c a l ba y e s i a n m o d e l s ) 微观经济观点( m i c r 。e c o n o m i c vi e w ) 它把数据挖掘看作发现模式的任务, 通过数据挖掘来发现那些对企业决策过程( 如指定市场策略,产品计划等) 有 用的并在一定程度上有趣的模式。这个观点认为如果模式能发生作用的话则 认为它是有趣的。企业在碰到优化问题的时候最大限度的使用这个对象。在 此数据挖掘变成一个非线性的优化问题。 归纳数据库( i n d u c t i v e da t a b a s e s ) 在这个模式中,数据库模式看作是 由存储在数据库中的模式和数据组成的,数据挖掘的问题变成了对数据库进 行归纳的问题,它的任务是查询数据库中的数据和理论( 即模式) 。这个观点 在数据库系统的许多研究者当中非常流行。 上述理论不是互相排斥的,例如,模式发现可以看作是数据归约和数据 压缩的一种形式,一个理想的理论框架应该能够对典型的数据挖掘任务c ) 口关 联,分类和聚类) 进行建模,有一个概率特性,能够处理不同形式的数据,并且 对数据挖掘的反复和交互的本性加以考虑。建立一个能满足这些要求的定义很好 的数据挖掘框架是我们进一步努力的目标。 2 5 4 数据挖掘主要方法 数据挖掘的方法有多种,最常用的几种数据挖掘方法有关联分析、分类和预 测、聚类、预测序列模式挖掘、时间序列、孤立点分析及回归等传统的统计方 法。 硕士毕业论文 数据仓库技术研究及在电信经营分析系统中的应用 第三章某电信经营分析系统的设计与实现 3 1 项目背景 国内的电信企业以中国移动通信为标志,已经开始建立自己的数据仓库系 统,之所以国内大规模的建设数据仓库系统首先发生在电信企业,是因为国内 的电信企业的数据的电子化程度更高,在用户的使用方面,没有金融行业的一 些法律方面的限制。同时,市场竞争的加剧,也使得电信行业首先开始涉足数 据仓库领域的建设。电信企业选择数据仓库,有以下的必然的原因。 某电信公司对统一经营信息数据仓库服务平台的基本需求 某电信公司为了适应竞争日益激烈的电信运营环境,对市场策略的制定与推 出速度要求会越来越高,因此,各级经营决策者对经营信息的需求变化频度以及 使用频度会不断加强。目前各级部门对经营信息提出了以下迫切需求:该电信公 司计划财务部、上市办需要每月公布一次经营信息,三月公布一次财务信息,这 些信息的生成和传递需要良好的支持平台。该电信公司总部计划、财务、上市办 等部门进行日常经营管理时,需要业务发展、业务收入、业务使用等经营信息的 服务支持,并可分阶段逐步扩展到客户经营信息的服务支持。各个省分公司需要 了解本省的业务情况、客户情况,为市场决策提供依据,并向总部传递业务经营 信息。地市级分公司需要了解客户的静态信息、行为信息、使用信息、消费信息 等,从而提交关于客户发展和保持的建议。 现有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论