已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)数据仓库和数据挖掘技术在电信行业中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
安徽大学硬士学位论丈 摘鬻 摘要 在当今社会,出子商业领域竞争加剧、工业较域中产品不断推出、科学研 究领域串新接本、新发藕、新发弱不断涌现,追搦器要诗算梳领域中出现凝的 工具手段以支撑不断更新的社会,而数据仓库和数搌挖掘技术斑是此方面的震 要工具。 奉交点要的工作楚结合作者的颈秘工程经验,对数据仓库鞲数据挖掘技术 在电信行业中的应用做丁比较深入的研究,详细阐述了在电信杼业背景下的数 据仓库建或藕数据挖掘模型的分析设计过程,并在数据仓库的建立过程中结合 “用户数分析”主题评麓过程,在数据挖箍模堑的分析设诗过糨中结合“客户 分群”主题开发过程这两个实际开发案例进行了剖析。 本文营先对数据仓库和数据挖掘鲢概念、结榜、应用进行了详细的阐述, 然后对电信於韭务模式髓发展交化靼数据仓库及数据挖据技术农电信行业中的 应用情况进行了剖析,接着结合实际案例对数据仓库和数据挖掘技术在电信行 业中的具体应用散了介绍。 在数锻仓库豹建立过程中,本文分裂对数据源豹分析、数据模型约建立藕 数据抽取过程进行了介绷并对数据仓库中这几个芙键技术进行了总结性分析, 提出了如何定义一个合理、高效盼物理模型的方法及复杂数据源壤嚣下数据摊 取模块静设计方法。 在数据挖掘模型的分析设计过程中,本文分别对定义业务问题、数据源分 析、数据赘理、数据抽取与数据清洗、数据检查、变量的选择、挖掘算法选择、 特征刻萄、开发客户战赡进行了贪绍,并提出了收集、整理数据与数据挖掘袭 的设计方法、调整变量的原则、判断价值或行为分群有效性原则和特征刻画和 开发客户战略原则。 关键谢;数据仓库、数据挖掘,决策支持系统 安徽大学硕士学位论文 a b s t r a ( 玎 a b s t r a c t n o w a d a y s ,w i t ht h ei n c r e a s i n go fc o m p e t i t i o ni nc o m m e r c i a lf i e l d ,a n dt h e u n i m e r r u p t e de m e r g i n go fn e wp r o d u c ti ni n d u s t r i a lf i e l d ,a n dt h ee m e r g i n go fn e w t e c h n o l o g i e s ,n e wd i s c o v e r i e sa n di n v e m i o n si ns c i e n t i f i cf i e l d ,t h e r ei su r g e n tt op u t f o r w a r dn e wt o o l st os u p p o r tt h ed e v e l o p i n gs o c i e t y , a n dt h ed a t aw a r e h o u s ea n dd a t a m i n i n gi st h er i g h ti m p o r tt o o li nt h i sa r e a t h em o s t l yw o r ki nt h i sa r t i c l ei sd e v e l o p i n gw i t ht h ea u t h o r sp r o j e c te x p e r i e n c e , d e e p l yr e s e a r c h e d t h ea p p l i c a t i o no fd a t aw a r e h o u s i n ga n dd a t am i n i n gi nt h e t e l e c o m m u n i c a t i o n si n d u s t r y , a n de x p a t i a t e do nt h ep r o c e s so fa n a l y s i sa n dd e s i g ni n b u i l d i n gd a t aw a r e h o u s i n ga n dd a t am i n i n gi nt h eb a c k g r o u n do f t e l e c o m m u n i c a t i o n s i n d u s t r y , a n di nt h ep r o c e s so f b u i l d i n gt h ed a t aw a r e h o u s i n gi n t e g r a t e dt h ed e v e l o p e d p r o c e s so f 。t h ea n a l y s i so f u s e r sn u m b e r “t h e m e ,i nt h ep r o c e s so f d e s i g n i n gd a t a m o d e l so f d a t am i n i n gi n t e g r a t e dt h e h i v eo f f c u s t o m e r s ”t h e m e f k s t l y , a u t h o re x p a t i a t e do nt h ec o n l :e p t , s t r u c t u r ea n da p p l i c a t i o no fd a t a w a r e h o u s i n ga n dd a t am i n i n g , t h e nh a sc a r r i e do nt h ea n a l y s i so f t h et r a n s f o r m a t i o n a n dd e v e l o p i n gi nb u s i n e s sp a t t e r no f t e l e c o m m u n i c a t i o ni n d u s t r y , t h e ni n t r o d u c et h e a p p l i c a t i o no fd a t aw a r e h o u s i n ga n dd a t am i n i n gi nt h et e l e c o m m u n i c a t i o n si n d u s t r y i n t e g r a t e dt h e t r u ec a s e i nt h ep r o c e s so fb u i l d i n gt h ed a t aw a r e h o u s i n g , t i f f sa r t i c l ei n t r o d u c et h ea n a l y s i s o f d a t as o u r c e , b u d d i n go f d a t am o d e la n de t lm o d u l e , a n dc a r r i e do nt h ea n a l y s i so f t h e s ee s s e n t i a lt e c h n o l o g i e si nd a t aw a r e h o u s i n g , a n dp r o p o s e dh o wt od e f i n ea r e a s o n a b l ea n de f f i c i e n c yp h y s i c a lm o d e l ,a n dh o wt od e s i g nt h ee t lm o d u l ei nt h e c o n d i t i o no f c o m p l e xd a t as o u r c e i nt h ep r o c e s so fd e s i g n i n gt h ed a t am i n i n gm o d e l ,t h i sa r t i c l ei n t r o d u c et h e d e f i n i t i o no fb u s i n e s s , t h ea n a l y s i so fd a t a u r c e ,d a t at r a n s f o r m , d a t ae x t r a c t i o na n d d a t ac l e a n i n gd a t ae x a m i n a t i o n , c h o i c eo f v a r i a b l e ,c h o i c eo f d a t am i n i n ga r i t h m e t i c , d e s c r i p t i o no fc h a r a c t e r , d e v e l o p i n gc u s t o ms t r a t a g e m , a n dp r o p o s e dt h ed e s i g n m e t h o di nc o l l e c t i o n , t r a n s f o r ma n dt a b l eo fd a t am i n i n g , t h ep r i n c i p l eo fa d j u s t i n g v a r i a b l e , t h ep r i n c i p l eo f j u d g i n gt h ee f f i c i e n c yo f v a l u a b l eo r a c t i o na n dt h ep r i n c i p l e o f c h a r a c t e rd e s c r i p t i o na n dd e v e l o p i n gt h ec u s t o ms t r a t a g e m k e yw o r d :d a t aw a r e h o u s e , d a t am i n i n g , d s s , 独创性声明 本人声明所呈交的学位论文是度人在导师指导下进行曲研究工作及取得的 研究成果。据我所知,除了文中特另4 加以标注和致谢的地方外,论文中不包含其 他入已经发表或撰写过的研究成果,也不包含为获得哥嫩士学或其他教育机构 的学位或证劳而使用过的材料。与我一国工作的瓣志对奉研究所做的任何贾献均 已在论文中作7 明确的说明并表示谢意。 学位论文作者签名: 帚j 。桑 签字口期之一年f 月8g 学位论文版权使用授权书 率学位论文作者完垒了解露锋 寰警有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阀和 借闭。盘人授权霉昏礴可以将学位论文的全部或部分内容编入有关数据库进行 检索,可以呆餍影印、雅印或扫描等复利手段保存、汇蒜学位论文。 ( 保密的学位论文在解密后适用本授权书) , 学位论文作者篓名:- 察导师签奄:j 2 f 琶支 签字日期:撕年s + 月83签字日期:2 m 占 年厂月占日 学位论文作者毕址去向: 王作单位:电话: 通讯地垃: 邮编: 安傲大学硕士学位论文第一章序论 1 1 技术背景 第一章序论 近年来随着我国通信事业的迅速发展,使中国成为目前世界范围内十分巨 大的电信运营市场,国内各电信运营商都建有或正在建设多种数据平台并积累 了大量数据资源。这些数据都是已经电子化的数据,通过数据仓库技术,可以 从这些用户数据中发现很多有价值的信息。电信行业是全球经济中增长最快的 行业,同时也是竞争最激烈的行业随着全球经济一体化进程的推进,电信行 业的竞争格局发生了重大改变,从原有少数几个电信企业在局都市场的竞争。 转变为众多电信企业对全球市场的争夺,因而竞争也变得空前的残酷。为了保 持竞争的优势,电信运营企业的管理层和业务人员必须随时了解企业的业务运 行情况,并根据市场情况随时调整业务策略,这些必须建方于对信息的需求得 到满足的基础之上但是电信业务的特点是数据量庞大,业务系统众多,数据 庞杂,利用传统的信息获取手段,比如手工报表的方式,信息的提供在速度、 质量、范围上都大大滞后于信息的需求。从电信运营企业庞大的业务处理系统 随时获取所需的信息,几乎是不可能的,因此必须引入新的技术,来支持企业 业务对信息的需要。 数据仓库技术是目前己知的最为成熟和被广泛采用的解决方案利用数据 仓库整合电信运营企业内部所有分散的原始的业务数据,并通过便捷有效的数 据访问手段,可以支持企业内部不同部门,不同需求,不同层次的用户随着 市场竞争的加剧,企业业务人员和管理者对信息的需求日益增多,电信数据仓 库系统的开发和使用已经成为必然的趋势。 1 2 课题背景及意义 从上世纪八十年代开始,我国电信企业开始进行大规模的信息化建设,在 近二十年的时间中,电信企业已全面实现了生产及服务过程信息化随着业务 不断趋于多样化,各电信企业都针对不同业务建立了多个生产管理系统,如中 l 安徽大学硕士学位论文 致据仓库和数据挖掘技术在电信行业中的应用 国电信建设的生产系统就包括了进行业务受理、配线配号、工单管理的“9 7 ” 系统:进行计费、帐务及欠费处理的计费系统;1 1 4 、1 1 2 、1 8 0 、1 8 9 等专业系 统;2 0 1 、i c 等卡类管理系统:基于互联网信息管理的数据业务管理系统以及交 换、传输、网管系统等。中国移动也建设了综合业务支撑( b o s s ) 系统;用于 梦网短信接入的短信网关、彩信网关、g p r s 网关等各专业管理系统。目前,电 信企业建设的项目仍然以生产支撑系统为主。通过这些支撑系统的建设,规范 了电信企业内部管理流程,大大提高了电信企业的工作效率,增强了业务水平, 提高了企业的竞争力 随着市场竞争的不断加剧,对客户资源的争夺也进入了白热化的阶段,如 何发展新用户,扩大自己的用户群;如何设计出更适合用户需要的业务,将用 户绑定在自己的网络上;如何合理地设定资费在用户可以接受的水平;一个个 问题摆在了电信运营商的面前。在激烈的市场竞争面前,要想科学的决策,离 不开数据的支持。电信运营商们在建立各项系统的过程中,也积累了大量的资 料数据,如用户的通话记录,短信发送记录,用户上网记录,用户资料变更记 录,用户投诉记录,网络运行记录等。通过对这些数据进行分析,可以掌握企 业的运营状况,为企业科学,准确的决策提供依据。 但在使用这些数据的过程中,也存在以下几个问题i 1 1 : 1 ) 数据量大、数据来源广,以用户数近3 0 0 万的某电信运营商为例,每天产 生的仅通话话单数就达数千万条;这还不包括其它生产环节如客服、网管等所 产生的运营数据;而经营管理所牵涉的数据除此以外还包括了内部管理的人力、 财务、以及与企业相关的外部环境数据。 2 ) 各业务部门对数据的理解存在偏差,定义不统一,导致数据可信度无 法保证。对单个业务部门来说可能是合法的数据,但由于缺乏信息的集成和整 合,导致整个企业对数据的含义、数值及使用方式产生歧义 3 ) 每个系统都有独立的报表系统,随着需求的变化和统计项目的变化, 使得报表的修改相对比较困难;尤其目前很多在用系统的报表都固化在程序中, 给今后的修改带来诸多不便。 4 ) 对于一些需要跨平台才能进行的分析,由于平台不一致,应用系统之 2 安徽大学硬士学位论文 第一章序论 问数据定义也不一致,又没有实现数据共享,很难进行关联分析;并且,一个 企业内部,不同系统平台之间的数据存在较大的冗余,增加了维护工作量,并 可能造成系统资源的浪费。 5 ) 在生产系统上进行统计分析会影响到正常生产系统运转。由于生产系 统的时效性要求较高,需要大量的系统资源进行保障,为确保生产系统安全稳 定运行,有必要将统计、分析等对时效性要求相对较低的决策支持系统从生产 系统分离【l 】。 有鉴于此,建立数据仓库管理系统已经成为电信运营商提高管理水平的当 务之急。 安徽大学硕士学位论文 敛据仓库和教据挖掘技术在电信行业中的应用 第二章决策支持系统的分析 2 1 由数据库到数据仓库 从2 0 世纪6 0 年代开始,由于计算机领域中事务处理应用的出现而引起了 数据库技术的发展,相继出现了层次数据库、网状数据库及关系数据库等,从 而形成了所谓的“数据库时代”。数据库的出现也推动了事务处理的发展,而且 随着数据库应用的发展,数据积累越来越丰富,而如何把这些大量的数据有效 的利用起来,把它转化为有用的知识,使之有效的支持决策,这就是所谓的分 析应用。数据的分析应用为人类信息资源的利用开辟了一条新的道路基于这 种思想,在数据库之上建立一种用于分析的模型,从而构成一种用于数据分析、 预测及决策的系统,称为决策支持系统。但是传统的数据库中的数据在决策支 持系统中使用时存在严重弊端,表现为:( 1 ) 、决策支持系统中所需要的数据是 统计性、总结性的数据,而数据库中的数据则是原始数据。( 2 ) 、决策支持系统 中需要大量、广泛、普遍的数据,而数据库中相对而言则是专门的、局部的数 据。( 3 ) 、决策支持系统中需要的不仅是当前的数据还需要历史性数据,而数据 库中则主要保存当前数据,历史数据较少。( 4 ) 、决策支持系统在决策阶段中需 要有相对稳定、不变的数据,而数据库中的数据则是事务性的,可以根据客观 环境随时变化。这样,传统的数据库需要进行改造以适应决策支持系统的需要, 这种改造后的数据库就成为数据仓库闭 2 2 新型决策支持系统 在决策支持系统中由数据仓库取代数据库后,整个系统就变得十分有效和 协调。但是,随着决策支持系统的发展,其模型部分已逐渐不适应应用的需求, 传统的方法和模型只能反映客观世界分析事物规则的一小部分,而大量的分析、 推理的方法与模型,包括归纳推理、联想、学习等分析方法在实际数据分析中 占有重要和主要的地位,但是它们在传统的模型中得不到有效的反映与表示 4 安徽大学硕士学位论文 第二章决策支持系统的分析 因此需要不断扩充传统数学方法与模型,将传统演绎推理型逐渐扩充至归纳推 理及学习类型,使之能适应现代数据分析的需求,这样就在传统数学模型基础 上扩充为两个部分。一个是验证型的分析方法,另一个是探索型的分析方法, 它们都是归纳推理类型的方法,可分别称为联机分析处理与数据挖掘。这种结 构形式的决策支持系统被称为新型决策支持系统或基于分析型的决策系统,简 称为决策支持系统d s s 。如下图: 2 3 数据仓库 旱罕tb 导 l 军i t 艄 1 。瑷广嬲一 移 f = = 习 l 湖嘴l 、- - _ _ _ _ , 图2 1 新型决策支持系统结构 2 3 1 数据仓库的基本概念 数据仓库是决策支持系统的基础,它为分析与决策提供数据支持。从存储 的数据看,数据仓库具有以下特色:( 1 ) 、加工性特色。数据仓库里的数据一般 是以统计性、总结性等宏观数据为主,以便为分析与决策提供更方便与有效的 支持。( 2 ) 、集成性特色。为了进行分析与决策,数据仓库往往需要为决策支持 系统提供涉及多种不同部门与领域的数据。因此,需要将多个不同数据体进行 集成以形成一个统一的数据仓库集合体( 3 ) 、历史性特色为便于分析与决策, 数据仓库中的数据往往不仅需要现时性数据,且更需要历史性数据从操作角 度看,数据仓库具有以下特色:( 1 ) 、在数据仓库中的数据是分析与决策的依据, 它反映了客观真实世界的面貌,因此不能修改与删除也不能随意增添。( 2 ) 、在 5 安徽大学硕士学位论文 数据仓库和数据挖掘技术在电信行业中的应用 数据仓库中的数据是根据决策需要而更换的,它包括不同的决策时期与不同盼 决策内容。( 3 ) 、数据仓库中的数据一般来自各数据源,因此,数据仓库要有从 众多数据源抽取所需数据并加载至数据仓库的能力。( 4 ) 、数据仓库中的数据在 经过一段时间的使用后需要将其卸载至后台脱机存储器中,以便长期保存,我 们称此种操作为归档操作【3 】o 2 3 2 数据仓库的结构 数据仓库是在原有关系数据库基础上发展形成的,但不同于数据库系统的 组织结构形式,它从原有的业务数据库中获得的基本数据和综合数据被分成一 些不同的层次 4 1 一般数据仓库的结构组成包括当前基本数据、历史基本数据、 轻度综合数据、高度综合数据、元数据。当前基本数据是最近时期的业务数据, 是数据仓库用户最感兴趣的部分,数据量大。当前基本数据随时间的推移,由 数据仓库的时间控制机制转为历史基本数据,一般被转存于一些转换介质中, 如磁带等。轻度综合数据是从当前基本数据中提取出来的,设计这层数据结构 时会遇到“综合处理数据的时间段选取”、“综合数据包含哪些数据属性”和“内 容”等问题。最高一层的数据十分精练,是一种准决策数据 数据仓库系统是一个广义概念。整个系统包括从操作数据库和外部其他数 据源的提取、转换工具、数据仓库数据部分( 主要指构成数据仓库数据存储的 数据库和数据仓库管理系统) 、基于数据仓库的数据分析工具以及与以上各部分 相关的管理综合部件,构成了整个数据仓库系统 数据仓库系统所要完成的功能包括辅助用户设计建立数据仓库系统的数据 组织和存储;管理,维护数据仓库的正常工作,即完成数据仓库服务器的管理, 接受用户查询数据的请求,使数据仓库数据与操作数据库中的数据保持有效同 步等工作;综合集成多种分析工具( 包括数学统计分析工具、o l a p 多维分析工 具、数据开采工具) ,完成用户根据决策需求对数据仓库的有效使用1 5 】。 数据仓库系统的总体结构如图2 - 2 所示: 6 安徽大学硕士学位论文第二章决策支持系统的分析 操作致据库 数据源 圆圈 元数据椭国 数据仓库数据 数据仓库系统 图2 - 2 数据仓库系统的总体结构 从图中可以看出数据仓库系统包括以下内容: ( 1 ) 、数据抽取和转换工具,它们可以完成对数据源的抽取、清洗、维护 等功能。 ( 2 ) 、数据建模工具,用于建立数据仓库与源数据库间的概念模型。 ( 3 ) 、能够支持高速存取、有效地支持多维数据模型的前端工具。 这样,整个数据仓库的组织大致分为三个部分:数据在进入数据仓库的存 储体之前,包括源数据库,外部数据文件的清洗、变换、装载和昂4 新的工具, 这是第一部分。第二部分是数据仓库的具体数据、元数据的存储和数据仓库服 务器( 包括数据库服务器和o l a p 服务器) 。第三部分是基于数据仓库的查询工 具,主要包括数学统计分析,o l a p 查询和数据开采三类工具旧。 2 4o “心分析 2 4 1o l a p 概述 联机分析处理( o l a p ) 的概念最早是由关系数据库之父e 置c o d d 于1 9 9 3 年提出的,他同时提出了关于o l a p 的1 2 条准则。o l a p 的提出引起了很大的 反响,o l a p 作为一类产品同联机事务处理( o l t p ) 明显区分开来下面给出 o l a p 的两种定义川; 7 安徽大学硕士学位论文 数据仓库和数据挖掘技术在电信行业中的应用 定义l :o l a p ( 联机分析处理) 是针对特定问题的联机数据访问和分析。通 过对信息( 维数据) 的多种可能的观察形式进行快速、稳定一致和交互性的存取, 允许管理决策人员对数据进行深入观察。 定义2 :o l a p ( 联机分析处理) 是使分析人员、管理人员或执行人员能够 从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反 映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入 了解的一类软件技术。( o l a f 委员会的定义) 0 l a p 的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术 核心是维”这个概念,因此o l a p 也可以说是多维数据分析工具的集合嘲。 当今的数据处理大致可以分成两大类:联机事务处理o l t p ( o n - l i n e t r a n s a c t i o np r o c e s s i n g ) 、联机分析处理o l a p ( o n - l i n ea n a l y t i c a lp r o c e s s i n g ) 。 o l t p 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例 如银行交易。o l a p 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决 策支持,并且提供直观易懂的查询结果聊下表列出了o l t p 与o l a p 之间的比 较: 表2 - 10 l i p 与0 1 2 0 之间的比较 0 l t po l a p 用户操作人员,低层管理人员决策人员,高级管理人员 功能日常操作处理分析决策 d b 设计面向应用面向主题 当前的,最新的细节的,历史的,聚集的,多维 数据 一维的分立的的集成的。统一的 存取读写数十条记录读上百万条记录 工作单位简单的事务复杂的查询 用户数上千个上百个 d b 大d 、 1 0 0 皿g bl o o g b t b 2 4 2o l a p 逻辑概念和典型操作 o l a p 展现在用户面前的是一幅幅多维视图下面给出o l a p 中常用的几个 术语的概念【1 0 】: 维( d i m e n s i o n ) ;是人们观察数据的特定角度,是考虑问题时的一类属性, 属性集合构成一个维( 时间维、地理维等) ; 8 ,一。 鲁 安教大学硕士学位论文 第二章决策支持系统的分析 维的层次( 1 e v e l ) :人们观察数据的某个特定角度( 即某个维) 还可l 乏存在 细节程度不同的各个描述方面( 时间维:日期、月份、季度、年) : 维的成员( m e m b e r ) :维的一个取值,是数据项在某维中位置的描述。( “某 年某月某日”是在时间维上位置的描述) ; 度量( m e a s u r e ) :多维数组的取值。( 如:2 0 0 0 年1 月,合肥,笔记本电脑, $ 1 0 0 0 0 0 ) 。 o l a p 的基本多维分析操作有钻取( d r i l l u p 和d r i l l d o w n ) 、切片( s l i c e ) 和 切块( d i c e ) 、以及旋转( p i v o t ) 等。 钻取:是改变维的层次,变换分析的粒度它包括向下钻取( d r i l l - d o w n ) 和向上钻取( d r i l l - u p ) i _ k 卷( r o u - u p ) 。d r i l l - u p 是在某一维上将低层次的细节数据 概括到高层次的汇总数据,或者减少维数;而d r i l l d o w n 则相反,它从汇总数据 深入到细节数据进行观察或增加新维。 切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布 如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。 旋转:是变换维的方向,即在表格中重新安排维的放置( 例如行列互换) 。 2 4 3o l a p 分析技术的局限性 首先o l a p 对不同维度进行肉眼观察,并非运用科学的工具去测度;而肉 眼观察带有主观的“有色眼镜”,故缺乏科学客观的评判手段和方法;正如用肉 眼观察天体运作,其不难得到“太阳和群星围绕地球转”的谬误 其次,当遇到维度过多、数据量过大的实际情况时,o l a p 工作效率急遽下 降; 再次,若白变量和自变量之间存在的线性关系或交互作用,o l a p 无法分辩 混杂因子或主要影响因素( 如:案例所示只使用o l a p 无法得到科学合理的结 论) ;因此,o l a p 无法满足在分析,信息系统中最基本,最重要和最关键的要 求,即:面对主题( 商务需求) 进行分析【1 1 】 所以,只使用o l a p 进行查询结果和数据展现是无法满足决策者的最终需 求的,也无法满足数据分析师的最终需求。 9 、 安徽大学硕士学位论文 数据仓库和敷据挖掘技术在电信行业中的应用 2 5 数据挖掘 2 5 1 数据挖掘概述 数据挖掘是根据企业的既定业务目标和存在的问题,对大量的业务数据进行 探索,揭示隐藏其中的规律,并将其模型化,指导并应用于实际的企业经营中。 通过对中国移动业务数据的挖掘,从中发现中国移动运作的本质规律,优化 企业本身的运作;或进行有效的客户关系管理。 数据挖掘与o l a p 分析、预定义报表和即席查询等有很大的区别。后三者通 常是用户对所关心的业务指标,按照已知的角度进行分析;而前者则是在业务 问题和目标明确,但考察的角度不清楚时,对数据进行探索,揭示隐藏其中的 规律性,进而将其模型化f 1 2 j 2 5 2 数据挖掘的类型 ( 1 ) 、关联方法及a p r i o r i 算法 关联方法又称关联规则,它是数据挖掘中的基本方法,主要目的是寻找数 据间的关联性。我们知道,世界上存在着事物间的多种相关性,如天下雨则雨 伞的销售量会增加,而这些相关性有时蕴藏在内部,人们不易发现,而现在我 们可以通过相关规则找出其内部相关性并以模式或规则形式将其表示出来,关 联规则的常用算法是a p r i o r i 算法,这是一种统计型算法,它的效率高、效果 好,是目前最为流行的挖掘算法之一。目前以该算法为基础推广产生了很多种 能适应不同环境的扩充的a p r i o r i 算法。 ( 2 ) 、分类法 分类法也可称分类分析法,是寻找分类数据中的每类数据的规律,我们知 道世界上的事物可按其不同表象而分为不同的类,而这些类之间具有其内在的 本质差异,如何由不同表象而进一步挖掘出其内在性质的不同,这就是分类方 法的主要工作。在分类法的基础上可以进一步推演以实现推测未来的目标,被 称为预测,而分类与预测往往结合在一起称为分类与预测分类法中的算法很 多,有决策树方法、粗糙集方法、贝叶斯算法、人工神经网络及遗传算法等多 种算法。我们选用决策树算法、人工神经网络、贝叶斯算法作为分类法中的算 法,这是因为这几种算法比较简单,有效,是目前分类法中最常用的算法。 安徽大学硕士学位论文 第二章决策支持系统的分析 , ( 3 ) 、聚类法 聚类法又称聚类分析法,它是对一组数据进行聚类的方法,聚类后的数据 即构成了一组分类。聚类标准是以数据的表象( 即数据属性值) 为依据的,聚 类的工作是将一组数据按其表象而将相近的归并成类,最终形成若干个类,在 类内的数据具有表象的相似性,而类问数据具有表象的相异性。聚类法中的算 法也很多,有遗传算法、划分法、层次法、基于密度方法、基于网格方法等, 我们选用遗传算法、划分法及层次法作为聚类法中的算法是因为这三种算法比 较简单实用,是目前聚类法中最常用的算法。在电信业务的应用中,聚类法可 以将一群客户以相似性分类1 1 3 j 2 5 3 数据挖掘的体系结构 数据挖掘分析人员查询分析应用人员 准备数据 建立模型即席查询 评估,解释模型预定义报表 运用,巩固模型 tf e 糊强卜l 报芸具i 数据仓库数据千舀一黝餐! 禹据集市 图2 - 3 数据挖掘结构圈 上图展示了数据挖掘同数据仓库和数据集市及其应用结合的流程示意图。 可以首先基于确定的业务问题和目标,由专业的数据挖掘分析人员通过数据挖 掘工具对数据仓库( 或在由此进行数据再组织而生成的数据集市) 挖掘找出规 律,生成模型,再把这个模型应用于相关数据仓库( 或数据集市) 中的数据, 进而生成报表等,供数据挖掘结果应用人员访问和应用数据挖掘所产生的各类 结果,以了解业务和客户状况因而要求数据挖掘工具具有同数据仓库及数据 仓库的其它应用紧密集成的能力 安教大学硕士学位论文 数据仓库和数据挖掘技术在电信行业中的应用 2 6 数据仓库、o l a p 、数据挖掘之间的关系 2 6 1 数据仓库是基础 无论是数据挖掘还是o l a p 分析,他们成功的关键之一是能够访问正确的、 完整的和集成的数据【1 4 1 。这也是对数据仓库的要求。数据仓库不仅是集成数据 的一种方式和一个焦点,而且所有的数据仓库的解决方案都源自和依赖于数据 源部件的质量和效果( 这种部件在数据仓库世界称为抽取、变换和装载) 。数据仓 库的特点集成的、随时间变化、稳定的、面向主题的为o l a p 分析、数据挖掘 的成功提供了坚实的数据基础。 2 6 2o l a p 和数据挖掘的区别 o l a p 与数据挖掘都是数据库或数据仓库的分析工具,是相辅相成,都是决 策分析不可缺少的工具。但他们又有不同,如上介绍他们分析的方法不同,所 采用的技术都是不同的,在实际应用中各有侧重。o l a p 是验证型的分析工具, 而数据挖掘是预测型的工具l m o l a p 建立在多维视图的基础之上,强调执行效 率和对用户命令的及时响应,而且其直接数据源一般是数据仓库:数据挖掘建立 在各种数据源的基础上,能够自动分析发现隐藏在数据深层次的对人们有用的 模式( p a t t e r n s ) ,一般并不过多考虑执行效率和响应速度。 o l a p 是一种自上而下、不断深入的分析工具:用户提出问题或假设,通过 o l a p 从上而下地提取出关于该问题地详细信息,并且以可视化的方式呈现给用 户【1 6 1 。与数据挖掘相比,o l a p 更多地依靠用户提供的问题和假设,受用户的思 维习惯所影响。 数据挖掘常能挖掘出超越归纳范围的关系,但o l a p 仅能利用人工查询及 可视化的报表来确认某些关系,是以数据挖掘此种自动找出甚或不会被怀疑过 的数据关系的特性,事实上己超越了我们经验、教育、想象力的限制,o l a p 可 以和数据挖掘互补,但这项特性是数据挖掘无法被o l a p 取代的。 2 6 3 数据挖掘与数据仓库的关系 尽管数据挖掘技术扎根于计算科学和数学,但两者的结合能给数据挖掘带 来各种便利和功能。 首先,数据挖掘有一个昂贵的数据清理、数据变换和数据集成的过程,作 、 安徽大学硕士学位论文 第二章决簧支持系统的分析 为数据的预处理i l 。而已经完成数据清理、数据变换和数据集成的数据仓库, 完全能为数据挖掘提供它所需要的挖掘数据。 其次,数据仓库能为数据挖掘提供各种数据库连接、w e b 访问和服务工具 以及报表与o l a p 分析工具等全面的数据处理和数据分析等基础设施。 最后,在数据挖掘工程中,如果将数据挖掘与数据仓库进行有效的联结, 将增加数据挖掘的连机挖掘功能。 1 3 安徽大学硕士学位论文 数据仓库和数据挖掘技术在电信行业中的应用 第三章电信业务模式的分析 3 1 电信行业业务模式的发展变化 电信企业的运营模式总是不断的变化以适应激烈的市场竞争,不同企业所 采用的业务模式各具特色,但回顾电信市场的历史,变化的总体趋势是从以产 品为中心的业务模式向以客户为中心的业务模式转变1 1 8 l 。 以产品为中心的业务模式在电信垄断的时代倍受推崇,它的显著特征是企 业资源配置、组织机构和市场行为都围绕着企业产品展开,企业运营的主要任 务是提高电信产品的质量,增加服务种类【埘。在少数几个控制市场的电信巨头 之问,竞争的主要手段是价格和大量的广告投入。当电信市场的竞争越来越激 烈的时候。这种经营理念的缺陷逐步显现出来,大量的广告投入造成了企业的 财务负担;频繁的价格竞争不仅无法保持用户的忠诚度,还对企业的赢利造成 损害:丰富的电信产品造成运营企业组织机构复杂,影响客户服务的质量。 以客户为中心的业务模式脱胎于现代营销理论的市场营销观念,以企业的 目标客户和他们的不同需求为导向制定产品和服务,企业资源围绕客户的价值 周期进行分配和组织【2 0 1 。忠诚度高和价值高的用户获得企业更多的关心和更周 到的服务,而不忠诚或价值低的客户则获得低档的服务实现这一业务模式的 关键是: ( 1 ) 、发掘和了解不同客户的行为与需求; ( 2 ) 、利用了解到的知识确定、开发和提供适当的产品和服务。 以客户为中心的业务模式需要对客户信息的准确了解,传统企业营销的市 场调研手段工作周期较长,且无法获取完整的客户视图。数据仓库技术系统为 企业提供准确而完善的信息,为实现以客户为中心的业务策略提供了技术上的 可行性。 3 2 数据仓库在电信行业中的作用 面对电信市场激烈的竞争,电信运营企业都在不断的降低成本,开发新业 1 4 安徽大学硬士学位论文第三章电信业务模式的分析 务,保留已有的客户,争取新的市场份额,对市场变化做出快速反应1 9 1 。业务 数据是电信运营企业最宝贵的资产之一,最大限度地利用好这些数据可以为企 业带来高额回报,提高企业的竞争力,而数据中心的实施,即建立企业级的数 据仓库将在其中起到关键的作用。 目前,国内的电信企业已建有大量成熟的数据库业务系统,如计费系统、 管理信息系统( m i s ) 、网管系统等。通过这些系统,积累了大量的原始数据和 各种业务处理数据,这些数据真实地反映了电信企业各种业务环境的经济动态。 然而,这些宝贵的数据未得到企业充分利用,没有为企业决策提供很好的支持, 其主要原因如下: 已建成的这些业务系统都是联机事务处理系统,强调的是密集的数据 更新处理性能和系统的可靠性,而分析处理可能需要连续运行几个小时,从而 消耗大量的系统资源。联机分析和事务处理对系统性能的要求不同,使得同一 个数据库在理论上难以做到两全。 由于缺乏集中存储和管理,所以业务数据被存放于分散的异构环境中, 同时,这些独立的业务系统缺乏标准的接口,存在数据类型不匹配,数据定义 不同,数据不一致,数据冗余等问题,从而形成一个个信息孤岛。尽管每个单 独的业务系统都能产生丰富的数据,但这些数据却不能成为一个统一的整体, 不易统一查询访问。而决策支持需要集成的数据,相关数据收集得越完整,得 到的结果越可靠。因此,决策支持系统不仅需要整个企业内部的各种相关数据, 还需要企业外部、竞争对手的相关数据 业务系统一般只需要当前数据,在数据库中一般也只存储短期数据, 且不同数据的保存期限也不一样,如计费数据一般只要求联机保存4 至6 个月, 另外有些业务系统要求保存历史数据,大量的历史数据被脱机存储在磁带、光 盘中,要查询一次历史数据时,费时费力但对于决策分析而言,历史数据是 相当重要的,许多分析方法必须以大量的历史数据为依托。如果没有对历史数 据的详细分析,则难以把握企业的发展趋势 一个企业对数据仓库的需求通常由两个因素决定:企业内部的相对复杂程 度和客户的相对数日嗍。随着这两个因素的取值从低到高,企业对数据仓库的 需要程度也从低到高。随着市场环境的不端变化,竞争的不断加剧,以及新技 安徽大学硕士学位论文数据仓库和数据挖掘技术在电信行业中的应用 术、新业务的不断涌现,许多业务在很短的时间里经历了诞生掣泼展、成熟和、,? 衰退的过程。因为电信企业内部的相对复杂程度和客户的相对数目都在不断提 升,所以建立企业级的数据仓库,可以十分方便的解决市场调查、分析客户、 网络、财务等方面的问题,在竞争中产生整体发展思路和重大经营决策,最终 实现企业科学化管理。 电信企业的运营很大程度上依赖于信息系统的支持,以客户为中心的业务 模式需要强大的数据仓库系统提供信息支持,在电信业务处理流程中,数据仓 库的作用体现在决策支持、客户分段和评价以及市场自动化等方面。 3 3 电信行业数据仓库及数据分析的特点 数据仓库系统在国内大规模建设的经验很少,在电信领域,国内的案例也 不多,因此,国内的电信行业数据仓库系统,具有如下的一些特点: 1 ) 经验较少 数据仓库技术在国外有了一些比较广泛的应用,但在国内,无论电信行业 还是金融行业,都没有大规模建设的经验可循,具体的业务应用,也是参考国 外电信运营商的一些应用内容进行建设的,由于数据分析涉及到很多用户的消 费行为,有很多的文化特征,因此,国外的很多数据分析模型并不能直接搬到 国内,这对国内的数据仓库建设提出了很多问题。 2 ) 数据量大 由于中国通信事业的迅速发展,使中国成为目前世界范围内十分巨大的电 信运营市场,现在,中国已经有移动通信用户超过2 亿,固定用户2 4 亿,如此 庞大的用户群,仅存在于5 - 6 家电信运营商,必然导致每个运营商的用户数据十 分庞大在数据仓库项目上,国内电信运营商的数据积累也是十分庞大的,这 些庞大的数据量的分析和村春,使数据仓库项目面临技术上的很多挑战如何 整理如此庞大的数据源,并从中分析出有价值的信息,构成了国内数据仓库项 目建设重要的技术难点。 3 ) 集成复杂 国内的电信运营商,涉及的业务种类十分庞杂,不仅有网络管理系统,而 安簸大学硕士学位论文 第三章电信业务模式的分析 且有大量的网络支撑系统( 例如计费等系统) ,同时也有管理系统台由矛历史的 原因,这些庞杂的系统都采用了不同的厂家和系统构成,要将这些系统进行集 成,在技术上面临着很大的问题,怎样进行数据源的规划和采集,就是十分困 难的。而数据仓库不仅会采集部门级的数据,最终也将演化成为企业级的数据 仓库,涉及到企业的各个运转环节,包括:生产、支撑、管理等多个系统。 因此,数据仓库建设的过程是一个循序渐进的过程,无法一蹴而就,这本 身也说明了数据仓库项目的难度。 4 ) 业务种类多 国内的电信运营商都有不同的经营范围和内容,但经营的业务种类都比较 多,数据仓库的应用是与业务内容结合紧密的,业务种类的繁多,意味着数据 仓库后续的分析工作量会比较多。 5 ) 分析系统性能要求商 由于国内电信运营商的用户数据量比较大,导致数据仓库的规模比较庞大, 因此,对数据分析系统的性能要求比较高,否则无法满足实际业务应用的需要 例如,国内电信运营商一个省的用户规模,就常常相当于欧洲的一个中等国家 的全国用户规模,因此在进行数据分析的过程中,数据仓库的规模比较大,约 有几十个t b 规模,常常出现系统运行繁忙的情况,而且无法判断是死机还是忙 于计算,一时无法计算出结果。这就对分析系统的性能要求比较高。 6 ) 与管理数据进行结合 目前,国内的电信企业在建设数据仓库的过程初期,仅是一个部门级的数 据仓库,随着业务的不断扩展,必将完成最终企业级数据仓库的建设工作。在 建设企业级数据仓库的过程中,与管理数据进行结合将十分重要,因为只有财 务、人力资源等数据才能反映出企业实际运营过程中,在成本支出等方面的信 息,并就此进行有关的企业诊断活动,提高企业的管理效率。 由于以上的诸多特点,国内的数据仓库系统建设面临着很多的困难和挑战, 也构成了国内电信行业数据仓库系统建设过程中的重要课题。【1 l ,1 9 , 2 0 l 下面给出电 信行业数据仓库和数据挖掘应用的体系结构图: 1 7 安徽大学硕士学位论文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院工会工作总结
- 农村人居环境整治提升五年行动效果调研报告
- 薄膜透湿性测定仪试验杯密封脂涂抹作业指导书
- 巴西柔术蓝带晋升技术训练大纲
- 2026年注册核安全工程师核安全法规模拟试卷(含答案及解析)
- 2026年省级行业企业职业技能竞赛(工程机械维修工-堆场机械维修)综合练习题及答案
- 2026年建筑施工企业项目负责人B证模拟考试题库
- 2026年5月初级会计职称《财务报表》专项训练试卷(含答案)
- 子宫肌瘤术后快速康复护理查房
- G243-1720-生命科学试剂-MCE
- T-CBDA 82-2024 家装防水防潮与渗漏修缮技术规程
- 2025中小幼学校设施设备及信息化建设指引
- DB34∕T 4265-2022 综合能源供应服务站建设规范
- 职业角色的转换课件
- 禁止纹身主题班会课件
- 上市公司报销管理制度
- CJ/T 511-2017铸铁检查井盖
- 2025年党建工作知识竞赛测试题库及答案(完整版)
- GB/T 15268-2024桑蚕鲜茧
- 中国婴幼儿 科学配餐与食品制作指导手册
- 2024年广西机场管理集团限责任公司招聘156人高频500题难、易错点模拟试题附带答案详解
评论
0/150
提交评论