(计算机应用技术专业论文)数据仓库系统在电信领域中的应用研究.pdf_第1页
(计算机应用技术专业论文)数据仓库系统在电信领域中的应用研究.pdf_第2页
(计算机应用技术专业论文)数据仓库系统在电信领域中的应用研究.pdf_第3页
(计算机应用技术专业论文)数据仓库系统在电信领域中的应用研究.pdf_第4页
(计算机应用技术专业论文)数据仓库系统在电信领域中的应用研究.pdf_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着国内电信垄断格局的打破,各电信运营商间的竞争也越来越激烈。为 了在竞争中争得先机,企业将越来越需要有一套迅速灵敏、功能强大的系统, 有针对性地制定政策,适时拿出各种促销手段,能够提供强大的市场分析能力, 将大量电信数据转换成可靠的商用决策支持信息的有效解决方案。 近年来,电信企业在运营中积累了大量的数据,原来业务系统的关系数据 库和传统的数据分析手段只能提供的简单查询和报表,不能获得数据的内在关 系和隐含的信息。因此,如何对积累的这些历史数据进行有效的分析,发现知 识,用来指导经营决策,己成为电信企业在竞争中制胜的关键。数据仓库和数 据挖掘技术的发展为解决这一问题提供了有效途径。 数据仓库是一种新型的数据组织及存储方法,它以多维数据建模方式对企 业积累的事务型数据重新进行组织,建立新的数据存储,专门用于支持数据分 析及企业决策。数据挖掘技术是目前数据仓库领域最强大的数据分析手段。它 的分析方法是利用已知的数据通过建立数学模型的方法找出隐含的业务规则, 再利用这些规则为我们所用,如进行预测,为指定决策服务。 本文首先阐述了本课题的背景,数据仓库的应用趋势以及研究的目的和内 容。接着对数据仓库技术进行了阐述,包括数据仓库、数据挖掘的概念、特征 等。然后分析了数据仓库系统在国内电信企业中的应用情况,研究了数据挖掘 技术在电信行业中的具体实现。本文研究重点是设计了一套客户流失预测系统, 探讨了决策树在电信客户流失预警中的运用情况。主要是针对电信企业的流失 客户和没有流失的客户的性质和消费行为,结合数据挖掘方法论,运用决策树 算法,建立客户流失预测模型,并针对客户流失模型进行分析,制定相应的营 销政策。探讨了决策树的构建原理以及为了防止训练过度而对决策树修剪的理 论。 文章通过建立客户流失预测模型,分析哪些客户的流失概率大及其相关因素, 为市场经营与决策人员制订相应的策略、留住相应的客户提供决策依据。 关键字:数据仓库,数据挖掘,流失预测模型,决策树; a b s t r a c t a l o n gw i t ht h eb r e a k i n go ft h em o n o p o l i z ep a u e r n , t h ec o m p e t i t i o na m o n gt h e d o m e s t i ct e l e c o m m u n i c a t i o no p e r a t o r si sf i e r c e ra n df i e r c e r i no r d e rt o g e tt h e v a n t a g e , i ti sv e r yn e c e s s a r yf o rt e l e c o m m u n i c a t i o no p e r a t o r st ob u i l dap o w e r f u l s o l u t i o n , w h i c hc a nc o n v e r tt h em a s st e l e c o m m u n i c a t i o nd a t ai n l or e l i a b l eb u s i n e s s t a c t i ci n f o r m a t i o n , a n ds u p p l yp o w e r f u la b i l i t yi nm a r k e ta n a l y s i s o fl a t ey e a r s ,t e l e c o m m u n i c a t i o no p e r a t o r sg o tam a s so fd a t as t o r e di nt h e r e l a t i o n a ld a t a b a s e h o w e v e rt h et r a d i t i o n a lr a t i o n a ld a t a b a s ec a m l o tb eu s e dt of i n d h i d d e ni n f o r m a t i o nf r o mt h er a wd a t a h o wt oa n a l y z eh i s t o r i c a ld a t aa n dg e t k n o w l e d g eh a s b e c o m eaf a c t o rf o rt e l e c o m m u n i c a t i o no p e r a t o r st ow i nt h e c o m p e t i t i o r d a t aw a r e h o u s ea n dd a t am i n i n gt e c h n o l o g i e sp r o v i d ea ne f f e c t i v ew a y t os o l v et h i sp r o b l e m d a t aw a r e h o u s ei sak i n do fn e w - t y p em e t h o dt oo r g a n i z ea n ds t o r ed a t a i t o r g a n i z e st r a n s a c t i o nd a t at h a te n t e r p r i s e sa c c u m u l a t ea g a i nw i t hm u l t i d i m e n s i o n a l d a t am o d e l i n ga n ds e t su pn e wd a t as e t , w h i c hi ss p e c i a l l yu s e df o rs u p p o r t i n gd a t a a n a l y s i sa n dm a k i n gp o l i c yf o re n t e r p r i s e s d a t am i n i n gi st h es t r o n g e s td a t aa n a l y s i s m e a l l $ i nt h ew a r e h o u s ef i e l da tp r e s e n t i t sa n a l y s i sm e t h o di su t i l i z i n gt h ek n o w n d a t at of i n do u tt h ei m p l i c i tb u s i n e s sr u l e st h r o u g hs e t t i n gu pm a t h e m a t i c sm o d e l a tf i r s t ,t h i sp a p e rh a se x p l a i n e dt h eb a c k g r o u n do ft h ep r o j e c t ,t h ea p p l i c a t i o n t r e n do fd a t aw a r e h o u s e , t h ep u r p o s ea n dc o n t e n to ft h er e s e a r c h s e c o n d , t h e t e c h n o l o g yo fd a t aw a r e h o u s ei n c l u d i n gt h ec o n c e p t , t h ec h a r a c t e r sa n dt h ec r i t i c a l t e c h n o l o g yo fd a t aw a r e h o u s ea n dd a t am i n i n gi sa n a l y s e d t h i r d , i ta l s oa n a l y s e st h e d a t aw a r e h o u s e sa p p l i c a t i o nc o n d i t i o na n dr e s e a r c h st h ed a t am i n i n g sc o n c r e t e r e a l i z a t i o ni nt e l e c o m m u n i c a t i o no p e r a t o r s o n eo ft h ei m p o r t a n tr e s e a r c hw o r k si n t h i sp a p e ri sd e s i g n i n gal o s so fc u s t o m e r s p r e d i c t i o ns y s t e m i td i s c u s s e st h e a p p l i c a t i o nt h a tt h ed e c i s i o nt r e ei su s e di nt h et e l e c o m m u n i c a t i o nm a r k e t i n gf i e l d i t i s b u i l d i n gc u s t o m e rl o s i n gm o d e lu s i n gd a t am i n i n gm e t h o da n dd e c i s i o nt r e e a r i t h m e t i ct h a tm a i n l ya c c o r d i n gt ot h ec h a r a c t e ra n dt h ec o n s u m i n gb e h a v i o ro ft h e c u s t o m e rl o s i n go rn o ti nt h et e l e c o m m u n i c a t i o ne n t e r p r i s e m a r k e t i n gp o l i c i e sa r e a l s oe s t a b l i s h e da c c o r d i n gt oc u s t o m e rl o s i n gm o d a l i nt h i sp o r t i o n ,w ed i s c u s st h e c o n s t r u c t i o nt h e o r yo ft h ed e c i s i o nt r e ea n dt h es h a v i n gt h e o r yo ft h ed e c i s i o nt r e e a v o i d i n gt h e e x c e s s i v et r a i n i n g t h e nt h i s p a p e ri n t r o d u c e st h ea p p l i c a t i o no f c l u s t e r i n gm e t h o d s i nt h et e l e c o m m u n i c a t i o nm a r k e t i n gf i e l d b yu s i n gt h ed e c i s i o n - t r e t oa n a l y s et h ec l i e n tl o s i n g , t h ef o r e c a s t i n gm o d e lo f t h ec l i e n tl o s i n gi s tu p c l i e n t st h a th a v et h el a r g e s tp r o b i l r i e s t ol o s e , a n dt h e i r c o r r e l a t i o nf a c t o r sa r ea n a l y s e d , t h eo b j e c ti st op r o v i d et h ed e c i s i o n # s tt om a r k e t m a n a g e r sa n dd e c i s i o n m a k e r s ,w h on e e dt oi n s t i t u t et h ep o f i c yt or e t a i nt h o s ec l i e n t s k e y w o r d s :d a t aw a r e h o u s e , d a t am i n i n g , c h u mp r e d i c t i v em o d e l , d e c i s i o nt r e e ; 主要符号表 d w :d a t aw a r e h o u s e d m - d a t am i n i n g o l t p ;联机事务处理系统 d b m s :数据库管理系统 e - rm o d e l :实体关系建模 m o u :m i n u t eo f u s e r , 每用户使用分钟数 a 】盯u :a v e r a g er e v e n u ep e ru s e r , 每个用户平均收入 c r m ;客户关系管理 s p :业务提供商 c p :内容提供商 d s s - 决策支持系统 c h u r np r e d i c t i v em o d e l :流失预测模型 v l 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:里纽1 3 期:兰:望: 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权 保留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 日期:型 武汉理工大学硕士学位论文 1 1 论文技术背景 第1 章引言 从计算机应用初期的电子数据处理( e d p ) 到今天的执行信息系统以及决策 支持系统( e i s d s s ) ,都始终伴随着对数据仓库的探求。在不同历史阶段,企业 内部许多部门建立了各自的数据库系统,这些系统之间相互隔离,结构各异,所 以企业的决策者很难得到企业全局的决策信息。对这个问题的探求曾导致了对 多数据库系统的研究。企业的高层管理者还需要使用各个数据库的数据进行各 种复杂分析,以支持决策。这些应用对于事务处理频繁的数据库系统而言,是 种沉重的负担。数据库系统即传统联机事务处理系统( o l t p ) 的事务处理环境, 已不能满足当前决策支持的要求1 1 1 。因此,人们逐渐尝试对o l t p 数据库中的数据 进行再加工,形成一个综合的、面向分析的环境,以更好地支持决策分析。在 这种背景下,数据仓库技术应运而生。数据仓库面向复杂的数据分析以支持决 策过程,而且可以集成企业范围内的数据。它把支持决策分析的数据事先收集、 归纳、处理,使企业的业务操作环境和信息分析环境分离,从而有效地为决策 提供实时的信息服务。 数据仓库使得人们只花很短的时间就能够从大量的数据中查询出所需的数 据,而数据挖掘则可以从这些数据中发现和预测出有价值的信息。数据挖掘技 术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用, 而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指 导实际问题的求解,企图发现事件间的相互关联,甚至利用己有的数据对未来 的活动进行预测。 数据挖掘虽然已经作为一个时髦的概念被追捧并广泛演绎已久,但是直到 近几年,真正的数据挖掘才得到实质性的应用。本文主要研究数据仓库、数据 挖掘等理论技术,以及它们在电信行业中应用。 1 2 论文研究背景及目的 近年来,我国电信市场内的竞争日渐加剧,电信运营企业有中国电信、联 武汉理工大学硕士学位论文 通、移动、网通、吉通、铁通等。在各个业务领域内已初步形成多元化的竞争 局面。同时,中国加入w t o 后,国外的电信公司也会逐步进入中国市场,在这 样的形势下,电信企业在残酷的竞争市场中,作出正确及时的决策将是企业生 存与发展中最重要的环节之一,而要作好决策工作,就要更好地利用网络技术, 利用最近几年才快速发展起来的数据仓库技术以及基于此技术的商业智能,深 层次、多角度地挖掘,分析当前和历史的生产业务数据、客户信息、竞争对手 的信息等相关环境的多种数据,发掘其内在的规律,从而得到宝贵的决策支持 信息。这样才能快速、准确地分析商业问题,并且对企业未来的生产计划和长 远规划提供理论指导。唯有这样,中国的电信公司才能在激烈的竞争中,高瞻 远瞩,永不出局。数据仓库技术是目前己知的最为成熟和被广泛采用的解决方 案。利用数据仓库整合电信运营企业内部所有分散的原始的业务数据,并通过 便捷有效的数据访问手段,可以支持企业内部不同部门,不同需求,不同层次 的用户。随着市场竞争的加剧,企业业务人员和管理者对信息的需求日益增多, 电信数据仓库系统的开发和使用己经成为必然的趋势。目前,应用数据仓库技 术,改善企业决策支持模式,并取得最大的投资回报,已经成为大多数成功企 业的共识,作为当今发展最快,吸收新技术最快的电信企业,原始数据正在快 速地积累和膨胀,如何保存并利用好这些珍贵的资源,将其中蕴藏的信息转化 为生产力,将成为业内人士所关注的又一个技术热点。 据调查数据表明,发展一个新客户的费用是维持一个老客户成本的4 5 倍。 因此,降低客户流失率,提高客户的满意度及忠诚度,提升客户价值,是运营 商在竞争中制胜的关键。 论文设计了一个客户流失预测系统,提出了一套基于数据挖掘、商业智能 技术的客户流失分析、预警、挽留解决方案。系统从运营商原有的计费、营帐、 客户服务等系统中提取相关数据,应用历史数据,借助数据挖掘算法建立客户 流失模型,对客户流失的倾向性进行预测。对于具有流失倾向的客户,系统可 以进行分类分析,找出可能流失的原因和值得挽留的客户,在此基础上设计挽 留方案。从来帮助电信企业尽可能地获得最大化的客户量。 1 3 论文的组织结构 本文采用理论与实证相结合的研究方法,在阅读了大量文献的基础上,结 合了企业调研、相关数据的挖掘分析以及实际的营销策划,同时在定性研究的 2 武汉理工大学硕士学位论文 基础上,结合大量定量分析。 本文共分为五章。第三、四是本文的重点章节。 第一章是论文的引言,主要介绍了论文研究的背景和目的; 第二章主要介绍了数据仓库与数据挖掘的相关理论,详细阐述了数据仓库、 数据挖掘等概念和目前国内外的研究状况。 第三章主要介绍了目前中国电信领域中,各电信公司的竞争格局和数据仓 库在电信领域中的应用情况; 第四章详细写了电信行业客户流失预测系统的设计与具体实现。其中谈到 的主要挖掘算法是决策树算法。 第五章则是对论文作了总结,也指出了论文下一步研究的方向。 3 武汉理工大学硕士学位论文 第2 章数据仓库与数据挖掘的相关理论 2 1 数据仓库理论 2 1 1 数据仓库的定义 什么是数据仓库? 许多学者都有自己的一套看法。斯坦福大学数据仓库研 究小组认为:“数据仓库是集成信息的存储中心,这些信息可用于查询或分析【1 p 。 数据仓库之父w h i n m o n 在其著作( b u i l d i n gt h ed a t aw a r e h o u s e ) 中对数据仓 库是这样定义的:“数据仓库是用于支持企业或组织的决策分析处理的,面向主 题的、集成的、不可更新的、随时间不断变化的数据集合【。” 对于数据仓库的概念我们可以从以下两个层次来理解: 首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有 的操作型数据库; 其次,数据仓库是对多个异构的数据源有效集成,集成后再按照选择的主 题进行了重组,并包含大量的历史数据,而且存放在数据仓库中的数据一般不 再修改。 2 1 2 数据仓库的特征 根据数据仓库定义的含义,数据仓库有以下四个特点,它们也是数据仓库 与传统操作型信息系统的主要区别: ( 1 ) 数据仓库是面向主题的 所谓主题是指企业或组织的高层实体,传统的操作型系统是面向过程或功 能的,传统的操作型系统的设计包括数据库设计和过程设计两个方面的内容。 而数据仓库设计只考虑数据模型和数据库设计,因为主题是相对稳定的,而过 程则可能处于不断的变化之中 有一点是需要说明的是,同一主题的表未必存在同一个介质中,根据数据 4 武汉理工大学硕士学位论文 被关心的程度不同,不同的表分别存储在磁盘、磁带、光盘等不同的介质中。 一般而言年代久远的,细节的或查询概率低的数据存储在廉价慢速设备上,而 最新的、综合的或查询概率高的数据则可以保存在磁盘等介质上。 ( 2 ) 数据仓库是集成的 操作型系统由于是面向过程或功能的,从而导致在不同的应用系统会出现 以下不合理的现象:数据编码的不一致:数据的量度标准不一致。通过数据仓库 很好地解决了这一问题。在数据仓库中,通过集成使数据从命名、度量标准以 及数据的物理属性等均获得了一致。 ( 3 ) 数据仓库是反映历史变化的 数据仓库中数据的时间特性具体体现在以下几个方面: 数据仓库中数据代表了事物在很长的时间段内的变化。 数据仓库中数据的键结构通常与时问有关。 数据仓库中的数据一过确定,则通常不再进行更改。 ( 4 ) 数据仓库是稳定的 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据 仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一 旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中 一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷 新。 2 1 3 数据仓库的体系结构 数据仓库既是一种结构和富有哲理性的方法,也是一种技术。数据和信息 从不同的数据源提取出来,然后把这些数据转换成公共的数据模型并且和仓库 中已有的数据集成在一起【5 1 。当用户向数据仓库进行查询时,需要的信息已经准 备好了,数据冲突、表达不一致等问题已经得到了解决。这使得决策查询更容 易、更有效。 作为一个系统,数据仓库至少应包括3 个基本的功能部分: ( 1 ) 数据获取:这个部分主要负责从外部数据源获取数据。外部数据源的 数据被区分出来,经过抽取、净化转换、聚集等步骤得到集成和综合的数据, 5 武汉理工大学硕士学位论文 载入数据仓库。 ( 2 ) 数据存储和管理:这个部分负责数据仓库的内部维护和管理,包括数 据仓库及数据库管理系统( d b m s ) 提供的服务包括数据存储的组织、数据的 维护、数据的分发、数据仓库的例行维护等。这个部分也是整个数据仓库系统 的核心。 ( 3 ) 信息传递:信息传递部分属于数据仓库的前端,面向不同种类的最终 用户,这里主要由桌面系统的各种工具组成。数据仓库的最终用户在这里提取 信息、分析数据集、实施决策,从而可望取得竞争优势。进行数据访问的软件 工具主要是报表,查询工具、o l a f 工具和数据挖掘工具等。 图2 - i 显示了数据仓库系统的基本体系结构图。 图2 - i 可见,从本质上讲,数据仓库是一个使用数据库管理系统的数据库应用1 9 l 。 数据仓库不仅包含了分析所需的数据,而且包含了处理数据所需的应用程序, 这些程序包括了将数据由外部媒体转入数据仓库的应用程序,也包括了将数据 6 武汉理工大学硕士学位论文 加以分析并呈现给用户的应用程序。程序包括了将数据由外部媒体转入数据仓 库的应用程序,也包括了将数据加以析并呈现给用户的应用程序。 2 i 4 构建数据仓库的几种基本模式 在早期开发数据仓库时,人们一般是先建立一个全局的数据仓库结构,然 后再在其基础上实现各种应用,称为“自顶向下”的方法。但这种方法存在许 多问题,如规模大、投资大、周期长、部门间资源竞争和需求矛盾等。为解决 这些问题,提出了数据集市的概念。数据集市是支持某一部分或特定商业需求 的d s s 应用的数据集合。数据集市中的数据仍具有数据仓库中数据的特点,数 据组织结构也与数据仓库类似,只不过数据集市中的数据是专为某一部门或某 个特定商业需求定制的。随着数据仓库技术的发展,如今数据仓库的实现策略 已由原来的“白顶向下”模式,发展为“自顶向下”、“自底向上”,“平行 开发”三种主要模式。 ( 1 ) “自顶向下”模式:从总体上把握整个数据仓库的规模、粒度的级别和 元数据管理,是一种系统的解决方法。数据集市中的数据是为某部门d s s 应用 而从数据仓库中抽取的。数据集市中的数据是数据仓库数据的一个子集。数据 从数据仓库流向数据集市 ( 2 ) “自底向上”模式:从建立各部门或特定商业问题的数据集市开始,全 局性数据仓库建立在数据集市的基础上。即数据从数据集市流向数据仓库。特 点是投资少、见效快。 ( 3 ) “平行开发”模式:在一个全局性数据仓库的数据模型的指导下,数据 集市和全局性数据仓库的建立同时进行。在“平行开发”模式中由于数据集市 的建立是在一个统一的全局数据模型的指导下进行的,可避免各部门在开发各 自的数据集市时的盲目性,减少各数据集市之间的数据冗余和不一致。事实上, 一些部门在建立数据集市的过程中所遇到问题及解决方案、所获得的经验将导 致全局性数据仓库的数据模型做出相应的改变,这些变化将使其它部门在建立 数据集市时受益,也有助于全局性数据仓库的建设。在“平行开发”模式中数 据集市的这种相对独立性有利于全局性数据仓库的建设。全局性数据仓库建立 好后,各部门的数据集市将成为个全局数据仓库的一个子集,全局数据仓库将 负责为各部已经建成和即将要建的数据集市提供数据。 7 武汉理工大学硕士学位论文 2 。1 5 建立数据仓库逻辑模型的要点 2 1 5 1 数据模型的建模原则 模型是对现实事物的反映和抽象,它可以帮助我们更加清晰的了解客观世 界。模型是用户业务需求的体现,是数据仓库项目成功与否最重要的技术因素。 大型企业的信息系统一般具有业务复杂、机构复杂、数据庞大的特点,数据仓 库建模必须注意以下几个方面。 ( 1 ) 满足不同用户的需要 大型企业的业务流程十分复杂,数据仓库系统涉及的业务用户众多,在进 行数据模型设计的时候必须兼顾不同业务产品、不同业务部门、不同层次、不 同级别用户的信息需求。 ( 2 ) 兼顾效率与数据粒度的需要 数据粒度和查询效率从来都是矛盾的,细小的数据粒度可以保证信息访问 的灵活性,但同时却降低了查询的效率并占用大量的存储空间,数据模型的设 计必须在这矛盾的两者中取得平衡,优秀的数据模型设计既可以提供足够详细 的数据支持又能够保证查询的效率。 ( 3 ) 支持需求的变化: 用户的信息需求随着市场的变化而变化,所以需求的变化只有在市场竞争 停顿的时候才会停止,而且随着竞争的激化,需求变化会越来越频繁。数据模 型的设计必须考虑如何适应和满足需求的变化。 ( 4 ) 避免对业务运营系统造成影响 大型企业的数据仓库是一个每天都在成长的庞然大物,它的运行很容易占 用很多的资源,比如网络资源、系统资源,在进行数据模型设计的时候也需要 考虑如何减少对业务系统性能的影响。 ( 5 ) 考虑未来的可扩展性 数据仓库系统是一个与企业同步发展的有机体,数据模型作为数据仓库的 灵魂必须提供可扩展的能力,在进行数据模型设计时必须考虑未来的发展,更 多的非核心业务数据必须可以方便的加入到数据仓库,而不需要对数据仓库中 原有的系统进行大规模的修改。 8 武汉理工大学硕士学位论文 2 1 5 2 数据仓库的数据模型层次 在创建数据仓库时,需要使用各种数据模型对数据仓库进行描述。数据仓 库的开发人员依据这些数据模型,才能开发一个满足用户需求的数据仓库。数 据仓库的各种数据模型在数据仓库的开发中作用十分明显,主要体现在模型中 只含有与设计有关的属性。这样就排除了无关的信息,突出与任务相关的重要 信息,使开发人员能够将注意力集中在数据仓库开发的主要部分。模型有更好 的适应性,更易于修改。当用户的需求改变时,仅对模型作出相应的变化就能 反映这个改变。 数据模型是对现实世界进行抽象的工具。在信息管理中需要将现实世界的 事物及其有关特征转换为信息世界的数据,才能对信息进行处理与管理,这就 需要依靠数据模型作为转换的桥梁。这种转换经历了从现实到概念模型,从概 念模型到逻辑模型,从逻辑模型到物理模型的转换。在数据仓库建模的过程中 同样也要经历概念模型、逻辑模型与物理模型的三级模型开发。因此,数据建 模可以分为三个层次:高层建模( 实体关系层,概念模型) ,中间层建模( 数据项 集,逻辑模型) 、底层建模( 物理模型) ,如图2 - 2 所示。 概念世界是现实情况在人们头脑中的反映,人们需要利用一种模式将现实 世界在自己的头脑中表达出来。逻辑世界是人们为将存在于自己头脑中的概念 模型转换到计算机中的实际物理存储过程中的一个计算机逻辑表示模式。通过 这个模式,人们可以容易地将概念模型转换成计算机世界的物理模型。物理世 界是指现实世界中的事物在计算机系统中的实际存储模式,只有依靠这个物理 存储模式,人们才能实现利用计算机对现实世界的信息管理。 9 武汉理工大学硕士学位论文 0 l逻辑模型 图2 - 2 2 1 6 数据仓库的建模技术 数据仓库建模是数据仓库构造工作正式开始的第一步,正确而完备的数据 目前,主流的数据仓库逻辑建模技术分为两种:实体关系建模( e n t i t yr e l a t i 佃s h i p m o p g ) 以及维建模( d i m c 璐i m o d e l i n g ) 。其中维建模又分为星型模式以及 雪花模式等。实体关系建模通常用于为单位的所有数据创建一个复杂的模型。 这种方法已证实在创建高效的联机事务处理( o p ) 系统方面很有效。而维建 模针对相对独立的业务创建有针对性的分析模型,成为数据仓库的典型逻辑结 构。 ( 1 ) 星型模式 星型模式是一种多维的数据关系,由一个事实表和一组维度表组成。每个 维度表都有一个维作为主键,所有这些维组成事实表的主键,也就是说,事实 表主键的每个元素都是维度表的外键。事实表是数据仓库架构中的中央表,数 据在事实表中维护。维表是数据仓库中的表,其条目描述事实数据表中的数据, 维度数据在维度表中维护。每个维度表通过一个关键字( 主键) 与事实表关联。 图2 - 3 是星型模式的示意图。 1 0 武汉理工大学硕士学位论文 图2 - 3 星型模式 ( 2 ) 雪花模式 雪花模式是星型模式的一个扩展,由多个表定义一个或多个维度。在雪花 架构中,只将主维度与事实数据表连接。其他维度表连接到主维度表上。雪花 结构与星型结构的本质是相同的,它们都是由事实表、维度表构成。它们之间 的最大区别在于雪花模式将维度表规范化了。 2 2 数据挖掘理论 2 2 1 数据挖掘概述 数据挖掘就是从大量的、不完全的、有噪声的、模糊的数据中提取出隐含 在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。随着数据 仓库技术的发展,大量的数据已经被集成和预处理,由于数据仓库中数据的高 质量和可用信息处理设施的存在,在数据仓库中进行复杂的数据分析研究成为 可能,于是基于大型数据仓库的数据挖掘技术的研究也得到了空前的重视。把 数据挖掘建立在数据仓库之上,一方面能够提高数据仓库系统的决策支持能力; 另一方面,由于数据仓库完成了数据的收集、集成、存储、管理等工作,数据 挖掘面对的是经初步加工的数据,从而使得数据采掘能更专注于知识的发现, 有利于发挥数据挖掘技术的潜在能力;再者,由于数据仓库所具有的新的特点, 武汉理工大学硕士学位论文 又对数据采掘技术提出了更高的要求。数据挖掘技术是按企业既定营销战略或 营销策略目标,通过对数据仓库中大量业务数据进行抽取、转换、分析和其他 模型化处理,揭示隐藏的、未知的或验证已知的规律性,从中提取支撑营销决 策关键性数据的技术。 数据挖掘是一门面向应用的、很广义的交叉学科,其涉及的领域包括数据 库、人工智能、数理统计、可视化和并行计算等。很多科研人员从不同的角度 对数据挖掘进行研究,但可能会有所侧重。 数据挖掘的外延可定义为广义的数据挖掘和狭义的数据挖掘,广义的数据 挖掘用计算机作为工具,实现在大数据量下的数据分析。狭义的数据挖掘是用 自动化或启发式的方法,从数据中挖掘知识。一般我们对数据挖掘的定义都集 中在狭义的范畴。 2 2 2 数据挖掘的特点 数据挖掘技术具有以下特点: ( 1 ) 处理的数据规模十分庞大,达到g b ,t b 数量级,甚至更大。 ( 2 ) 查询一般是决策制定者( 用户) 提出的即时随机查询,往往不能形成精确 的查询要求,需要靠系统本身寻找其可能感兴趣的东西。 ( 3 ) 在一些应用( 如商业投资等) 中,由于数据变化迅速,因此要求数据挖掘 能快速做出相应反应以随时提供决策支持。 ( 4 ) 数据挖掘中,规则的发现基于统计规律。因此,所发现的规则不必适用 于所有数据,而是当达到某一临界值时,即认为有效。因此,利用数据挖掘技 术可能会发现大量的规则。 ( 5 ) 数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的 规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。 2 2 3 数据挖掘的一般步骤 ( 1 ) 数据准备 本阶段主要完成数据集。建模人员从现有的数据仓库中的物理数据模型、 源数据映像文件以及其他系统相关文件当中,提出可能与客户流失这个主题相 关的数据项,并编写数据抽取程序抽取数据。初步分析数据,进一步衍生变量, 武汉理工大学硕士学位论文 过程反复若干次,直至得到全部“满意”的数据变量。最后,将这些变量集合 成一个文件,存入数据集市中。 ( 2 ) 取样 建模人员从上步中得到的集合文件中抽取样本。 ( 3 ) 建立模型 在此阶段,建模人员在取得多份样本后,可将部分样本作为训练数据集体, 其余样本作为验证数据集。再选用最恰当的模型技术,如决策树技术,利用训 练数据集来训练并建立模型或规则集。通常对于一个数据挖掘问题类型,会有 多种方法。一些方法在数据形式上会有具体的要求。因此,常常必须返回到数 据准备阶段。 ( 4 ) 验证模型 建模人员利用验证数据集来验证前面所建立的模型,看其是否可以保证大 致相同的模型的准确性。 ( 5 ) 模型评估 此步骤将通过步骤3 、4 、5 所建立的模型作模型评分标准,将数据挖掘软 件建立的模型输出成为一个子程序,并传回挖掘主机,由主机上的模型评分主 程序来调用。 ( 6 ) 执行 对新的未知数据运用该模型,然后保留或改善模型。 以上的步骤不是一次性完成的。其中某些或者全部步骤可能要反复进行, 各个阶段的顺序也不是固定不变的,通常需要在不同阶段之间向前和向后移动 这取决于每个阶段的结果和接下来将要实施的阶段或者一个阶段的具体任务。 2 2 4 数据挖掘的体系结构 数据挖掘系统可以大致分为3 层结构,如图2 - 4 所示。第一层是数据源, 包括数据库和数据仓库。数据挖掘不一定要建立在数据仓库的基础上,但如果 数据挖掘与数据仓库协同工作,将大大提高数据挖掘的效率。第二层是数据挖 掘工具,利用数据挖掘方法分析数据库中的数据,包括关联分析、序列模式分 析、分类分析、聚类分析等。第三层是用户界面,使获取的信息以便于用户理 解和观察的方式反映给用户,可以使用可视化工具。知识库存放专业领域知识, 用于指导数据准备或数据挖掘结果的评估。 武汉理工大学硕士学位论文 藏括挖掘分析人曼 查询分析应用人员 准备数据 建立模型 期席蠢诲 谬佑,解释模型 预定义报寰 运用,巩固模型 t 。 t e 粕矾卜l ;报莩 i 艮据i 燕翌壅1i镑旰数据b 嗣艮据仓库数据3 闯隧k 一,鬈对数据集嗣 图2 - 4 2 2 5 数据挖掘中最常用的技术 在数据挖掘中最常用的技术有: 人工神经网络:仿照生理神经网络结构的非线形预测模型,通过学习进 行模式识别。 决策树:代表着决策集的树形结构。 遗传算法:基于进化理论,并采用遗传结合、遗传变异、以及自然选择 等设计方法的优化技术。 近邻算法:将数据集合中每一个记录进行分类的方法。 规则推导:从统计意义上对数据中的“如果一那么”规则进行寻找和推 导。 2 3 数据挖掘的主要功能 2 3 1 关联规则 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变 量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、 1 4 武汉理工大学硕士学位论文 因果关联。关联分析的目的是找出数据库中隐藏的关联网,从而为某些决策提 供必要支持。关联规则分析的目的是在交易数据、关系数据或其他信息载体中, 查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。 其典型应用包括购物篮分析( 哪些商品顾客多半会在一次购物时同时购买) ,交 叉销售或促销、产品目录设计等。 一 规则形式是:规则前件一规则后件 支持度,置信度 。 例如规则: a g k x ,“1 8 2 8 ,) ap a y o u t ( x ,“5 0 2 0 0 ,) - - - * c h o o s e ( x ,“动感地带a 套餐”) 3 5 ,7 5 表示:对于中国移动用户群中,有3 5 的用户是在1 8 岁到2 8 岁之间且他们每月花费支出在5 0 元到2 0 0 元前之间。这些用户当中选择动感地 带a 套餐的可能性是7 5 。 关联规则分析中常用的是a p r i o r i 算法。它的主要思想是:满足最小支持度 的项组成频繁项集:使用频繁( k 一1 ) 项集来产生候选频繁k 项集:使用数据 库扫描和模式匹配来对候选集计数:频繁项集的所有非空子集必须也都是频繁 的:使用频繁项集产生关联规则。由于需要重复地扫描数据库,因此其算法瓶颈 在于候选集的产生。 2 3 2 分类与预测 分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该 类的内涵描述。并用这种描述来构造模型,一般用规则或决策树模式表示。分 类是利用训练数据集通过一定的算法求得分类规则,可被用于规则描述和预测。 预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类 及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。 分类算法根据训练数据得到分类规则或模型,然后在测试数据上测试该模 型的准确率,如果达到要求,就可以用于未见新数据的分类。 评价一个分类算法的性能经常采用的指标有预测准确率、速度、强壮性、 可伸缩性、可解释性。其中可伸缩性是指对于大量数据时有效地构造分类模型 的能力,即在内存一定的情况下,算法运行的时间随着训练集中数据样本数目 的增加而线性增加1 1 2 1 。可伸缩性可以通过计算分类算法在渐增的数据集上的i 0 操作次数来评价。用于离散符号的分类方法最常用的是决策树和贝叶斯分类。 武汉理工大学硕士学位论文 2 3 3 聚类分析 聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不 同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以 及可能的数据属性之间的相互关系。 聚类分析输入的是一组未分类记录,这与分类模式不同,进行聚类前并不 知道将要划分成几个组和什么样的组,也不知道根据哪几个数据项来定义组。 聚类分析和分类分析是一个互逆的过程,例如在最初的分析中,分析人员根据 以往的经验将要分析的数据进行标定,划分类别,然后用分类分析方法分析该 数据集合,挖掘出每个类别的分类规则:接着用这些分类规则重新对这个集合 ( 抛弃原来的划分结果) 进行划分,以获得更好的分类结果。这样,分析人员可 以循环使用这两种分析方法,直至得到满意的结果。 聚类分析所采用的分类规则是由聚类分析工具决定的。聚类分析的方法很 多,其中包括系统据类法、分解法、加入法、动态聚类法、模糊聚类法、运筹 方法等。采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果。 2 3 4 序列模式分析 序列模式分析和关联分析法相似,其目的也是为了挖掘出数据之间的联系, 但序列模式分析的侧重点在于分析数据问的前后( 因果) 关系。运用序列模式分 析销售记录,零售商则可以发现客户潜在的购物模式,例如客户在购买微波炉 前常购买何种商品。如果将序列模式分析法用于股市分析,则可能发现如下的 规律:在5 天的交易日中,如果x 股最多只上涨1 0 ,y 股的涨幅在1 0 到2 0 9 6 之间,那么z 股在下星期上涨的概率为6 8 。 2 4 数据仓库与数据挖掘的关系 有人把数据仓库和数据挖掘的定义混淆在一起,其实数据仓库和数据挖掘是 完全不同的两个概念。数据仓库用于存储数据,目的是建立一个全局一致的数 据分析环境,把事务处理和分析处理分离开来,但数据仓库并没有把数据变为 有价值的信息。数据仓库从事务型数据库中抽取并集成得到分析型数据后,需 要各种决策分析工具对这些数据进行分析和挖掘,才能得到有用的决策信息。 1 6 武汉理工大学硕士学位论文 数据挖掘技术就具备从大量数据中发现有用信息的能力,于是数据挖掘自然成 为数据仓库中进行数据深层分析的一种必不可少的手段。毫无疑问,那些只建 立数据仓库而不进行数据挖掘的机构并不能从对数据仓库的投资中得到较好的 回报。 由于数据仓库在规模、历史数据、数据集成和综合性、查询支持等方面都 和传统的数据库有着本质的区别,所以数据仓库为数据挖掘提供了更广阔的活 动空问。一方面,数据仓库完成了数据的收集、集成、存储、管理等工作,这 样,数据挖掘面对的就是经过了初步加工的数据,从而使得数据挖掘更专注于 对知识的发现上面;另一方面,由于数据仓库所具有的新特点,又对数据挖掘 技术提出了更高的要求。所以,数据仓库技术的发展必须和数据挖掘技术有机 地结合起来。 1 7 武汉理工大学硕士学位论文 第3 章数据仓库在中国电信行业中的应用情况 3 1 目前中国电信业发展历程与发展趋势 3 1 1 电信业的发展历程和竞争格局 中国电信业过去十多年的时间经历了1 9 9 4 年中国联通成立,1 9 9 8 年信息产 业部完成重组,2 0 0 0 年中国移动从原中国电信分离,2 0 0 1 年中国卫通挂牌成立, 2 0 0 2 年原中国电信完成南北分拆,2 0 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论