(计算机应用技术专业论文)数据挖掘技术及其在电信系统应用的研究.pdf_第1页
(计算机应用技术专业论文)数据挖掘技术及其在电信系统应用的研究.pdf_第2页
(计算机应用技术专业论文)数据挖掘技术及其在电信系统应用的研究.pdf_第3页
(计算机应用技术专业论文)数据挖掘技术及其在电信系统应用的研究.pdf_第4页
(计算机应用技术专业论文)数据挖掘技术及其在电信系统应用的研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘技术及其在电信系统应用的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类号 u d c 密缴: 编号: 数据挖掘技术及其在电信系统应用的研究 t h er e s e a r c h0 fd a t am i n i n g a n da p p l i c a t i o ni n t e l e c o m u n i c a t i o n sf i e l d 学位授予单位及代码:壁壹堡王盔堂( ! q ! 竖2 学科专业名称及代码:盐箍拯廛旦堇查! q ! ! ! ! 12 研究方向:过簋扭圆鳖与道篮申请学位级别:塑 指导教师:置童塞副塾堑 研究生:壑登 论文起止时间:2 0 0 7 i 卜2 0 0 8 1 2 摘要 当今,随着国内电信业的改革,各运营商在企业大客户、长途业务、i p 业务、移 动业务等领域展开了激烈的竞争。传统的以技术为驱动、以销售产品为目的的市场战 略逐渐被以客户为中心、以满足客户需求为目的的市场战略所取代,客户资源成为了 企业竞争的焦点。 本文首先介绍了论文的研究背景、国内外的研究现状,然后介绍了数据挖掘的基 本概念,数据挖掘常用的方法,数据挖掘过程,并对数据挖掘的原理及技术进行了讨 论。再次就其在电信领域中的应用进行了分析,提出了电信领域常见的分析主题,结 合电信业务需求,分析了数据挖掘技术在通信领域的应用。本文主要采用决策树、聚 类分析和关联规则分析数据挖掘算法对电信业务系统的历史数据进行分析,并进行相 应的数据挖掘实施过程,对挖掘结果进行决策分析,为运营商的经营和决策提供了有 力的技术支持。 关键词:数据挖掘决策树聚类分析电信系统 a b s t r a c t n o w a d a y s ,w i t ht h er e f o r mo fd o m e s t i ct e l e c o m ,e v e r yo p e r a t i o nc o m p a n i e sh a v e s p r e a dd r a s t i cc o m p e t i t i o ni nm a n ya r e a s ,s u c ha sb i gc u s t o m e r so fe n t e r p r i s e ,d i s t a n c e o p e r a t i o n ,i po p e r a t i o n ,m o b i l eo p e r a t i o n ,a n ds oo n t r a d i t i o n a lm a r k e t s t r a t a g e m ,w h i c hi s f o c u so nt e c h n i q u ea n dp r o d u c t i o ns e l l ,h a sb e e nr e p l a c e db yn e wt a c t i c ,w h i c hc o n c e n t r a t e s o nc u s t o m e ra n ds e r v i c e i tm e a n st h a tc u s t o m e rr e s o u r c eh a sb e c o m et h ek e yo fe n t e r p r i s e s c o m p e t i t i o n t h et h e s i sf i r s t l yi n t r o d u c e st h er e s e a r c hb a c k g r o u n d ,a n dt h er e s e a r c ho fa ta n d a b r o a d s e c o n d l y , i n t r o d u c e st h eb a s i cc o n c e p t i o nt h a tt h ed a t am i n i n g ,t h ec o m m o n l yu s e d m e t h o do ft h ed a t am i n i n g ,t h ep r o c e s so ft h ed a t am i n i n ga n dd i s c u s st h ed a t am i n i n g p r i n c i p l ea n dt e c h n o l o g y t h i r d l y , t h ea p p l i c a t i o ni nt h ef i e l do ft e l e c o m m u n i c a t i o n sw a s a n a l y z e d ,t h ew r i t e rp u tf o r w a r dt ot h ec o m m o na n a l y s i st h e m ei nt e l e c o m m u n i c a t i o nf i e l d , c o m b i n e dw i t ht h ed e m a n do ft e l e c o m m u n i c a t i o nb u s i n e s s ,t h ea p p l i c a t i o no fd a t am i n i n gi n t e l e c o m m u n i c a t i o nf i e l db ea n a l y z e d t h i ss y s t e ma d o p t sd e c i s i o nt r e e ,c l u s t e r i n ga n a l y s i s a n da s s o c i a t i o na n a l y s i sa l g o r i t h mt oa n a l y s e st h eh i s t o r i c a ld a t ao ft h et e l e c o m m u n i c a t i o n s s y s t e m c o r r e s p o n d i n gi m p l e m e n t a t i o nd a t am i n i n gp r o c e s s ,a n da n a l y z et h er e s u l to f d a t a m i n i n g ,p r o v i d e dp o w e r f u lt e c h n o l o g ys u p p o r c f o r o p e r a t o r sp r o s e c u t i o n a n d d e c i s i o n m a k i n g k e yw o r d s :d a t am i n i n g d e c i s i o nt r e e c l u s t e r i n ga n a l y s i s t e l e c o ms y s t e m s 长春理工大学硕士学位论文原创性声明 本人郑重声明:所呈交的硕士学位论文,数据挖掘技术及其在电信系统应用 的研究是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已 经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品 成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 作者签名:土衅三月牮日 长春理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“长春理工大学硕士、博士学位论文版权 使用规定”,同意长春理工大学保留并向中国科学信息研究所、中国优秀博硕士学 位论文全文数据库和c n k i 系列数据库及其它国家有关部门或机构送交学位论文的 复印件和电子版,允许论文被查阅和借阅。本人授权长春理工大学可以将本学位论 文的全部载部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制 手段保存和汇编学位论文。 作者签名:盘盛:盟年三月4 日 指导导师签名:毖! 呈年三月卫日 第一章绪论 1 1 研究的目的和意义 数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识( 模型或规则) 的过程。 目前在商业中的应用很广泛,它是一种新的商业信息处理技术,其主要特点是对商业 数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商 业决策的关键性数据。 目前中国的电信市场主要是由三大电信运营商所占据,分别是中国移动、中国联 通、中国电信。随着中国电信行业体制的改革与重组,中国电信业的市场环境发生了 根本性的变化,国内r 趋激烈的电信市场竞争促使国内电信运营商的经营模式逐渐从 “技术驱动”向“市场驱动”、“客户驱动”转化,并要求运营商要采取以客户为中心 的策略,根据客户的实际需求提供多样化、层次化、个性化的服务解决方案。而数据 挖掘技术可以帮助运营商分析客户消费行为,识别客户特征,辅助运营商进行有效的 市场营销和客户服务。使电信运营商在客户关系管理的流程中,充分获取并利用相关 的数据信息为电信系统进行准确、及时地经营决策提供辅助支持。因此,电信运营商 需要数据挖掘技术。 目前,国内的电信企业己建有大量成熟的数据库业务系统,如计费系统、管理信 息系统( m i s ) 、网管系统等。通过这些系统,积累了大量的原始数据和各种业务处理数 据,这些数据真实地反映了电信企业各种业务环境的经济动态。而电信运营企业作为 经营电信业务的服务商又有着自己独特的客户特性与市场特性:电信业的客户具有多 元性;电信客户的需求特征上具有多样性,表现出极大的行业特征及业务量特征;电 信业的服务比重大,电信产品更新率高;另外,客户使用电信服务的随机性强,用户 稳定性差,用户对电信业务运营商的选择权多了。由于这些特征的存在,这就决定了 电信企业存在着大量的电子化数据,这也为数据挖掘奠定了技术基础。 数据挖掘技术和方法作为一种科学的数据分析方法,运用到电信系统中是非常合 适的。它能通过数据挖掘,从海量的客户数据中发现有用的数据,并建立模型,然后 对这种模型做出一定的反应、采取行动,最后将有用的数据转换成信息,信息变成行 动,行动转换成价值,并取得一定的社会效益和经济效益。 1 。2 国内外研究现状 1 2 1 国外研究现状 从数据库中发现知识( k d d ) 一词首次出现在1 9 8 9 年举行的第十一届国际联合人工 智能学术会议上雎1 。到目前为止,由美国人工智能协会主办的k d d 国际研讨会已经召开 了8 次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法 转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。并 行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发 现列为专题和专刊讨沦,甚至到了脍炙人口的程度。 ( 1 ) 算法 目前数据挖掘中基本算法的研究已经r 趋成熟,j o h nh o p f i e l d 在神经元网络方 面,b r e i m a n ,f i i d e m a n ,o l s h e n ,和s t o n e 等人在决策树方面以及h o l l a n d 和g o l d b e r g 等人在遗传算法方面所进行的开创性工作大大推进了数据挖掘技术的发展。成熟的技 术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数 据仓库环境中进入了实用的阶段口1 。 ( 2 ) 工具 1 9 9 8 年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议上有多家软件 公司展示了数据挖掘软件产品,不少软件己经在北美和欧洲的国家得到应用喁3 。 数据挖掘工具的市场一般分为三个组成部分:通用型工具、综合数据挖掘工具和 快速发展的面向特定应用的工具。 通用型工具占有最大和最成熟的那部分市场。从定义上说,是非面向特定应用的 适合于各种情况的需要,其中包括的主要工具有s a se n t e r p r i s em i n e r 、i b m i n t e l li g e n tm i n e r 、s p s sc 1 e m e n t i n e 等软件。 综合数据挖掘工具这一部分市场反映了商业对具有多功能的决策支持工具的真实 和迫切的需求。商业要求该工具能提供管理报告、在线分析处理和普通结构中的数据 挖掘能力。这些综合工具包括c o n g a ss c e n a r i o 和b u s i n e s so b j e c t s 等。 面向特定应用工具这一部分工具正在快速发展,在这一领域的厂商设法通过提供 商业方案而不是寻求方案的一种技术来区分自己和别的领域的厂商。这些工具是纵向 的、贯穿这一领域的方方面面,其常用工具有重点应用在零售业的k d i 、主要应用在保 险业的o p t i o n c h o i c e s 和针对欺诈行为探查开发的h n c 软件。 1 2 2 国内研究现状 与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量。1 9 9 3 年国家自然 科学基金首次支持该领域的研究项目。目前,国内关于数据挖掘研究工作的机构也相 继出现,如中国人民大学统计系数据挖掘中心、台湾辅仁大学管理学院创新育成中心 近几年均从事数据挖掘的研究工作。除此之外,国内的许多科研单位和高等院校竞相 开展知识发现的基础理论及其应用研究。其中,北京系统工程研究所对模糊方法在知 识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究, 华中理工大学、复旦大学、浙江大学等单位开展了对关联规则开采算法的优化和改造, 南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发 现以及w e b 数据挖掘。 从国内市场来看,中国数据挖掘软件市场增长速度较快,并且远未达到成熟和饱 和,市场潜力还很大。国内市场的d m 软件可以分为以下三类: 1 、提供数据库软件或统计分析软件的跨国大公司,凭借着先进的技术势力和雄厚 的资金支持,将产品延伸到该领域,抢占高端市场。 2 、专门做d m 软件的厂商。 3 、国内的d m 厂商一直在开发一些联机分析数据类软件,并将其作为财务套装软 件的一部分,进行捆绑销售,其服务的主体是低端市场。 随着在国内需求日趋迫切,d m 市场规模巨大,而且增长迅速。但是从以上分析可 以看出,国内的厂商并没有完整的产品,主要是利用国外的产品在各个行业进行解决 方案的实施,或者是开发报表和联机分析等功能的低端分析软件。 1 3 数据挖掘技术在电信领域应用的现状 国外电信公司参与市场竞争较早,比较善于从数据中挖掘信息,其使用数据仓库 系统进行客户分类、服务分析、话务量分析、销售代理分析、地区分析等等,了解收 入和利润的结构,找出客户特性和服务关系,获利的客户、获利的服务、制定符合客 户的服务等。了解上述信息后,对需要且尚未购买服务的客户,以营销管理的科学方 法对其进行服务销售,因为选择正确的目标客户,可以避免接触不合适的潜在客户所 产生的额外成本,客户购买率和成交率高,且后续的客户终生价值和利润贡献度增加, 达到扩大市场份额、增加利润的目的,这种科学的企业经营模式,可以了解客户、取 悦客户、持续获利,己成为国外电信公司生存的竞争优势呻1 。 下面是一些世界知名电信运营企业的数据挖掘应用情况: 英国电信采用数据挖掘手段,建立模型来确定潜在客户的购买倾向和变为用户 之后可能的价值。建立精确的客户特征以后,英国电信开发了针对于特定客户群的产 品。 沃达丰利用数据挖掘技术建立模型研究客户离网的原因,并从不同的角度来进 行市场细分。 法国电信利用数据挖掘技术在预防欺诈、客户流失分析和预测、交叉销售等各 方面都取得很多成果。 n t t 在自己的c r m 系统c o m w a r e 中使用数据挖掘的方法来分析数据和提高对客 户的管理水平。 韩国s kt e l e c o m 公司的c r m 中,应用数据挖掘技术分析客户和通话行为,预测 通话中的掉线情况。 国外知名的电信运营企业都已经建立起了自己的商业智能系统。国内的电信企业 对此也越来越重视,不少企业己经发布了经营分析系统和c r m 系统相关的业务标准, 一些地方的运营商己经成功的实现了部分功能。中国电信在一些省市开展数据仓库建 设,为进一步数据挖掘的开展打下了基础。例如,目前广东电信的视聆通上,使用了 s y b a s e 数据仓库解决方案,建设广东省新一代的多媒体网综合业务管理系统。厦门电 信的数据仓库已经成了厦门电信在开展大客户管理时得心应手、不可或缺的工具。杭 州电信则在数据仓库建成以后,己经根据决策支持的要求开展了九大主题的分析,以 帮助企业的经营决策。 但是这些应用主要集中在技术和业务的管理上,例如利用电信数据本身具有的多 维性来分析系统负载,资源使用,用户组行为,更好的利用资源和提高服务质量,通 过进行盗用模式分析和异常模式识别来扑捉盗用行为等盯1 。很少是直接应用到市场经营 活动中,产生经济效益的。而且由于经营数据是很重要的商业机密,相关文献只有应 用情况的大体介绍,具体的数据挖掘技术的内容几乎没有涉及。 国外电信公司的成功经验表明:在信息经济快速发展的当今社会,能否及时发掘 并运用大量的信息是企业能否成功的一个关键。中国电信企业已经拥有大量详实而丰 富的数据,如计费数据、客户数据、网管数据等;同时,鉴于与外界沟通的需要,企 业也购买搜集了大量的社会统计资料,如国民经济发展情况数据等疆1 。但对这些数据的 利用还仅限于简单的报表统计、平均、汇总,并未对其做出充分的利用,指标的确立 和统一也在实验阶段,数据中所隐含的大量有价值的信息并没有被充分挖掘使用,对 数据尚未做出真正意义上的数据挖掘。而且大部分电信企业还没有建成主题数据仓库, 大量的数据分散脱机保存。随着业务的开展和用户数的不断递增,数据量不断增加, 数据爆炸、知识贫乏的现象严重存在,数据量大但是利用率低。 数据挖掘在电信企业应用中存在的主要问题: 由于数据挖掘技术的复杂性,将这些现有的数据挖掘技术直接应用于电信系统还 存在着一些问题和不足,从电信企业的实施情况来看并不理想,目前在管理和经营中 大多处于可有可无的试验阶段,无法真正作为决策支持1 。主要问题表现在: 数据问题 数据挖掘的基本问题就在于数据,电信企业由于长期对用户资料的搜集不够重 视,用户有意或无意的谎报,错报信息,用户信息更改不及时等原因,导致客户资料 不全,错误率高,很难保证客户细分准确性。 目前客户信息分散在企业多个部门,缺少集中管理且索引简单,数据仓库建设 仍处于起步阶段,数据存储方式不利于数据挖掘分析。 建立客户指标体系是进行客户细分的关键环节,目前电信还没有针对各个业务 的特点和需要,建立起一套完整统一的客户指标体系。 数据挖掘方法问题 数据挖掘的性能问题,包括挖掘算法的有效性、可伸缩性和并行处理。 因为数据挖掘与专业领域和企业信息密切相关,没有现成的产品可以使用,只 能通过企业数据挖掘实践逐步积累。用于电信客户细分的很多数据挖掘方法和模型都 需要尽快地开发、验证和确立。 模式评估问题 数据挖掘的模式评估,数据挖掘系统可能发现数以千计的模式。许多模式不是 有趣的,其表示公共知识或缺乏新颖性。关于开发模式兴趣度的评估技术,特别是关 于给定用户类,基于用户的信赖和期望,评估模式价值的主观度量,存在很大挑战。 各种不同的模型如何应用,其效果如何评价。不同的人对同样的数据进行挖掘, 4 可能产生不同的结果,甚至差异很大,这就涉及到可靠性的问题。 非技术因素 根据国外的统计数据,数据挖掘及其相关项目有2 0 - 7 0 的会失败,对于非业务驱 动的项目则失败率更高,失败的关键因素除了因为技术,还有项目协调和人员等“软 因素”。在业务分析中j 特别是基于数据挖掘的经营分析过程的多个环节,人的主观辨 识和控制是应用成败的关键,这就对系统使用人员提出了很高的要求。如果没有具备 相应素质的使用和维护人员,必将导致分析系统与现实脱离,无法达到预期效果。目 前,由于数据挖掘技术的复杂性,电信企业的客户细分就多是由厂商实施的,既容易 泄漏商业机密,又与业务脱离,不但经营分析的目标难以长远,就是完成以后,系统 的生命力也会出现问题n 。 、 1 4 主要研究内容和论文结构 本课题主要研究数据挖掘技术的基本理论,并为电信系统建立分析模型,研究 了相关分析决策的数据挖掘算法。在其中使用了数据抽取、数据转换、数据加载等 先进技术。论文结构如下: 第一章首先阐述了论文的目的和意义及数据挖掘技术的发展现状; 第二章介绍数据挖掘技术的基本理论:从概念、体系结构、过程、具体算法等 方面对数据挖掘技术进行详细分析; 第三章为电信数据挖掘系统模型总体设计,及对分析主题的确定; 第四章电信系统数据挖掘模型的详细设计:包括数据抽取、数据转换、数据加 载,建立事实表、分析模型、数据挖掘宽表等; 第五章详细说明数据挖掘算法在电信领域的应用,其中包括用决策树算法对客 户流失进行分析、用聚类分析算法对电信客户进行细分、用关联规则算法分析计费 数据和经营数据之间的关系,及其这些算法应用的实践意义。 第二章数据挖掘技术的基本原理 2 1 概述 “数据挖掘 这个名字的来源有点类似于在山脉中挖掘有价值的矿藏。在商业应用 里,它就表现为在大型数据库里面搜索有价值的商业信息。这种过程需要对巨量的材 料进行详细地过滤,而且需要智能且精确地定位潜在价值的所在。科学上讲,数据挖掘 是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关 系可以用来做出预测。 数据挖掘是根据企业的既定业务目标和存在的问题,对大量的业务数据进行探索, 揭示隐藏其中的规律,将其模型化,指导并应用于实际的企业经营中。 通过对业务数据的挖掘,从中发现企业运作的本质规律,优化企业本身的运作, 或进行有效的客户关系管理。 数据挖掘与o l a p 分析、预定义报表和即席查询等有很大的区别。后三者通常是用 户对所关心的业务指标,按照己知的角度进行分析;而前者则是在业务问题和目标明 确,但考察的角度不清楚时,对数据进行探索,揭示隐藏其中的规律性,进而将其模 型化1 。 2 。2 数据挖掘方法 数据挖掘的核心模块技术历经了数十年,其中包括数理统计,人工智能,机器学 习等。今天,这些相对比较成熟的技术,再加上高性能的关系数据库引擎以及广泛的 数据集成,让数据挖掘技术在当前的数据仓库环境中进入了比较实用的阶段。 数据挖掘的方法一般分为预测型和描述型。 ( 一) 预测型( p r e d i c t i v e ) 方法通常包含以下几种: 1 ) 分类( c l a s s i f i c a t i o n ) 决策树算法( d e c i s i o nt r e e ) 设有一个数据库和一组具有不同特征的类别,该数据库中的每一个记录都被赋 予一个类别的标记,这样的数据库称为示例数据库或训练集,分类分析就是通过分 析示例数据库中的数据,为每个类别做出准确的描述,建立分析模型或挖掘出规则, 然后用这个分类规则对其它数据库中的记录进行分类。 目前已有多种分类分析模型得到应用,其中几种典型是决策树模型,关联规则 模型和神经网络模型,其中应用最多的一般是决策树算法扪。 分类要解决的问题是为一个事件或对象归类。在使用上,既可以用此模型分析 已有的数据,也用它来预测未来的数据。例如,用分类来预测哪些客户最倾向于对 直接邮件推销做出回应,又有哪些客户可能会换其它的手机服务提供商,或在医疗 领域,当遇到一个病例时,用分类来判断一下从哪些药品着手比较好。 分类模式是一个分类器,能够把数据集中的数据项映射到某个给定的类上。分类 模式往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满足的分支往 6 下走,走到树叶就能确定类别。 分类以及决策树算法在通信领域中主要应用于大客户特征的识别、客户群体的细 分、客户流失的预测与控制等方面。 2 ) 回归分析( r e g r e s s i o n ) 回归模式的函数定义与分类模式相似,其差别在于分类模式的预测值是离散的, 回归模式的预测值是连续的,回归是通过具有已知值的变量来预测其它变量的值,在 最简单的情况下,回归采用的是像线性回归这样的标准统计技术。但大多数现实世界 中的问题是不能用简单的线性回归预测的,如商品的销售量,股票价格,产品合格率 等,这些事件很难找到简单有效的方法来预测,因为要描述这些事件的变化所需要的 变量以上百计,且这些变量本身往往都是非线性的,为此,人们又发明了许多新的手 段来试图解决这个问题,如逻辑回归,决策树,神经网络等n 3 1 。 一般来说,同一个模型既可用于回归,也可用于分类,如c a r t 决策树算法既可以 用于建立分类树j 也可以建立回归树,神经网络也一样。 回归分析在移动通信领域中主要应用于业务预测等方面。 3 ) 时间序列分析( t i m es e r i e s ) , 时间序列是用变量过去的值来预测未来的值。与回归一样,它也是用已知的值来 预测未来的值。只不过这些值的区别是变量所处时间的不同,时间序列采用的方法一 般是在连续的时间流中截取一个时间窗口,窗口内的数据作为一个数据单元,然后让 这个时间窗口顺时间流滑动,以获得建立模型所需要的训练集。比如,可以用前6 天 的数据来预测第7 天的值,这样就建立了一个区间大小为7 的窗口,它支持时间序列 模式,能够根据数据随时间变化的趋势预测将来的值,也能够处理时间的特殊性质, 如一些周期性的时间定义( 星期,月,季节,年) 。 时间序列分析在通信领域中主要应用于业务预测、客户的呼叫模式分析以及网络 管理与优化等方面。 ( 二) 描述型( d e s c r i p ti v e ) 方法通常包含以下几种: 1 ) 关联分析( a s s o c i a t i o na n a l y s i s ) 关联分析,即利用关联规则进行数据挖掘。寻找数据中值的相关性,能够支持发 现同一事件中不同项目之间的关联规则。在数据挖掘研究领域,对于关联分析的研究 开展得比较深入。人们提出了多种关联规则的挖掘算法,如a p r i o r i ,s t e m ,a s i s ,d h p 等算法,关联分析的目的是挖掘隐藏的数据间的相互关系,寻找到同一个事物中出现 不同项的相关性。比如在一次购买活动中购买了不同商品的相关性,它能出现数据库 中形如“9 0 的顾客在一次购买活动中购买商品a 的同时购买商品b ”之类的知识。 数据挖掘得到的关联规则或序列模式并不是真j 下的规则,它只是对数据库中数据 之间相关性的种描述,还没有其他数据来验证得到的规则是否正确,也不能保证利 用过去的数据得到的规律在未来新的情况下仍有效。有时很难决定能利用发现的关联 规则做些什么。在采取任何行动之前,一定要经过分析和实验,即使它是利用数据挖 掘得到的知识。 关联分析在通信领域中主要应用于分析计费数据与经营数据之间的关系、客户的 呼叫模式分析、话费欺诈的早期识别等方面4 i 。 2 ) 序列关联分析( s e q u e n t i a la n a l y s i s ) 序列关联分析和关联分析相似,其目的也是为了挖掘数据之间的联系,但序列关 联分析的侧重点在于分析数据问的前后序列关系。其之间的差别是序列关联分析把数 据之间的关联性与时间联系起来,它能发现数据库中形如“在某一段时间内,顾客购 买商品a ,接着购买商品b ,而后购买商品c ,即序列a b - - c 出现的频度较高之类 的知识。序列关联分析描述的问题是:在给定交易序列数据库中,每个序列是按照交 易时间排列的一组交易集,挖掘序列函数作用在这个交易的序列数据库上,返回该数 据库中出现的高频序列,在进行序列关联分析时,同样也需要由用户输入最小可信度c 和最小支持度s 。 序列关联分析在通信领域中主要应用于话费欺诈的早期识别等方面。 3 ) 聚类分析( c l u s t e r i n g ) 聚类分析就是通过分析数据库的记录数据,根据一定的分类规则,合理地划分记 录集合,确定每个记录所在类别,通过进行聚类分析,能够有效地把数据划分到不同 的组中,组之间的差别尽可能大,组内的差别尽可能小。 与分类模式不同,聚类分析输入的是一组未分类记录,进行聚类前并不知道将要 划分为几个组和什么样的组,也不知道根据哪几个数据项来定义组。 聚类分析和分类分析是一个互逆的过程,例如在最初的分析中,分析人员根据以 往的经验将要分析的数据进行标定,划分类别,然后用分类分析方法分析该数据集合, 挖掘出每个类别的分类规则,接着用这些分类规则重新对这个集合进行划分,以获得 更好的分类结果,这样分析人员可以循环使用这两种分析方法直至得到满意的结果。 聚类分析所采用的分类规则是由聚类分析工具决定的,聚类分析的方法很多,其 中包括系统聚类法,分解法,加入法,动态聚类法,模糊聚类法,运筹方法等,采用 不同的聚类方法,对于相同的记录集合可能有不同的划分结果。 聚类分析在通信领域中主要应用于大客户特征的识别、客户群体的细分、话费欺 诈的早期识别等方面。 2 3 数据挖掘的体系结构 图2 1 展示了数据挖掘同数据仓库和数据集市及其应用结合的流程。可以首先基 于确定的业务问题和目标,由专业的数据挖掘分析人员通过数据挖掘工具对数据仓库 挖掘,找出规律,生成模型,再把这个模型应用于相关数据仓库中的数据,进而生成 报表等,供数据挖掘应用人员访问和应用数据挖掘所产生的各种结果,以了解业务和 客户状况,因而要求数据挖掘工具有同数据仓库及数据仓库的其它应用紧密集成的能 力。 8 厂、,、 准备数据,建立模型即席查询, 评估解释模型,运用模型 预定义报表 l 厂弋 上 一 数据挖掘查询报表工具 t 具 l 么 二回) 二_ 一 数据集市 数据仓库 -, 图2 1 数据挖掘结构图 数据挖掘系统的出现代表着常规决策支持系统的基础结构的转变,不像查询和报 表语言仅仅是将数据查询结果反馈给最终用户那样,数据挖掘高级分析服务器用户的 商业模型直接应用于其数据仓库之上,并且反馈给用户一个相关信息的分析结果,这 个结果是一个经过分析和抽象的动态视图,通常根据用户的不同需求而变化。基于这 个视图,各种报表工具和可视化工具就可以将分析结果展现在用户面前,以帮助用户 计划将采取怎样的行动n 引。 2 4 数据挖掘的步骤 数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过 程,通过这些模型和关系可以用来做出预测。 无论目的存在有多少种的方法和步骤,总的说来,基本数据挖掘步骤一般包括 以下四个部分:数据的准备、模型的建立、模型的验证和评价、模型的实施。 ( 1 ) 数据的准备 数据的准备包括数据的取样、数据特征探索、分析和预处理,同时要明确问题, 选择合适的数据,必要时要进行调整,选择正确的数据源对这个数据挖掘项目的成 败至关重要。 数据取样要把好数据的质量关,在任何时候都不要忽视数据的质量,即使你是 从一个数据仓库中进行数据取样,也不要忘记检查其质量如何。因为数据挖掘的目 的是要探索企业运作的规律性的,如果原始数据有误,则还谈什么从中探索规律性? 若你是从正在运行的系统中进行数据取样,则更要注意数据的完整性和有效性6 | 。 ( 2 ) 建立模型 9 这一步是数据挖掘工作的核心环节,对建立模型来说,最重要的事就是它是一 个反复的过程,需要仔细考察不同的模型以判断哪个模型对你的商业问题最有用。 模型的类型可能是一个决策树、神经网络、甚至传统的数学统计。选择什么样 的模型决定了你需对数据做那些预处理工作,如神经网络需要做数据转换,有些数 据挖掘工具可能对输入数据的格式有特定的限制等。一旦所有的数据准备好之后, 就可以开始训练你的模型了。 ( 3 ) 验证和评价模型 从上述过程中将会得出一系列的分析结果、模式或模型,评价的办法之一是直 接使用原来建立模型的样板数据来进行检验。假如这一关就通不过的话,那么决策 支持信息的价值就不太大了,一般来说,在这一步应得到较好的评价,这说明确实 从这批数据样本中挖掘出了符合实际的规律性。 另一种办法是另找一批数据,已知这些数据反映了客观实际的规律性。这次的 检验效果可能会比前一种差。差多少是要注意的,若是差到不能容忍的程度,那就 要考虑第一次构建的样本数据是否具有充分的代表性或是否是模型本身不够完善, 这时候可能要对前面的工作进行反思了,若这一步也得到了肯定的结果,那数据挖 掘应得到很好的评价了。 再一种办法是在实际运行的环境中取出新鲜数据进行检验。一般来说,使用模 型得到的如果是一个直接的结论,则当然很好,但是实际上这种情况非常的少,更 多的时候得出的是对目标问题多侧面的描述,这时就要能很好地总结其规律性,提 供合理的决策支持信息,所谓合理,实际上往往是要在所付出的代价和达到预期目 标的可靠性的平衡上做出选择。 ( 4 ) 模型的实施 模型建立并经过验证之后,有两种主要的使用方法,第一种是提供给业务人员 或分析人员做参考,通过查看和分析这个模型之后提出行动方案建议。另一种是把 此模型应用到同一数据集上,模型可以用来标识一个事例的类别,给一项申请打分 。等,还可以用模型在数据库中选择符号特定要求的记录,并用数据挖掘工具做进一 步的分析。 数据挖掘步骤示意图如图2 2 所示。 1 0 数据准备 数据 v 数据特v 分析和 取样 征分析人预处理 模型建立 f 决策树y雾霁 验证和评价 实施 结论 分析 调整 数据 关联 规则 调整 模型 提交业v 提交分y 进步 务人员 人析人员人分析 图2 2 数据挖掘的步骤示意图 2 5 与电信系统应用有关的数据挖掘算法 ( 1 ) 决策树 决策树代表着决策集的树形结构,决策树提供了一种展示类似在什么条件下会 得到什么值这类规则的方法。 决策树的基本组成部分为决策节点、分支和叶子。建立决策树的过程,即树的 生长过程,是不断地把数据进行切分的过程,每次切分对应一个问题,也对应着一 个节点,对每个切分都要求分成的组之间的“差异 衡量方式的区别,只需要把切 分看成是把一组数据分成几份,份与份之间尽量不同,而同一份内的数据尽量相同, 这个切分的进程也可称为数据的“纯化”,如果经过一次切分后得到的分组,每个 分组中的数据都属于同一个类别,显然达到历史最高水平这样效果的切分方法就是 所追求的n 引。 如图2 3 给出了一个决策树算法的示意图。白色区域表示非高价值客户,暗色 区域表示高价值客户,在决策条件( 1 ) ,( 2 ) 的作用下,高价值客户中的大部分逐 渐被分离到决策树的右侧。因此决策树的主要作用是对集合进行分类,或者是发现 某类用户的特征模式。 ii 非高价值客户i,| 高价值客户 【一 。j 图2 3 决策树算法示意图 ( 2 ) 聚类分析 聚类分析是一个具有很强挑战性的领域,它的目标就是聚类,就是用某种相似性 度量的方法将数据组织成有意义的和有用的各组数据,换句话说,就是将数据对象分 组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象 差别较大。相异度是根据描述对象的属性值来计算的,距离是经常采用的度量方式。 聚类不同于分类,在分类模块中,对于目标数据库中存在那些类是知道的,要做的就 是将每条记录分别属于哪一类标记出来;而聚类所要划分的类是未知的,不需要利用 已知类的信息,希望将所有的记录组成不同的类或者说“聚类”,并且使得在这种分 类情况下,以某种度量为标准的相似性,在同一聚类之间最小化,在不同类之间最大 化,由聚类所生成的簇是一组数据对象的集合。 因此,聚类技术是一种非监督学习的方怯,解决方案是数据驱动的,也就是说, 不依赖于任何监督学习或指导。该方法能评定内部数据的相似性,在模式识别研究的 探索阶段从一堆没有分组的信息中提取有意义的数据。 在许多应用中,可以将一个簇中的数据对象作为一个整体来对待。聚类能帮助市 场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群 的特征。根据数据的类型、样本在聚类中的积累规则和应用这些规则所用的方法,有 很多种聚类算法。 聚类分析根据利用每条记录在各个属性上不同数据的记录聚集成不同的簇。以中 国电信的客户细分为例来说,根据客户学历、性别和每月的通信费、通信次数等多种 属性,把客户分成多个层次的客户:重要客户、固定客户、潜在客户和没有价值的客 户等。 ( 3 ) 关联规则 关联规则的挖掘问题就是从事物数据中找出具有用户给定最小支持度和最小可信 1 2 度的规则。设r - - 1 1 ,1 2 i m ) 是一组物品集,w 是一组事物集。w 中的每个事物t 是 一组物品,t c r 。假设有一个物品集a ,一个事务t ,如果a c t ,则称事务t 支持物 品集a 。关联规则是如下形式的一个蕴含:a b ,其中a 、b 是两组物品,a c i ,b c i ,且anb = o 。 一般可以采用以下2 个参数来描述一个关联规则的属性: 可信度( c o n f i d e n c e ) :设w 中支持物品集a 的事务中,有c 的事务同时支 持物品集b ,则c 为关联规则a b 的可信度。简单的说,可信度就是指 在出现了物品集a 的事务t 中,物品集b 出现的概率。 支持度( s u p p o r t ) :设w 中有s 的事务同时支持物品集a 与b ,s 成为关 联规则a b 的支持度。支持度描述了a 与b 这两个物品集的并集在所有 事务中出现的概率。 这两个参数是所有关联规则最核心的评价属性。可信度是对关联规则准确度的一 个衡量,支持度是对关联规则使用范围的衡量。可信度越高,则说明该关联规则有比 较强的准确性。支持度越高,说明该关联规则使用范围越大,也越重要。 关联规则的挖掘过程可以分解为下面2 个问题: 1 找出存在于事务数据库中所有大物品集,该物品集的支持度不小于用户指定的 最小支持度。 2 利用大物品集形成关联规则。对于每个大物品集,观察其可信度是否大于用户 指定的最小可信度,如果大于,则关联规则成立。 可以看到,第一个问题是整个关联规则挖掘的关键,这个阶段常用的算法有著名 的a p r i o r i 算法。这个算法利用了大物品集的向下封闭性,即大物品集的子集必须也 是大物品集。因此,它从最小的物品集开始寻找,逐步替代,最终找到所有的大物品 集。 关联规则在市场营销中最典型的应用就是交叉销售。通过关联规则算法找到满足 一定支持度与可信度的规则后,可以利用这些规则向老客户进行深入销售,或将现有 某些业务打包销售,能显著的促进销售。 第三章电信系统数据挖掘模型的总体设计 3 1 建立独立数据挖掘库的优点 建立数据挖掘仓库、分析数据、选择变量构成了数据预处理的核心,这三步比 其它所有步骤加在一起所花的时间和精力还多,数据准备工作大概要花去整个数据 挖掘项目的5 0 一9 0 的时间和精力。 应该把要挖掘的数据都收集到一个数据库中( 或者存放在数据仓库中,通常是 以关系表的方式存储) 。当然,这并不是说一定要使用一个数据库管理系统。根据 要挖掘的数据量的大小、数据的复杂程度、使用方式的不同,有时一个简单的平面 文件或电子表格就足够了。 数据挖掘系统可以作为一个独立的系统存在。对于一个大型的企业将数据挖掘 系统建立在数据仓库的基础上是非常合理的想法,因为数据仓库已经为数据挖掘积 累了大量的历史数据,要将这些数据充分发挥作用,就需要一个良好的数据挖掘系 统1 引。 但是,一般并不直接在公司的数据仓库上进行数据挖掘,原因有以下几点: ( 1 ) 数据仓库中的数据量级很大,许多数据并不是数据挖掘问题所关心的。 ( 2 ) 数据挖掘需要的信息涉及的方面很广,这些信息可能存放在数据仓库的许多 表中,如果直接在数据仓库中挖掘,将使数据的访问性能受到影响。 ( 3 ) 数据挖掘需要反复进行,不断地对模型进行优化。 ( 4 ) 在数据挖掘过程中需要对变量进行转化,比如神经网络只能处理数值型的变 量,对于非数值型的变量需要转化,而数据仓库不支持更新操作。 ( 5 ) 多个数据挖掘的主题可能同步进行,如果直接在数据仓库中进行,数据仓库 需要增加相应的控制机制。 ( 6 ) 数据仓库系统还有其它的工作,比如定期的数据刷新对o l a p 系统的支持等。 因此有必要从数据仓库中抽取出需要的数据单独存放在数据挖掘库中( 如图 3 1 ) ,这样可以达到以下目的: 数据量就大大地减小了; 多个数据挖掘主题可以并行的进行; 多个数据挖掘主题在物理上分开,对数据的更新互不影响; 数据挖掘的结果可以回写迸数据仓库,供数据挖掘工具展现使用。 1 4 图3 1 建立独立的数据挖掘库 3 2 电信企业分析主题的确定 在电信企业中,现有的业务数据库系统一般包括客户( 服务) 数据库、网管数据 库、计费数据库、账务数据库、市场信息数据库、营销信息数据库等n9 | ,根据电信业 务和电信运营的需求,可以将电信公司涉及的主题划分为: ( 1 ) 客户发展情况分析 客户发展主要是对客户群体进行分类后,从不同的角度展现电信公司提供服务的 客户数量情况。划分的角度可以按照客户本身的自然属性,比如客户性别、年龄、客 户入网时间、客户的类型( 公费、私人等) 等。也可以按照客户的扩展属性进行划分, 比如客户的信用度( 客户信用度是电信公司根据该客户以往的交费情况对客户的信用 程度的一个综合估计) 、客户的价值( 客户价值是根据客户以往的话费情况,该客户 对公司的贡献程度的一个评定) 、客户的流失概率( 客户流失就是指客户不再使用本 电信公司的服务,而使用其他电信公司的服务) 、客户的挽留价值( 客户挽留价值是 指如果电信公司能够挽留一个很可能流失的客户,这将为公司带来多大的价值,客户 的挽留价值可以通过客户价值恶化流失概率来衡量,客户价值高并且流失概率大的客 户,其挽留价值高) 。 分析的主要指标包括客户总量分析、新增客户分析、客户流失分析、客户行为分 析等。 通过对定时段的新增客户进行分析,能够对相应群体的潜在客户采取有针对性 的发展策略,使其尽快成为潜在用户。 ( 2 ) 收益情况分析 收益分析主要是通过不同的角度对电信企业的收益情况进行分析。收益分析的角 度可以按照客户的自然属性和扩展属性划分,也可以按照电信公司的业务运营( 品牌、 交费方式) 进行划分,还可以按照机构设置、地理角度对收益进行分析。 、 另外,从收益的类型和呼叫的类型对收益进行划分也能反映一些情况。比如,在 移动业务上,将收益类型分成通话和短信,在通话中又可划分成本地通话、长途通话、 漫游通话,长途又可以划分成国际长途和国内长途,漫游通话可以划分成省内、省际、 国际漫游等。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论