已阅读5页,还剩79页未读, 继续免费阅读
(控制理论与控制工程专业论文)电信数据挖掘的数据质量评估技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 近年来,数据挖掘作为海量数据中知识提取的有效手段,已广泛应用于电 信领域,如话费欺诈分析、客户细分、客户流失预测、交叉销售等。然而,现 实中的电信数据往往质量较差,不能满足数据挖掘的要求,导致数据挖掘在电 信中应用的成功案例较少,数据质量低下已成为制约数据挖掘在电信行业应用 的主要瓶颈之一,因此,在进行数据挖掘之前,有必要进行数据质量评估,以 衡量挖掘的可行性,避免时间和精力的浪费。对于数据质量评估,虽然前人已 有较多的研究成果,但大部分集中在框架理论,较少涉及特定的行业背景和具 体应用,而面向特定挖掘主题的数据质量评估,尚未有专门的文献讨论。本文 针对电信数据挖掘的常用主题一一欠费挖掘,在深入研究缺失和离群对数据挖 掘影响的基础上,对面向数据挖掘的数据质量评估技术展开研究,具体的研究 工作如下: 1 对于缺失评估,提出类分布c d ( c l a s sd i s t r i b u t i o n ) 的概念,以衡量各 个输入属性和目标属性之间的关联度,基于此,提出类分布差异的属性加权算 法c a w a ,算法能够区分不同输入属性对分类结果的重要性,并由此提出基于 属性加权的缺失评估算法a m e a ,以实现数据的缺失评估。实验结果表明,该 评估算法能够合理量化缺失对挖掘结果的影响。 2 对于离群评估,针对电信数据的特点,尤其是欠费数据非平衡的特性, 分析了非平衡数据中的离群点对分类结果的影响,并结合超图离群检测( h o t ) 算法,提出离群度o d ( o u t l i e rd e g r e e ) 的概念,基于此,提出非平衡离群评估 算法i o e a ,以实现数据的离群评估。实验结果表明,该离群评估算法能够合 理量化离群对挖掘结果的影响。 3 在缺失评估和离群评估的基础上,结合电信欠费数据挖掘本身的特点, 提出一个较为完整的数据质量评估体系,该体系由缺失评估和离群评估两部分 组成,并在实验的基础上,结合电信行业专家经验,给出评估得分向量的参考 值。实验结果表明,该参考值能够对挖掘的可行性分析提供有意义的指导。 关键词:电信、数据挖掘、欠费主题、数据质量评估、缺失值,非平衡、离群 度 i i i a b s t r a c t i nr e c e n ty e a r s ,a sa ne f f e c t i v em e t h o do fk n o w l e d g ee x t r a c t i o n ,d a t am i n i n gh a s b e e nw i d e l yu s e di nt h ef i e l do ft e l e c o m m u n i c a t i o n ,f o re x a m p l e ,t e l e p h o n ef e e f r a u dd e t e c t i o n ,c u s t o m e rs u b d i v i s i o n ,c u s t o m e rc h u r np r e d i c t i o n ,c r o s ss e l l i n g ,e t c h o w e v e r , t e l e c o md a t ai su s u a l l yo fp o o rq u a l i t y , w h i c hc a nn o tm e e tt h e r e q u i r e m e n t so fd a t am i n i n g ,a n dt h a ti sw h yt h e r ea r es of e ws u c c e s s f u lc a s e so f t e l e c o md a t am i n i n g p o o rd a t aq u a l i t yh a sa l r e a d yb e e nt h eb o t t l e n e c k o fd a t a m i n i n g sa p p l i c a t i o nt ot h ef i l e do ft e l e c o m m u n i c a t i o n ,s oi t i sn e c e s s a r yt od ot h e d a t aq u a l i t ya s s e s s m e n tt om e a s u r et h ea v a i l a b i l i t yo fd a t am i n i n g ,a n dt h u st oa v o i d t h eu n n e c e s s a r yw a s t eo ft i m ea n de n e r g y f o rd a t aq u a l i t ya s s e s s m e n t ,t h e r ea r e m a n yr e s e a r c ha c h i e v e m e n t so nt h a ts u b j e c t ,b u tm o s to ft h e mf o c u so nt h ef l a m e t h e o r y , w h i c ha r es e l d o mr e l a t e dt os p e c i f i cb u s i n e s sb a c k g r o u n d sa n da p p l i c a t i o n s t i l ln o w , t h e r ei ss t i l ln os p e c i a l i z e dl i t e r a t u r ed i s c u s s i n ga b o u ts p e c i f i e dm i n i n g s u b j e c to r i e n t e dd a t aq u a l i t ya s s e s s m e n t a i m i n ga ti n s o l v e n c ym i n i n g ,w h i c hi so n e o ft h em o s tc o m m o n l yu s e ds u b j e c t so ft e l e c o md a t am i n i n g ,b a s e do nd e e pr e s e a r c h o fh o wm i s s i n gv a l u e sa n do u t l i e r s a f f e c tt h ec l a s s i f i c a t i o nr e s u l t ,t h i st h e s i s c o n d u c t sar e s e a r c ho nd a t am i n i n go r i e n t e dd a t aq u a l i t ya s s e s s i n gt e c h n i q u e s t h e m a i nr e s e a r c hw o r ki sl i s t e da sf o l l o w s 1 f o rm i s s i n ge v a l u a t i o n ,t h ec o n c e p to fc l a s sd i s t r i b u t i o ni sp r o p o s e dt o m e a s u r et h er e l a t i o n s h i pb e t w e e na ni n p u ta t t r i b u t ea n dt h et a r g e ta t t r i b u t e ,a n d b a s e do nt h a t ,ac l a s s d i s t r i b u t i o n - b a s e da t t r i b u t ew e i g h t i n ga l g o r i t h m ( c a w a ) , w h i c hc a nd i s c r i m i n a t et h ei m p o r t a n c eo fd i f f e r e n ti n p u ta t t r i b u t e s ,i sp r e s e n t e d b a s e do nc a w a ,a na t t r i b u t e - w e i g h t - b a s e dm i s s i n ge v a l u a t i o na l g o r i t h m ( a m e a ) i s p r e s e n t e dt or e a l i z em i s s i n ge v a l u a t i o n t h ee x p e r i m e n tr e s u l t ss h o wt h a tt h i s m i s s i n ge v a l u a t i o na l g o r i t h mc a nr e a s o n a b l ym e a s u r et h ea f f e c t st om i n i n gr e s u l t s c a u s e db ym i s s i n gv a l u e s 2 f o ro u t l i e re v a l u a t i o n ,a i m i n ga tt h ec h a r a c t e r i s t i c so ft h et e l e c o md a t a , e s p e c i a l l yt h ei m b a l a n c e n e s so fi n s o l v e n c yd a t a ,t h ea f f e c t st oc l a s s i f i c a t i o nr e s u l t s c a u s e db yo u t l i e r si ni m b a l a n c e dd a t a s e t sa r ea n a l y z e d ,a n dt h ec o n c e p to fo u t l i e r v d e g r e e ( o d ) i sp r o p o s e db a s e do nt h ec o m b i n a t i o no fh y p e r - g r a p ho u t l i e rt e s t ( h o t ) a l g o r i t h m b a s e do nt h a t , a l ll m b a l a n c e do u t l i e re v a l u a t i o na l g o r i t h m ( i o e a ) i sp r e s e n t e dt or e a l i z eo u t l i e re v a l u a t i o n t h ee x p e r i m e n tr e s u l t ss h o wt h a t t h i so u t l i e re v a l u a t i o na l g o r i t h mc a nr e a s o n a b l ym e a s u r et h ea f f e c t st om i n i n gr e s u l t s c a u s e db yo u t li e r s 3 b a s e do nm i s s i n ge v a l u a t i o na n do u t l i e re v a l u a t i o n ,c o m b i n e dw i t ht e l e c o m i n s o l v e n c yd a t am i n i n g so w nc h a r a c t e r i s t i c s ,ac o m p a r a b l yc o m p l e t ed a t aq u a l i t y a s s e s s i n gs y s t e mi sp r e s e n t e d t h i ss y s t e mi sc o m p o s e do fm i s s i n ge v a l u a t i o n s u b - s y s t e m a n do u t l i e re v a l u a t i o n s u b s y s t e m b a s e d o i lt h ee x p e r i m e n t s , c o m b i n e dw i t ht h ee x p e r i e n c eo ft e l e c o me x p e l s ,ar e f e r e n c ev a l u eo fa s s e s s i n g p o i n tv e c t o ri sg i v e n t h er e s u l t so ft h ee x p e r i m e n ts h o wt h a tt h i sr e f e r e n c ev a l u e c a np r o v i d em e a n i n g f u lg u i d a n c et ot h em i n i n gf e a s i b i l i t ya n a l y s i s k e y w o r d s :t e l e c o m ,d a t am i n i n g ,i n s o l v e n c y , d a t aq u a l i t ya s s e s s m e n t ,m i s s i n g v a l u e ,i m b a l a n c e dd a t a ,o u t l i e rd e g r e e v l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谓 的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得逝姿盘堂或其他教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示谢意。 靴敝储獬:珈乞彳獬嗍一p 钙月f 帅 学位论文版权使用授权书 本学位论文作者完全了解逝姿太堂 有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权澎望盘堂可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名跏荔彳 签字同期:m 矿年月fp 日 导师签名: 签字只期:沙- 年;月r 同 学位论文作者毕业后去向: 工作单位:冲夙矽云扫弓;歧,司 通讯地址:0 教三尔扔嘲占搿路吩 电话:t 弓阳;6 1o 肇t 。 邮编: 雩t 岁- oq 致谢 值此论文完成之际,谨向两年多来关心和帮助过我的人表示衷心的感谢。 感谢我的导师褚健教授,褚老师渊博的学识、严谨的治学态度一直感染着 我,同时也感谢褚老师为我们搭建了广阔的研究平台,创造了非常便利的实验 条件和宽松的研究环境。感谢我的导师苏宏业教授,苏老师开阔的研究视野、 精益求精的研究态度深深影响着我,苏老师的谆谆教诲定会使我受益终身。感 谢徐巍华副教授在学习上给予我的指导和帮助,徐老师对工作认真负责的态度 和对学生无微不至的关怀给我留下了深刻的印象。 感谢浙江大学智能系统与控制研究所数据挖掘研究小组的其他成员:渠瑜 师兄、张均峰师兄、郭立超师兄、王继丽师姐、胡锴师兄、王春玉、陈鹏,正 是周期性的小组讨论开阔了我的思维,并督促我不断创新和进步。同时感谢张 英师兄在研究方向上的关心和帮助。 感谢我的父母,是你们无私的爱伴我度过十多年求学道路上的段段欢乐和 艰难的时光。 王晓华 2 0 1 0 年元月 于求是园 1 绪论与综述 摘 要:本章对数据挖掘技术进行全面综述,简要介绍数据挖掘的概念、分类 和应用;然后列举并介绍了数据挖掘在电信行业的应用,介绍的内容 主要包括应用的分类和应用的现状;最后简要介绍数据质量评估的背 景和意义,以及数据质量评估的研究现状,指出该领域已有的研究成 果和不足,以及本论文所研究的课题的必要性。 关键词:数据挖掘、电信、数据质量评估、综述 1 1 引言 随着电信行业的飞速发展及行业内部竞争的加剧,数据挖掘作为知识发现 的有效工具,己广泛地用于话费欺诈分析( t e l e p h o n ef e ef r a u da n a l y s i s ) 】、客 户细分( c u s t o m e rs e g m e n t a t i o n ) t 6 m 1 、客户流失预测( c u s t o m e rc h u m p r e d i c t i o n ) 1 3 - | 8 、交叉销售( c r o s ss e l l i n g ) 1 1 9 - 2 2 1 等领域。电信行业有着丰富的数据 资源,但由于数据采集系统人为和非人为的扰动,造成各个数据源的数据质量 参差不齐,加之数据仓库的e t l ( e x t r a c t i o n - t r a n s f o r m a t i o n l o a d i n g ,即数据的 抽取、转换和加载) 【2 3 - 2 4 1 机制本身存在的问题,导致在数据集成 2 5 - 2 7 1 时产生数据 缺失和错误,造成数据的整体质量不高,从而影响挖掘结果。因此,合理量化 这种影响,对数据质量做出评估,对分析数据挖掘的可行性具有重要意义。 1 2 数据挖掘研究概述 1 2 1 数据挖掘的概念 数据挖掘又常被称为数据库中的知识发现,u s a m af a y y a d 2 8 1 等对其下的定 义为:从大量数据中获取有效的、新颖的、潜在而有用的、最终可理解的信息 的非平凡过程,这些信息的表现形式有概念、规则,模式等。数据挖掘是一门 交叉学科,其中融合了统计学、机器学习、数据库和数据仓库技术等多个领域 的研究成果,为海量数据中的知识提取提供了一整套面向不同需求的算法。 数据挖掘是一门实用性的学科,其主要特点是对海量数据进行抽取、转换、 浙江大学硕士学位论文 分析等处理,并从中归纳出有趣的模式或规律辅助决策【2 9 1 ,因此,数据挖掘的 产生和发展是和数据库的发展密切相关的。二十世纪六七十年代,数据库技术 处于发展的初期,数据量相对较小,利用结构化查询语言s q l 已经基本能够满 足事务处理和数据分析的需要;从二十世纪八十年代开始,随着先进数据库系 统3 0 1 、基于w e b 的数据库系统 3 1 - 3 2 1 和数据仓库 3 3 - 3 4 1 的诞生和迅速发展,数据量 急剧增加,数据分析的要求也变得越来越复杂,这就迫切需要一套从海量数据 中提取知识的方法论,因此,数据挖掘作为一门独立的学科应运而生。图1 1 展示了数据挖掘和数据仓库的联系,从图中可以看到,数据仓库是数据挖掘的 基础。 外部懑 龟 数据湄 监控与管理 口口 数据榘币 工具 一 图1 1数据仓库与数据挖掘 确切地说,数据挖掘只是数据库中的知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ,简称k d d ) 的一个子过程,但却代表着获取知识的动态过程,因此, 常将整个知识发现的过程称为数据挖掘【3 5 1 。由图1 2 可知,整个知识发现的过 程是由若干挖掘步骤组成,而数据挖掘仅仅是其中的一个主要步骤。整个知识 发现的主要步骤有: ( 1 ) 数据清洗( d a t ac l e a n i n g ) :清除噪声和无关挖掘主题的数据; ( 2 ) 数据集成( d a t ai n t e g r a t i o n ) :将来源于多个数据源的相关数据进行组合; ( 3 ) 数据转换( d a t at r a n s f o r m a t i o n ) :将数据转换为易于挖掘的数据存储形 式; ( 4 ) 数据挖掘( d a t am i n i n g ) :知识发现的一个核心步骤,用智能的方法从海 2 1 绪论与综述 量数据中提取数据模式或规律; ( 5 ) 模式评估( p a t t e me v a l u a t i o n ) :依据一定的评估标准从挖掘结果筛选出 具有实际指导意义的模式; ( 6 ) 知识表示( k n o w l e d g ep r e s e n t a t i o n ) :利用可视化和知识表达技术,对所 提取的知识进行展示。 图1 2 数据库中的知识发现( k d d ) 流程示意图 1 2 2 数据挖掘的分类和应用 数据挖掘技术涵盖的范围很广,可以用来解决各类不同的实际问题,下面 从数据挖掘的任务和功能这两个不同的角度对数据挖掘进行分类。 首先,从数据挖掘任务的角度对数据挖掘进行分类。数据挖掘是以数据挖 掘任务3 6 1 为单位的,一个数据挖掘任务走完数据挖掘的整个流程,其中包含了 挖掘的各个环节,如图1 - 2 所示。数据挖掘任务可以分为描述和预测两类【3 7 1 : 描述性的挖掘任务刻画数据的一般特性,是对数据中所蕴含的规则的描述,或 者根据数据的相似程度将数据分成若干组;预测性挖掘任务是在当前数据的基 础上,对未来数据的某种行为做出预测,所使用的数据都是可以明确知道结果 的。描述和预测的主要区别在于:描述是静态的,是抓取数据的主要特征,并 加以归纳和总结;预测是动态的,是指通过学习,将当前学到的知识推广到未 来,是更为高级的一种知识提取形式。 其次,从数据挖掘功能的角度对数据挖掘进行分类。根据数据挖掘的不同 3 浙江人学硕士学位论文 功能,可将数据挖掘分成以下几判2 9 】: ( 1 ) 概念描述( c o n c e p td e s c r i p t i o n ) :概念描述3 8 - 3 9 1 是数据挖掘最简单和直接 的功能,它指的是以汇总的、简洁的、精确的方式描述数据库中的大量 的细节数据,以方便用户通过数据做出决策。通常可以通过数据特征化、 数据区分、数据特征比较等方法得到概念描述,也可通过一些统计学的 方法对数据进行描述。 ( 2 ) 关联分析( a s s o c i a t i o na n a l y s i s ) :关联分析是指从大量数据中发现项集 之间有趣的关联。关联分析广泛地应用于购物篮4 0 域事物数据分析中, 可以有效地帮助商家制定许多市场营销方面的决策,使他们知道哪些物 品或服务应该被捆绑在一起销售,以提高销售额,“啤酒和尿布”的例 子是关联规则最具代表性的应用。 ( 3 ) 分类和预澳1 ( c l a s s i f i c a t i o na n df o r e c a s t ) :分类和预测是两种性质类似的 数据分析形式,因为两者都是根据当前数据行为预测未来的数据行为, 所不同的是,分类通常预测的是类标签,类标签通常是离散值,而预测 通常用于对连续值的预测,例如对某个连续属性的缺失值做出估计。分 类是数据挖掘最重要的功能,其实际应用也最为广泛。 ( 4 ) 聚类分析( c l u s t e r i n g ) :聚类和分类的功能类似,都是预测类标签,但从 学习方式的角度看,两者的实现机理却是相反的;聚类不依赖任何先验 知识,只根据数据的某些特征来定义数据之间的距离,如使用最简单的 欧式距离,从而衡量数据之间的相似度,将相似度大的归入一类;因此, 通常将分类称作有指导的学习,而将聚类称作无指导的学习。 ( 5 ) 离群点分析( o u t l i e ra n a l y s i s ) :通常称那些远离大多数点的少数点为离 群点;针对数据集中的离群点,一般的做法是将其视为噪声或异常而丢 弃,但在如故障诊断、欺诈检测等应用中,离群点本身可能是非常重要 的信息,因此,如何检测离群点并对其含义进行合理解释也是数据挖掘 的重要的研究方向之一。 ( 6 ) 演变分析( e v o l u t i o na n a l y s i s ) :数据演变分析是对行为随时间变化的对 象的规律或趋势的描述并建模。这种分析包括时间序列数据分析【4 i 、 4 1 绪论弓综述 序列模式匹配【4 2 4 4 1 和基于相似性的数据分析 4 5 - 4 q 。通过这种分析,可以 识别整个股票市场和特定公司的股票演变规律4 7 1 ,从而帮助预测股票 市场价格的未来走向,支持股票投资者进行决策。 在实际的工程应用中,往往根据实际作用把挖掘得到的模式细分为:关联 模式、分类模式、回归模式、聚类模式、时间序列模式等等。分类模式和回归 模式是使用最普遍的模式,两者都是通过对当前数据建模,以对数据的未知属 性质值做出预测,所不同的是,分类针对离散属性,而回归针对连续属性。分 类模式、回归模式、时间序列模式也被认为是受监督知识,因为在建立模式前 数据的结果是已知的,可以用来检测模式的准确性,模式的产生是在先验知识 的指导下进行的;一般在建立这些有监督模式的时候,使用其中一部分数据作 为样本,用另一部分数据来检验和校正模式,因此,这两部分数据分别称作训 练数据集和检验数据集。聚类模式、关联模式、序列模式则是非监督知识,因 为在模式建立前的结果是未知的,模式的产生不受任何监督,没有任何先验知 识的指导。通过这些模式,我们一般可以从中获得广义型知识( g e n e r a l i z a t i o n ) 、 分类型知识( c l a s s i f i c a t i o n ) 、预测型知识( p r e d i c t i o n ) 、关联型知识( a s s o c i a t i o n ) ; 偏差型知, g ( d e v i a t i o n ) 等类型的知识。 数据挖掘技术诞生于实际应用,由此决定它是一门实践性的学科。目前, 在很多重要的领域,数据挖掘都广泛地应用于其中,发挥着积极的促进作用, 尤其是在如银行 4 8 - 5 0 】、电信【1 之2 1 、保险1 5 1 1 、交通1 5 2 1 、零售1 5 3 1 等商业应用领域, 更是离不开数据挖掘。数据挖掘能够解决许多典型的商业问题,其中包括:客 户分群睁2 】、数据库营销 5 4 - 5 6 、交叉销售 1 9 - 2 2 等市场分析行为,以及客户流失 预测【j 3 - t s 、客户信用评估5 7 1 、信用卡欺诈检测【5 8 1 、股票价格分析与预测【4 7 1 、金 融投资风险分析5 9 1 、购物篮分析 4 0 , 6 0 等。图1 3 描述了数据挖掘在解决具体 的商业问题时所遵循的一般流程。 在统计和机器学习领域中也存在许多数据挖掘系统。另外,将数据仓库、 联机事务处理( o l t p ) 、联机分析处理( o l a p ) 和数据挖掘技术结合是近期数据库 发展的一个趋势。数据仓库和数据挖掘都可以完成对决策技术的支持,相互间 有一定的内在联系,两者集成,可以有效地提高系统的决策支持能力。目前, 5 浙江人学硕士学位论文 电信行业已经逐步建立起数据仓库系统,在数据仓库的基础上将逐步建立如下 数据挖掘专题:客户价值模型、客户信用等级模型、客户流失预测模型、交叉 销售模型、营销计划预演模型和客户细分模型等。数据挖掘在电信中的应用如 图l _ 4 所示。 图1 3c r i s p d m l 6 1 】的参考模型 数据、数据挖掘任务和数据挖掘方法的多样性和复杂性给数据挖掘提出了 许多具有挑战性的课题。数据挖掘语言的设计,高效、准确的挖掘算法和挖掘 系统的开发,交互和继承的数据挖掘环境的建立,以及应用数据挖掘技术解决 大型应用问题,都是目前数据挖掘研究人员、系统和应用开发人员所面临的主 要难题。针对以上课题,数据挖掘产生了很多研究分支,主要有:数据挖掘与 数据库技术、数据仓库和w e b 数据库系统的集成、可伸缩的数据挖掘算法、数 据挖掘的应用、数据挖掘语言的标准化实现、数据挖掘的可视化、对于复杂数 据类型进行挖掘的新方法、数据挖掘中的隐私保护与信息安全等。 6 图1 4 数据挖掘在电信行业的应用 1 绪论与综述 1 3 数据挖掘在电信行业的应用 1 3 1 数据挖掘在电信中的应用分类 数据挖掘是由其应用的需求所驱动的,每一个数据挖掘工程都有一个挖掘 主题,描述挖掘目标,指导整个挖掘过程。电信企业是典型的以数据为驱动的 服务型企业,丰富的数据资源以及行业内的激烈竞争,促使数据挖掘在该行业 得到了较为广泛的应用。数据挖掘在电信行业中的应用通常使用挖掘主题来分 类,由于电信业务的复杂性和多样性,产生了许多电信数据挖掘主题,下面对 其中常见的主题做一简要的介绍。 ( 1 ) 客户欺诈识另1 ( c u s t o m e rf r a u dd e t e c t i o n ) :指根据历史的客户欺诈数据 建立用户属性、服务属性和客户消费数据与其欺诈可能性关联的模型, 对每个客户在未来实施欺诈的可能性进行量化,以达到客户欺诈的识别 和预防。欺诈识别是数据挖掘在电信中最为主要的应用之一,它的兴起 缘于电信欺诈行为在电信业的普遍存在和不断扩张,以及给电信运营商 造成的越来越大的损失。本文重点研究的客户恶意欠费欺诈预测便是客 户欺诈识别中的一项重要内容。 ( 2 ) 客户流失预测( c u s t o m e rc h u mp r e d i c t i o n ) :指通过分析客户的历史行为 数据,对客户的忠诚度做出评估,判断客户流失的可能性大小。客户流 失的广泛应用是因为电信行业,尤其是电信运营商之间日趋激烈的竞 争。竞争是电信市场的未来趋势,尽可能多地争取新客户和保留老客户 是电信市场营销的两大重要内容,而客户流失预测是在为服务后者的基 础上兴起的,它的主要作用是给出了需要被挽留的客户范围,避免了营 销手段的盲目性造成的成本浪费。 ( 3 ) 客户细分( c u s t o m e rs u b d i v i s i o n ) :指按照一定的标准将电信企业的现有 客户划分为不同的群体,采取“分而治之”的策略,针对不同的客户群 采用不同的营销手段,一方面可以节省营销成本,另一方面能够达到更 优的营销效果。许多营销者认为,行为变量,如场合、用户地位、使用 率、忠诚度、购买阶段及购买态度,是构建细分市场的最佳起点,而历 7 浙江人学硕士学位论文 史的电信客户行为数据正好记录了以上的这些关键信息,数据挖掘正好 提供了处理和分析这些信息的有力手段。 ( 4 ) 交叉销售( c r o s ss e l l i n g ) :指通过分析电信各类产品之间的关联,开发 各类产品的套餐捆绑策略,并且有针对性地对老客户销售其尚未使用过 的相关产品。与客户细分类似,交叉销售也是有针对性地进行销售,是 重要的现代营销策略之一,它并不是简单地将客户未购买的产品推销出 去,而是根据每个个体的行为特征,判断其已购买的和哪些未购买的产 品有较大的关联,并将那些有较大关联的未购买产品推销给该客户。 以上四个挖掘主题在电信数据挖掘的应用中最为常见,除此之外,客户的 消费模式分析、客户盈利能力分析、目标客户定位、盗用模式分析和异常模式 分析也在电信行业得到了应用。随着电信行业中新问题的不断涌现,新的挖掘 主题也会应运而生。 1 3 2 数据挖掘在电信中的应用现状 随着电信市场垄断格局的打破,各个电信企业间的竞争日趋激烈,谁能提 供更好的服务,谁就能占领市场,甚至重新获得行业的垄断地位。因此,构建 其经营分析系统,充分利用其业务支撑系统中每天产生并存储的大量历史数据, 实现对信息的深加工和处理已成为当前电信企业系统建设关注的焦点。近几年 来,国内外的许多电信企业已经完成从“以产品为中心”到“以客户为中心” 的经营理念的转变,利用数据挖掘进行分析以辅助决策,推动自身的现代化经 营和内部管理。 在国外,数据挖掘在电信行业中已有较多的应用实例【6 2 1 。 美国西部电信公司( u sw e s t ) 是美国最大的长途电信运营公司之一,其拥 有的客户数量超过2 0 0 0 万。该公司为了进一步增强其目标市场战略,使用s a s 的企业数据挖掘e n t e r p r i s em i n e r 软件进行经营分析。u sw e s t 利用销售活动 管理软件,配合s a s 的e n t e r p r i s em i n e r ,使营销专家能够对列入目标的销售活 动进行规划、执行及评估,这样既有利于消除销售人员对客户的全部数据进行 评分,减轻了销售人员的负担,同时也减少了手工操作所造成的人为错误,使 得公司的市场营销周期大幅缩短。由于能够对市场进行更加细致和高度目标化 8 1 绪论与综述 的划分,u sw e s t 得到了更高的营销投资回报,增强了自身的盈利能力。 老牌电信运营商( ( 财富5 0 0 强企业之一的英国电信( b r i t i s h t e l e c o m ) 通过 数据挖掘的手段建立模型,来确定潜在客户的购买倾向和他们变为用户之后可 能带来的价值,从而实现从市场营销预算中获得最大的价值。英国电信的“商 业高速公路”的目标为小型商业客户;通过使用s p s s 公司的著名数据挖掘软 件产品c l e m e n t i n e ,英国电信较为成功实现了其“商业高速公路”活动的数据 分析和模型建立方面的探索。通过应用该系统,英国电信更好地了解了客户及 其在电信市场的行为特征,向销售人员和营销活动提供了“最佳客户”清单, 有针对性地进行营销活动,其直邮活动的回应率提高了1 0 0 。 比利时著名的电信运营商比利时电信( b e l g a c o m ) 购买了新型t e r a d a t a w a r e h o u s e 数据仓库解决方案,使用数据仓库建立了客户信息系统,其数据仓 库中拥有超过l 万亿字节的历史数据,其中包含了详细的电话通信记录。通过 数据挖掘手段,比利时电信能够进行欺诈检测,从而迅速地发现异常电话以及 具有强烈欺诈性的通话方式,这样就能够在这些电信欺诈方式给企业带来重大 经济损失之前采取一系列措施加以终止。 市场营销 包括和经历事件 图1 4 某市电信经营分系统的逻辑模型 相对于国外的相对较为成熟的应用,电信数据挖掘在国内的研究与应用还 处于刚刚起步的阶段,但也不乏一些较为成功的实例。厦门电信采用c a 数据 9 浙江大学硕十学位论文 仓库构建了电信大客户关系管理( c r m ) 系统,对其管辖范围内大客户的消费习 惯和消费偏好进行数据挖掘,为其管理层做出营销方面的决策提供了较科学的 依据。除此以外,近年来,中国电信运营业的b o s s ( b u s i n e s s & o p e r a t i o ns u p p o r t s y s t e m ) ,即业务运营支撑系统的市场规模占我国主要电信运营商设备投资总额 的份额越来越大,运营商的日常运营也越来越离不开b o s s 系统;作为中国的 两大主流运营商,中国电信和中国移动高举b o s s 建设大旗,其目的是为了提 高计费结算、营业帐务、客户服务、决策支持等能力,希望通过固定报表、专 题分析、多维分析、数据挖掘等多种数据分析的手段帮助电信企业有效遏制存 量流失,激发收入增量,其经营方式也将实现从粗放式到精细化的转变,顺应 了现代的经营管理理念。 1 4 数据质量评估研究概述 1 4 i 数据质量评估的背景和意义 现代社会是一个充满数据的社会,数据资源是企业实现信息化的必要基础 和宝贵资本,然而随着企业数据库中存储的数据量的急剧膨胀、新应用的不断 出现以及各类应用之间越来越频繁的相互整合,数据质量问题日益显现并日渐 突出;这些数据质量问题主要表现为数据不正确、数据不一致、数据不完整等 方面,亟需一套方案对数据质量进行有效管理。质量低劣的数据已经成为影响 企业进行正确决策的重要因素,所以数据质量管理必将成为企业进行信息化进 程中一个不可或缺的重要环节。针对数据质量问题的各个环节,其中包括数据 清洗、数据整合、相似记录检测、数据质量评估、数据质量过程控制和管理等, 业界的学者已进行了大量的学术研究以及实际应用方面的探索。在数据质量管 理的所有环节中,数据质量评估是提高数据质量的基础和必要前提,它能对应 用系统的整体或部分数据的质量状况给出一个合理的描述和评价,从而可以帮 助数据用户了解应用系统的数据质量水平,及时发现数据质量问题,并采取相 应的处理过程来修复数据质量问题,提高数据质量。 数据质量评估( d a t aq u a l i t ya s s e s s m e n t ) t 6 3 1 是数据质量管理( d a t aq u a l i t y m a n a g e m e n t ) t 6 4 1 重要组成部分,承担着发现数据问题的重任,是改善数据质 1 0 1 绪论与综述 量的驱动力和风向标。数据质量是一个多维的概念,每一个维度代表一个审视 数据质量的角度,例如可信度( b e l i e v a b i l i t y ) 、完整度( c o m p l e t e n e s s ) 、精简度 ( c o n c i s er e p r e s e n t a t i o n ) ,及时度( t i m e l i n e s s ) 、可理解度( u n d e r s t a n d a b i l i t ”等帕5 1 。 数据质量评估是以需求为导向的6 6 1 ,同样的数据在不同的应用背景下的接受度 是不同的,例如对于数据挖掘,同样的数据在一个挖掘主题下表现良好,而在 另一个挖掘主题下却得不到有意义的结果。因此,需求分析实际上是维度选择 的过程,数据质量评估从一个或几个维度出发,以动态或静态的方式审视数据。 所谓动态的评估方式,是指从数据产生机制上对数据质量进行评估6 7 1 ,而静态 方式只考虑数据本身。虽然动态的评估方式能够更彻底全面地对数据质量做出 评价,但在很多的应用背景下,如数据挖掘,往往受条件限制,无法得知数据 产生机制的信息。 数据质量的定义随着具体应用背景的不同而不同,因此,在进行具体的数 据质量评估时,要根据具体的数据质量评估需求对数据质量评估指标进行相应 的取舍。但是,数据质量评估至少应包含以下两个方面的基本评估指标6 8 枷】, ( 1 ) 数据对用户来说必须是可以信赖的,其中包括精确性、完整性、有效 性、一致性、唯一性等指标,其具体含义列举如下: ( a ) 精确- i 生_ ( a c c u r a t e ) :数据是否客观真实,是否存在虚假。 ( b ) 完整, 生( c o m p l e t e ) :数据是否存在缺失的记录或字段。 ( c ) 有效,i 生( v a l i d ) :数据是否满足用户定义的条件或处于一定的域值范围 内。 ( d ) 一致,i 生( c o n s i s t e n t ) :同一实体的同一属性值在不同的系统或数据集 中的表达是否是一致的。 ( e ) 唯一陛( u n i q u e ) :数据中是否存在重复。 ( 2 ) 数据对用户必须是可以使用的,其中包括稳定性、时间性等方面的指 标,其具体含义如下: ( a ) 稳定- i 生( v o l a t i l e ) :数据是否稳定,是否处于有效期内。 ( b ) 时间i 生:( t i m e l y ) :数据是当前的还是历史的。 为了实现有效的数据质量评估,下面给出了一个数据质量评估模型7 0 1 ,该 浙江大学硕十学位论文 模型由六个要素组成,是一个六元组, 胖如,厶r ,彬e ( 1 一1 ) 其中 d :待评估数据集;对于关系数据库来讲,一个表或视图代表一个数据集。 ,:数据集d 上需要进行评估的指标,或称数据质量维度。 r :与评估指标集相对应的规则,规则既可使用规范化的自然语言表达, 也可使用形式化的语言来书写,以便转换成程序脚本。 胪赋予规则尺的权值,为大于0 的整数,描述了规则尺在所有规则中所 占的比重。 e :对规则r 给出的期望值,为介于0 到1 0 0 之间的实数,是在评估之前对 规则只所期望得到的结果。 s :规则r 对应的最终结果,为介于0 到1 0 0 之间的实数,是在检测规则r 后得到的结果。 1 4 2 数据质量评估的研究现状 随着电信行业内部竞争的加剧,数据挖掘作为知识发现的有效工具已得到 广泛应用。电信行业有着丰富的数据资源,但由于各个数据源的数据质量参差 不齐,加之数据仓库的e t l 机制本身的某些问题,导致在数据集成时产生数据 缺失和错误,对挖掘结果产生巨大影响。因此,合理量化这种影响,对数据质 量做出评估,这对分析数据挖掘的可行性具有重要意义。 对于数据质量评估,一些研究人员也开展了许多的研究工作。文献f 6 5 ,6 7 - 6 9 j 从不同的角度提出了数据质量的评估方法,文献7 1 1 设计了一个数据质量分析和 浏览的工具,文献【6 6 】从用户的角度描述了对数据质量评估的要求,文献7 2 1 给出 了一种基于属性的数据质量评估模型。但总的来讲,已有的研究成果大部分集 中在框架理论,较少涉及特定的行业背景和具体应用,而面向特定数据挖掘主 题的数据质量评估,尚未有专门的文献进行讨论。基于实际经验,每个行业、 每个应用都有自己的特点,对数据的评估方法也应有所差别,只能够相互借鉴, 但不能够完全照搬,应该“量身定制”。本论文所做的研究工作就是针对电信欠 费挖掘这一具体的应用背景,充分考虑该背景下数据集和数据挖掘本身的特点, 1 2 1 绪论与综述 搭建了相对完整的数据质量评估体系,实现了面向电信欠费挖掘的数据质量评 估,为挖掘的可行性分析提供了指导。 1 5 论文内容与结构 对于电信欠费主题的数据挖掘,缺失和离群是两个重要的数据质量问题, 本论文从分析两者对建模结果的影响出发,充分考虑电信欠费数据高度非平衡 的特点,提出了一个较为完整的针对欠费挖掘主题的数据质量评估体系,并将 其应用于电信小灵通客户欠费数据的评估中。 本论文具体组织结构如下: 第一章为绪论与综述,对数据挖掘技术进行全面综述,简要介绍数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- AI在化工智能制造技术中的应用
- 2026年精密机械加工质量管控体系设计与实施
- 2026年高压电缆敷设与中间接头制作工艺
- 2026年个人年度职业发展计划表
- 2026年年度应急队伍培训与训练计划
- 2025湖南省中考生物真题(解析版)
- 2026年肿瘤科医生共情能力对患者心理支持作用
- 2026年企业自用加油点(内部加油站)环保规范
- 2026年化工企业环境保护管理制度
- 2026年农村人居环境整治现场推进会发言稿
- 2025年高考英语新课标I卷真题及答案
- 人力资源管理数字化操作手册
- 澄迈县2025年中医确有专长和出师考核(中医医师资格考试)历届真题及答案
- ST段抬高型心肌梗死诊断治疗指南汇编
- 2026中国海洋石油集团有限公司秋季校园招聘备考考试题库附答案解析
- 天津中考物理5年(21-25)真题分类汇编-测量液体和固体的密度
- 家乡交通变迁课件
- 江苏省常州市2025年中考物理真题(含答案)
- 去极端化课件
- 内镜间质瘤护理课件
- QC/T 544-2025汽车发动机凸轮轴
评论
0/150
提交评论