已阅读5页,还剩51页未读, 继续免费阅读
(通信与信息系统专业论文)数据挖掘技术在通话记录中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 论文题目:数据挖掘技术在通话记录中的应用 学科名称:通信与信息系统 研究生:赵雷 指导教师:王林教授 摘要 签名:丝亟 签名:毒幺陟 在竞争异常激烈的当今信息化社会,谁掌握的信息多谁就能抢占先机。通信企业经过 多年的运行,积累了庞大的数据,这些数据中有通话记录,客户信息,计费信息等。而这 些数据中可能隐藏着重要的信息,我们可以借助一些数据分析或数据挖掘软件对这些海量 的数据进行分析,提取出有用的信息,为企业制定各种策略提供有力的支持。 某通信企业的通话记录表记录着主叫、被叫、通话起始时间和通话时长等信息。对这 些海量的通话记录整理之后,使用数据挖掘技术中的聚类方法对客户细分。一方面可以发 现其他网络的比较有价值的客户,通信企业可以想办法尽可能地争取这类客户,以增加本 网络的客户量。另一方面,对于网内的客户,把客户细分为不同的类别,把不同的服务和 不同的业务对应到细分后的不同的客户中去,这样能够最大限度的满足客户的需求和习 惯。这些个性化的服务对提高客户的消费额有很大的促进作用,同时可以减少了客户的流 失。对通话记录细分后,通信企业会将更多的精力放在最有价值的客户身上,这样便可以 提高效率,事半功倍。 本论文主要对某通信公司的通话记录进行数据挖掘,统计基本的通话信息;根据客户 通话的时间段、时长、通话次数以及主叫号码所属网络等信息,对客户进行细分;通过决 策树分类的方法实现对聚类结果的发布;通过两个主叫号码对应的被叫号码之间的关系, 运用模糊集关联度的概念分析两个主叫号码的关联度,并实现关联度查询的可视化界面。 另外系统还可以显示出与一个主叫号码关联度大于o 的所有的主叫号码。 关键词:通信公司通话记录;数据挖掘;数据聚类;数据分类;关联度 西安理工大学硕士学位论文 a b s tr a c t t i t i e :a p p u c a t i o no fd a t am i n i n gt e c h n o l o g yo nc a l l r e c o r d s m a j o r :c o m m u n i c a t i o na n di n f o r m a t i o ns y s t e m n a m e :l e iz h a o s u p e r 、,i s o r : p r o f l i nw a n g a b s t r a c t s i g n a t u 陀:丝! 圣过p d s i gn a t u r e : r i nt h em o d e mi n f o r m a t i o n - b a s e ds o c l e t yw i t hf i e r c ec o m p e t i t i o i l t h em o r ei n f o r m a t i o n y o u黟a s p , t h em o r e o p p o r t u n i t i e sy o u c a ns e i z e t h r o u g hy e a r so fo p e r a t i o 玛 t h e t e l e c o m m u n i c a t i o ne n t e 叩r i s ea c c u m u l a t e st h eh u g ed a t a w h e r e i ni n c l u d i n gt h ec a j lr e c o r d s , c l i e n ti n f o r m a t i o bc h 鹕i n gi n f 0 唧a t i o i l e t c t h ei m p o r t a n ti n f o r m a t i o ni sp o s s i b l yh i d d e ni n t h e d a t 如w h e r e 弱w ec a na n a l y z et h eh u g ed a t aw i t ht h eh e l po fs o m ed a t a 锄a l y s i so rd a t a m i n i n gs o 鲰a 他, 觚de ) 【t r a c tt h eu s e m li n f 0 肌a t i o nt 0 p r o v i d et h es t r o n g 叭p p o nf o r f o r m u l a t i o no fe n t e 叩r i s es t r a t e 舀e s t h ec a l lr e r d so fat e l e c o m m u n i c a t i o ne n t e r p r i s er e c o r d s 如c hi n f l o r m a t i o n 硒t h ec a l l i n g n u m b e r s ,c a l l e dn u m b e r s ,a n s w e rt i m e ,r e l e a s et i m e 柚dc a l ld u r a t i o n a f t e rt h ec l a s s i f i c a t i q no f c o m m u n i c a t i o n 僦o r d s ,t h ec l u s t e r i n gm e t h o di nt h ed a t am i n i n gt e c h n o l o g yi s u s e dt 0 踟b d i v i d ec l i e n t s o nt h eo n el l a n d ,s o m ev a l u a b i ec l i e n t si no t h e rn e t w o r k sc a nb ed i s c o v e r e d , 柏dt h et e l e c o m m u n i c a t i o ne n t e 叩r i nm a l ( e 伊e a te f f l o r t st 0s n i v ef o rt h e s ec l i e n t s 弱f 打嬲 p o s s i b l e ,弱t oi n c r e a s et h e 肿m b e ro fc l i e n t si nt h i sn 神i o r k o nt h e0 t h e r f o rc l i e n t si nt h e n e t w o r l c t h e 蚰b d i v i s i o no fc l i e n t st od i a e r e n tc a t e g o r i e sa n dc 0 1 1 r e s p o n d e n c eo fd i f f e r e n t r v i c e sa n db u s i n e s st ot h ed i f f e r e n tc l i e n t sa f t e r 跚b d i v i s i o nc a nm e e tc i i e n t s d e m a n d sa n d h a b i t st ot h eh i l t t h e p e f s o n a l i z e ds e r v i c e sc a n 伊e a t l yf i a c i l i t a t ec l i e n t s a m o u n to f c o n s u m p t i o i l a n dm e a n w h i l er e d u c el o s so fc l i e n t s a r e rt h es u b d i v i s i o no fc o m m u n i c a t i o n r e c o r d t h et e l e c o m m u n i c a t i o ne n t e r p r i s ew i l lp u tm o r ee f r o r t so nt h em o s tv a l u a b l ec l i e n t s , w h i c hc a ni n c r e a s ee f n c i e n c ya n db r i n gd o u b l ee f f ;e c t s t h ep a p e rm a i n l yc o n d u c t st h ed a t am i n i n gt ot h ec a ur e c o r d so fs o m et e l e c o m m u n i c a t i o n c o m p a n ya n dt h e s t a t is t i c st ot h eb a s i cm m u n i c a t i o ni n f o r m a t i o n ;s u b d i v i d e sc l - e n t s a c c o r d i n gt 0c a j l i n gt i m ep e r i o d s ,t a i kt i m e ,n u m b e ro fc a l l sa n dn e t l o r k s 蚍b o r d i n a t e db y c a l l i n gn u m b e r s ;t h er e l e a s eo fc l u s t e r 陀叫l t si sr e a l i z e dt i l r o u g ht h em e t h o do fd e c i s i o nt r e e c l a s s m c a t i o n ;a n a l y z e st h ea s s o c i a t i o nd e g r o ft w oc a l l i n gn u m b e r sb yu t i l i z i n gt h ec o n c e p t o fm 盟y - s e ta s s o c i a t i o nd e g r e et h r o u g ht h er e l a t i o nb e t w e e nc a l l e dn u m b e r sc o r r e s p o n d i n gt o t h et w oc a i l i n gn u m b e r s ,觚dr e a l i z e st h ev i 蛐a l i n t e r 国c eo f i n q u i 叮o f c o r r e l a t i o nd e g r e e 西安理工大学硕士学位论文 i i la d d i t i o 玛t h es y s t e mc a na l s os h o wa l l o n ec a l l i n g 彻m b e ri s 伊e a t e rt h 锄z e r o k e y w o r d s :c a u 豫;o 玎d s0 fc o m m 岫i c 撕 a s s o c i a t i o n t h ec a l l i n gn u m b e r sw h o sd e g r e eo f 弱s o c i a t i o nw i t h c o m p 觚y ;d a t am i r i i r 吗;d a t ac l u s t c i 。;d a 协s o r t ;d e g r 0 f 绪论 1 绪论 1 1 课题研究的背景 随着计算机的普及,每天都有大量的信息被记录到各个公司的电脑上。这些信息大多 是以存储在数据库中的报表形势存在,其作用往往是提供客户端查询调用的,不可能给出 额外的信息。另外大量的信息给人仃 带来了很多的问题:大量的信息,其提供的信息有 限,只是记录的条数很多罢了;其中因人为或系统产生的错误信息无法分辨;信息安全很 难保证晦3 ;信息分散,不统一,难以统一利用。 人们迫切需要将这些数据转换为有用的信息和知识,挖掘出为人们不能直观看出来的 信息。需要是发明之母,在这时数据挖掘技术产生了n 1 。 数据挖掘技术是一门交叉学科,涉及到统计学、经济学、管理学、人工智能等、数据 库等多个领域。数据挖掘通俗的讲就是从数据库中发现知识,数据挖掘有七种分析方法: 分类、估值、预言、相关性分析或关联规则、聚类、描述和可视化、复杂数据类型挖掘 ( t e x t ,w 曲,图形图像,视频,音频等) 。数据挖掘可以通过客户细分,帮助我们找出比 较有价值的客户,或者根据已有的流失记录的数据预测哪些客户流失的可能性大,可以通 过时间序列模型预测未来的一段时间内销售量随时间的变化趋势。 中国的三大通信公司移动、联通、电信竞争非常激烈。在以前手机和电话比较少的时 候,只要通过宣传增加客户数量,便可以收到很好的效益。但是现在的客户数量趋于饱和, 这些通信企业的经营模式也从原来只注重数量的粗放型模式转换为现在的精细化模式。销 售部门要即时了解客户的需要,把客户细分,把不同的服务介绍给不同的客户。这样便能 在短期内得到最大化的利益,比起以前的广撒网策略,提高了效率。客服部门根据流失的 信息,提前有针对性的和客户沟通,带i j 定挽留策略。通过数据挖掘软件对数据挖掘后,可 以提供给公司的信息远远多于上面所提到的,掌握了这些信息便能为公司提高竞争的砝 码。 本文重点对某通信公司的通话记录进行数据分析和挖掘,实现对客户的聚类细分,进 一步运用决策树分类方法实现对聚类结果的发布,为公司制定针对性的销售策略提供了一 定的帮助。另外通过主叫号码的关联度分析,将进一步挖掘主叫号码间的关系,可以针对 关联度强的号码分析出其关系网,对于这个关系网可以推出相应的业务。 1 2 数据挖掘研究与应用现状分析 “数据挖掘 概念最早是由u s a m af a y a a d1 9 5 5 年在加拿大蒙特利尔的第一届知识发现 和数据挖掘国际会议上提出的。在国内夕卜,数据挖掘技术被广泛的应用到医学,经济,管 理,市场销售、金融投资、通信等多个领域。 西安理工大学硕士学位论文 1 2 1 国外研究与应用现状 在国外比较出名的案例是关于美国沃尔玛连锁超市的,沃尔玛对其顾客的购物行为进 行购物篮分析,主要运用的是关联规则。一个意夕卜的发现是:跟尿布一起购买最多的商品 竟是啤酒。结果沃尔玛就把这两种商品放在比较近的地方,结果这两种商品的销售量翻了 一番。若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数 据内在这一有价值的规律。 在金融投资方面比较成功的系统有f i d e l i t ys t o c ks e l e c t o r 和l b sc a p i t a lm a n a g e m e n t , 前者的任务是使用神经网络模型选择投资,后者贝j j 使用了专家系统、神经网络和基因算法 技术来辅助管理多达6 亿美元的有价证券。 在欺诈甄别方面有比较著名的r 让c o n 系统和r u s 系统。r 让c o n 是由矾c 公司 开发的,主要对信用卡进行欺诈估测,很多零售银行使用这个系统来对信用卡交易进行欺 诈甄别;f 越s 系统则用于识别与洗钱有关的金融交易,它使用的是一般的政府数据表单。 英国广播公司( b b c ) 利用数据挖掘技术来预;! 贝日电视收视率,以便合理安排电视节 目播放时间。美国钢铁公司和神户钢铁公司吞i j 用数据挖掘技术对产品进行质量检测,取得 显著效果“1 。此外数据挖掘还可用于天文学上的遥远星体探测、基因工程的研究、w e b 信息检索等1 。 1 2 2 国内研究与应用现状 在国内数据挖掘的研究比国外要晚一些,但是最近几年对数据挖掘的研究开始深入, 有些学校开设数据挖掘的专门课程,中国财经大学专门成立了s p s s 金融教学与研究中心, 在上海、北京、广州等城市有私人的培训机构专r 培司数据挖掘知识。在应用方面,宝钢 集团与上海天律信息技术有限公司合作,采用数据挖掘技术对钢材生产的全流程进行质量 监控和分析,构建故障地图,实时分析产品出现瑕疵的原因,有效地提高了产品优良率。 海南航空引入领先的数据挖掘工具马克威分析系统,分析客流、燃油等变化趋势,以航线 收益为主题进行数据挖掘,制定精细的销售策略,有效提高了企业收益。中国移动公司也 使用采用马克威分析系统,对客户w a p 上网的行为进行聚类分析,通过对客户分群,进 行精确的营销。广东电网公司利用数据挖掘知识设计了客户信用等级评价系统“o ,提高了 供电企业的工作效率,有效地规避客户的欠费风险。此夕卜还有很多论文是研究数据挖掘的 应用的。 可以看出,在数据挖掘领域国内比和国外还有彳艮大的差距,现在国内一些大的企业用 的数据挖掘软件都是从国外购买,因为国夕卜的数据挖掘软件更加复杂、专业、有权威的示 范性。虽然这样,但是随着国内众多研究人员的关注和深入研究,这种差距会越来越小。 2 绪论 1 3 论文研究内容 本文主要是利用数据挖掘知识对通话记录表进行数据挖掘,所用到的数据挖掘软件是 s p s sc l e m e n t i n e ,所用的数据库为o r a c l e 。具体说来,本文做了以下几方面的工作: ( 1 ) 深入研究数据挖掘的关键技术和主要算法。 ( 2 ) 介绍数据挖掘技术在电信企业中的应用。 ( 3 ) 编程实现了k m e a n s 算法,对部分数据进行分群 ( 4 ) 利用s p s sc l e m e n t i n e 数据挖掘软件对通话记录进行数据清理和转换。 ( 5 ) 统计通话记录的基本信息。 ( 6 ) 使用三种聚类算法对通话记录中的客户进行细分。比较三种聚类算法细分的效 果,选择最佳聚类算法。然后在聚类的基础上利用c 5 o 决策树算法对聚类结果生成分类 规则。 ( 7 ) 通过模糊集的隶属度和关联度的概念,运用a s p 动态网页知识和o 蛇l e 数 据库操作的知识7 1 ,生成一个关联度查询系统,此系统可以实现两个号码关联度查询,以 及其他的查询功能。之后又对关联度查询系统做了进一步改进,实现了可以查询与单个主 叫号码关联度大于0 的所有主叫号码的功能。 1 4 论文组织结构 本论文包括以下章节: 第一章:介绍了课题研究背景,分析了国内外数据挖掘技术的发展现状,提出了本文 的研究内容。 第二章:介绍了数据挖掘的相关知识,重点研究了数据挖掘关键技术和聚类算法。 第三章:介绍数据挖掘技术在电信企业中的应用。 第四章:编程实现了k m e a n s 算法,对部分数据进行分群。 第五章:利用数据挖掘软件对数据进行预处理。 第六章:通过聚类算法对客户进行细分。 第七章:设计实现主叫号码关联度查询页面。 第八章:对论文所做工作进行总结,并展望了论文的下一步工作。 西安理工大学硕士学位论文 4 数据挖掘相关理论 2 数据挖掘相关理论 2 1 数据挖掘的系统体系结构 数据挖掘的英文名为d a t am i n i n g ,其定义n 是:针对大量的、存在噪声和不完全性, 模糊性的随机的数据中,通过数理模式来提取隐含在其中的、人们事先不了解的、但又是 潜在的有用的知识和信息的过程。 数据挖掘系统把信息管理、信息整理、专家系统、数据仓库等整合起来,它由各种数 据库、挖掘前处理模块、挖掘操作模块、模式评估模块、知识输出模块组成,这些模块的 有机组成就构成了数据挖掘系统的体系结构。 数据库管理模块,负责对各种数据库和数据仓库进行维护和管理;挖掘前处理模块, 对所收集的数据进行清洗、转换、集成和选择。其中转换是将整理好的数据进一步转换为 适合挖掘的模式,比如在运用d 3 决策树时经常把一个连续的变量转换为几个离散的集 合;挖掘操作模块,利用各种数据挖掘算法并借助知识库中的规则、经验,对数据库或者 数据仓库中的数据进行隐藏的知识发现;模式评估模块,因为对于同样的数据,可以选择 不同的挖掘模式其对应的结果也有区别,我们要反复验证用哪个模式有利于实现客户感兴 趣、那种模式的结果更精确。如果一个模式评估价值很低,那么要从数据的质量和模式的 选择上重新执行;知识输出模块,对挖掘的结果进行解释,直观的方式展现给需要信息的 人们。数据挖掘系统的体系结构n - 如下图2 1 所示: 数据清理集成 抽取转换 挖掘前处理模块 数据挖掘处理 一一一一一一一一一一一一一一一一一一一,尸挖掘操作模块 知识输出模块 模式评估模块 图2 1 数据挖掘的体系结构 f i g m2 - ls y s 锄s 劬c t u r eo fd a t am i i i i n g 西安理工大学硕士学位论文 2 2 数据挖掘主要步骤 一个完整的数据挖掘项目一般要经历六个阶段1 们:商业理解,数据理解,数据准备, 建模,评估和部署。 商业理解:首先要理解商业问题,明确想要达到的效果和目的。之后根据商业需求, 转换为数据挖掘问题,把这些理解转化为数据挖掘的初期的方案。 数据理解:搜集相关的数据资料,对数据的每个字段进行理解,并和挖掘目的进行关 联。从多角度,检测数据的质量,找到数据中些细微的差别,细微的差别可能隐含着重 要的信息。 数据准备:原始数据可能存在缺失值、离群值和极值以及无法正常导入挖掘软件的记 录。这就要求对原始数据进行预处理,主要包括:对脏数据的清洗,缺失值的代替或删除, 合并或聚合数据,表字段的选择及过滤,增加新字段等n 。 建模:在通信公司常用的建模算法有决策树,线性回归,聚类,关联规则,神经网络 等。针对具体的建模目的选择对应的建模算法很重要,并且同样的挖掘目的可能对应多种 模型算法,可以借助可视化评估工具或者根据需要选择最佳模型。 评估:产生的模型自身或模型之间在准确性和可信度、支持度等方面进行比较,选择 最佳的模型。除了以上指标之外还应充分考虑模型是否能解决公司的商业问题,只有能够 用于实际的模型才有价值。 部署:就是让所建立的模型所携带的数据信息,能够被直观的展现给客户。小到一张 模型报告,大到可以将模型发布到应用系统里面,以方便决策者使用,及时制定策略。但 是一个模型发布之后并不表示这个项目就算完成,因为信息是不断变化的,挖掘系统要根 据新的需求或者应用系统的改变而调整。 虽然数据挖掘工作有具体的步骤,但并不是每次数据挖掘都有好的效果。数据挖掘的 成功需要好的数据环境、精通数据挖掘的程序员、合适的数据挖掘软件。提高数据挖掘效 果的方法就是检查数据挖掘的每个步骤n 。 2 3 数据挖掘的关键技术 数据挖掘的关键技术包括数学统计、机器学习、人工智能等。这几种技术通过有机的 组合在数据挖掘中构成一个整体,绝对不是简简单单的独立的应用。这些技术的实现主要 通过以下方法1 :统计学方法、人工神经网络方法、决策树方法、模糊数学方法、粗糙 集方法、遗传算法、聚类方法、可视化等d - 。 统计学方法:数据字段间有两种关系,一种是可以用函数表示的确定性关系,另一种 不能用函数表达但是可以用相关性表示的确定性关系。统计学方法提供了许多判别和回归 方法,例如:方差分析、回归分析、相关分析、主要成分分析、贝叶斯推理等。回归分析 主要分析输入、输出变量的关系,然后用函数来近似的表示这种关系,多用于连续的输出 6 数据挖掘相关理论 值的近似表达;方差分析是评估回归模型的性能的一个度量标准,可以反映出自变量对回 归结果的影响;相关分析主要分析两个变量之间或者一组变量之间的密切程度和相关方 向;主要成分分析将多个变量通过线性变换以选出较少个数重要变量的一种多元统计方 法;贝叶斯推理是由英国的贝叶斯提出来的,是一种新的推理方法。与过去的统计归纳推 理方法相比,贝叶斯推理不仅要有现有的信息还要结合推理者过去的经验和知识。 人工神经网络方法:从结构上模仿大脑的神经元网络,通过训练来学习的非线性动 力学系统,具有自适应组织能力,具有联想、记忆、模式识别等信息处理功能。人工神 经网络可以完成聚类、分类、特征挖掘等挖掘任务。用神经网络节点的连接权值表示知 识,其自学习表现在对连接的权值的修改上。整个神经网络可以分为b p ( 逆向传播) 神经网络、r b f ( 径向基函数) 神经网络、h op f i e d ( 反馈) 以及自组织神经网络。其 中的b p 神经网络,适合用于分类,但是训练时间较长;自组织神经网络,适合用于聚 类。其他的神经网路都是在以上的几种模型的基础上发展起来的。神经网络最大的优势 体现在处理复杂问题上,缺点是训练和自学习的时间比较长。当缺乏完备的或者足够大 的训练样本集时,就会产生过度学习的问题,即训练得到的网络可能在训练数据上的性 能非常好,而在新的未知数据上的性能不理想,即泛化能力不理想。 决策树方法:决策树是通过树型结构来表示决策集合,进而对数据集的分类产生规则。 决策树算法d 3 和c 4 5 的原理是分别利用信息论中的信息增益和增益率寻找数据中具有 最大值的字段建立一个结点,再依据字段的不同取值建立树的分支;在每个分支子集中重 复建立树的下层结点和分支,即可建立决策树。决策树其他的算法,比如c u 盯算法, 选择属性的度量标准是数据划分的不纯度,不纯度小的属性优先建立节点。d 3 算法是国 际上最早提出来的决策树算法,它的效果和数据集的大小有很大的关系,数据集越大越好。 c 4 5 和c 5 o 是在d 3 的基础上改进后的算法,这两种算法在处理数据丢失和数据连续性 等方面对3 进行了改进。 模糊数学方法:在现实中很多事物都具有不确定性,不能明确的表示为某个值只能用 近似度来表示。一般系统的复杂度越高,得到的结果精确度反而低。运用模糊集的方法进 行模糊评判、模糊聚类有很好的效果。 粗糙集方法:粗糙集是研究不完整不确定数据的学习、归纳的理论方法,广泛应用于 机器学习、归纳、决策支持系统、数据预处理中。粗糙集的应用能提高对大型数据库中不 完整、不精确的信息进行分析和学习能力。粗糙集无需任何先验知识,能在保留关键信息 的前提下对数据进行简化并求得知识的最小表达式,能评估和识别数据之间的依赖关系。 遗传算法:遗传算法借鉴了达尔文提出的生物进化规律( 适者生存,优胜劣汰遗传机 制) ,它是根据进化规律进一步演化而得到的随机化搜索方法。美国的j h o l l a n d 教授1 9 7 5 年首先提出来遗传算法的概念,其优点是可以对结构化对象直接进行操作,遗传算法既不 受求导的限制也不受函数连续性的限定:其寻优方法并不需要事先确定好的规则,能够自 动指导优化的搜索空间,自适应地调整搜索方向,所以遗传算法的全局寻优能力非常好。 7 西安理工大学硕士学位论文 遗传算法广泛地应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域。 遗传算法包括四种算法:遗传和变异以及交叉和自然选择。 聚类方法:首先参加聚类的数据并不知道各个类具有什么特征,通过聚类使得具有共 同特征的元素分为一簇,同一簇的对象具有很高的相似度,不同簇的对象之间的相异度最 大1 。 可视化方法:可视化技术能提供多媒体视像服务的技术,对视像的传输和交互可以实 现网络化,是解释大量数据的有效手段。可视化技术的特点是对数据理解起来比较直观, 可以实现对视像的交互,动态性比较强,具有可操作性。 可视化技术拓宽了传统的图表功能,使对数据的分析结果更加直观化和概括化。例如, 把数据库中的多维数据变成形形色色的图形,这对揭示数据的状况、内在本质及规律起到 了很强的使用。 除了以上提到的方法之外还有分类分析、关联规则,还有联机在线处理等。不同的算 法具有不同的功能“钉,这些功能主要包括聚类、分类、预测和关联和序列模式发现。其 中决策树主要用于分类,关联规则用于关联与序列分析,神经网络用于分类、聚类、预测, 遗传算法和神经网络一样可以用于分类、聚类和预测。不同的问题要用不同的挖掘方法解 决,每一种挖掘算法都有其自己的特点,视具体情况而使用。 2 4 数据挖掘的划分聚类算法 本文主要使用的技术是聚类,这里重点讲下k m 既n s 聚类算法n j 们和划分聚类的其 他算法。聚类常用的算法分类为划分方法、层次方法、基于密度的方法、基于网格的方法、 基于模型的方法。k m 铭n s 算法属于划分聚类方法。 给定一个有数据集,这个数据集含有n 个对象,划分聚类方法将数据集划分为k 个 分组或者簇,每一个分组就是一个聚类,但是这k 个分组不是随意分的,必须满足以下 条件:每个分组不能为空,即至少含有一个对象,每个对象必须被分到其中一组,两组或 者两组以上含有同一个对象的现象是不允许的。基于划分思想的算法有k m e a n s 算法、 k m e d o i d s 算法、c l a r a 算法和c l a m n s 算法。 ( 1 ) k m 髓n s 算法 k m 髓n s 算法是基于质心的算法。此算法把k 作为分组的标准,将n 个对象的数据 集分到k 个簇( 组) 中,簇内的对象的相关度较高,而簇间的相异度高,使k 个类的平 方误差和( s s e ) 为最小。每个簇的质心( 簇中心) 使用簇中对象的平均值来代表。k m n s 算法的具体步骤如下: s t e p l从数据集中随机选择k 个对象g ,c 2 ,c 3 ,g 作为初始的簇中心。 s t 印2把每个对象分配到与之距离最相近的簇中。对于每个元素一,根据距离 d 形一c ,) 和己知的k 个初始的簇中心,找到对应的簇中心c ,使d 形一c ,) 的值最小。把 所有的元素对应分到k 个簇中去。 8 数据挖掘相关理论 s t e p 3 把所有的点都分配到相应的簇之后,重新计算每个簇的质心,计算方法是用每 个簇中的所有对象的均值来表示该簇的质心。 s t e p 4 循环执行第二部和第三部,直到划分的数据不再发生变化。 对象之间的距离一般采用欧式距离,对给定的两个对象x = ( x l ,x 2 x 口) 和 】,= ( 少l ,y 2 。y p ) 。它们之间的欧式距离为: p d ( x ,】,) = 【( 为一儿) 】2 ( 2 1 ) 平方误差和定义为: 七 蜕= y y d ( g x ) 2 ( 2 2 ) j _ j _ 。 ,= 1x a 1 其中i 表示第i 个类,q 表示第i 个类的中心定义为q = 二罗x ,其中的慨是第i 个类中 以属 的对象的个数。其中关于k 的取值可以由程序员指定,也可以采用动态k 值,但是当数 据分布不是很均匀或者极不平衡的时候,k 值的选择比较困难“ 。对于k 值的选择参考 文献n 8 1 有详细的介绍。 ( 2 ) k m e d o i d s 算法 k m e d o i d s 算法和k m e a n s 算法类似,区别在于k m e d o i d s 算法不采用簇中对象的平 均值作为簇的质心,因为这种方法不适合处理极不平衡的数据集。为了改进k m e a n s 算 法存在的不足,k m e d o i d s 算法选用簇中位置为最中心的对象来作为簇的质心。其算法的 流程和k m e a n s 算法的基本相同,选取簇中新的质点的方法是依次选取非中心对象,检 查聚类效果是否有所提高( 度量标准是消耗) ,若是就保留这项替换,最终选择消耗最小 的对象作为簇的质心。将数据分到k 个簇中,然后重新选择簇的质心,重复以上操作直 到k 个簇的中心不再发生改变。k m e d o i d s 算法的不足体现在对于脏数据和异常数据不敏 感,计算量要比k m e a n s 算法大,所以不适合处理大数据量的计算。 ( 3 ) c l a r a 算法 c l a u r a 算法克服了k m e d o i d s 算法不能处理大数据量的不足,c l a r a 算法的思想就是先 对数据集进行的采样,然后再利用k m e d o i d s 算法对采样的数据分析,找到最中心的对象。 c l a r a 算法对数据集中进行多次采样,在每个采样上都用k m e d o i d s 算法得到相应的 ( 0 1 ,0 2 o i o k ) ,然后在这当中选取消耗最小的一个作为最终的结果。c l a r a 算法的不 足主要是聚类结果容易受采样大小的影响,要想得到最佳的结果比较困难。 ( 4 ) c l a r a n s 算法 c l a r a n s 算法是在c l a r a 算法的基础上提出来的,与c l a r a 算法不同的是:在c l a r a 算 法寻找最佳的m e d o i d s 的过程中,采样大小是不变的。而c l 盯锄s 算法在每一次采样过程 中所采用的采样大小是不一样的。与c i a r a 算法的寻找最佳簇质心的过程不同的是,循环 的次数是通过人为地来限定的。 9 西安理工大学硕士学位论文 2 5 数据挖掘工具的选择 现在比较流行的数据挖掘的软件9 ,1 9 1 有s a s 公司的e m e r p i s em i n e r ,s p s s 公司收购 i s l 后获得的s p s sc l e m e n t i n e 工具,m m 的i n t e l l i g e n tm i n e r ,o r a c l e 公司的0 r a c l ed a n 析n d a t am i n i n g 等等。 在数据挖掘工具评估中,s a s 和s p s s 两家公司被列为领导者。s a s 获得了最高 a b i l i t yt oe x e c u t e 评分,代表着s a s 在市场执行、推广、认知方面具有最佳表现,而s p s s 获得最高的c o m p l e t e n e s so f v i s i o n ,表明s p s s 在技术创新方面要领先。从经济方面考虑, s a s 工具每年的使用费要远远高于s p s s 工具,可见s p s s 工具更具有使用的经济性和普 遍性2 们。作为易于操作2 、拥有高级建模技术的数据挖掘软件c l e m e n t i n e 能帮助发现和 预测数据中有用的关系。可以利用c l e m e n t i n e 进行决策,比如:建立客户档案并且计算 出客户的保持率;根据客户的流失情况对未流失客户进行预测,以便于制定挽留策略;识 别和探查信用卡欺诈;预测销售量在未来的趋势;根据客户的基本信息和消费行为对客户 进行细分。上述只是c l e m e n t i n e 的众多应用中的一部分。一般来说只要有信息并且信息 正确,操作方法得当,那么c l e m e m i n e 就会找到问题的答案。c l e m e n t i n e 的运行界面如下 图2 2 : 1 0 【叠墨墨墨因蜀雹雹墨e 墨曩瞄暖黼嬲聪黝缀嬲缀缓黧黼懑黼辩躐黼;鬻黪荔;彩荔荔缆慧譬i i :一_ 一二。删:基 e i i 尊 量d 摊 铆o e r t 埘g 呐工o o i o 墨u 牡e r n o d 稿 绨r ,d a w h i p i 勇 i r 诤葛m e | o 彻t | t 鲁 o d e l 采l 豳 曩 鞲 囊 j 瑚 c r l 8 p - d c l a s 晷s 8 辩 f 一1 一一 i i 苗争,a 棚嘶 i :l 州蝌蠹鼬档珏l i ! i 蕾 一 ! 一 蕾l 谢啪甜:渐矗蜘i 嘣d c 瞳 ; :-,: r 口f 柳件坶卑 ;謦8 口u 诧e 幸r e o 嘣o p 嚣i f i e l dc ,p 8 o r j p h 。;h o d e h 嘲 _ o 螋璺蔓j 警冀蝗一 i 囝| _ 翁l ;锄善渤 “m 、,f 。:。i c t 。- m p i 如f 。口甜 “脚 n p f l k r p i 甜 c 咖b 渊n i _ f - mh u l 肿k u h 州hc ! 量。j 1 。l 。三二二| li 。j 二三三二,羔要篓j j i 。量暑i _ 。三一三,。三量j 量三i i j i 三二量三三二i 二三三兰i 图2 2c l e n 圮以鹏的运行界面 f i g u r e 2 - 2c l e m e n t i i i e sr 删n gi n t 耐抵 数据挖掘技术在通信行业中的作用 3 数据挖掘技术在通信行业中的作用 数据挖掘技术在电信运营业中是十分必要的2 幻,因此这门技术得到广泛的使用。数 据挖掘技术在电信运营业中的应用主要体现在以下几个方面: ( 1 ) 客户消费行为分析 对客户的长途通话信息、市内通话信息、短信息、手机上网流量信息和客户的基本资 料信息等进行综合分析。可以从收入水平、消费水平、通话习惯、消费周期等诸方面对客 户的消费行为进行分类,找出比较有价值的客户,提升中等价值的客户。 ( 2 ) 产品推广分析 新产品的推广的成功与否主要看推广方案和优惠策略。数据挖掘模型可以对各种优惠 策略进行效果预测,分析出哪种策略客户的反应最大,哪种策略给公司带了的收益最多。 同时数据挖掘模型通过模拟数据能够分析出各种策略的弊端,扬长弊短,使推广活动的收 益最大最快。 ( 3 ) 客户欠费分析和防欺诈预警 运用数据挖掘技术中的神经网络、决策树等技术对欠费或者对欺诈行为建立规则库。 一旦客户出现一次性通话欠费严重超标,预警系统根据规则库,立马停止客户的通话服务, 这样可以防止有的客户丢卡重办,不补交欠费金额,将通信公司的损失降到最小化。 ( 4 ) 客户流失分析 根据己有的客户流失情况,结合客户的基本信息,消费行为,运用关联或者决策树模 型建立规则库。对于新的未知是否流失的客户,可以根据以前客户流失情况建立的规则, 预测新的客户流失情况。传统的运营商在获得客户后,从来都不会知道哪些客户有流失的 可能性,而现在借助挖掘技术预测客户流失并不困难。 知道了哪些客户流失的可能性之后,就可以有针对性的和客户互动,主要通过优惠活 动,和温情短信等体现对这些客户的关怀。制定这些针对性的策略的目的是减少客户的流 失,减少公司的损失。 3 1 营销响应 3 1 1 营销响应的概念 营销响应的意思是,当对某些产品实行一定的推销手段时,有些客户会对这些营销手 段有积极的响应,就是说他们会对这次营销呈现出积极的响应,而其他的客户不会有明显 的响应,甚至不会购买任何商品。在营销之前首先建立一个响应模型,根据客户的购买次 数,购买总金额,购买物品的品种以及对上次营销活动的响应情况等相关信息预测这次营 销活动客户的响应情况。 西安理工大学硕士学位论文 3 1 2 营销响应分析 营销活动在日常生活中天天可见,大到广告宣传小到优惠政策,各种各样的营销活动 的效果却不一样。好的营销活动首先会选择合适的人群,如何去选合适的人群这是数据挖 掘可以解决的问题。数据挖掘不仅仅能够为公司提供可能响应的人群,还能够为公司提供 关于客户个性化服务的信息。在当今社会,竞争弥漫于通信行业之间,如果缺少针对性的 营销活动必然后见效甚微,甚至无法收回营销活动的成本。有的公司通过增加营销活动的 次数,想来增加效果,殊不知仅仅通过简单的增加次数反而会使客户反感,所以这就要求 公司将合适的产品推销给需要的人群的同时掌握住营销的时机。另外除了锁定人群还要考 虑合适的营销成本,争取利润的最大化。 每个通信公司都不会缺少营销记录,这些都是数据挖掘建模的原始数据。而数据挖掘 要解决的是:哪些客户会对响应这次营销活动,开展营销活动的最佳频次和时机,哪种营 销方式最有效率。 根据以前的记录可以很容易的预测客户的响应情况( 前提是以前的和现在营销活动具 有相似性) ,汇总数次营销活动的总利润然后得到每次活动的平均利润,通过数据挖掘汇 总出营销次数与平均利润的关系,从而选择最佳营销次数。时机的选择就是说在什么时间 最适合营销,可以根据季节,节假日,客户响应情况等信息对合适营销的时间进行预测。 营销方式有很多种,只有在对同一批商品做活动时才具有可比性,将营销方式简化为字符 串记录在数据库中,根据客户基本信息、消费信息、营销成本,各种商品优惠幅度等信息 和目的字段利润之间建立公式或者规则,一次来选择最好的方式。 综上所述,数据挖掘技术使营销活动更有预见性,针对性,可对比性。 3 2 客户流失 国内三大通信运营商之间竞争异常激烈。为了争夺新的客户,大量资金频繁投资在广 告和营销活动上。然而,获得一个新的客户的费用要比保留住已有客户的费用高7 倍之多。 另外客户保持率增加一个百分点,能为公司带来将近2 0 个百分点的利润增长。因此,把 精力花在对老客户的保持上,有十分重要的意义。 最专业的预防客户流失的办法就是利用数据挖掘技术,分析客户的消费行为和流失的 关系。对可能流失的客户提前了解,对流失后给公司带来的损失评估,制定挽留策略,防 止客户流失。 在预测客户流失方面,数据挖掘技术主要解决的问题是:预测哪些客户会流失,导致 流失的因素,可能流失的时间,流失后的影响。 3 2 1 客户流失的类型 1 2 对于通信公司而言,客户的流失是一件非常不好的事情,只有分清楚客户流失的原因 数据挖掘技术在通信行业中的作用 才能有的放矢。客户流失类型主要分为以下几种: ( 1 ) 内部业务转移:可能出现一种情况,某些客户对放弃了原来的业务,转为使用 公司内部的其他新业务。当针对原来的业务进行数据挖掘时原始数据的记录是流失,但 是对于新业务和整个公司来说并不属于流失的情况。当对这样的客户预测时应当综合考 虑。 ( 2 ) 被动流失:客户由于违反了通信公司的一些规定而被停止服务,比如欠费3 个 月不交就得注销手机号码,以及一些客户的恶意欺诈行为而被列入黑名单,再办理同一电 信公司的号码将被拒绝等。 ( 3 ) 主动流失:主动流失分为两种,一种是客户在主动停止服务的同时并没有使用 其他公司的新服务;另一种是客户选择了另一家公司的服务,这种情况为竞争对手增加了 筹码。客户之所以会出现“跳网 现象的因为是,另一家电信公司能为客户提供更多的服 务,更好的服务,更优惠的价格。还有可能是客户对原通信公司的业务不满意。 现在普遍使用分类的办法来预测客户的流失可能性。数据挖掘软件s p s sc l e m e n t i n e 提供了很多分类的模型,比如神经网络、决策树、线性回归等模型。其他的软件还提供链 型数据挖掘方法“3 1 来对客户的行为进行预测,同样具有很好的预测效果。 客户流失的动机各有不同,有的是追求更好的服务,不在乎价格
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司感光专用药液配制工岗位设备技术规程
- 公司加气混凝土制品工岗位标准化技术规程
- 公司打胶工现场作业技术规程
- 纸箱纸盒制作工职业健康、安全、环保技术规程
- 渔船轮机员岗前能力评估考核试卷含答案
- 合金半成品加工工操作技能模拟考核试卷含答案
- 2025年遂川县中小学教师招聘笔试参考题库及答案解析
- 2025年渑池县中小学教师招聘笔试备考试题及答案解析
- 感染科医院感染防控措施总结
- 2025年徐州邳州市中小学教师招聘笔试备考试题及答案解析
- 中级消控证的试题及答案
- 人教版川教版 二年级上册《生命生态安全》表格式教案
- 4.2 地貌的观察 课件-高中地理人教版(2019)必修第一册
- 门窗安装冬季施工方案
- 供应链总监竞聘演讲稿
- 智联网汽车技术 课件 13.2自适应巡航技术
- 2024-2025学年高二物理专项复习:动量【四大题型】(解析版)
- 小学古诗词教学与儿童心理健康的关系
- 《择菜洗菜与切菜》课件
- 小红书种草营销师(初级)认证考试题库(附答案)
- 《锂离子电池方向专业综合实验》课程教学大纲
评论
0/150
提交评论