




已阅读5页,还剩72页未读, 继续免费阅读
(计算机应用技术专业论文)kmeans算法在电信企业客户细分中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着电信企业市场竞争的日趋激烈,客户的需求不断多样化,一 对一营销,以客户为中心的市场理念逐渐被人们接受,这些都促使客 户细分成为必然。客户细分是电信企业营销的关键所在,它是电信提 供面向客户的产品和服务的基础。通过客户细分可以准确的了解客户 需求和客户消费行为特征,制定相应的产品营销策略,为产品寻找合 适的市场定位。 本文以湖北某电信公司的小灵通用户作为客户细分的研究对象。 通过对小灵通业务特点和用户行为特征的分析,选择出细分维度和行 为度量指标,建立客户细分变量表。从电信计费系统中抽取大约6 0 0 0 个样本作为数据源,导入数据源后进行数据预处理,如缺失值、异常 值、数据标准化等。以经典的k - m e a n s 快速算法为主要的挖掘算法, 考虑n d , 灵通用户源数据的独特性,对k - m e a n s 算法进行相应的改 进,尤其是在聚类初始中心点的优选方面有所改进。使用统计分析软 件s p s s 进行聚类分析,并利用判别分析方法对聚类结果进行验证, 得出最优的聚类结果。最后,对聚类结果进行解释、评估,并根据不 同客户群提出相应的营销策略。 文中研究了电信小灵通客户细分的整个过程,改进了聚类算法, 建立了客户细分功能模型。实践证明,客户细分的结果具有一定的合 理性和实用性,对资费套餐的制定及其他相关营销决策具有很大的参 考价值。 关键字:聚类分析、客户细分、k - m e a n s 算法、s p s s a b s t r a c t w i t ht h eb o i l i n g u po ft h em a r k e tc o m p e t i t i o no ft h et e l e c o m e n t e r p r i s e , t h ed e m a n d so ft h ec u s t o m e r sb e c o m em o r ea n dm o r ev a r i o u s t h eb u s i n e s sp h i l o s o p h yo fo n e - t o o n em a r k e t i n ga n dd e e m i n gc u s t o m e r i st h ec e n t r ei s a c c e p t e di n c r e a s i n g l y , w h i c hm a k e st h ec u s t o m e r s e g m e n t a t i o nn e c e s s a r y t h ec u s t o m e rs e g m e n t a t i o ni st h ek e yo ft h e m a r k e t i n go ft h et e l e c o me n t e r p r i s e , a n dt h eb a s i so ft h ec u s t o m e r o r i e n t e dp r o d u c ta n ds e r v i c e w ec a nu n d e r s t a n dt h ed e m a n da n d b e h a v i o rc h a r a c t e r i s t i c so ft h ec u s t o m e r sb yc u s t o m e rs e g m e n t a t i o n ,t h u s w ea r ea b l et om a k ec o r r e s p o n d i n gp r o d u c t i o nm a r k e t i n gt a c t i c ss oa st o f i n ds u i t a b l em a r k e tp o s i t i o nf o ro u rp r o d u c t t h i sp a p e rs t u d i e dt h ep h sc u s t o m e ro fc e r t a i nt e l e c o me n t e r p r i s e , a n a l y z e dt h ec h a r a c t e r i s t i co ft h ep h sb u s i n e s sa n di t sc u s t o m e r , a n d d e s i g n e dt h es e g m e n t a t i o nd i m e n s i o n ,c u s t o m e rb e h a v i o ri n d e xa n d s e g m e n t a t i o nv a r i a b l et a b l e w ee x t r a c ta b o u t6 0 0 0s a m p l e sa sd a t a s o u r c e f r o mt h ec a l la c c o u n t i n gs y s t e m , a n dc a r r yo u td a t ap r e p r o c e s s i n ga f t e r l o a d i n gt h ed a t a s o u r c e t h ed a t ap r e p r o c e s s i n gi n c l u d e st h el a c k i n go f n u m e r i c a lv a l u ep r o c e s s i n g ,e x c e p t i o n a lv a l u ep r o c e s s i n ga n dd a t a s t a n d a r d i z a t i o na n ds oo n w eu s e dt h ec l a s s i cc l u s t e r i n ga l g o r i t h m k - m e a n sa st h em a i nd a t a m i n i n ga l g o r i t h m c o n s i d e r i n g f o r p a r t i c u l a r a t i o n o fd a t a s o u r c eo fp h sc u s t o m e r , w ei m p r o v e da n d o p t i m i z e dt h ek - m e a n sa l g o r i t h m ,e s p e c i a l l yi nt h ed o m i n a n c eo ft h e c e n t e ri nc l u s t e r i n gi n i t i a l i z a t i o n w eu s e ds p s st oc a r r yo u tc l u s t e r i n g a n a l y s i s ,u s e dd i s c r i m i n a n tt ov a l i d a t ec l u s t e r i n gr e s u l t t h e n ,w eg e tt h e o p t i m a lc l u s t e r i n gr e s u l t f i n a l l y , w ee v a l u a t e dt h eo p t i m a lc l u s t e r i n g r e s u l t ,a n dg i v i n gt h em a r k e t i n gs t r a t e g ya c c o r d i n gt ot h ed i f f e r e n t c u s t o m e rg r o u p i i i 武汉工程大学硕士学位论文 i n t h ep a p e r , w ed i s c u s s e dt h ew h o l ep r o c e s so ft h ec u s t o m e r s e g m e n t a t i o no ft h ep h sb u s i n e s s ,i m p r o v e dt h ec l u s t e r i n ga l g o r i t h m , a n dd e s i g n e dt h ef u n c t i o nm o d e lo fc u s t o m e rs e g m e n t a t i o n t h e e x p e r i m e n ts h o w st h er a t i o n a l i t ya n dp r a c t i c a b i l i t yo ft h ec u s t o m e r s e g m e n t a t i o nr e s u l t ,a n di t sm e a n i n g f u lt o t h ee s t a b l i s h m e n to ft h e p r i c e - p a c k a g ea n do t h e rm a r k e t i n gd e c i s i o n k e y w o r d s :c l u s t e r i n ga n a l y s i s ,c u s t o m e rs e g m e n t a t i o n ,k - m e a n s ,s p s s i v 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文 不包含任何其他个人或集体己经发表或撰写过的研究成果。对本文的研 究做出贡献的个人和集体,均己在文中以明确方式标明。本人完全意识 到本声明的法律结果由本人承担。 学位论文作者签名:变成多 瑚年朔缪日 学位论文版权使用授权书 本学位论文作者完全了解我校有关保留、使用学位论文的规定,即: 我校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允 许论文被查阅。本人授权武汉工程大学研究生处可以将本学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等 复制手段保存和汇编本学位论文。 保密o ,在年解密后适用本授权书。 本论文属于 不保密 ( 请在以上方框内打“4 ”) 学位论文作者签名: 亥戎弓 珈湃皇月甥日 指导教师签名:待咿咱 瑚粘月踢日 第1 章绪论 1 1 研究背景和意义 1 1 1 研究背景 第1 章绪论 随着我国加入w t o ,国内电信市场的竞争进步加剧,因竞争 加剧而导致利润下降,迫使国内各电信运营商不得不考虑寻求新的盈 利模式,以及如何提升自身的核心竞争力。电信企业一般从三个方面 区别于竞争对手并获得竞争优势:价格、业务和客户服务。价格战不 能长期使用,业务质量的差异性也随着技术的发展将逐步消失。因此, 完善客户服务成为电信企业获取最终竞争优势的重要手段。作为中国 资历最老的运营商,中国电信集团公司拥有固话、小灵通和宽带三大 核心产品,它拥有丰富的通信市场运营经验和强大的网络优势,与其 他电信运营商相比具有深厚的管理和文化底蕴。但是随着电信市场竞 争的日趋激烈和移动通信对固定电话的冲击,使我国最大的固定电话 运营商中国电信面临前所未有的竞争压力。电信企业原有的服务内 容、服务质量、服务方式、服务意识都受到了严峻的挑战。企业原有 的以业务和设备为中心的管理模式、以计划为导向的经营模式不再适 应市场的发展。如何提高客户的满意度及忠诚度,提升客户价值来扩 大自身利润等问题成为关注的焦点,发展客户和保留客户已成为电信 运营商面临的主要课题。 随着市场逐渐开放,客户面临更多的选择,其忠诚度也随之发生 显著的变化。客户的需求也随着对市场认识的深入越来越高,希望企 业能为之提供个性化的服务。因此,建立以客户为中心的营销服务体 系,已成为各运营商的必然选择。在这种背景下,一种基于全新的基 于信息技术的管理理念客户关系管理( c r m ) 受到国内各电信运 营商的青睐。c r m ( c u s t o n 财r e l a t i o n s h i pm a n a g e m e n t ) 起源于西方的 武汉工程大学硕士学位论文 市场营销理论,其核心思想是将企业的客户作为最重要的企业资源, 通过完善的客户服务和深入的客户分析来满足客户的需求,保证实现 客户的终生价值【1 1 。其最终目标在于企业与目标客户建立一种长期 的、互惠互利的关系,比竞争对手更好地进行这些活动,能使企业赢 得竞争优势,其实现手段有很多,包括客户细分、获取保持流失分析、 客户价值分析、客户忠诚度分析以及客户满意度分析等等。 客户细分( c u s t o m e rs e g m e n t a t i o n ) 是指按照一定的标准将企业的 现有客户划分为不同的客户群。客户细分是c r m 的核心概念之一, 是实施c r m 的重要工具和环节。客户细分基本的出发点是每个人作 为消费者其对同一种产品的具体功能需求和关注点是不同的,因此作 为一个为用户服务的企业,必须尽可能的考虑这些差异,发现这些存 在于客户整体内部的具有不同特征或消费习惯的客户群体,然后再根 据每个群体的特征执行针对性的管理或营销策略。 正确的客户细分能够有效地降低成本,同时获得更强、更有利可 图的市场渗透。通过客户细分,企业可以更好地识别不同客户群体对 企业的价值及其需求,以此指导企业的客户关系管理,达到吸引合适 客户,保持客户,建立客户忠诚的目的【l 】。目前,对客户细分已经引 起了越来越多人的关注,并出现了不少客户细分的方法的研究及成 果。但实际上,电信运营商在客户细分方面其实还存在诸多问题,如: 电信运营商目前更多地还只是停留在将客户尽力分堆的阶段,而远未 实现对客户的各种特征进行深入分析,也没有做到对客户的潜在需求 进行细致挖掘。如何真正的将电信客户细分应用于企业,解决企业目 前的实际困难,仍然是现在急需面对的问题。 1 1 2 研究意义 作为中国资历最老的运营商,中国电信拥有固话、小灵通和宽带 三大核心产品。小灵通是无线市话( p e r s o n a la c c e s sp h o n e ss y s t e m ) p h s 的俗称,由日本p h s 系统发展而来,它采用先进的微蜂窝技术,是 2 第1 章绪论 一种新型的个人无线接入系统。可在无线网络覆盖范围内自由移动使 用,随时接听、拨打本地、国内和国际电话,是固定电话的伸延。小 灵通作为固定电话的延伸,从诞生那一天起,它就在面临一种尴尬局 面。然而,在过去的几年时间里,小灵通却上演了“星火燎原 之势, 国内用户数一度超过9 0 0 0 万之多,甚至被人看成有望成为除g s m 网 络之后的第二大移动网络。 根据市场反应,小灵通最吸引入的地方,在于它的低辐射,迎合 了人们对健康环保的需求。“有线的价格,无线的享受”,同时小灵 通低廉的资费适应了大多数中低收入人群的无线通信需求,符合中国 国情,这也是小灵通之所以具有如此顽强生命力的关键所在【2 】。尽管 近几年市场对小灵通的热度有所下降,这也是市场趋向饱和的正常反 应。伴随着新技术、新产品的不断涌现,小灵通市场活力不减。首先, 新的业务和应用解决方案不断涌现,中国电信积极发展小灵通无线上 网业务。其次,小灵通与固定电话不断融合,中国电信“超级无绳 业务将座机和小灵通捆绑起来,将固话与小灵通共用一个号码,在家 可用做固话,在外可用做小灵通,业务一推出就深受用户喜爱。 由此看来,小灵通在电信业务中占有相当大的比例,其发展前景 不容忽视。通过统计,目前小灵通大概有9 0 0 0 多万用户。如何发展 更多的用户,如何保留已有的客户,如何提升客户价值,如何预防客 户欺诈行为,这一系列问题都需通过c r m 的核心一客户细分来解 决。通过选择合适和正确的细分数据,选择相应的挖掘算法和挖掘工 具进行客户细分,针对细分后不同层次、不同特征的用户群制定有效 的营销政策,制定相关的资费套餐,才能实现电信运营商和客户的共 赢,才能提高小灵通品牌的市场竞争力。实践证明,通过加强客户细 分研究,能为该地区的品牌整合以及应对市场竞争提供有力支撑。另 外,客户细分还是所有具体分析应用和数据挖掘的前提,必须先有客 户细分才能定位客户群,再制定营销策略或者进行相应的专题分析。 本文研究意义在于:通过数据仓库技术基础、数据挖掘的聚类技 术,结合相应的挖掘工具s p s s ,以电信小灵通客户为实例,来实现 3 武汉工程大学硕士学位论文 一个完整的客户细分过程以及相关算法的研究,为小灵通业务的经营 分析和进一步的数据挖掘工作提供支撑。通过客户细分得到几类具有 不同特征的客户群,针对不同的客户群制定相应的营销政策和资费套 餐,从而达到提升客户价值,防止客户流失,提高小灵通营业利润的 目的。 1 2 国内外研究现状综述 1 2 1 国外研究现状 国外电信公司参与市场竞争较早,比较善于从数据中挖掘信息。 它们使用数据仓库系统进行客户分类、服务分析、话务量分析、销售 代理分析、地区分析等等,了解收入和利润的结构,找出客户特性和 服务关系,获利的客户、获利的服务、制定符合客户的服务等。这种 科学的企业经营模式,可以了解客户、取悦客户,己成为国外电信公 司生存的竞争优势。下面介绍一些国外知名电信运营企业的数据挖掘 应用情况。 英国电信利用机器学习等技术建立了一个信用评估系统,其系统 的数据来源于英国电信现存的大量今年来的用户历史数据,此系统仅 仅依靠企业内部的用户情况数据库就可以完成对用户信用度的评估, 成本很低【2 】。目前,几乎每家电信运营公司都会遇到一部分欠费的用 户。英国电信针对这一经常发生的情况,利用机器学习技术,建立了 自动预测模型,来预测采取何种措施能更低的减轻企业的损失。通过 利用数据挖掘技术,英国电信有效地对用户欠费进行了回收,并成功 预防了欠费的发生。 m c i 是美国第二大电信公司,在对用户消费习惯进行数据挖掘的 基础上,针对用户的消费特点,推出了环球亲友计划,允许用户选择 一定数量的亲友,在给他们打电话时享受特殊条件的优惠,但前提是 其亲友也必须是m c i 公司的用户,通过这个策划,m c i 争取到许多 4 第1 章绪论 客户,扩大了市场份额。 m t & t 公司是加拿大最著名的电信公司,与在争夺市场份额的激 烈竞争中,m t & t 采用了强有力的手段数据挖掘软件来取得竞争 优势。该软件是s a s 公司开发的企业挖掘者( e n t e r p r i s em i n e r ) ,它根 据公司拥有的大量的数据分析趋势,并挖掘模型,发现市场机会,为 决策者提供新的思路。利用数据挖掘,m t & t 公司能准确的进行客户 定位,并及时了解发现客户的需要,公司在事实的基础上做出准确的 决策,摆脱了以前凭经验猜测的状态。不仅在财政预算上得到了节约, 更重要的是市场份额不断增加,公司发展迅速。 法国电信利用数据挖掘技术在预防欺诈、客户流失分析和预测、 交叉销售等各方面都取得很多成果。韩国s kt e l e c o m 公司的c r m 中, 应用数据挖掘技术分析客户和通话行为,预测通话中的掉线情况。 1 2 2 国内研究现状 国外电信公司的成功经验表明:在信息经济快速发展的当今社 会,能否及时发掘并运用大量的信息是企业能否成功的关键之一。中 国电信行业面临着国际化的竞争,而电信行业采用的计算机处理系统 己有十多年,企业拥有大量详实且丰富的数据,如计费数据、客户数 据和网管数据等,这为数据挖掘提供了基础。 从整体情况来看,国内数据挖掘应用方面发展较为缓慢,但相比 之下,电信行业比其他行业在数据挖掘应用方面的发展要迅速得多。 目前,各大电信运营商如中国移动、中国电信、中国联通、中国网通 都在广泛的展开数据挖掘应用方面的研究。 中国移动通信集团公司作为国内最大的电信运营商,目前正在构 建各省公司的经营分析系统,其中广东移动通信公司即采用了数据仓 库和数据挖掘技术进行数据的深层次研究,取得了较好的效果,而上 海、辽宁、山西、河南、安徽、湖南、江西经营分析系统应用已产生 一定效果,2 2 个省结合本地化需求进行了专项研究,具体应用集中 5 武汉工程大学硕士学位论文 在客户挽留和营销案评估的专题应用上。此外,中国移动还引入了客 户细分的理念,而且已经取得阶段成果,在使用聚类分析的基础上, 进行了综合细分,充分的利用1 8 6 0 1 8 6 1 ,把客户分析应用到当前业 务中。 中国电信在一些省市开展数据仓库建设,为进一步的数据挖掘的 开展打下了基础。例如,目前广东电信的视聆通上,使用了s y b a s e 数据仓库解决方案,建设广东省新一代的多媒体网综合业务管理系 统。厦门电信的数据仓库已经成了厦门电信在开展大客户管理时得心 应手、不可或缺的工具【3 1 。杭州电信则在数据仓库建成以后,己经根 据决策支持的要求开展了九大主题的分析,以帮助企业的经营决策。 并且,早在2 0 0 2 年中国电信就开始研究客户细分。他们根据用户的 性质、消费额度将其细分,从目前的情况来看,现在客户细分的已经 取得一定的效果。由于电信行业营运商引入了客户细分的理念,国内 的开发相应的推出各个的客户细分产品。 经许多调查研究资料显示,亚信对四川移动的客户进行了成功的 细分,并得到了四川移动的认可,在进行单因素的细分同时,进行了 少量的综合细分,并与其它产品集成,推出自己的c r m 产品。在今 年4 月份,a m d o c s 为上海联通提供的经营分析上线,从上海联通 的反映来看,朗新的客户细分并不成功,只是引入客户细分的理念, 没有对客户进行单因素细分与综合细分,目前应该处于研发状态。从 国信提供给海南联通的资料显示,国信对客户细分的基本上都是单因 素,对综合细分的指标采取偷梁换柱的做法,比如按忠诚度细分,用 户入网时长超过3 年即为忠诚的。但国信在单因素客户细分做的非常 细致,预计明年6 月份会完成综合细分部分。 尽管国内电信业中数据挖掘应用的研究己经取得了比较明显的 进展,在某些领域得到了初步的实际应用,甚至一些数据挖掘软件已 经作为商品开始发售,但是距离实用型要求还存在较大的差距,目前 的数据挖掘研究还处于起步阶段,适用的主题还需要进一步探讨。 6 第1 章绪论 1 3 研究内容 本文主要研究的是数据挖掘技术在电信客户细分领域的应用问 题,主要解决如何使用数据挖掘的聚类技术对电信客户进行有效的划 分这一问题。具体来说,本文主要研究以下几个内容: 第一,对电信客户细分的功能模型的研究。分析电信客户的消费 行为特征,分析电信业务的特点,对客户细分在电信市场营销中的具 体功能详细分析,并建立客户细分总体功能模型。 第二,对电信客户细分的数据准备问题的研究。结合电信小灵通 业务特点和用户行为特征,分析细分维度和行为度量指标,建立客户 细分变量表和相应的数据宽表。从电信计费系统中抽取大约6 0 0 0 个 样本的小灵通用户话费清单作为数据源,然后对源数据进行预处理, 如缺失值、异常值处理、数据标准化等操作,最终得到我们所需数据 汇总表,为后续的客户细分实例提供数据基础。 第三,对客户细分的数据挖掘方法一聚类算法的研究。主要是 以聚类算法中的k - m e a n s 算法为挖掘的核心算法,对k - m e a n s 算法 作了细致全面的分析,并根据小灵通业务数据源的特点,对k - m e a n s 算法做了相应改进,尤其在聚类初始中心点的优选方面有所改进。并 设计了一个基于该算法的数据挖掘模型。 第四,对客户细分模型的应用问题的研究。使用统计分析软件 s p s s 进行小灵通用户的聚类分析,并利用判别分析方法对聚类结果 进行验证,得出最优的聚类结果。最后,对聚类结果进行解释、评估, 并根据不同客户群提出相应的营销策略。 1 4 论文框架 本文分为六章,各章内容如下: ( 1 ) 绪论部分。主要阐述论文的研究背景、研究意义,国内外 对电信领域的数据挖掘应用方面的研究现状,以及论文的研究内容和 7 武汉工程大学硕士学位论文 论文框架。 ( 2 ) 数据挖掘技术理论概述。本章是本论文研究的理论基础, 主要通过文献资料的研究,介绍数据挖掘的形式化定义、流程、模式 和聚类技术,并重点介绍了数据挖掘技术在电信行业的应用,为后面 的研究做了理论铺垫。 ( 3 ) 电信客户细分的功能模型设计。首先详细分析电信客户的 特征和电信业务的特点。然后,对电信常用客户细分模型进行分析比 较,再结合本论文研究对象小灵通用户的特点,建立客户细分的总体 功能模型。 ( 4 ) 小灵通客户细分的数据准备。结合电信业务特点和客户特 征,分析细分维度和行为度量指标,选择细分变量。对源数据进行预 处理,得到所需的数据宽表。本章在整个数据挖掘工作中有着重要的 作用,特别介绍了数据预处理的相关技术和方法,并把这些方法应用 到本课题小灵通业务客户细分的数据准备工作之中,以保证后续 的聚类分析工作的有效性和准确性。 ( 5 ) 小灵通客户细分实例分析。本章是将改进的k - m e a n s 快速 聚类算法应用到某电信公司小灵通业务的客户细分中,并针对聚类结 果来制定有效的营销方案。首先根据小灵通业务的特点和客户特征确 定挖掘目标,接着以第四章的数据准备为基础,进行数据预处理。然 后,以经典的k - m e a n s 快速聚类算法为基础,结合小灵通业务的特点, 对k - m e a n s 算法进行相应的改进和优化,进行聚类分析。最后,用判 别分析方法对聚类结果进行验证,得出最优的聚类结果,对聚类结果 进行解释、评估,提出营销策略。 ( 6 ) 总结与展望。首先,对小灵通客户细分研究工作中已取得 的研究成果进行总结,如功能模型的建立,k - m e a n s 算法的改进,相 应营销策略的提出等等。然后,提出客户细分研究过程中还未结果, 或者仍需改进的一些问题,如算法的进一步优化,源数据中关于异常 值的分析等等。最后,提出对今后电信客户细分研究的期望。 8 第2 章数据挖掘技术 第2 章数据挖掘技术 数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关 系和以数据拥有者可以理解并对其价值的新颖方式来总结数据。它通 过特定类型的技术,从大量的数据中辨认和发掘出有价值的信息 4 1 。 由于企业数据在未经过加工处理之前,通常是庞大、表面上低信息含 量的,只有很小的使用价值,有用的信息往往是隐藏在数据的背后, 所以需要通过数据挖掘这样一个途径去发现其中有价值的信息,使得 这些信息能够在企业决策支持、预测、估计等诸多领域提供帮助。 通过数据挖掘解决商业问题,总体思路是通过对商业问题的充分 理解,把商业问题转化为数据挖掘可以解决的问题,进而通过数据挖 掘工具软件求得数据挖掘问题的结果,然后业务人员解读数据挖掘结 果,最终把数据挖掘结果转化为商业问题解决方案,从而提升企业利 润或降低企业成本。 2 1 形式化定义 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模 糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又 是潜在有用的信息和知识的过程。 抽象的说,数据挖掘是一个良定义在大量数据中抽取信息的过 程。以下是数据挖掘定义的说明。 数据集合:数据集合d 是指的一个有关事实f a c t 的集合,它用 来描述事物有关方面的信息。一般来说,这些数据都是准确无误的( 这 就是我们在数据仓库抽取数据时需要进行数据清洗整理的目的,确保 数据的正确性) 。 良定义:过程是有效的,结果是可信的和有效的。过程是有效的 是d m 能够完成而且可以在可接受的时间内完成。结果是可信的是指 通过d m 从当前数据所发现的信息必须有一定的正确程度。结果是有 9 武汉工程大学硕士学位论文 效的是指系统需要将结果以容易被人理解的形式表现出来。 信息:通过数据表现出来的( 用户的) 行为模式、数据间的关系 以及对数据进行分析的规则是潜在的、有价值的。 模式:对于集合d 中的数据,我们可以用语言l 来描述其中数据 的特性。表达式e l ,e 所描述的数据是集合d 的一个子集e ( d ) 。只 有当表达式e 比枚举e ( d ) 中所有元素的描述方法更为简单时,我们才 可以称之为模式。如:“如果成绩在8 1 9 0 之间,则成绩优良”可称为 一个模式,而“如果成绩为8 l 、8 2 、8 3 、8 4 、8 5 、8 6 、8 7 、8 8 、8 9 、 9 0 ,则成绩为优良”就不能称之为一个模式。 数据挖掘的形式化定义如下: 数据挖掘d m 是一个七元组( d ,f ,m ,t ,a ,r ,s ) 。 d 是数据的集合,可以看成是数据( 仓) 库中的全体数据。 f 是面向主题预操作的集合 f o ,f l ,瑶1 1 。f 的元素由问 题的定义所决定,f i 是面向主题i 的预处理序列。 m = m o ,m l ,- i pm 阶l ,其中m n _ g ( 由l d d ,f 表示面向 主题1 1 的挖掘数据集,m n 可能不是d 的子集,n = 0 ,l ,l f i 1 。 a 是算法集合即从数据库中抽取信息时所用到的全体算法。 t 是数据表示转换操作的集合。t ( m ) 是算法a 的输入,a e a ,t t , m m n 。对任意a ea ,a : t ( m ) l m em n ,存在t et 专r 是从算法到挖 掘结果的映射,n = 0 ,l ,i f | 一l 。a 不一定是满射。其中r 是全 体算法的输出的集合。 s 是对算法的输出集凡进行的选择操作,是r 的子集。 s ( r o ) l r o r o 是挖掘的结果集,可以看做是前面提到的“信息”。 因此,数据挖掘的七元组( d ,f ,m ,t ,a ,r ,s ) 的完整含 义是数据仓库中的数据集合,在面向主题的预操作的作用下,转化成 面向主题的数据挖掘集合,然后数据挖掘集合在挖掘算法和数据转化 操作的作用下转化成相应的信息,最后,在信息输出时对信息进行度 量和滤除。 1 0 第2 章数据挖掘技术 2 2 数据挖掘流程 数据挖掘的过程可粗略的定义为:问题定义、数据收集、预处理、 数据挖掘算法执行,以及结果的解释和评估嘲。如图2 i : m 一1 l 、】j 。1】i 圈2 1 散据挖掘褫程g d ( 1 ) 问题定义 数据挖掘是为了在大量数据中发现有用的令人感兴趣的信息,因 此发现何种知识就成为整个过程第一个也是最重要的一个阶段。在问 题定义过程中,数据挖掘人员必须和领域专家以及最终用户紧密协 作,一方面明确实际工作对数据挖掘的要求:另一方面通过对各种学 习算法的对比进而确定可用的学习算法。 ( 2 ) 数据收集和数据预处理 数据准备可分为三个子步骤:数据选取、数据预处理和数据变换。 数据选取的目的是确定发现任务的操作对象,即目标数据,是根 据用户的需要从原始数据库中抽取的一组数据。数据预处理一般可能 包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转 换等口 。当数据挖掘的对象是数据仓库时,一般来说,数据预处理已 经在生成数据仓库时完成了。数据变换的主要目的是消减数据维数或 降维,即从初始特征中找出真正有用的特征,以减少数据挖掘时要考 虑的特征或变量个数。 ( 3 ) 数据挖掘 武汉工程大学硕士学位论文 数据挖掘算法执行阶段首先根据对问题的定义明确挖掘的任务 和目的,如分类、聚类、关联规则发现或序列模式发现等等。确定了 挖掘任务后,就要决定使用什么样的算法。选择实现算法时有两个考 虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法 来挖掘;二是用户或实际运行系统的要求,有的用户可能希望获取描 述型的、容易理解的知识,而有的用户只是希望获取预测准确度尽可 能高的预测型知识,并不在意获取的知识是否易于理解。 ( 4 ) 结果解释和评估 数据挖掘阶段发现出来的模式,经过评估,可能存在冗余或无关 的模式,这时需要将其删除;也有可能模式不满足用户要求,这时则 需要整个发现过程回退到前一阶段,如重新选取数据、采用新的数据 变换方法、设定新的参数值,甚至换一种算法等。 整个挖掘过程是一个不断反馈的过程。可视化在数据挖掘的各个 阶段都扮演着重要的作用。特别是在数据准备阶段,用户可能要使用 散点图、直方图等统计可视化技术来显示有关数据,从而为更好的选 取数据打下基础。在挖掘阶段,用户则要使用与领域问题有关的可视 化工具。在表示结果阶段,则可能要用到可视。 2 - 3 数据挖掘模式 数据挖掘最重要的任务是从数据中发现未知的模式。模式有很多 种,按功能可以分为两大类:预测型( p r e d i c t i v e ) 模式和描述型 ( d e s e r i p t i v e ) 模式。其中,预测型模式是可以根据数据项的值,精确 确定某种结果的模式。预测型的数据挖掘可以通过当前数据或样本数 据进行推断,之后把推断的结果用于预测;描述型模式是对数据中存 在的规则做一种描述,或根据数据的相似性把数据分组【5 】。描述型数 据不能直接用于预测,它只刻画当前数据的一般特性。 1 2 第2 章数据挖掘技术 2 3 1 预测型模式 ( 1 ) 分类模式( c l a s s i f i c a t i o n ) 分类要解决的问题是为一个事件或对象归类。在使用上,既可以 用此模型分析已有的数据,也可以用它来预测未来的数据。例如,用 分类来预测哪些客户最倾向于对直接邮件推销做出回应,又有哪些客 户可能会换他的手机服务提供商。数据挖掘算法的工作方法是通过分 析己知分类信息的历史数据总结出一个预测模型。这里用于建立模型 的数据称为训练集,通常是己经掌握的历史数据。 它基于对训练数据集的分析,找出描述区分数据类或概念的模型 或函数,并能够使用该模型或函数把数据集合中未知对象类的数据项 映射到某个类上,分类的结果往往表现为一棵分类树。数据的分类一 般分为两个过程:首先,建立一个模型,描述预定的数据集,通过分 析由属性描述的数据库元组来构造模型;然后,使用该模型进行分类。 基本的分类技术有判定树归纳、贝叶斯分类、神经网络。 ( 2 ) 回归模式( ( r e g e r s s i o n ) 回归是通过具有已知值的变量来预测其他变量的值。其函数定义 与分类模式相似,差别在于分类模式的预测值是离散值,回归模式的 预测值是连续值。许多对连续值建模的问题都可以用线性回归来解 决,对于一些非线性问题,如商品的销售量、股票价格、产品合格率 等,也可通过变量代换,转化成线性问题加以处理,或者用逻辑回归、 决策树、神经网络等方法处理。一般同一个模型既可用于回归也可用 于分类。 ( 3 ) 时间序列模式( t i m es e r i e s ) 时间序列模式也称为演变分析模式。用于描述对象随时间变化的 规律或趋势,对其建模,并根据数据随时间变化的趋势来预测将来的 值。时间序列采用的方法一般是在连续的时间流中截取一个时间窗口 ( 一个时间段) ,窗口内的数据作为一个数据单元,然后让这个时间窗 口在时间流上滑动,以获得建立模型所需要的训练集。比如你可以用 1 3 武汉工程大学硕士学位论文 前六天的数据来预测第7 天的值,这样就建立了一个区间大小为7 的 窗口。 时序分析,可以帮助人们选择合适的方法进行分析决策,有助于 全面地理解结果数据,并在较合理的情况下制定长期或短期的预测。 2 3 2 描述型模式 ( 1 ) 聚类模式( c l u s t e r i n g ) 聚类是在事先不规定分组规则的情况下,将数据按照其自身特征 划分成不同的群组。它的目的是要群与群之间差别显著,而同一个群 之间的数据尽量相似。与预测模型不同,聚类中没有明显的目标变量 作为数据的属性存在。它用于分析数据对象,而不考虑已知的类标记, 进行聚类前并不知道要将训练数据集划分成几个组,也不知道将要划 分成什么样的组,更不知道根据哪些属性来定义组。一般情况下,领 域专家能够理解挖掘结果中每个组的含义。当如果无人能够理解挖掘 的结果时,该产生模式可能是无意义的,可以丢弃并返回上一阶段重 新组织数据。 目前存在大量的聚类算法,算法的选择取决于数据的类型、聚类 的目的和应用的领域等。常用聚类方法包括k - m e a m s 算法、分层凝 聚法( h i e r a r c h i a la g g l o m e r a t i v em e t h o d s ) 及采用估算最大值法 ( e s t i m a t i o nm a x i m i z a t i o na l g o r i t h m ) 。 ( 2 ) 关联模式( a s s o c i a t i o n ) 关联分析是寻找数据库中值的相关性。两种常用的技术是关联规 则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关 性,比如在一次购买活动中所买不同商品的相关性。序列模式与此类 似,它寻找的是事件之间时间上的相关性。关联规则可记为a j b ,a 称为前提和左部( l h s ) ,b 称为后续或右部( m i s ) 。如关联规则“买尿 布的男人也会买啤酒”,左部是“买尿布 ,右部是买啤酒。 许多情况下,用户并不明确什么类型的模式适用于自己的数据, 1 4 第2 章数据挖掘技术 会帮助自己得到有趣的挖掘结果,因此可能希望并行地采用多种不同 的挖掘模式,以产生各种不同的搜索结果,再从中选取有趣的结论。 从而,数据挖掘系统经常同时使用多种模式进行挖掘,以适应各种不 同的需求和应用。 ( 3 ) 序列模式( s e q u e n t i a l ) 序列模型分析同关联规则类似,但是它更侧重于分析事物之间的 前后( 因果) 关系。为发现序列模式,不仅需要确定事件是否发生, 而且需要确定时间发生的时间和顺序。 2 4 聚类技术 聚类分析是将数据对象分组成为多个类或簇,在同一个簇中的对 象之间具有较高的相似度,而不同簇中的对象差别较大。距离是经常 采用的度量方式,聚类使得属于同一类别的个体之间的距离尽可能的 小,而不同类别上的个体间的距离尽可能的大。聚类和分类之间的不 同就在于:在分类模块中,对于目标数据库中存在哪些类是知道的, 要做的就是将每条记录分别属于哪一类标记出来;而聚类所要划分的 类是未知的,希望将所有的记录组成不同的类。 聚类技术是一种非监督学习的方怯,解决方案是数据驱动的。所 谓非受监督知识,是指在建立模式前结果是未知的,模式的产生不受 任何监督。在实际应用中,聚类能帮助市场分析人员从客户基本库中 发现不同的客户群,并且用购买模式来刻画不同的客户群的特征 6 1 。 聚类算法依据算法思想的不同,主要分为五大类:划分法 ( p a r t i t i o n i n gm e t h o d ) 、层次法( h i e r a r c h i c a lm e t h o d ) 、基于密度的方 法( d e n s i t y - b a s e dm e t h o d ) 、基于网格的方法( g r i d - b a s e dm e t h o d ) 和基于 模型的方法( m o d e l b a s e dm e t h o d ) 等。 2 4 1 划分法 基于距离的划分法是指根据样本离所选中心点的距离来选择样 1 5 武汉工程大学硕士学位论文 本所在簇的聚类方法。对于给定的样本,先创建一个初始划分数k , k 值大小一般需要人为给定,然后使用迭代重定位技术,通过对象在 类之间的移动来改进划分结果,直到以局部最优结束。为优化划分结 果,基于划分的聚类可能会穷举所有的划分。一个好的划分的准则是: 在同一类中的对象之间尽可能“接近或相关,而不同类中的对象之间 尽可能的远离或不同。最著名与常用的划分方法是k - m e a n s , k - m e d o i d s 以及它们的变种。 2 4 2 层次法 层次法是采用“自顶向下 或“自底向上”的方法在不同的层次上对 对象进行分组,形成一种树形的聚类结构。如果采用“自项向下”的方 法,则称为分解型层次聚类法;如果采用“自底向上 的方法,则称为 聚结型层次聚类法。代表算法有:b i r c h 算法,c u r e 算法, c h a m e l e o n 算法等。层次聚类算法的弱点在于聚合或分裂点的选 取问题,因为一组对象一旦聚合或分裂,就不能有取消的操作,且影 响后续的聚类过程。 2 4 3 基于密度的方法 基于密度的方法只要临近区域的密度超过某个阈值,就继续聚 类,避免仅生成球状聚类。类被看作是一个数据区域,在该区域内对 象是密集的,对象稀疏的区域将各个类分隔开来。多数基于密度的聚 类算法形成的聚类形状可以是任意的,并且一个类中对象的分布也可 以是任意的。基于密度的方法与其它方法的根本区别是:它不是基于 各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法 只能发现“类圆形的聚类的缺点。这个方法的指导思想是,以局部数 据特征作为聚类的判断标准,只要一个区域中的点的密度大过某个闽 值,就把它加到与之相近的聚类中去。代表算法有:d b s c a n 算法, o p t i c s 算法,d e n c l u e 算法等。 1 6 第2 章数据挖掘技术 2 4 4 基于网格的方法 基于网格的聚类方法采用一个多分辨率的网格数据结构,将空间 量化为有限数目的单元,这些单元形成了网格结构,所有的聚类操作 都在网格上进行。这种方法的优点在于处理速度快,处理时间不取决 于数据对象的数目,而仅取决于量化空间每个维度上的单位数量。 2 4 5 基于模型的方法 基于模型的方法为每个聚类假定了一个模型,然后去寻找能够很 好满足这个模型的数据集,一个模型表示聚类结果的一个簇。这种聚 类方法是建立在数据的产生存在一定概率分布的假设基础上,基于模 型的聚类主要有统计学方法和神经网络方法两种。其中神经网络聚类 法即k o h o n e n 方法,是运用神经网络的方法对数据进行细分的数据挖 掘方法。 2 5 数据挖掘在电信行业中的应用 目前,电信运营商面对着激烈的市场竞争,他们正尝试从各种不 同的角度进行突破,寻找新的市场机会,数据挖掘技术正好满足这种 需求。数据挖掘技术可以把企业分散的数据集中起来获取所需的知 识,可以帮助企业挖掘细分的市场,非常适用于电信这种数据密集型 的企业。这点在国外一些知名的电信公司的应用中已得到证实。如法 国电信利用数据挖掘技术在预防欺诈、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年织布技能考试题目及答案
- 慢跑运动概述
- 南大校区临建施工方案
- 2025年监狱护士考试题目及答案
- 水务笔试考试题及答案
- 上海社工考试真题题库及答案
- 质量材料员考试题及答案
- 科目一急救考试题及答案
- 宪法学考试试题及答案
- 作家采访考试题目及答案
- YS/T 320-2007锌精矿
- YS/T 226.12-2009硒化学分析方法第12部分:硒量的测定硫代硫酸钠容量法
- GB/T 24218.3-2010纺织品非织造布试验方法第3部分:断裂强力和断裂伸长率的测定(条样法)
- GB/T 10799-2008硬质泡沫塑料开孔和闭孔体积百分率的测定
- 系统工程原理 - 国防科技大学信息系统与管理学院
- 博微配电网工程设计软件
- 当代世界社会主义现状课件
- 《给排水科学与工程概论》全套教学课件
- 电工考核评分表(月度)
- 教育科研:教师职业成长的阶梯课件
- 大象版(新版教材)三年级上册小学科学全册教学课件
评论
0/150
提交评论