




已阅读5页,还剩74页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘技术在电信行业中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
jii1 ii ,相1 ij铝1, at h e s i ss u b m i t t e di nf u l f i l l m e n to ft h er e q u i r e m e n t s f o r t h ed e g r e eo fm a s t e ro fe n g i n e e r i n g d a t a m i n i n ga p p l i c a t i o n i nt h et e l e c o m m u n i c a t i o n s _ i n d u s t r v m a j o r : c o m p u t e ra p p l i c a t i o n & t e c h n o l o g y c a n d i d a t e :l i a oz u o w e n s u p e r v i s o r : ca iq o n ga s s o c i a t ep r o f e s s o r w u h a ni n s t i t u t eo ft e c h n o l o g y w u h a n ,h u b e i4 3 0 0 7 3 ,p r c h i n a m a y , 2 0 1 0 摘要 摘要 随着通信技术的不断发展,电信企业之间的竞争也变的越来越激烈, 过度的竞争导致企业利润的减少,使得各个电信公司不得不将传统的销 售模式转移到以“客户为中心 的模式,通过增强企业自身的核心竞争 力去提高盈利水平。为了能够挽留高价值客户,吸引新客户,许多公司 都开始运用数据挖掘工具对客户进行细分,了解客户的需求特点,并有 针对性的提供相关的服务策略。 本文首先对课题的背景和目的简单的进行了介绍,指出国内电信客 户细分存在的一些问题;其次对数据挖掘理论进行了概述,重点介绍了 聚类的主要方法,针对k m e a n s 算法的主要缺点,给出了改进该算法的 思想,并对其进行了验证然后采用国内某电信企业的客户数据,通过数 据清洗,转换,合并等技术对源数据进行预处理,根据业务需求以及使 用主成分分析的方法选择合适的细分变量。最后运用s p s sc l e m e n t i n e 工 具对变量进行分析,比对不同聚类方法所生成的结果,选择最优的聚类 模型,通过运用k o h o n e n 再次进行聚类分析,提取出客户群体的相关特 征,提供有针对性的销售策略。 关键词:数据挖掘;客户细分;聚类分析 武汉工程大学硕士学位论文 i i a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m m u n i c a t i o n , t h ec o m p e t i t i o n s a m o i 。g t e l e c o mc o m p a n i e sa r eb e c o m i n gf i e r c e r t h ee x c e s s i v ec o m p e t i t i o n b e 啊e c n 也ec o m p 猫e sm a k e st h er e d u c t i o no fp r o f i t a nt h et e l e c o mc o m p a m e s h a y e t 0t r a n s f 打岫t r a d i t i o n a ls a l e sp a t t e r n st o “c u s t o m e r - o r i e n t e d m o d e l s t o p r o m o t et h e i rp r o f i t st h r o u g hs t r e n g t h e n i n g t h e i ro w nc o r ec o m p e t i t i o na b i l i t y i no r d e rt om a i n t a i nh i g h - v a l u eu s e r sa n d a t t r a c tn e wu s e r s ,m a n yc o m p 锄e s 眦b e 咖t oa d o p tt h et o o l o fd a t am i n i n gt o s u b d i v i s i o nt h ec u s t o m e r s ,t 0 l e 锄m ec h a r a c t e r i s t i c so fc u s t o m e r sd e m a n d s ,a n dt h e n p r o v i d es o m e r e l e v a n ts e r v i c es t r a t e g i e s f i r s t l 弘t h eb a c k g r o u n da n d a i m so ft h es u b j e c tw i l lb ei n t r o d u c e ds i m p l y i n t h ea n i c l e ,t h ep r o b l e m so fc u s t o m e rs e g m e n t a t i o nw h i c h e x i s t e di nd o m e s t i c c o m p 雒i e sw i l lb ep o i n t e do u t s e c o n d l y , i t w i l lg i v eas u m m a r yo ft h e t h e o r i e so fd a t am i n i n g ,a n dt h em a i n w a y so fc l u s t e r i n gw i l lb ei n t r o d u c e d o n t h ef i r s tp l a c e a c c o r d i n gt ot h em a i nd e f e c t so fk - m e a n s ,s o m ei d e a so f i m l ) r o v i n gm o d i f y t h ea l g o r i t h mw i l lb eg i v e na n dv e r i f i e d t h i r d l yc u s t o m e r s d a t ao fs o m ed o m e s t i ct e l e c o mc o m p a n i e sw i l lb ea d o p t e d t op r e - t r e a t m e n t t h e o r i g i n d a t e b y d a t ac l e a n i n g ,t r a n s f o r m a t i o n , m e r g e r a n do t h e r t e i c h n o l o g i e s t h ep r o p e r l ys e g m e n t a t i o nv a r i a b l e sw i l lb ec h o s e n a c c o r d i n g t ot h eb u s i n e s sd e m a n d sa n d t h em a i nc o m p o n e n ta n a l y s i s f i n a l l y , t oa n a l y z e t h ev 撕a b l e sb yu s i n gs p s sc l e m e n t i n ea n d c o m p a r et h ec o n s e q u e n c e s w n l c n c r e a t e db yd i 仃e r e n tc l u s t e r i n gs oa st oc h o o s et h eb e s tc l u s t e r i n gm o d e l s b y a d o p t i n gk o h o n e n t or e - a n a l y z et h ec l u s t e r i n g ,e x t r a c tt h ec h a r a c t e n s t l c so t t h ec u s t o m e r s ,a n do f f e rs o m et a r g e t e ds a l e ss t r a t e g i e s k e y w o r d s :d a t am i n n i n g ;c u s t o m e rs e g m e n t a t i o n ;c l u s t e r a n a l y s l s 1 1 1 武汉工程大学硕士学位论文 目录 目录 摘要i a b s t r a c t h i 目录1 0 r 第一章绪论l 1 1 问题的提出l 1 1 1 研究背景l 1 1 2 研究目的2 1 1 3 研究意义2 1 2 国内客户细分存在的不足3 1 2 1 客户数据的完整性3 1 2 2 细分变量不合理3 1 2 3 细分模型不完善4 1 3 国内外研究现状。4 1 4 研究内容及创新点6 1 4 1 研究内容6 1 4 2 本文创新点。7 1 5 本文章节安排7 第二章数据挖掘理论9 2 1 数据挖掘概述9 2 1 1 数据挖掘的发展9 2 1 2 数据挖掘定义。1 0 2 1 3 数据挖掘系统的功能。l o 2 2 聚类分析1 2 2 2 1 聚类的过程。:1 3 2 2 2 聚类距离1 3 2 2 3 相似度量。1 6 2 2 4 类间测度距离1 7 第三章k - m e a n s 算法改进:1 9 3 1 k - m e a n s 算法的缺点。1 9 3 2 算法改进的基本思想2 0 3 3 改进算法的实验结果2 2 第四章电信客户细分的理论分析2 5 4 1 电信客户的特点分析2 5 4 2 客户细分的理论依据2 6 4 3 客户细分模型2 7 4 4 客户细分模型的基本流程3 0 4 5 细分方法介绍3l v 武汉工程大学硕士学位论文 第五章电信客户细分数据预处理3 3 5 1 业务需求分析o 3 3 5 2 电信客户细分变量选择3 3 5 2 1 传统细分变量的选择3 4 5 2 2 消费行为的细分变量选择3 4 5 3 电信客户数据理解。3 5 5 3 1 描述型变量3 6 5 3 2 细分变量3 7 5 4 数据预处理3 9 5 4 1 数据清洗。3 9 5 4 2 数据集成4 0 5 4 3 数据提取4 l 5 4 4 数据归约4 2 第六章电信客户细分模型设计4 3 6 1s p s sc l e m e n t i n e 工具介绍4 3 6 2 电信客户聚类分析4 3 6 2 1 聚类方法选择4 4 6 2 2 聚类分析过程4 6 6 2 3 聚类结果分析4 7 6 3 聚类结果解释及销售策略5 2 6 3 1 聚类结果解释。5 2 6 3 2 营销策略5 7 第七章结论6 l 参考文献6 3 攻读硕士学位期间发表的论文6 7 j l l t 谢6 9 v l 第一章绪论 1 1 问题的提出 第一章绪论 1 1 1 研究背景 近几年来,伴随着电信业务的不断发展以及相关体制的深化改革, 中国电信产业市场环境有了很大的变化,我国电信市场从刚开始的由少 量运营商垄断市场过渡到了由大运营商引导,小运营商参与和新运营商 加入的新格局。随着国内电信市场的不断开放以及客户的服务需求的多 样化,个性化,使得国内电信运营商面对的是一个更激烈,更具有挑战 性的竞争环境。过度的竞争将会导致利润的减少,使得各个电信运营商 重新考虑如何通过增强自身的核心竞争力去提高公司的盈利水平。企业 要想在竞争中立于不败之地,就要不断的完善自身的客户服务【i 】。同时还 要改变原有的运营模式,转向以客户为中心,以信息和数据为基础的先 进模式。在这样的背景下,一种全新的管理模式一客户关系管理【2 1 ( c g m ) 应运而生。电信运营商可以通过引入相关的理念,利用它来为公司增加 收入和利润,进一步提高客户满意度和忠诚度,为企业的发展打下良好 的基础。c r m 来源于西方的市场营销理论,核心的理念是把企业的客户 看作是最重要的资源,通过不断的完善客户服务,进一步对客户进行分 析,尽可能的满足广大客户的需求,使得客户终身价值的实现得以保证。 c r m 有许多实现的手段,包括客户细分,客户消费行为分析,客户市场 推广分析,客户流失分析,客户欠费分析和动态防欺诈分析等。 随着技术的不断发展,客户细分【3 】理念已经引起了许多人的关注,并 且出现了一系列细分的研究成果及细分方法。然而,不同的企业对电信 客户的细分有着不同的要求,如何根据企业的业务需求去进行客户细分, 以求解决企业在业务上的各种困难,仍然是企业所要面对的首要问题。 武汉工程大学硕士学位论文 本文就是在这样的前提背景下,通过研究不同的客户细分方法,比对各 种细分的科学模型,协助电信企业实现对客户消费行为的细分,根据细 分的结果有针对性提供的商业决策,为提高电信企业的效益和利润做出 贡献。 1 1 2 研究目的 本课题是对某电信公司客户关系管理c r m 问题的研究。该电信公司 进入电信市场的时间较晚,目前对客户进行管理所采用的方法还是以前 较为普通的调查模式,没有建立相对完善的客户细分模型或者系统,随 着信息技术的高速发展,国内企业之间的竞争越来越白热化。在这样的 一种局面下,假如该电信企业不采取相关的措施,那么与其他的电信企 业在竞争中将会处于较为被动的地位。传统的客户细分方法不能解释各 种客户群在日常消费需求中的差异性,最后的细分结果不可靠,缺乏准 确性。相比之下,在深入的分析客户的各种消费行为的基础之上,采用 数据挖掘技术对客户进行细分的方法,能够准确的识别和细分客户群, 这样所得出的结果比调查所得到的结果更为精确,可信度和成本都符合 公司的预期目标。本课题中的工作是对某电信公司的客户进行电信客户 细分,根据业务需求的目标,采用相关的数据挖掘技术对客户信息进行 挖掘处理,最后得出相关细分结果,这样可以帮助该电信公司更加明确 客户的消费特征,了解客户的各种需求。这种方法能够解决普通细分方 法的所存在的缺陷问题,是提高企业竞争力的一种有效方法。 1 1 3 研究意义 随着通信技术的不断发展,客户将会用更加理性和严格的眼光来要 求电信服务,这就要求整体的电信服务质量要进一步的提高。在这样的 形势下,运营商必须注重自身所拥有的客户的数据,利用相关的聚类技 第一章绪论 术去分析用户存在的消费行为,准确的认识,划分客户群体,同时对不 同消费行为的群体进行准确的营销服务,这样才能体现客户价值,市场 价值及企业价值;对于公司和企业来说,进行客户细分对他们提高市场 的占有率有着很重要的意义,同时,为企业的下一步发展指明了方向。 1 2 国内客户细分存在的不足 1 2 1 客户数据的完整性 现阶段国内电信企业所拥有的海量的客户数据存在着质量不高,完 整性不够和一致性不强等缺陷,在数据挖掘之前,需要花费大量的时间 去对相关的数据进行处理。同时,一些有关业务问题的数据收集不完全, 使得建立模型的有效性和实用性不高。譬如客户的满意度在客户价值中 占有很重要的地位,但是国内缺少相对完善的客户体系,所以由现有客二 户数据就无法得出实用价值高的评价模型。 1 2 2 细分变量不合理 目前,有些电信企业仍然选择客户的自然属性来对客户进行细分, 而忽略了客户的消费行为,没有能够把两者的特点相互结合起来。而存 在于数据库中客户的自然属性的准确性还有待提高,因为这些属性在不 同的时期会有不同的值,如果不对客户长期进行跟踪,得到的自然属性 很难让人满意。 一些电信企业还采用统计法和利用自身的经验对数据进行描述的落 后方法对客户进行细分,随着电信行业客户信息的爆炸性增长,原有的 这些方法已经不适合发展的需要,必须引入新的细分方法才能满足业务 的需求。但是,一些企业采用先进的细分方法后,所得到的结果仍然不 能令人满意,这是由于在对客户进行细分的时候,筛选的变量过少或者 武汉工程大学硕士学位论文 选择不相关的变量所导致的。所以,要想发现潜在客户的消费模式或者 要进一步对客户需求进行复杂的分析,就一定要选择好细分变量。 1 2 3 细分模型不完善 虽然目前的市场有许多客户细分的模型【4 】,但是真正应用于行业的 成熟模型较少,尤其是在具体的企业中这种情况就更为突出。企业缺少 对客户需求的深入了解及没有建立完善的信息管理系统,使得在细分的 时候很难把不同的数据表相互整合起来,细分变量难以提取,细分的模 型远不能满足公司的要求,也不能为公司业务的进一步发展提供相关的 差异化策略。而缺乏相关的细分体系,使得在客户细分的过程中,一些 步骤会变得很随意,不能为后期的工作提供保证,如何完善细分体系, 是目前电信企业所面临的突出问题。 1 3 国内外研究现状 在2 0 世纪5 0 年代中期,温德尔史密斯( w e n d e i ir s m i t h ) 首次在 市场营销学上提出了客户细分的概念。一个企业如果为了迎合顾客的需 求,给大众客户提供没有差异化的服务,结果很难尽如人意。只有对现 有客户进行细分,发现不同客户所存在不同的消费行为,从而提供有针 对性的服务,这样才是企业的出路。在市场营销上存在着2 0 8 0 的法则, 意思就是企业2 0 的客户可以给企业带来8 0 的高利润;5 1 。所以,与其 花大量的时间和金钱去吸收新客户,不如通过客户细分发现2 0 客户的 消费行为,进一步采取相关的手段挽留客户,这样会为公司的发展带来 很大的好处。 客户细分( c u s t o m e rs e g m e n t a t i o n ) 是指企业按照相关的行业标准将企 业的客户群体划分为不同种类的客户。客户关系管理( c r m ) 的核心就 是客户细分,在客户关系管理的各个环节中扮演相当重要的角色。在客 第一章绪论 户细分以及客户关系管理的建设方面,国外电信企业已经有了长足的发 展,比如美国a t & t 公司,荷兰k p m ,英国电信,德国的v i a gi n t e r k o m , 新家坡s i n g t d 等电信企业不断建立自身的客户品牌和完善客户管理方面 等工作,不仅在本国的市场中占有稳定的份额,而且获得较高的利润价 值。这些公司都很重视客户细分,能够给不同层次的客户提供相对应的 策略,使得各类客户都能够享受到公司所提供的服务【6 】。 美国的r c c 公司( r u r a lc e l l u l a rc o r p o r a t i o n ) 公司利用先进的统计分 析软件对市场占有率进行研究,其中包括对客户信用度和满意度分析, 对相关品牌进行深入的研究及另外的一些研究准确定位市场和发现相关 特征,并且通过不断的收集市场信息,合理对其进行分析,使得该公司 能够明确客户需求,再改善自身的品牌和合理利用资源,提供了相关的 决策信息。 英国的电信行业竞争日益激烈,作为前垄断者的英国电信公司依然 是本地电信公司的领袖,虽然该公司每年有2 9 0 亿元的销售额,但是面 对来自英国其他大约1 6 0 个公司的竞争,英国电信不得不改变原有的策 略,开始重视哪些客户会购买它的产品及服务,以挽留现有客户,吸引 新客户,实现客户自身价值的最大化。 该公司通过对数据的分析建立了相关的模型去预测客户要购买的产 品以及新客户可能带来的价值,通过对客户的分类进行描述后,针对某 一类客户开发一种新的品牌产品,最后该产品能够增加公司的收入和提 高市场的占有率。 相比较国外的电信企业,国内的细分工作虽然获得了长足的进步, 但是仍然存在着一些缺陷,许多有相似需求以及消费特点很接近的客户 群体没有被进行划分f 7 1 ,这就使得国内的电信运营商进一步的理解客户细 分的理念,明确客户细分的步骤,从而掌握客户的业务需求和消费特征, 不断提升和挖掘客户的潜在价值。 当然,国内也有利用数据挖掘进行客户细分的成功案例。国内某省 武汉工程大学硕士学位论文 级移动公司,通过采用先进的数据挖掘工具c l e m e n t i n e ,严格按照 c r j s p d m 标准流程,将基本的用户资料,用户消费行为数据和收费数 据项结合,通过使用聚类方法对客户进行细分,得到相关细分结果,最 后运用行业的评估标准对得到的结果进行验证,最后总结出不同客户的 特征。该公司通过客户的特征针对不同的人群提供了自己的细分产品, 改变销售策略,使公司的市场占有率和利润都得到了大幅度的提升。 1 4 研究内容及创新点 1 4 1 研究内容 本文主要研究的是如何根据业务需求和预期的细分目标,运用什么 样的聚类方法对电信客户进行细分。研究内容主要包括以下几个方面: 1 对数据挖掘理论进行了概述,着重研究了聚类分析的方法,特别是 如何通过距离和相似性去对源数据集进行划分。 2 针对k - m e 趾s 的自身缺点,本文给出了改进该算法的思想,并且 对改进后的结果进行了验证。 3 对客户细分的理论进行了研究,给出了r f m 和顾客消费矩阵两种 细分的模型,分析了两者之间的优点和缺点,为后续的研究提供了模型 参考。 4 对源数据进行了处理,将一些不符合规定的数据删除掉,并对进行 了数据整合。根据业务需求进行细分变量的选择,并且通过主成分分析 法进一步筛选变量,去掉变量间的相关性。 5 使用s p s sc l e m e n t i n e 工具对数据进行挖掘,最后得出相关的聚类 结果并对其进行解释。 第一章绪论 1 4 2 本文创新点 1 本文分析了k - m e a n s 算法的缺点,针对这些缺点给出了相关的改 进思想,并选取合适的数据对两种算法按照聚类准确度和运行时间上进 行比较,得出了和预期一致的结论。 2 本文通过s p s sc l c m e n t i n c 对数据进行选择,清洗以及合并。然后 根据业务的需求及预期的细分目标选择相关的细分变量,最后通过采用 主成分分析的方法,去掉变量间的相关性,选择最佳的细分变量。 3 运用s p s sc l e m e n t i n c 进行客户细分,采用不同的细分方法,将两 步聚类方法和k - m e a n s 聚类方法多得到的模型从各方面进行比较,从而 得出最优模型。最后,使用k o h o n e n 节点,输入描述变量,最后得到具 体划分结果的特征,为企业的下步工作提供基础。 1 5 本文章节安排 本文的主要结构安排如下: ( 1 ) 绪论。在这一章中主要是对课题的背景,目的和意义进行了相关 的描述,指出国内电信行业之间对于客户细分所存在的不足之处;说明 了本文的创新点及各章之间的基本安排。 ( 2 ) 数据挖掘理论。本章对数据挖掘技术进行了概述,特别对聚类方 法进行研究。 ( 3 ) k m e a n s 算法改进。本章提出了k m e a n s 算法存在的一些缺陷, 给出了改进算法的思想,最后分别采用经典算法和改进算法对相关的数 据集进行了聚类,通过分析后得到与预期一致的结论。 ( 4 ) 电信客户细分的理论分析。在这章中对电信客户的特点进行了分 析,提供了客户细分的理论依据,同时给出了客户细分的两种基本模型。 ( 5 ) 电信客户细分数据预处理。本章中对业务需求进行分析,提出了 武汉工程大学硕士学位论文 初始的细分目标,最后通过相关的技术对数据进行了处理。 ( 6 ) 电信客户细分模型设计。本章中运用s p s sc l e m e n t i n e 工具进行数 据挖掘,经过比较后得出最优模型,并提供销售策略。 第二章数据挖掘理论 2 1 数据挖掘概述 2 1 1 数据挖掘的发展 第二章数据挖掘理论 随着信息量的增长,数据库中所存储的数据也不断的累加,累加数 据的背后隐藏着许多潜在的,未被发觉的信息,如何能够对这些数据进 行更进一步的分析和利用,一直是困扰着许多公司的问题。数据库系统 的不断完善,虽然使数据的各种操作变得简单有效,但是隐藏在数据背 后的一些知识却无法发现,更不可能通过对现有数据的分析去对未来进 行预测。所以,当人们面对着海量的数据时,却缺少发现隐藏在数据后 面的知识的方法,这样就产生了一个很奇怪的现象,即“数据过剩却信 息贫乏 。在这样的情况下,一些专家和公司都提出了这样一个问题:当 处在信息爆炸年代的人面对信息过量的问题时,怎样才能够在海量的信 息中发现潜在的规则和知识,而不是把数据作为垃圾来处理呢? 企业如 果想把数据变成自身的一种有效资源,就必须要发现其背后的关系和规 则,利用这些关系和规则提供决策服务,这样才能为企业的后续发展打 下良好的基础。数据挖掘技术在这样的情况下诞生了,由于它能够发现 数据库中的大量数据背后所隐藏的相关知识,因此这种技术获得了很多 企业和公司的青睐,其发展的速度也越来越快。 目前的对数据挖掘存在着两种观点:一种观点【8 0 0 】就是数据挖掘并不 是知识发现的过程的全部,而仅仅是发现知识过程的一个不可或缺的环 节。而另一种观点【l l 】恰好相反,认为两者的概念和意义是一样的,也就 是说数据挖掘的过程就是知识发现的全部。个人认为后者的观点更为准 确一些,因为数据挖掘的过程中不仅仅是对数据进行分析,在数据分析 的过程中也伴随着各种关系和规则的发现,而这些关系和规则到后期将 武汉工程大学硕士学位论文 会转化为企业所需要的知识。 2 1 2 数据挖掘定义 数据挖掘【1 2 ( d a t am i n i n g ) 的含义可以理解为从保存在数据库里的海 量数据中将那些隐藏的,没有被发觉的,具有潜在性价值的信息挖掘出 来的过程。这个过程主要是通过对所收集到的海量数据信息进行研究, 目标就是要从枯燥的数据中挖掘出没有被认识到的一些规则,这些规则 对于企业或者公司来说都是有其自身特定价值的。当然,数据挖掘的过 程并不是随意的对数据进行简单的分析,而是要通过一些专业的技术手 段,从这些数据中提取出有较高价值的关系和规则,这些关系和规则可 以用于管理数据,优化查询等方面。没有经过处理的行业数据的数据量 不仅很大,而且从表面上看来很枯燥乏味,使用价值也不高。只有运用 数据挖掘的相关技术对数据背后的有价值的信息进行提取,才能帮助企 业在多方面进行预测。 2 1 3 数据挖掘系统的功能 各行业出现的问题大部分都可以通过数据挖掘系统提供的各种方法 来解决,一般来说,该系统有下面以下几种功能: 1 预测未知行为【1 3 】 以前对数据要进行手动的分析,这样不仅程序较为繁琐,而且得出 信息的准确度也不高,有了数据挖掘以后,能够迅速的从数据中找出有 用的信息,从而得出相关的结论。比如说预测客户流失的问题,企业通 过使用数据挖掘来预测哪些客户可能流失,什么时候流失,为什么流失 以及客户流失后所造成的影响,通过预测分析后可以对流失客户采取相 关的挽留措施。 2 描述概念 1 4 - 1 5 】 第二章数据挖掘理论 描述概念指的是对某一种群体进行一些表述,通过归纳表述后的群 体将会比原来更显得有特点。主要有两类描述方法:一是特点描述,二 是判断描述。特点描述是指在在了解业务知识的情况下,运用数据分析 的方法,从各个不同的角度对不同群体的特点进行提取的一种方式;而 判断描述则更多的是说明各种不同群体之间的差异性。 3 相关分析【1 6 】 对数据进行相关分析就是要找到数据之间的相互关系,这类关系是 一种备受瞩目的知识,数据越庞大,那么所得到的数据之间的关联规则 也会越来越多,就更能引起人们的兴趣。从海量信息中所得出的相关性 规则,不仅能够帮助企业制定营销策略,譬如说交叉销售,而且还能够 提高企业的利润率。 4 分类【1 7 】 分类是一种很重要的数据挖掘技术,它是从现有的数据中得出一个 分类模型,这种模型可以用数据中的某些属性对其进行描述。分类技术 可以用来对银行客户满意度进行评估,当然也可以进行客户细分。通过 分类后的客户将会被分成不同的种类,形成不同的分类模型,让公司了 解不同客户的特征。分类的方法包括决策树,s v m ,v s m 等方法。 5 聚类分析【1 8 】 聚类分析就是在一堆杂乱无章的数据中,选取一些属性按照一定的 规则进行聚类的过程,这个过程不仅要将个体之间的距离作为考虑的因 素,而且得到的各个类之间要有一定的意义,所得到的结果被称为类, 处于一个类内的个体的相似度较高,相反,不在一个类之间的个体将会 有很大的差别,聚类过程是无监督的过程。我们可以通过聚类分析来为 企业进行客户的细分,比如说,通过聚类分析,我们将会得出这样一些 类别的客户:增值业务消费较高的客户,上网通信消费较高的客户,还 有一些使用小灵通的客户,这类客户主要是打电话,等等,通过聚类分 析,企业更能掌握不同群体之间的差别。 武汉工程大学硕士学位论文 6 分析孤立尉1 9 1 庞大的数据中将会包含着许多类型不一样的属性,这些属性在取值 或者其他方面可能与一般数据有较大的偏差,这就显得这类数据非常特 殊化,简称它们为数据的孤立点。一般来说,在数据挖掘之前,要对这 些孤立点进行处理,尽可能的减少它对数据挖掘结果的影响。然而,在 有些领域中,孤立点的存在对数据挖掘来说是很重要的,因为这些异常 行为能够引起人们的注意,比如在客户流失中,孤立点有可能就表示着 客户的流失行为。 7 时间分析【2 0 】 时间分析是指客户行为随着时间的变动而不断呈规律性变化,而且 用合适的方法对这些数据进行建模。由于时间分析能够反映三种变化的 规律:未来走向性变化,周期循环性变化,数据随机性变化。所以,时 间分析不仅可以对股票市场的未来走向进行预测,而且能够应用于气象 预报,地震前兆预报,农作物病虫灾害预报等不同领域。 2 2 聚类分析 聚类技术【2 l 】主要是将不同的数据之间在时间和空间上的关系提取出 来的一种技术,它能够根据数据中的不同属性,按照一定的规则把数据 归为不同的类,使得在同一个类间的个体的相似性较大而不同类之间则 有明显的差异性。通过聚类技术分析后所得到的不仅将数据分为不同的 种类,而且能够从这些种类中提取出事物的特征,进一步发现了隐藏的 知识,比如说数据之间的特点是什么,它们与别的类之间有什么关系, 数据在不同的时间会不会变化等等。聚类分析是统计学理论的重要组成 部分,然而,聚类分析在统计学中更多的是侧重于理论上的研究,很少 考虑到实际的情况,所得的聚类结果很多时候都不符合实际的目标。数 据挖掘在近几年的迅速发展,为聚类分析提供了一个很好的平台,随着 第二章数据挖掘理论 数据库技术的不断完善和进步,聚类分析被应用于越来越多的领域。由 于聚类分析前系统并不知道要怎么分类,所以对于分析后所得到的各类 结果,就需要一个熟悉业务的人来为其进行评价。假如得到得结果并不 能很好的满足预期的目标,那么就要重新选择一些变量进行聚类,经过 循环反复的试验后才会得才出一个较为理想的模型。 2 2 1 聚类的过程 聚类是数据挖掘中常用的方法,简单的来说就是将相似度高的元素 集合在一起,而不在同一个集合里的元素有很大的差别。聚类在数学上 的描述如下: 抽取一组分析的数据集为:x = ,x 2 ,x 。 ,同时还要提供相近度 和差异度的标准,我们定义k 为相近度标准,而z 为差异度标准,为了便 于分析,将输入的数据以,后) 或,) 来表示。 其中:五u 置u u 以= x 而:置nx j = f 2 j ,i j f x 中的元素五,x ,x 。被称为类【2 2 1 ,所得到的每一类结果中至少要 有一个元素,而每个元素也属于一个结果类中。 聚类的过程主要包括以下几个步骤:准备数据,提取特征向量( 也叫 聚类变量) ,选择具体的聚类方法进行聚类,最后就是对聚类所产生的结 果进行评估。在这个过程中,准备数据和提取特征向量占用了大量的时 间,特别是特征向量的选择,更是关乎到聚类结果的准确度。我们在选 取特征向量时,要选择与业务需求相关联的变量,假如将一些无用的变 量选择进去后,那么得到的结果将会与预期的结果相差很远。 2 2 2 聚类距离 聚类过程主要是通过计算不同的数据元素之间的距离来进行划分群 武汉工程大学硕士学位论文 体的,主要有两个方法:一种是在m 维的空间中找一个点,并且定义它 的空间距离,通过计算得出元素间的距离,如果两个元素间它们的距离 较近,那么就归为一类,否则,就认为它们属于不同的种类;另一种就 是利用相近系数来进行判断,如果该系数越接近l ,那么就表明两个元素 间的性质越相近。如果系数越接近于0 ,就可以认为两个元素间共同点比 较少,两者之间没有什么联系。 在m 维空间上找出刀个点用来代表万个元素,那么可以用m 维空间的 两个元素之间所测得的距离来表示两个元素之间的相近程度。假设用白 表示元素y ;和y ,之间的距离,经常用到得距离表达公式有下面几个: 1 ) 明克思基( m i n k o w s l 【i ) 距离【2 3 】 渺囱y 西- y j b 叼 蛔) 当k = 1 时,明克思基公式将会变为: c 鲈( 1 ) 2 善 y 玷一y 弦i 式( 2 2 ) 6 - l t 、i ,i 公式( 2 2 ) 被称为绝对距离或者是曼哈顿距离【2 4 】。 当k = 2 时,明克思基公式将会变为: c u ( 2 ) :f 羔曲仉) i l 扣1 式( 2 3 ) 公式( 2 3 ) 被称为欧式距离【2 5 】。 当k = 0 0 时,明克思基公式将会变为: c 移 ) - m 勘a x 。l y 西一y 弦i 式( 2 - 4 ) 公式( 2 4 ) 被称为切比雪夫距离。 有些时候直接用明克思基公式计算距离并不合适,特别是当测量值 的相差较大的时候,这时候我们就先要对数据进行标准化处理,然后再 使用该公式进行计算。 1 4 第二章数据挖掘理论 2 ) 马哈拉诺比斯( m a h a l a n o b i s ) 距离 马氏距离是在1 9 3 6 年由印度人马哈拉诺比斯提出来的,这个公式同 时还关注到了各种特征之间的相互联系,它所表示的元素之间的协方差 距离,它的数学定义如下: 设p 表示协方差矩阵,即: p = hl _ 其中,仃妒= 丢喜( y 柳一五) ( y 够一y j ) l j f = ,朋 9 4 :( 2 5 ) 五= 丢喜y 舸e = 去喜 如果p q 存在,那么马氏距离可以表示为: c ;似) = b y j ) r p 一1 ( y ,一y ,) 式( 2 6 ) y i 表示的是原始数据矩阵中第i 行的平均向量,y ,的情况也类似,p 表 示的是协方差矩阵。 元素y 到整体l 的马氏距离表示如下: c 2 ( y ,) = 仃一 ) 7 p 。1 仃一“)式( 2 7 ) ”表示为整体的平均向量,p 表示协方差矩阵。 马氏距离不仅能够不受各个元素之间相关性的影响,而且还有一些 别的优点,比如说,将原始数据进行线性变换之后,马氏距离仍然可以 保持不变。 3 ) 兰氏距离 这个公式是由兰氏和威廉姆斯最先提出的,被称为兰氏距离。 公式的表示如下: c 驴亿) 2 i 1 亡面y t b - 瓦y b l j = 1 ,2 ,棚式( 2 - 8 ) 公式( 2 8 ) 不受元素间量纲的影响,却不能排除元素间相关性的影响, 武汉工程大学硕士学位论文 而且它只在y 扩 o 的情形。 2 2 3 相似度量 要想确定元素之间的紧密程度,除了可以用元素间的距离来测量以 外,还可以通过相似系数来对其进行判断,也就是说两个元素之间的相 似程度可以用相似系数这样一个单位来衡量,常见的相似系数公式有: 1 ) 夹角余弦 夹角余弦主要是受到相似性的启发创造出来的,图2 1 中a b 和c d 虽 然长度并不一样,但是两者的形状很像。 图2 - l 相似图 如果两者的长度不是主要的因素,又要定义一个概念来表示两者的 相似性,使得a b 和c d 能够表现出很紧密的关系时,夹角余弦就很符合这 个要求。夹角余弦的数学公式表示如下: 将任意两个元素y ;与y ,看做是m 维空间的两个固定的向量,用c o s 岛 来表示两个元素间的夹角余弦。则 y 西y 拍 c o s 8 0 = 了竽亍 否y 三酗 式( 2 - 9 ) 如果c o s 铱= 1 的时候,那么就表示两个元素y ,与y j 完全相似;当c o s e c 趋向1 时,说明这两个元素大部分相似。如果c o s 以= 0 时,说明两个元素 完全不相似,当c 0 s 吼越靠近o 时,两个元素之间的差异就越大。当将所 第二章数据挖掘理论 有的相似系数都计算出来的时候,就可以组成一个相似系数的矩阵: y = c o s q lc o s o , 2 e o s o , 辫 c o s 0 2 1c o s 如c o s 0 2 用 “ m c o s 吒lc o s 吒2 c o s 6 乙 式( 2 一l o ) 白。了雩季艺_il(iyiiib盂-iy丽ixyib-;i) 一l 白l i 。2 。, 其中: 五= 去喜y 胁五= 喜y 归 相关系数的内在意义就是描述两个向量间的线性关联程度,它实质 是一个经过标准化后所得到的夹角余弦。 2 2 4 类间测度距离 假设有两个群体五和_ ,它们之间分别有后个和,个样本, e f f 3 2 _ f 司 的中心距离分别为吐和d ,假设口毛,6 _ ,那么可以用d ( 口,6 ) 记为两个 样本间的距离,而两个群体之间的距离可以用眈k ,_ ) 来表示,那么以下 武汉工程大学硕士学位论文 就可以用上述字符来表示相关的距离公式: ( 1 ) 最近距离法: 两个群体中最近的两个样品间的距离为: d ,k ,_ ) = m i i l p g ,b ) l a e 而,b 乃 式( 2 1 2 ) ( 2 ) 最远距离法: 见k ,_ ) =
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 肾脏疾病通路选择策略-洞察及研究
- 智能公交数据分析-洞察及研究
- 雪莱特材料在绿色合成中的应用-洞察阐释
- 跨文化创新与知识产权保护-洞察阐释
- 人工智能推动数字经济产业结构的深度转型
- 跨文化身份认同与教育关系研究-洞察阐释
- 云南中医药大学《第二外国语(法)》2023-2024学年第二学期期末试卷
- 荆州职业技术学院《建筑小环境设计》2023-2024学年第二学期期末试卷
- 杭州师范大学钱江学院《户外救援》2023-2024学年第二学期期末试卷
- 丽水学院《临床流行病学》2023-2024学年第二学期期末试卷
- 酱料生产知识培训课件模板
- 药品网络销售监督管理办法培训
- 天车轨道梁加固安全施工方案
- 脱发介绍演示培训课件
- 初中物理教材插图原理集锦(回归教材)
- 肠梗阻护理查房(小肠减压管的应用)
- 2024届辽宁省沈阳市东北育才校中考冲刺卷物理试题含解析
- 抗菌药物合理应用
- 初中体育篮球双手胸前传接球教案
- 中建盘扣式落地卸料平台施工方案
- 配电网技术标准(施工验收分册)
评论
0/150
提交评论