




已阅读5页,还剩68页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘技术在电信行业crm中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 近年来,随着市场经济体制的逐步完善,国内电信业的市场环境也已逐渐趋 向合理,竞争日益加剧。同时,由于世界经济全球化、市场国际化和我国加入 w t o ,要求国内电信企业在经营管理上与国际接轨,以迎接国际化竞争。电信 企业传统的以产品为核心、成本控制为目标的管理体系,以产品、价格、销售地 点和柜台式服务为中心的经营模式,正逐渐向以客户和市场为中心、以客户的价 值取向和消费心理为导向的模式转变。这使得电信企业都充分认识到在其运作过 程中采用新技术、新理念的重要性。电信运营商的经营模式逐渐从“技术驱动” 向“市场驱动”、“客户驱动”转化。这就要求运营商要采取以“客户为中心” 的策略,根据客户的实际需求提供个性化的服务解决方案。因此,客户关系管理 ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ,即c r m ) 的实施迫在眉睫。c r m 是一 套以改善企业和客户之间关系为目的的工具和软件,它的核心内容是全面管理客 户信息,分析客户行为,构建高效灵活的客户交流渠道,为客户提供完善周到的 售后服务,从而可以体现以客户为中心的经营理念,帮助电信企业完成从产品竞 争到服务竞争的战略转型。 在实际实施c r m 系统时,对电信运用商来说,客户细分、客户流失预警 分析、客户满意度分析、客户忠诚度分析是非常关心的四个问题,也是本文研究 的重点。本文先从客户关系管理和数据挖掘的定义着手,结合电信企业的实际情 况,论述数据挖掘算法在c r m 中以上四个关键问题上的应用。同时针对传统 的数据挖掘算法的存在的不足,为了更适应电信行业的c r m 系统,本文对数据挖 掘中的部分传统算法做了改进 关键词:数据挖掘;客户关系管理;客户细分;客户流失预警;客户满意度;客 户忠诚度 数据挖掘技术在电信行业c r m 中的应用研究 a b s t r a c t i nr e c e n ty e a r s ,w i t ht h ei n c r e a s i n g l yi m p r o v e m e n to fm a r k e te c o n o m ys y s t e m , t h em a r k e te n v i r o n m e n tf o rt e l c c o mi n d u s t r yi no u rc o u n t r yb e c o m e sm o r ea n dm o r e r e a s o n a b l e ,e n dt h ec o m p e t i t i o ni si n c r e a s i n g l yd r a s t i c m e a n w h i l e ,b e c a u s eo ft h e e c o n o m y 斟o b a l i z a t i o n , m a r k e ti n t e r n a t i o n a l i z a t i o n , e n do u re n t r a n c et ow t o ,t h e m a p p e a r st h ed e m a n do fm e e t i n gt h ei n t e r n a t i o n a ls t a n d a r d si no r d e rt o f a c et h e c o m p e t i t i o n t h em o d e lo ft e l e c o mi n d u s t r yi sc o n v e n i n gf r o mt h et r a d i t i o n a lw a y w h i c hr e g a r d st h ep r o d u c t sa st h ef o c u s , t h ec o s tc o n t r o la st h eg o a l ,t h ep r o d u c t s , p r i c e ,s a l ep l a c ea n dc o u n t e rs e r v i c ea st h em a i na t t e n t i o ni n t oan e wo n ew i t ht h e c e n t e ro f c u s t o m e ra n dm a r k e t , w i t ht h ed i r c c t i o no f c u s t o m e r sv a l u ea n d p s y c h o l o g y t h i sc o n v e r s i o nm a k e st e l e e o mi n d u s t r yf u l l yr e a l i z et h ei m p o r t a n c et o a d o p tn e w t e c h n o l o g y , n e wi d e ai nt h ee o u r s o fp r o c e s s i o n t h eb u s i n e s sm o d e lo ft e l e c o m o p e r a t o r s c h a n g e s f r o m ”t e c h n o l o g y - d r i v e n t o ”m a r k e t - d r i v e n a n d ”c u s t o m e r - d r i v e n ”g r a d u a l l y t h i sr e q u i r e so p e r a t o r st ot a k ea ”c u s t o m e r - c e n t r e d a p p r o a c ha c c o r d i n gt ot h ea c t u a ld e m a n df o rp e r s o n a l i z e dc u s t o m e rs e r v i c es o l u t i o n s ot h ei m p l e m e n t a t i o no fc u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ( c r m ) i si m m i n e n l c r mi sak i n do fm a n a g e m e n tt h o u g h t sa n ds o r w a r ea i m c da tt h es t a g e - m a r k e ta n d s a l ed e p a r t m e n to fac o m p a n y i t sf o c u sc o n t e n ti st om a n a g ec u s t o m e r si n f o r m a t i o n a l l - a r o u n d , t oa n a l y z ec u s t o m e r sb e h a v i o r , t os e tu pc h a n n e l sf o rc u s t o m e r s c o m m u n i c a t i o n , t op r o v i d ep e r f 嘲a f t e r - s a l es e r v i c ei no r d e rt oe m b o d ym a n a g e m e n t i d e aw i t ht h ec e n t e ro fc u s t o m e r , a n df i n a l l yt of i n i s ht h es t r a t e g i cc o n v e r s i o ni n t e l e c o mi n d u s t r yf r o mp r o d u c tc o m p e t i t i o nt os e r v i c ec o m p e t i t i o n i nt h ec o u r s eo f t h ei m p l e m e n to fc r m s y s t e m , t h e r ee x i s t sf o u rp r o b l e m st h a ti s a t t r a c t i v et ot c l e c o md e a l e ra n di st h ef o c u so ft h ee s s a y :c u s t o m e rs e g m e n t a t i o n ; c u s t o m e rd r a i n s ;g 脚, t o m e rs a t i s f a c t i o n ;c 1 1 s l o m g tl o y a l t y t h ee s s a yf i r s t l yt e l l st h e d e f i n i t i o n so fc r ma n dd a t em i n i a n dd i s c u s s e st h ea p p l i c a t i o no fd b ( d a t a m i n i n g ) a l g o r i t h mi nt h ef o u rk e yp r o b l e mo f c r m f o rt h es h o r t a g eo f t h et r a d i t i o n a l a l g o r i t h mo fd a t am i n i n ga n db e i n gm o r er e s p o n s i v et ot h en e e d so ft h et e l c c o m i n d u s t r yc r ms y s t e m , t h i sp a p e rh a si m p r o v c dp a r t i a la l g o r i t h mo f d a t am i n i n g k e y w o r d s :d a t am i n i n g ;c r m ;c u s t o m e rs e g m e n t a t i o n ;c u s t o m e rd r 吐l s ;c u s t o m e r s a t i s f a c t i o n ;c u s t o m e rl o y a l t y 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获堤笪劬剩寥勘其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 学位论文作者签名 膨庆 签字日期:;年乡月f o 日 学位论文版权使用授权书 本学位论文作者完全了解丝蝴有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授壑鲥以将学位论文的全部或部分内容编入有关数据库进行 检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签乎:炒锄始纠舛 签字日期:。年于月户日 签字日期: 口口g 年,月,矿日 学位论文作者毕业去向: 工作单位: 电话: 捅讯地自 邮编: 第一章绪论 1 1 研究背景和意义 第一章绪论 近年来,随着竞争日益激烈,世界各地许多行业都经历着从卖方市场到买方 市场的转变,以客户为中心的理念正成为企业经营的核心。电信行业是未来新经 济( 或称网络经济) 发展的基础和核心,具有明显的先导性和渗透性,是典型的技 术与知识密集型产业和高投入、高产出、高就业型产业,涉及国民经济、社会发 展和人们生活的方方面面,对其它产业的发展有着很强的带动作用。 电信行业发展到今天,各种电信企业与客户的交互发生了很大的变化,谁也 不能保证客户从一而终,各电信企业要想保留住自己的客户,就必须更多地了解 客户的需求,客户关系管理技术就是企业为了保持企业竞争力而采取的面向客 户、以客户为驱动和以客户为中心的决策技术。电信企业要想与自己的客户建立 一种持久的关系,从每个客户身上获取最大的利润,降低企业运营成本,减少因 客户的离去而产生的损失和无效的经营决策而产生的浪费,就要求各企业能够深 入了解客户的习惯、喜好,以此正确地估计到客户对电信产品的各种需求,并在 最短的时间内满足客户的各种需求。要做到这些,就必须对客户在与企业交互过 程中的各种客户数据收集、整理和分析,然后根据收集到的数据,挖掘出隐含在 这些数据中的有用信息和知识。只有在正确的时间里通过正确的渠道给正确的客 户提供恰当的服务才能实现客户关系管理的目标。但是随着数据库技术的广泛应 用与发展,企业客户数据量爆炸式的膨胀,很多企业由于缺乏发现隐含在众多数 据中有用信息的能力,它们就没有办法将隐含在这些数据中的信息转化为有用的 知识。数据挖掘技术就是帮助各电信企业解决同客户在交互过程中遇到的各种问 题的最重要的技术之一,客户关系管理系统就是决策科学技术和数据挖掘技术应 用中发展最快的领域之一随着电信业的竞争日益白热化,电信巨头们纷纷引入 数据挖掘技术,利用数据挖掘技术来指导和做出市场决策,赢得了市场先机。如 何提供高质量的服务来吸引和留住客户、扩大市场份额,降低成本、提高收益, 已经成为全球电信业决策者们共同关注的课题。随着中国加入耵o ,中国的电信 运营商将直面全球的电信巨头那么,中国的电信运营商需要充分发挥自己的竞 数据挖掘技术在电信行业c i e 、4 中的应用研究 争优势留住老客户、开发新客户,提高决策质量和效率,才能在竞争中立于不败 之地。数据挖掘技术无疑是帮助实现这一目标的关键所在,因为只有通过数据挖 掘,才可能全面了解和掌握客户的信息,并快速做出相应的决策。中国电信南 北市场的拆分,电信业务领域的全面开放,小灵通和移动业务的激烈竞争使得目 前的中国电信市场烽烟四起。“客户一产品一市场一利润”成为目前各电信运营 商的基本发展思路,在海量的业务数据基础上,电信企业必须利用适当的手段和 工具才能清楚的分析了解自己和主要竞争对手的情况。 电信业新的竞争格局以及加入w t o 后国际电信市场竞争的加剧,再加上i t 技术特别是i n t e r n e t 技术的迅猛发展与广泛应用表明中国电信业进入了一个前 所未有的全新发展阶段。目前,电信市场正在从卖方市场转向买方市场,电信企 业正以前所未有的速度向前发展。快速发展的用户群、多样化的业务以及经营竞 争环境对电信企业的服务质量提出了更高、更新的要求。由于用户的选择范围扩 大,期望值不断提高,我国电信业必须从以生产运营为主的运营方式转变成以客 户服务为主的运营方式。电信市场的竞争焦点将从以价格竞争为主发展到以非价 格竞争为主,将更为强调以客户为中心的完善的客户服务。我国电信业必须积极 探索适合现状的新企业管理模式,运用现代化的信息手段去迎接新时代的变革与 挑战。改善客户服务,增强客户的忠诚度,是电信企业赖以生存和发展、增强企 业竞争力,提高企业经济效益,促进企业的改革与发展的重要保证。 c e m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ,客户关系管理) 恰恰切合了这 种需要。它面对企业市场和销售部门,核心内容是管理分析客户行为信息,构建 客户交流渠道,为客户提供完善周到的售后服务。应用c e m 重构电信业的管理模 式是电信企业信息化管理发展的必然趋势。目前,一些世界级的电信运营商,如 英国电信、a t & t ,德国电信、m c i ,s p r i n t ,t e l i a 等,无不把c 雕作为企业竞争 的利器。在国内当前的竞争形势下,c r m 也无疑最能拨动各电信运营商管理层的 心弦。与此同时,数据挖掘、数据仓库等一些先进技术也被企业作为数据分析的 工具引入到客户关系管理中,为企业经营决策提供科学、准确的依据有鉴于此, 本文针对电信企业c r m 实旌中的数据挖掘及其算法实现进行了一些有意义的探 讨以其为电信企业决策者决策提供有力的依据。 2 第一章绪论 1 2 电信c r m 中的数据挖掘应用现状评述 数据挖掘的任务就是从数据中发现模式。计算机中能够存储已知了结果的大 量不同数据,然后由数据挖掘工具从大量的信息里面将能够产生模型的信息提取 出来,一旦模型建立好了以后,就可以应用在那些情形相似但结果尚未可知的决 策中。在电信企业管理客户生命周期的各个阶段都会用到数据挖掘技术。数据挖 掘能够帮助企业确定客户的特点,从而可以为客户提供有针对性的服务。通过数 据挖掘,可以发现使用某一业务的客户的特征,从而可以向那些也同样具有这些 特征却没有使用该业务的客户进行有目的的推销;还可以找到流失客户的特征, 在那些具有相似特征的客户还未流失之前,采取针对性的措施。目前数据挖掘技 术在电信c r m 系统中的应用可总结为以下几方面: 1 客户获得 对于电信运营公司来说,企业的增长需要不断地获得新的客户新的客户包 括以前没有听说过企业的人、以前不需要服务的人和竞争对手的客户数据挖掘 能够辨别潜在的客户群,并提高市场活动的响应率。 2 客户保持 由于电信市场竞争越来越激烈,使企业获得新客户的成本正不断地上升,因 此保持原有客户就显得越来越重要。数据挖掘可以发现易流失的客户,企业就可 以针对客户的需求,采取相应的措施。出色的客户保持程序先对流失的客户建模, 识别导致转移的模式,然后就可以用这些模式找出当前客户中潜在的“背叛者”, 以便采取预防措施。 3 交叉销售 在目前竞争激烈的电信市场中,企业和客户之间的关系是经常变动的,一旦 成为企业的客户,企业就要尽力保持这种客户关系。客户关系的最佳境界体现在 3 个方面:最长时间地保持这种关系;最多次数地和客户交易;保证每次 交易的利润最大化因此,企业需要对已有的客户进行交叉销售。交叉销售是指 企业向原有客户销售新的产品或服务的过程。交叉销售是建立在双赢的基础之上 的,客户因得到更多更好符合其需要的服务而获益,企业也因销售增长而获益 在企业所掌握的客户信息,尤其是以前购买行为的信息中,可能正包括含有这个 客户决定下一次购买行为的关键因素数据挖掘可以帮助企业寻找影响客户购买 3 数据挖掘技术在电信行业c r m 中的应用研究 行为的因素。 4 客户细分与一对一营销 c 跚系统可以把大量的客户分成不同的类,在每个类里的客户拥有相似的属 性,而不同类里的客户属性也不同。企业可以做到给不同类客户提供完全不同的 服务来提高客户的满意度。数据挖掘可以帮助企业针对不同类别的客户,提供个 性化的服务。通过收集、加工和处理涉及消费行为的大量信息,确定特定消费群 体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或 个体下一步的消费行为,然后以此为基础,对所识别出的消费群体进行特定内容 的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节 省了营销成本,提高了营销效果。 5 盗用和异常行为分析 盗用行为每年可以耗掉电信企业数以亿万的资产,确定潜在的盗用者和异常 使用模式,检测想侵入用户账户的企图,以及发现需要引起注意的异常模式,这 都是非常重要的。通过数据挖掘中的多维分析、聚类分析和孤立点分析可以发现 潜在盗用者和非典型的使用模式。 从以上的总结可以看出,数据挖掘在电信c 雕中的应用几乎涉及到方方面 面,而且就现在的研究情况来看,大部分研究和别的行业有类似之处,其研究也 相对成熟,但仍有一些领域带有很鲜明的电信企业特征,如下文所述。 1 3 本文重点研究问题及工作 目前电信运营商正面对一个全新的、更加激烈的市场竞争环境。因竞争加剧 而导致利润下降,迫使国内各电信运营商不得不考虑寻求新的盈利模式,以及如 何提升自身的核心竞争力。电信运营商意识到,客户才是企业生存和发展的根基, 而保持客户、吸引客户和充分发掘客户的盈收潜力是企业提高核心竞争力的关键 “1 如何通过提高客户的满意度及忠诚度,提升客户价值来扩大自身的收入及 利润等问题,成为各电信运营商关注的焦点课题。在这种背景下,一种基于全新的 基于信息技术的管理理念一客户关系管理( c r m c u s t o m e rr e l a t i o n s h i p m a n a g e m e n t ) 受到国内各电信运营商的青睐c 肼最终目标在于企业与目标客户 建立一种长期的、互惠互利的关系,比竞争对手更好地进行这些活动,能使企业赢 4 第一章绪论 得竞争优势其实现手段有很多,包括客户细分、客户流失预警分析、客户忠诚 度分析以及客户满意度分析等等。 由此可见,客户细分、客户流失预警分析、客户忠诚度分析以及客户满意度 分析是c 跚中的关键问题,也是电信运营客户关系管理系统中的重要功能部分。 本文所做的工作,正是基于这样的思路,针对以上谈到的四个关键问题,运用聚 类、分类、层次分析等数据挖掘算法。当然对于一个c r m 系统来说,前台的销 售策略管理以及营销渠道管理也是很重要的组成部分,在本论文中没有过多涉 及。 1 4 本文的构成框架 第一章为绪论,首先介绍了课题的研究背景,然后介绍了课题研究的主要工 作意义,以及本文的结构。 第二章介绍了数据挖掘的背景知识,阐述了数据挖掘相关技术,包括它的内 涵、数据基础、挖掘过程、挖掘任务及其实现、常用技术和常用算法研究以及数 据挖掘在电信行业的应用。 第三章阐述了c 雕的产生、发展、内涵、基本构成、功能特点以及电信行 业c r m 的模块结构和实施模型。 第四章和第五章是本文的核心,课题研究的主要工作就是围绕这两章展开 的。 第四章阐述了数据挖掘算法在客户细分和客户流失预警分析方面的应用。 第五章阐述了数据挖掘算法在客户满意度分析和客户忠诚度分析方面的应 用。 本文最后对课题研究做了总结。 数据挖掘技术在电信行业c r m 中的应用研究 第二章数据挖掘 2 1 数据挖掘的定义 数据挖掘( d m ,d a t am i n i n g ) 哺1 是指从数据库的大量数据中提取隐含的、 先前未知的并有潜在价值的信息和知识的过程。数据挖掘的定义有很多,表达方 式虽然不同,但本质都是一样的。这里主要从技术角度和商业角度给出数据挖掘 的定义。 2 1 i 数据挖掘的技术定义 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机 的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知 识的过程。 人们将数据看作形成知识的源泉,好像从含金的大量矿石中淘金一样。原始 数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、 图形和图像数据;甚至是分布在网络上的异构数据。发现知识的方法可以是数学 的,也可以是非数学的:可以是演绎的,也可以是归纳的。发现的知识可以用于 信息管理,查询优化,决策支持和过程控制等。因此,数据挖掘是一门交叉学科, 它把人们对数据的应用从低层次的简单查询,提升到从数据库中挖掘知识,提供 决策支持。在这种需求的推动下,汇集了不同领域的研究者,尤其是数据库技术、 人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员, 投身到数据挖掘这一新兴的研究领域,形成新的技术研究和开发热点 2 1 2 数据挖掘的商业定义 从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术。其主要特点 是对商业数据库中大量业务数据进行抽取、转化、分析和模式化处理,从中提取 辅助商业决策的关键知识,即从一个数据库中自动发现相关商业模式。 数据挖掘是利用统计学和机器学习的技术,探求那些符合市场、客户行为的 6 第二章数据挖掘 模式。目前,数据挖掘已经可使挖掘技术自动化,将数据挖掘和商业数据仓库相 结合,以适当的形式将挖掘结果展示给企业经营管理人员。对于数据挖掘的应用 不仅依靠良好的算法建立模型,而且更重要的是要解决如何将数据挖掘技术集成 到当今复杂的信息技术应用环境中。其次,还要有数据挖掘分析人员的参与,因 为数据挖掘技术不具备人所特有的经验和直觉,不能区分哪些挖掘出的模式在现 实中是有意义的,哪些是没有意义的。因此,数据挖掘分析人员的参与是必不可 少的。 2 2 数据挖掘的产生与发展 数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活 动扮演着越来越重要的角色。随着计算机硬件和软件的飞速发展,尤其是数据库 技术与应用的日益普及,人们面临着快速扩张的数据海洋,如何有效利用这一丰 富数据海洋的宝藏为人类服务,业已成为广大信息技术工作者的所重点关注的焦 点之一。与日趋成熟的数据管理技术与软件工具相比,人们所依赖的数据分析工 具功能,却无法有效地为决策者提供其决策支持所需要的相关知识,从而形成了 一种独特的现象“丰富的数据,贫乏的知识”为有效解决这一问题,自二十世 纪9 0 年代开始,数据挖掘技术逐步发展起来,数据挖掘技术的迅速发展,得益 于目 前全世界所拥有的巨大数据资源以及对将这些数据资源转换为信息和知识 资源的巨大需求,对信息和知识的需求来自各行各业,从商业管理、生产控制、 市场分析到工程设计、科学探索等数据挖掘可以视为是数据管理与分析技术的 自然进化产物“2 ,如图2 1 所示 7 数据挖掘技术在电信行业c r m 中的应用研究 图2 1 数据挖掘进化过程描述 f i g 2 1t h ed e s c r i p t i o no fd a t am i n i n ge v o l u t i o np r o c e s s 2 3 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析( 如查询、报表、联机分析) 的本质区别是数据挖 掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应 具先前未知、有效和实用三个特征先前未知的信息是指该信息是预先未曾预料 到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉 的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最 典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人 的联系。 2 4 数据挖掘的对象 根据信息存储格式,用于挖掘的对象有关系数据库、数据仓库,面向对象数 据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、历 第二章数据挖掘 史数据库,以及w e b 数据库等。 1 关系数据库 数据库系统是由一组内部相关的数据、一组管理和存取数据的软件程序组 成。关系数据库是目前各类数据库中最重要、最流行的数据库,它应用数学方法 来处理数据库数据。关系模型最早是由美国i b m 公司的e f c o d d 提出嘲,2 0 世纪7 0 年代以后开发的数据库系统产品几乎都是基于关系模型的。它用关系来 描述现实世界,关系既可以描述实体及其属性,又可以描述实体间的联系。关系 实质上是一张二维表,关系系统只有“表”这一种数据结构,关系数据库是表的 集合,每个表都赋予一个唯一的名字,表的行称为元组,列称为属性,关系是元 组的集合,关系中的每个元组代表一个被唯一的关键字标识的对象,并被一组属 性值描述。 2 数据仓库 数据仓库的概念 数据仓库的概念是w li n m o n 提出的 “,就是面向主题的、集成的、不 可更新的随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。数 据仓库中的数据是面向主题的,它与传统数据库中的面向应用相对应。数据仓库 的主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析 领域。数据仓库中的数据具有集成性和稳定性的特点,在数据进入数据仓库之前, 必须经过数据加工和集成,数据经加工和集成进入数据仓库后是极少或根本不修 改的。数据仓库中的数据并不是最新的、专有的,而是来源于其它数据库的。数 据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的 基础上,用于支持高层决策分析,而原有的事务处理数据库在总体数据环境中承 担的是日常基础业务的处理任务。数据仓库是数据库技术的一种新的应用,没有 严格的数学理论基础,它更偏向于工程。由于数据仓库的这种特性,在技术上可 以根据它的工作过程分为数据的抽取、数据的存储和管理、数据的展现等关键技 术。 数据挖掘与数据仓库的关系 数据挖掘建立在o l a p 的数据环境基础之上,而数据仓库技术能够满足数据 挖掘技术对数据环境的要求。它从o l t p 系统、异构分散的外部数据源、脱机的 9 数据挖掘技术在电信行业c r m 中的应用研究 历史业务数据中获取数据并进行处理。数据挖掘和数据仓库之间是协同工作的, 方面数据仓库可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖掘的效 率和能力,确保数据挖掘中数据来源的广泛性和完整性;另一方面,数据挖掘技 术已经成为数据仓库应用中极为重要和相对独立的方面和工具。数据挖掘和数据 仓库是融合与互动发展的,它们是数据挖掘专家、数据仓库技术人员和行业专家 共同努力的成果。 3 事务数据库 事务数据库由一个文件组成,其中每个记录代表一个事务。一个事务包含一 个唯一的事务标识号,和一个组成事务的项的列表( 如,在超市购买的物品) 。 事务数据库可能有一些与之相关联的附加表,包含关于销售的其它信息,如事务 的日期、顾客的i d 号、销售的i d 号、销售分店等等 2 5 典型的数据挖掘系统结构 如图2 2 所示,典型的数据挖掘系统哺4 1 包括: 1 数据库与数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库 负责提取相关数据。 2 知识库:这是知识领域,用于指导搜索,或评估结果模式的兴趣度。这种 知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。用户确信方 面的知识也可以包含在内。 3 数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用 于特征化、关联、分类、聚类分析以及演变和偏差分析 4 模式评估模块:此成分使用兴趣度量,并与数据挖掘模块交互,以便将搜 索聚焦在有趣的模式上。它可能使用兴趣度阀值过滤发现的模式。模式评估模块 也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。对于有效 的数据挖掘,建议尽可能深地将模式评估推进到挖掘过程之中,以便将搜索限制 在有兴趣的模式上。 5 图形用户界面:本模块在用户和数据挖掘系统之间的通信,允许用户与系 统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的 中问结果进行探索式数据挖掘。此外,此成分还允许用户浏览数据库和数据仓库 1 0 第二章数据挖掘 模式或数据结构,评估挖掘的模式,以不同的形式多模式可视化。 数 图2 2 典型的数据挖掘系统结构 f i g 2 2t y p i c a ls y s t e mf a b r i co fd a t am i n i n g 2 6 数据挖掘的功能 数据挖掘的目标是从数据库中发现隐含的、有意义的知识,人们可通过此来 预测未来趋势及行为,做出前摄的、基于知识的决策。因此,数据挖掘主要具有 以下五类功能嘲: 1 自动预测趋势行为的功能 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析 的问题,如今可以迅速直接由数据本身得出结论一个典型的例子是市场预测问 题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它 可预测的问题包括预报破产以及认定对指定事件最可能做出反应的群体 2 关联分析的功能 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量 的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因 果关联。关联分析的目的是找出数据库中隐藏的关联网,有时并不知道数据库中 数据挖掘技术在电信行业c r m 中的应用研究 数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 3 聚类的功能 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们 对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统 的模式识别方法和数学分类学。8 0 年代初m c h a l s k i 提出了概念聚类技术,其 要点是:在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内 涵描述,从而避免了传统技术的某些片面性。一些特定症状的聚集可能预示了一 个特定的疾病,租v c d 类型不相似的客户聚集,可能暗示成员属于不同的亚文 化群。聚集通常作为数据挖掘的第一步,例如,“哪一种类的促销对客户响应最 好? ”对于这一类问题,首先对整个客户做聚集,将客户分组在不同的聚集里, 然后对每个不同的聚集回答问题,可能效果会更好 4 概念描述的功能 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概 念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述 不同类别对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象 的共性。生成区别性描述的方法很多,如决策树方法,遗传算法等。 5 偏差检测的功能 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏 差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与 模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结 果与参照值之间有意义的差别 2 7 数据挖掘的常用技术和挖掘工具 2 7 1 数据挖掘的常用技术 常用的数据挖掘技术删可以分成统计分析类、知识发现类和其他类型的数 据挖掘技术三大类 1 统计分析类 统计分析( 或称数据分析) 技术中使用的数据挖掘模型有线形分析和非线形 第= 章数据挖掘 分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最 近邻算法和聚类分析等技术。 在统计中总要涉及数据,并且常有足够多的数据使得普通人无法明了其全 部。对于一般人而言,处理数以万亿比特计的数据,且要清楚数据的意义和从数 据中归纳出模式,其难度可想而知的。因此,必须借助于数学模型为手段,对这 些数据进行归纳、推断和预测,寻找数据间的模式。统计推断分析一般借助统计 数学模型完成,它用已有信息推断未知信息的工作过程,如用过去的资料来推断 未来,利用局部资料来推断总体,利用相关总体的资料进行变量间关系的推断等 等。在所有的数据挖掘的技术中,统计型数据挖掘工具是数据挖掘技术中最成熟 的一种,已经在数据挖掘中得到广泛的应用。 2 知识发现类 知识发现类数据挖掘技术是与统计类数据挖掘技术完全不同的一种挖掘技 术。它可以从数据仓库的大量数据中筛选信息,寻找市场可能出现的运营模式, 发掘人们所不知道的事实 知识发现类数据挖掘技术包含人工神经网络、决策树、遗传算法、粗糙集、 规则发现和关联顺序等。 粗糙集( r o u g hs e t ) 理论是近年来才兴起的用于研究不精确、不确定性知 识的学习、表达、归纳的方法。它通过引入不可分辨关系、等价类、上近似、下 近似、属性约简、分辨矩阵等概念考察知识表达中不同属性的重要性,来确定哪 些属性是冗余的,哪些属性是比不可少的。删除冗余属性进而简化知识表达空间, 最终能从数据中挖掘出规则。它的理论核心是基于知识源于对对象的分类这一思 想的,通过分类找出属性间的关联规则 遗传算法是近几年发展起来的一种崭新的全局优化算法,基于达尔文的进化 论中的基因重组、突变和自然选择等概念。解决问题时,要对待解决问题的模型 结构和参数进行编码,一般用字符串来表示,这个过程就将问题符号化、离散化 了遗传算法的最大的优点是问题的最优解与初始条件无关,而且搜索最优解的 能力极强。 神经网络是指由大量神经元互联而成的网络,人工神经网络是模拟人类的形 象直觉思维、是在生物神经网络研究的基础上,根据生物神经元和神经网络的特 数据挖掘技术在电信行业c r m 中的应用研究 点,通过简化、归纳、提炼总结出来的一类并行处理网络。人工神经网络以m p 模型和h e b b 学习规则为基础,建立三大类多种神经网络模型。所有神经网络的 工作过程主要分两个阶段:学习阶段和工作阶段。神经网络在学习过程中必须依 靠学习算法,矫正学习过程中的误差或偏离。神经网络从经验中学习,经常用于 发现一组输入数据和一个结果之间的未知联系,和其他方法一样,神经网络先要 检测数据中存在的模式,再对从数据中发现的规则进行概括,最后给出结果。 关联规则发现主要是针对事物型数据库,是与大多数人想象的数据挖掘过程 最为相似的一种数据挖掘形式。在关联规则系统中,规则是“如果怎么样、怎么 样、怎么样,那么就怎么样”的简单形式表示的。根据规则中所处理的值类型, 关联规则可以分成布尔关联规则和量化关联规则两种。根据关联规则集涉及不同 的抽象层次,关联规则可以分成多层关联规则和单层关联规则。特别是对售货数 据,如果对这些历史事物数据进行分析,则可对顾客的购买行为提供极有价值的 信息。 针对以上介绍的几种数据挖掘技术,在此简单介绍一个针对关联规则法的应 用。关联规则挖掘的一个典型例子是购物篮分析市场分析员要从大量的数据中 发现顾客放入其购物篮中的不同商品之间的关系。如果顾客买牛奶,也购买面包 的可能性有多大? 什么商品组或集合顾客多半会在一次购物时同时购买? 例 如,买牛奶的顾客有8 0 9 6 也同时买面包,或买铁锤的顾客中有7 0 9 6 的人同时也买 铁钉,这就是从购物篮数据中提取的关联规则。分析结果可以帮助经理设计不同 的商店布局。一种策略是:经常一块购买的商品可以放近一些,以便进一步刺激 这些商品一起销售,例如,如果顾客购买计算机又倾向于同时购买财务软件,那 么将硬件摆放离软件陈列近一点,可能有助于增加两者的销售。另一种策略是: 将硬件和软件放在商店的两端,可能诱发购买这些商品的顾客一路挑选其他商 品。 3 其他数据挖掘技术 其他数据挖掘技术中包含文本数据挖掘、w e b 数据挖掘、分类系统、可视化 系统、空间数据挖掘和分布式数据挖掘等。 文本数据挖掘和w e b 数据挖掘是近几年新发展起来的崭新数据挖掘技术前 者主要为了满足非结构化信息的挖掘的需要;后者则是针对日益发展的因特网技 1 4 第二章数据挖掘 术所带来的大批量网络信息的挖掘。 分类系统应该说也是一种知识发现技术,但是它的实现可以采用各种知识发 现类技术的支持,而且在数据挖掘中具有特殊重要的作用。 可视化系统则是为使数据挖掘能以图形或图像的方式在屏幕上显示出来,且 能交互处理。这样,可以清楚地发现隐含的和有用的知识。 空间数据挖掘则是基于地理信息系统( g i s ) 的数据挖掘技术。空间数据挖 掘方法目前主要有空间数据分类、空间数据关联分析和空间趋势分析等。 分布式数据挖掘足基于分布式数据库的,利用分布式算法从分布式数据库中 挖掘知识的技术。分布式数据挖掘技术主要用于对水平方式分布或垂直方式分布 的数据库系统中数据的挖掘。 2 7 2 数据挖掘的常用工具 按照数据挖掘的应用范围可以将挖掘工具分成专用型数据挖掘工具和通 用型数据挖掘工具两类。 专用型数据挖掘工具主要用于某个特定领域。因此,专用型数据挖掘工具针 对性较强,采用一些特定的算法对特定的数据集进行处理,数据挖掘的效率较高, 挖掘出的知识的可靠性也高,但是应用范围受到限制。例如,芬兰赫尔辛基大学 所研制的t a s a ,能够采用特殊算法处理网络通信中的数据对网络通信故障发出 警报。 通用型数据挖掘工具一般不考虑所挖掘对象的实际含义,只提供各种通用挖 掘算法,允许用户自定义数据源进行多模式挖掘。由于这种类型挖掘算法的通用 性,在数据的挖掘过程中很难进行算法的优化。因此,数据挖掘效果往往不能使 所有用户都满意。例如,s p s s 公司的统计软件包s p s s 在统计领域处于领先的地 位,其中的线形回归分析结果和类似的数据挖掘工具对数据挖掘的结果是一致 的,而这些挖掘工具采用的是传统统计方法。r e db r i c k 系统公司的r e db r i c k 数据挖掘工具是第一个将数据挖掘解决方案与数据库集成在一起的数据挖掘软 件与数据库的联结,减少了传统数据挖掘中需要的大量数据准备时间,并且提 供扩展的s q l 语句 数据挖掘技术在电信行业c r m 中的应用研究 2 8 数据挖掘的过程 数据挖掘的过程。“1 可以分为三个主要阶段:数据准备,数据挖掘以及结果 表达和理解。如图2 3 所示: i lii 图2 3 数据挖掘过程 f i g 2 3t h ep r o c e s so fd a t am i n i n g 1 数据准备 ( 1 ) 数据集成:将多文件或多数据库运行环境中的数据进行合并处理,解决 语义模糊性,处理数据中的遗漏和清洗脏数据等。 ( 2 ) 数据选择:为知识发现的目标搜索和选择有关的数据,这包括不同模式 数据的转换和数据的统一和汇总。数据选择的目的是辨别出需要分析的数据集 合,缩小处理范围,提高数据挖掘的质量。 ( 3 ) 数据预处理:对数据进行清理和充实等预处理工作。也包括对数据编码, 数据库中字段的不同取值转换成数码形式将有利于搜索 2 数据挖掘 此阶段进行实际的挖掘操作,利用机器学习。统计分析等方法,从数据库中 发现有用的模式或知识。 3 结果表达与解释 根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出 来,并且通过决策支持工具提交给决策者。这一步骤的任务不仅是把结果表达出 来,还要对信息进行过滤处理。如果不能另决策者满意,需要重复以上数据挖掘 的过程。 1 6 第二章数据挖掘 2 9 数据挖掘任务及其实现技术 从广义上谈,数据挖掘按其挖掘任务划分,可分为验证型( v e r i f i c a t i o n d r i v e n ) 和发现型( d i s c o v e r yd r i v e n ) 两种类型。验证型是指由用户首先提出假 设,数据挖掘工具从数据中提取信息来验证用户的假设;发现型是指由数据挖掘 工具从数据中发现用户未知的事实、趋势、分类或回归模型、数据库记录间的关 联及数据偏差。验证型功能可分为两种类型1 : 1 查询和报告( q u e r ya n dr e p o r t i n g ) :数据挖掘技术通过可视化交互工具 从用户处获得假设,然后用一组查询请求来精确地表示用户的假设,对请求
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论