资源目录
压缩包内文档预览:
编号:29107999
类型:共享资源
大小:1.70MB
格式:RAR
上传时间:2019-12-05
上传人:我***
认证信息
个人认证
孔**(实名认证)
北京
IP属地:北京
4.8
积分
- 关 键 词:
-
SQL
利用
数据
挖掘
实现
电信行业
客户
流失
预警
- 资源描述:
-
SQL利用数据挖掘实现电信行业客户流失预警,SQL,利用,数据,挖掘,实现,电信行业,客户,流失,预警
- 内容简介:
-
利用效据挖掘实现电信行业客户流失预普摘 要摘 要 随着中国加入孵0 ,国际化的市场环境要求国内的公众电信运营企业在经营管理上向国外先进的电信运营企业看齐,以迎接电信运营业的国际化竞争。电信企业的经营 模式 和服务 体系正以 客 户的价 值取向 和消费 心理为导向 , 真正 体现“ 创造需 求” 、 “ 引导消费,的现代客户服务意识与理念。同时随着电信市场日趋饱和, 成功挽留一个即将离网的客户比重新发展一个客户可节约大量成本。 如何预测哪些客户在不久的将来可能会从运营的网络中流失, 从而最大程度地降低客户的流失率呢?常用的方法之一就是利用数据挖掘技术。 数据挖掘技术是目前数据仓库领域最强大的数据分析手段。它的分析方法是利用已知的数据通过建立数学模型的方法找出隐含的业务规则, 在很多的行业己经具有成功的 应用。 在电信行业的应用领域主要有客户关系管理,客户欺诈 分析,客 户流失 分析, 客 户消费 模式 分析, 市场 推广分 析。 本课题的目的就是研究数据挖掘的实现技术, 并将此技术运用于电信行业客户流失预警系统中。本文首先介绍了数据挖掘的基础理沦; 其次介绍如何通过判定树归纳分类: 然后将数据挖掘技术运用于电信行业客户流失预警,用流失模型预测客户流失率。 本课 愚研 究的 第一 个 成果是结合 行业特征 提出 直方图 自 然 划分数据 离散法及其实现方法; 其次是通过逐步完善的数据挖掘建模过程, 建立较为准确的电信客户流失模型, 讨论了将流失模型运用于企业客户数据库中,为每一个客户生成 一 个流失倾向记分, 提供分值高于某个1 寺 定值的客户群体,为市场营销人员预留足够的时间制定可行的客 户挽留 方案, 降 低企 业由 于客 户流失造成的 损失。 基于严格数 学计算的数 据挖掘技术能 够改 变以 往 电信 企业在成功 获得客户以 后无法 监控客户的 流失、 无法实 现客户关怀的现状, 把基于科学决策的客户关系管理引入到电信运营企业的市场营销和客户服务工作中。关键词: 数据 挖掘、 判定树 、 客户流失、电 信运营第 多 页 共 4 ,页利 用 致据挖掘实现电信 行业客户流 失 预 苦A RS I 飞 之 人 TABSTRACT M a r k e ti nt e l e c 伽si n d u s t r yi sm u c h阳t u r i n gt o d 时 助dt h e yr e c o g n i 么 et h ee i 加 p o r t a n c eo fp r oac t i v oc ti s t 伽e rr e l a t i on h i p. a n 昭e m e l l t ,f o c u s l 们 go ne x i s t 土 n gc u s t o m e rc are 一 h 渊 t ok e e P枪l u a b l ec 此t O m e r sa n dh o .t o朋k et h e mm o r ep r o f i t o b l et ot h ec o m p a n y ? C h u r n盯司i c t i o ni so s u a l l yt h eb i g g e s tc o 加e r ni nt e l e c 哑s c O m p 日 们 yd u et oi t st y p i c a lm a r k e tc 卜 a r a c t e r i s t i c ss u c ha s咐r k 仑 ts a t u rat i o n即dd y n 胡i c们 l a l k e tc h a n g e s ,A st h et e l e c 。 印 5爬r k e tb e c 伽e ss a t u r a t e 山 a c q o i r i n gt h en c 份c u s t o m e ri sg e t t i n g阴c h 脱理 e x p e n s i v et h 即 r e t a i n i n gt h ee x i s t i n gc u s t 。 帕rb a s e a n da l s o d y n 朋i c帕改e tc h 助驴sl n 叨叩e t i t ors ,t e c h n o l o g i e s a n dr e g u l a t i o n sc o u l dc 删s eg r e a to p P o r t u n i 七 i e sf o rt 加 c u s t O . e r st ol e a v efora 几 o t h e rc o 田 p a n y T h 已a 1 mo ft h et h e s i si st h a tb yu s i n gd a t am i n i n g ,y ou c a nR e tt h e la t a. i n i n g珊d e lb 舫e do ny o u rh i s t o r i c a lc u s t o m o rd a t aw h i c hc a ng e n e r a t et h ec u s t o 脱rl i s t, i t 卜h 王 g h盯o b abi l i t yt ol e 别et h ec o . lp a n y ,E v e n t u a l l yi t贾 1 1 1g i v e y ou t h e , a l u a b l eb u s i n e s s i n s i g h t s t o s e t u p e f f e c t i 馆 帕r k e t i n gs t r a t e g i e st o少e v e n ty o u rc u s t 阴。 rf r 伽 l e 日 v i n g, o u rc 叩1 any T h ef i r s ta c h i eve m e n to ft h et h e s i si st h ep r o c e s so fc h u r n讨e d i c t l o nd e s cri b e dl nt h i se 幻 a p t e ri s b ase do nt h e厂e d i c t i v emod e l i n gi nd a t a m i n i n gm e t ll o d ;t h es e c o n di su s i n gt h e积 t 卜 o di nt h ei n d u s t 口 t og i v et h e下司i c t i o no fc h u rn p r o b a h i l i t 了f or e achc u s t 闭e randt t lec l a s s i f i c ati o no f价oba b l ec h u r n e r sa 笋i n s t加平c h u r n e r .K e y w o rd: Dat a. i n i n 只 .d e c i s i o nt r e e ,C l a s s i f i c ati o n ,伪u r n匹e d i c t i v e肋d e l第 4页 共 4, 页利用数据挖掘实现电信行业客户流失预警效据挖掘技术理论第二章 , 数据挖掘技术理论2 . 1 数据挖掘研究现状及未来发展方向2 . 1 . 1 数据挖掘定义数据挖掘 ( D a t a的实际应用数据中和知识的过程。 Minin g ) 就是从大量的、 不完全的、 有噪声的、 模糊的、随机提取隐含在其中的、 人们事先不知道的、 但又是潜在有用的信息2 . 1 . 2 支持数据挖掘技术的基础 数据挖掘技术是人们长 期对数据库技术进行研究和开发的结果。 起初各种商业数据是存储在计算机的数据库中的, 然后发展到可对数据库进行查询和访问, 进而发展到对数据库的即时遍历。 数据挖掘使数据库技术进入了一个更高级的阶段, 它不仅能对过去的数据进行查询和遍历, 并且能够找出过去数据之间的潜在联系, 从而促进信息的传递。 现在数据挖掘技术在商业应用中己经可以马上投入使用,因为对这种技术进行支持的 三种基础技 术己经发展成熟, 他们是: 海量数据搜集、强大的多处理器计算机、数据挖掘算法.2 . 1 . 3 数据挖掘研究历史及现状 数据挖掘是数据库领域中最重要的课题之一, 国际上第一次关于数据挖掘与知识发现的 研讨会于1 9 89年在美国的 底特律召开,在此会议上第一次提出了知识发现一词。1 995 年国际第一届知识发现与数据挖掘学术会议。会议上明确定义了知识发现。目 前数据挖掘己 成为研究的热点和焦点, 一批数据挖掘系统开发出来, 在商业、 经济、金融、管理等领域都取得了应用性的成果。 KDD ( 肋 。 , l e d g e D i s c o v e r yi nD a t aba s e s ) 研究重点也逐渐从发现方法转向系统应用, 注重多种发现策略和技术的集成,以 及多种学科之间的相互渗透。 世界上比较有影 响 的 典 型 数 据 挖 掘 系 统 有: s A s 公 司的 E n t e r p r i s e M i n e r 、 I B M 公司 的I n t e l l i g e n t第 吕页 共 4 ,页利 用数据挖拥实现电信行业客 户流失顶 曹数据挖掘技术理论M 主 n e r 、 5 0 1 公r?J的 S e t M i n e r 、 5 1 , 5 5 公司的C l e m e n t i n e 、 S y b a s e 公司的w a r e h o u s e s t u d i o 、R u l e Q u e s t R e s e a r c h 公司的S e e s 、还有C o v e r s t o r y 、E X PLO RA、 K n o w l e d g e D i s c o v e r yw o r k b e n c h 、D B M i n e r 、 Q u e s t 等。 与国外相比,国内 此领域的研究稍晚, 没有形成整体力量。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究, 这些单位研究主要集中在对模糊方法在知识发现中的应用, 对数据立方体代数的研究, 对关联规则开采算法的优化和改造,非结构化数据的知识发现以 及W eb数据挖掘等。2 . 1 . 4 数据挖掘的 应用方向电信:评估客户群;欺诈分析;综合效益分析;网络性能评估等。市场营销:预测顾客的购买行为,划分顾客群体。银行业:侦测信用卡的欺诈行为;客户信誉分析。生产销售和零售业:预测销售额;决定库存量,批发点分布的规划调度。制造业:预测机器故障;发拥影响生产能力的关键因素。经纪业和安全交易:预测债券价格的变化;预测股票价格升降;决定交易的最佳时刻。保险业:分析决定医疗保险的主要因索;预测顾客保险的模式。计算机安全:监测磁盘驱动器故障;估计潜在的安全漏洞。政府和防卫:估计军事装备转移的成本;预测资源的消耗;评价军事战略。医药:验证药物的 治疗机理;划分出哪一类型医生会再次购买某类型药品。交通:航空公司可以根据历史资料寻找乘客的旅行模式,改进航线的设置。公司经营管理:评估客户信誉,评估部门业绩,评价员工业绩等。2 , 1 . 5 数据挖掘未来研究方向 当前, 对数据挖掘的研究方兴未艾, 其研究与开发的总体水平相当于数据库技术在上世纪70年代所处的地位,迫切需要类似于关系模式、D B 期 5 系统和SQL 查询语言等理论和方法的指导, 才能使数据挖掘的应用得以普遍推广, 预计在本世纪,数据挖掘的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面:第 ,页 共 49 页利用数据挖拥实现电信行业客户流失预替效据挖橱技术理论. 发现语言 的形式化描述, 即研究专门用于知识发现的数据挖掘语言, 也许会像S QL 语言 一样走向形式化和标准化;. 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于 在知识发现的过程中进行人机交互;.研 究 在 网 络 环 境 下 的 数 据 挖 掘 技 术 ( w eb, i n i ng ) , 特 别 是 在 因 特 网 上 建 立 数 据 撼 掘服务器,并且与 数据库服务器配合,实现w eb M inin g ;. 加强 对各种非结构化数据的开采( D a t a初 i n i n gf o r A u d i o &V i d e o ) ,如对文本数 据、图形数据、 视频图像数据、声音数据乃至综合多媒体数据的开采; 处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者 是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建 立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数 据准备的一些工具和软件。. 交互式发现;. 知识的维护更新。 不管怎样, 需求牵引与市场推动是永恒的, 数据挖掘将首先满足信息时代用户的急需,大量的基于数据挖掘的决策支持软件产品将会问世。 只有从数据中有效地提取信息, 从信息中及时地发现知识, 才能为人类的思维决策和战略发展服务。 也只有到那时, 数据才能够真正成为与物质、 能源相媲美的资源,信息时代才会真正到来。2 . 1 . 6 数据挖掘热点 就目 前来看物信息或基因(m i n i n g ) 。, 将来的 几个热点包括网站的数据挖掘( w e bs i t ed a t a m i n i n g ) 、生B i o i n forma t i c s / g e n oi c s ) 的数据挖掘及文本的数据挖掘(Te x t u a l2 2 数据挖掘研究内容和本质 数据挖掘所发现的知识最常见的有以下四类:. 广义知识( G e n e r a l i z a t i o n )第 10 页 共 49 页利用数据挖掘实现电信行业客户流失预曹数据挖掘技术理论 广义知识指类别特征的概括性描述知识。 根据数据的微观特性发现其表征的、 带有普遍性的、 较高层次概念的、中观和宏观的知识,反映同类事物共同性质, 是对数据的概括、精炼和抽象。 广义知识的发现方法和实现技术有很多, 如数据立方体、 面向属性的归约等。 数据立方体还有其他一些别名,如 “ 多维数据库”、“ 实现视图”、 O LAP等。该方法的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、平均、最大值等, 并将这些实现视图储存在多维数据库中。 既然很多聚集函数需经常重复计算, 那么在多维数据立方体中存放预先计算好的结果将能保证快速响应, 并可灵活地提供不同角度和不同抽象层次上的数据视图。另一种广义知识发现方法是加拿大Sim onFraser大学提出的面向属性的归约方法。 这种方法以类S QL语言表示数据挖掘查询, 收集数据库中的相关数据集, 然后在相关数据集上应用一系列数据推广技术进行数据推广, 包括属性删除、 概念树提升、 属性闸值控制、 计数及其他聚集函数传播等。. 关联 知 识( A s s o c i a t i o n ) 它反映一个事件和其他事件之间依赖或关联的知识。 如果两项或多项属性之间存在关联, 那么其中一项的属性值就可以依据其他属性值进行预测。 最为著名的关联规则发现方法是RA grawal提出的A p riori 算法。 关联规则的发现可分为两步。 第一步是迭代识别所有的频繁项目 集, 要求频繁项目 集的支持率不低于用户设定的最低值; 第二步是从频繁项目 集中构造可信度不低于用户设定的最低值的规则。 识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。. 分 类知 识( c l a s s i r i c a t i o n &c l u s t e r i n g ) 它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。 最为典型的分类方法是基于判定树的分类方法。 它是从实例集中构造判定树, 是一种有指导的学习方法。 该方法先根据训练子集( 又称为窗口) 形成判定树。 如果该树不能对所有对象给出正确的分类, 那么选择一些例外加入到窗口中, 重复该过程一直到形成正确的决策集。最终结果是一棵树, 其叶结点是类名,中间结点是带有分枝的属性, 该分枝对应该属性的某一可能值。 数据分类还有统计、粗糙集 R oug h s et 等方法。 线性回归和线性辨别分析是典型的统计模型。 为降低判定树生成代价, 人们还提出了一种区间分类器。最近也有人研究使用神经网络方法在数据库中进行分类和规则提取。第 11 页 共 4 9页利用数据挖拥实现电信行业客户流失顶替数据挖掘技术理论. 预测型知识( P r e d i c t i o n ) 它根据时间序列型数据,由历史的和当前的数据去推测未来的数据, 也可以认为是以时间为关键属性的关联知识。目前,时间 序列预测方法有经典的统计方法、神经网络和机器学习等。 1 9 68年B ox和J enk ins 提出了一套比较完善的时间序列建模理论和分析方法, 这些经典的数学方法通过建立随机模型, 如自 回归模型、自回归滑动平均模型、求和自回归滑动平均模型和季节调整模型等, 进行时间序列的预测。由于大量的时间序列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化。因此,仅仅通过对某段历史数据的训练, 建立单一的神经网络预测模型, 还无法完成准确的预测任务。 为此, 人们提出了基于统计学和基于精确性的再训练方法,当发现现存预测模型不再适用于当前数据时, 对模型重新训练, 获得新的权重参数。 建立新的模型。也有许多系统借助并行算法的计算优势进行时间序列预测。. 偏差型知识( o e v i a t i o n ) 此外,还可以发现其他类型的知识,如偏差型知识( D evi ati on) ,它是对差异和极端特例的描述, 揭示事物偏离常规的异常现象, 如标准类外的特例, 数据聚类外的离群值等。 所有这些知识都可以在不同的概念层次上被发现。 并随着概念层次的提升,从微观到中观到宏观,以满足不同用户不同层次决策的需要。2 . 32 . 3 .数据挖掘常用技术总的说来,数据挖掘技术分为两大类:探索型数据挖掘、预测型数据挖掘。1 探索型数据挖掘 “ 探索型数据挖掘” 包括一系列在预先未知任何现有模式的情况下, 在数据内查找模型的技术。下面是探索型挖掘技术的一些示例。. 分群 分群是描述一系列技术的术语。该技术尝试根据数据记录的相似性对其进行归组。比如:数据记录可能包含对每个顾客的描述。 这种情况下, 分群将把类似的顾客归组到一起,同时最大程度地体现按此方式组成的不同顾客组之间的差异。 正如本书的示例中所描述的那样, 有许多不同的分群技术,每种技术都有自己的方法。 存在于第 12 页 共 49 页利用数据挖掘实现电信行业客户流失预曹数据挖掘技术理论您数据的群集中。. 关联分析 关联分析用来描述确定数据记录间关联的一系列技术。 最熟知的关联分析类型是市场购物篮分析。 该情况下数据记录是顾客在同一次事务中购买的物品,由于该技术来源于市场数据的分析, 因此称这些物品在同一个购物篮中。 市场购物篮分析可发现不同顾客所购买的物品组合, 通过相互关联( 或链接) , 您可以总结出哪些类型的产品是在一起购买的。 关联分析不仅限于市场购物篮分析。 如果您将是市场购物篮看作是一组数据记录,那么在任何情况下只要存在大量数据记录,就可以使用该技术。. 频度分析 频度分析中所包含的数据挖掘技术适用于对有时间顺序的数据记录的分析或可视为有顺序的任何实际数据集的分析。 这些数据挖掘技术尝试在顺序数据中检测类似的序列或子序列。2 . 3 . 2 预测型挖掘 “ 预测型数据挖掘”包括一系列在您的数据中查找特定变量( 称为“ 目 标变量” )与其他变量之间关系的技术。下面是预测型挖掘技术的一些示例。.分类 分类是指将数据记 录分配到预先定义的类别中。 例如, 将顾客分配到市场区。这种情况下,目 标夺量就是类别, 该技术发现其他变量和类别之间的关系。当 对新的记录归类时,该技术可确定类别和记录属于该类别的可能性。 分类技术包括判定树、 神经元网络和径向基函数(R B F分类挖掘。. 数值预测 数值预测指的是根据数据记录中的其他变量预测某个连续变量的值。 例如, 根据顾客的年龄、 性别和收入组来预测他的大概支出。 最常用的数值预测技术包括线性和多项式回归,数据挖掘将这些技术扩展到其他技术,比如神经元和径向 基函数( R B F)值预测。第 ” 页 共 4 ,页利用数据挖拥实现电信行业客户流失预苦数据挖掘技术理论2. 4 数据挖掘算法简介. 人工神经网络 神经网络近来越来越受到人们的关注, 因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。 神经网络可以很容易的解决具有上百个参数的问题。 神经网络常用于两类问题:分类和回归。 在结构上,可以 把一个神经网 络划分为输入层、输出 层和隐含层( 见图2 一 1)。输入层的每个节点对应一个个的预测变量。 输出层的节点对应目 标变量, 可有多个。在输入层和输出 层之间是隐含层( 对神经网络使用者来说不可见) , 隐含层的层数和每层节点的个数决定了神经网络的复杂度。输入隐含层输出图2 一 1神经网络结构 神经网络的每个节点都可表示成预测变量( 节点1 , 2)的值或值的组合( 节点3 , 6)。注意节点6 的值已 经不再是节点1 、2 的线性组合,因为数据在隐含层中传递时使用了活动函数。 实际上如果没有活动函数的话, 神经网络就等价于一个线性回归函数, 如果此活动函数是某种特定的非线性函数。 那神经网络又等价于逻辑回归。 调整节点间连接的权重就是在建立( 也称训练) 神经网络时要做的工作。 最早的也是最基本的权重调整方法是错误回馈法, 现在较新的有变化坡度法、类牛顿法、L e v e nber M a r q u a r dt法、 和遗传算法等。无论采用那种训练方法,都需要有一些参数来控制训练的过程, 如防止训练过度和控制训练的速度。 决定神经网络拓扑结构( 或体系结构) 的是隐含层及其所节点的个数,以及节点之间的连接方式。要从头开始设计一个神经网络, 必须要决定隐含层和节点的数目, 活动函数的形式,以及对权重做第 14 页 共 49 页利用效 据挖掘实现电信行业客 户流失顶 替数据挖掘技术理论那些限制等。当然如果采用成熟软件工具的话,他会帮你决定这些事情。. 判定树 数据挖掘中判定树是一种经常要用到的技术, 可以用于分析数据, 同样也可以用来做预测。 常用的算法有C 队ID、 C ART 、Q uest和CS. 0 。本课题采用判定树归纳的数据挖掘算法,因此将在第三章详细介绍该算法。. 遗传算法 基于 进化理论, 并采用遗传结合、 遗传变异、以 及自 然选择等设计方法的优化技术。. 近邻算法 将数据集合中每一个记录进行分类的方法。. 规则推导 从统计意义上对数据中的 “ 如果那么”规则进行寻找和推导。2. 5 数据挖掘的流程2 。 5 。 1数据挖掘环境图2 一数据挖掘环境框图第 15 页 共 49 页利用数据挖掘实现电信行业客户流失预替数据挖掘技术理论2 . 5 . 2数据挖掘过程图逻 辑 数据库被选择的数据预处理后的数据被转换的数据被抽取的致据被固化的知识选择预处理转换挖掘分析图2 -42. 6 通用数据挖掘方法简介 通用数据挖掘方法包含七个步骤,分别为: 以准确的陈述定义业务需求 定义数据模型和数据需求 从 所有可用的资 料库中搜寻数据并准备数据( 数据可以 是相关的或存放在平 面文件中、 存储在数据仓库、现场计算生成的或来自 其他方。它们应当从冗 余的信息中 选择和过滤出来) 。 评估数据质量 选择挖掘方法并运行此挖掘方法 解释结果并验证新信息 在商务决策中 运用所获结果及新知识. 第一步 确定 业 务需求 就是确定您要解决的业务需求, 然后确定如何将此业务需求转化成数据挖掘可解决的一个问 题或一组问 题。 利用“ 业务需求” , 我们表示存在您需要找到其答案的确定问题, 您猜到或知道答案就隐藏在数据中,但不能确定答案到底是什么。 业务需求应满足以 下要求:第 16 页 共 49 页利用数据挖掘实现电信行业客 户流失预誉效据挖掘技术理论 要解决的问题 理解关联数据 预测在企业中使用挖掘的结果. 第二步 定义要用的数据模型 “ 通用数据挖掘方法的第二步” 是确定要使用的数据并定义所需数据模型。 每个数据集市都有自己的特定数据,并保存有关数据抽取方式、 所用数据格式、已执行哪些聚集、已 执行哪些数据清洗等方面的信息, 我们将这种附加信息称为元数据。 在常规情况下使用支持特定的业务应用程序的数据时, 数据和元数据一起组成了支持此应用程序的 “ 数据模型”。 具有代表性的数据模型将定义: 所用的数据来源 数据类型 数据内容 数据描述 数据用法. 第三步初始化和预处理数据 “ 通用数据挖掘方法的第三步” 将迁移到数据模型中数据初始化和作预处理。 当今现实世界中的数据库极易受噪声数据, 空缺数据和不一致性数据的侵扰, 因为数据库太大, 常常多达数千兆字节,甚至更多。你可能会问,“ 如何预处理数据才能提高数据质量,从而提高挖掘结果的质量? “ 怎样预处理数据才能使得挖掘过程更加有效、更加容易? ”有大量数据预处理技术。 数据预处理的方法包括:数据清理、数据集成和变换、 数据归约、数据离散化和概念分层. 数据清理可以去掉数据中的噪声, 纠正不一致。 数据集成将数据由多个源合并成一致的数据存储, 如数据仓库或数据立方体。 数据变换( 如规范化) 也可以使用.例如, 规范化可以改 进涉及距离度量的挖掘算法的精度和有效性。 数据归约可以 通过聚集、 删除冗余特性或聚类等方法来压缩数据。 这些数据处理技术在数据挖掘之前使用,可以 大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。. 第四 步 评估数 据模型将数据迁移到数据模型中后,我们还要确保移入数据模型的数据能够满足完整第 17 页 共 49 页利用数据挖掘实现电信行业客 户流失预 警效据挖掘技术理论性、准确性和相关性的要求。为此,我们将执行初始评估;. 第五步选择数据挖掘技术 除了确定业务需求、 数据建模和准备等步骤之外, 数据挖掘还包括针对特定业务需求而选择最合适的 挖掘技术的关键步骤。 该步骤不仅包括对要使用的适当技术或技术合成定义,还包括技术的应用方式。. 第六步解释结果 执行任何类型的数据挖掘结果都可提供大量信息, 有时该信息很难解释。 我们的经验是,解释阶段需要业务专家的参与,他应该能够将挖掘结果解释到业务语境中。为了能在解释过程中有所帮助, 有必要拥有一系列您可以任意使用的工具,以帮助您使结果直观化,并提供解释时所需的必要统计信息。. 第七步应用挖掘结果 模型建立并验证后, 可以有两种主要的使用方法。 第一种是提供给分析人员做参考,由他通过察看和分析这个模型后提出行动方案建议。 另一种是把此模型应用到不同的数据集上。模型可以用来标识一个事例的类别, 给一项申请打分等。 还可以用模型在数据库中选择符合特定要求的记录,以用OLAP工具做进一步的分析。第 18 页 共 49 页利用数据 挖拥实现电信行业客户流失预协如何用判定树归 纳分类第三章 如何用判定树归纳分类 数据库内容丰富, 蕴藏大量信息, 可以用来做出智能的商务决策。 分类和预测是两种数据分析形式, 可以 用于提取描述重要数据类的模型或预测未来的数据趋势. 然而,分类是预测分类标号( 或离散值) ,而预测建立连续值函数模型。 许多分类和预测方法已 被机器学习、 专家系统、统计学和神经生物学方面的 研究者提出。 运用数据挖掘实现电信客户流失预警采用的一个重要方法就是判定树归纳分类。3 . 1 什么是分类 数 据 分 类( d a t a c l a s s i f i c a t i o n ) 是 一 个两 步 过程( 见 图 a 一 1 ) . 第一 步 , 建 立一 个模型, 描述预定的数据类集或概念集。 通过分析由属性描述的数据库元组来构造模型。假定每个元组属于一个预定义的类, 山一个称作类标号属性( class l abelatt rib ute)的属性确定。 对于分类,数据元组也称作样本、实例或对象。为建立模型而被分析的数据元组形成训练数据集。 训练数据集中的单个元组称作训练样本, 并随机地由样本群选取。 通常,学习模型用分类规则、 判定树或数学公式的形式提供。例如, 对于给定客户消费信息的数据库,可以学习分类规则,根据他们的是否可能流失来识别顾客( 见图3 一 l a)。 这些规则可以 用来为以后的数据样本分类,也能对数据库的内 容提供更好的理解。 第二步( 见图3 一 l b),使用模型进行分类。首先评估模型( 分类法) 的预测准确率。保持( h old out)方法是一种使用类标号样本测试集的简单方法。这些样本随机选取,并独立于训练样本。 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比。 对于每个测试样本, 将己知的类标号与该样本的学习模型类预测比较。 如果模型的准确率根据训练数据集评估, 评估可能是乐观的, 因为学习模型倾向 于过分适合数据( 即 是, 它可能并 入训练数据中某些特别的异常, 这些异常不出现在总体样本群。因此, 使用测试集。 如果认为模型的准确率可以接受, 就可以 用它对类标号未知的数据元组或对象进行分类。 例如, 在图3 一 l a 通过分析现有客户数据学习得到的分类规则可以用来预测目 前客户是否可能流失。第 1 ,页 共 49 页利 用效据挖掘实现电 信行业客户流失顶 替如何用判定树归纳分类 数据分类过程: a) 学习: 用分类算法分析训练数据( 这里,类标号属性是 “ 是否流失”,学习模型或分类法以分类规则形式提供) ; b) 分类:测试数据用于评估分类规则的准确率( 如果准确率是可以接受的,则规则可用于新的数据元组分类) 。创3一!a第 20 页 共 4 ,页利用数据挖掘实现电 信行 业客 户流失顶 替如何用判定树归 纳分类洲 试数据分类规MIJ1 3 9 0 5 0 0 0 0 0 月 话 费档次在 3 0 5 0 神州行品牌 丁 H E N流失图3.lb3 . 2 分类数据预处理 可以对数据使用下面的预处理,以便提高分类和预测过程的准确性、 有效性和可伸缩性。. 数据清理 是旨 在消除或减少数据噪声( 例如使用平滑技术) 和处理空缺值( 例如, 用该属性最常出现的值,或根据统计,用最可能的值替换空缺值) 的数据预处理。尽管大部分分类算法都有处理噪声和空缺值的机制,但该步骤有助于减少学习时的混乱。. 相关性分析 数据中许多属性可能与分类和预测任务不相关。 例如, 客户性别与客户是否流失不相关。 此外, 其他属性可能是冗余的。因此, 可以进行相关分析, 删除学习过程中不相关的或冗余的属性。 在机器学习中, 这一过程称为特征选择。包含这些属性将减慢和可能误导学习步骤。. 数据变换 数据可以 概化到较高层概念。 概念分层可以用于此目的。对于连续值属性,这一步非常有用。 例如, 属性“ 月话费” 的数字值可以概化为离散的区间, 如L ow、 摘 edium 第 21 页 共 49 页利用数据挖拥实现电信行业客 户流失预警如何用判定树归纳分类和H i g h 类似地标称值.3 . 3 分类方法评估标准预测的准确率:这涉及模型正确地预测新的或先前未见过的数据的类标号的能力。速度:这涉及产生和使用模型的计算花费。强壮性:这涉及给定噪声数据或具有空缺值的数据,模型正确预测的能力。可伸缩性:这涉及给定大量数据,有效地构造模型的能力。可解释性:这涉及学习模型提供的理解和洞察的层次。3 . 4 如何用判定树归纳分类3 . 4 . 1 什么是判定树 判定 树( d e cisi on t r e e)是一个类似于流程图的树结构, 其中 每个内 部节点表示在一个属性上的测试, 每个分枝代表一个测试输出, 而每个树叶节点代表类或类分布。树的最顶层节点是根节点。 一棵典型的判定树如图3 . 2 所示。 为了对未知的样本分类,样本的属性值在判定树上测试。 路径由根到存放该样本预测的叶节点。 判定树容易转换成分类规则。品牌非全球通全球通 图3 一 2概念 is ch盯n 的 判定树, 指出客户是否可能流失( 每个内部( 非树叶) 节点表示一第 22 页 共 49 页利 用数据挖掘实 现电信行业客 户流失颐 誉如何用判定树归纳分类个属性上的测试, 侮个 树叶节点代表类( i s jh u r n = y e s , 或i s c h u r n = n o ) )3 . 4 . 2 判定树属性选择度量 在树的每个节点上使用信息增益( i n fo朴 tiongai n)度量选择测试属性。这种度量称作属性选择度量或分裂的优良 性度量。 选择具有最高信息增益( 或最大嫡压缩) 的属性作为当前节点的测试属性. 该属性使得对结果划分中的样本分类所需的信息量最小,并反映划分的最小随机性或 “ 不纯性”。这种信息理论方法使得对一个对象分类所需的期望测试数目 达到最小,并确保找到一棵简单的( 但不必是最简单的) 树。3 . 4 . 3 判定树剪枝方法 当判定树创建时, 由于数据中的噪声和孤立点, 许多分枝反映的是训练数据中的异常。 剪枝方法处理这种过分适应数据问题。 通常,这种方法使用统计度量,剪去最不可靠的 分枝,这将导致较快的分类,提高树独立于测试数据正确分类的能力。先剪枝( p r e 盯u n i n g ) 方法 通过提前停比树的构造( 例如,通过决定在给定的节点上不再分裂或划分训练样本的子集) 而对树 “ 剪枝”。一旦停止,节点成为树叶。该树叶可能持有子集样本中最频繁的类,或这些样本的概率分布。后剪枝( p o
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人人文库网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。