




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、企业crm系统中决策树算法的应用河北金融学院郭佳许明保定市科技局基于数据挖掘的客户关系管理系统应用研究09zg009摘要:客户资源决定企业的核心竞争力,更多的关心自己的销售群体,并与 之建立良好的、长期的客户关系,提升客户价值,对全面提升企业竞争能力和盈 利能力具有重要作用。本文以某企业销售业绩为对象,利用决策树分类算法,得 到支持决策,从而挖掘出理想客户。关键字:客户关系管理;数据挖掘;分类算法决策树分类是一种从无规则、无序的训练样本集合中推理出决策树表示形式 的分类规则的方法。该方法采用自顶向下的比较方式,在决策树的内部结点进行 属性值的比较,然后根据不同的属性值判断从该结点向下的分支,在
2、决策树的叶 结点得到结论。本文主要研究决策树分类算法中id3算法在企业crm系统中的应用情况。1.id3算法原理id3算法是一种口顶向下的决策树生成算法,是一种根据爛减理论选择最优 的描述属性的方法。该算法从树的根节点处的训练样本开始,选择一个属性來区 分样本。对属性的每一个值产生一个分支。分支属性的样本子集被移到新生成的 了节点上。这个算法递归地应用于每个了节点,直到一个节点上的所有样本都分 区到某个类中。2 用于分类的训练数据源组数据挖掘的成功在很大程度上取决于数据的数量和质量。我们应从大量的企 业客户数据中找到与分析问题有关的,具有代表性的样本数据子集。然后,进行 数据预处理、分析,按问
3、题要求对数据进行组合或增删生成新的变量,从而对问 题状态进行有效描述。在本文研究的企业数据中,是将客户的年龄概化为“小于等于30”、“30 到50之间”和“大于50”三个年龄段,分别代表青年、中年和老年客户,将产 品价格分为高、中、低三档等,详见表1,将企业crm系统数据库中销售及客 户信息汇总为4个属性2个类别。4个属性是客户年龄段、文化程度、销售地区、 产品档次,类别是销售业绩,分为好和差两类。表1训练样本集合attributeageeducationarealevelclass1<=30hilowbad2<=30hihighgood3<=30hiimediumbad4&
4、lt;=30hiihighgood5<=30lihighgood6<=30lilowgood7<=30liilowgood8<=30mihighgood9<=30mimediumgood10<=30miimediumgood11二 30milowgood1231-51mimediumgood1331-51miimediumgood1431-51milowbad1531-51hihighgood1631-51himediumgood1731-51hilowgood1831-51hiihighbad1931-51hiilowbad2031-51lihighgoo
5、d2131-51lilowgood2231-51miihighbad2331-51mihighgood24>50mihighbad25>50miihighbad26>50mimediumgood表2训练数据中各属性的说明属性说明age客户的年龄段education文化程度area业务销售地区(i木地区,ii外地)level产甜档次class销售状况3. id3算法分类模型的建立由表1可知:类标号屈性有两个不同的值,因此冇两个不同的类(即m=2) 设类c1对应于good,类c2对应于bado类good有18个样本,类bad有8个 样木。为了计算每个属性的信息增益, 以初始信息爛
6、为:加先使用/(» ®,,几)=10&(a),所826/=1i (s1,s2)t/1 q q_18 188i(18,8)=-log2-log218126812618o8八“八八u=log?1log = = * 0.53 h* 1.7= 0.890526 t8 26- 182626然后计算客户年龄、文化程度、产品档次和销售区域4个属性的爛。首先观 察age屈性的每个样本值的good> bad分布,分别计算每个分布的信息爛:当 age<=30: sh=9 s?=2 时,i(s11,s21)=992n,og2n-nlogto 2当 age 在 31-50 间:
7、si2=8当 age>=50: si3=ls2?=4 h'j» i(si2,so2)二log7log。12 62 12 12 62 12 1 1 2 2s23=2 时'i(s13,s23)= 一§10g2 § 一 §1002 §若按age划分样本,所需的信息爛为:11123e(age) = z(5h,521) + ©2,22) + i(s13,s23) =0.8192 类似的,可以得到:262626e(education)=9/5;54i 4、 12/ 8 |84 f4x5 z 5f 50,0、(log 2 lo
8、g 2 一)+ ( log 7log 2 )+ (log ° log 2 -)2699992612 t212t2265555=0.7669e(production)=霜歸呃令临令+令-瓢2卜级韵+却-沁2|-|1。请=0.8531714143394455e(area)= (一log,log7) + (一log.log, -) = 0.7832617- 17172 17269- 999通过以上属性,对当前分支节点进行和应样木集合划分,从而获得的信息增 益分别为:gain(age) = i(shs2)- e(age) =0.8905-0.8192=0.0713gain(education
9、) = i(s|,s2)-玖education) =0.8905-0.7769=0.1236gain(production) = i(s,s2)- e(production) =0.8905-0.853=0.0375gain(area) = i(si,s2)- e(area) =0.8905-0.783=0.1075gain(equipment) =1.576 - 0.873 = 0.703从计算结果得到education属性具冇最高信息增益,因此education属性成为 决策树根节点的测试属性。如卜图所示:education1i <=30 lowbad2i <=30 highg
10、ood311 <=30 mediumbad411 <=30 highgood15131-50 highgood16i 31 -50 mediumgood17131-50 lowgood181131-50 highbad19ii31-50 lowbad8i <=30 highgood9i <=30 mediumgood10il <=30 mediumgood11i <=30 lowgood12i 31-50 mediumgood13ii31-50 mediumgood14131-50 lowbad22ii 31-5() highbad23131-50 high
11、good24i >=50 highbad25ii >=50 highbad26i >=50 mediumgood5i <=30 highgood6i <=30 lowgood711 <=30 lowgood2()11 <=30 highgood21i 31-50 lowgood图1决策树根节点的测试屈性在样本集合中对education属性的3个取值进行分支,3个分支对应3个子 集,分别为:pl = 1,2,3,4,15,16,17,1 &19;p2 = 8,9,10,11,12,13,14,22,23,24,25,26;p3= 5,6,7,20
12、,21其中p3的样本都为good类,因此对应分支标记为good, pl、p2样本类别 未定,所以需要对pl、p2子集分别递归调用id3算法。在p1屮可以求出剩卜的age、production> area三个属性的信息增益。5544/(», s') = _§ log? § _ § log? g = 0.9924222253322e(age) = - lo§ 2 - - - lo§ 2los 2 - - - lo§ 2 -)= °-985側瞅劇辰炉,孔)- e(卯)=0007311222111143311
13、= -(log.log. -) + -(log2 log, -) + -(log2 log,-)933339222294444gcroduction) = /($,孔)一 e( production) = 0.1035441141133e(area) = -(-log2-log2-) + - (-log2-log2 -) = 0.762gain(ared) = i(ss2)- e(areci) = 0.23因为area属性的信息增益最大,所以把属性area作为该分支的节点,再向 卜分支,p2处理类似,最后得到的决策树如下图所示:因此,对于样本 x=(age= "3150",
14、education二"low”,level= "medium", area= t), id3算法分类预测其class为good。4. 决策树的生成决策树的建立是决策树分类的基础,以id3算法为例说明建立决策树的过 程。在决策树的递归构造过程屮,在树的节点上利用特征的信息增益大小作为分 支属性选择的依据,选择信息增益最大的特征作为分支属性。id3算法描述简单, 分类速度快,适合于大规模数据的处理,具休算法描述如下所示。输入:训练样本samples,候选屈性集合attributejist输出:一棵决策树首先创建节点n, if samples都在同一个类c then返回
15、n作为叶节点,以类 c标记;讦attribute_list为空then返回n作为叶节点,标记为samples屮最普遍的 类,选择attribute_list中具有最高信息增益的属性branch_attribute,标记节点n 为 branch_attribute;遍历 for each branch_attribute 屮2知的值 ai,由节点 n 长出 一个条件为 branch_attribute=ai 的分支,设 si 是 samples 屮 branch_attribute=ai 的 样本集合,若si为空then加上一个树叶,标记为samples中最普遍的类,否则 else 加上一个由
16、generate_decision(si,attributeistbmnch_a"ibute):s回的节点该算法屮屈性的度量标准是在树的每个节点上使用信息增益度量选择分支 属性。这种度量选择具有最高信息增益的属性作为当前节点的分支属性。该属性 使得对结果划分的样本分类所需的信息量最小。算法的伪代码描述如下所示。 generate_decision_tree(samples, usable-attribute-list,c) create a new node n ;if (all samples in n are in the class c) return n as a leaf
17、node labled with 1 as the probability of class c; select test-attribute,the attribute among attribute-list with the highest information gain; label node n with test-attribute and probability of samples in class c; for each known value 命 of test-attribute let sj be the set of samples in samples for w
18、hich test-attribute=aj; if (!(sj is empty) grow a branch from node n for the condition test-attribute = a(;attach the node nnew returned bygenerate_decision_tree(si,attribute-list-test-attribute,c);5. 决策树的剪枝在决策树构造时,许多分支可能反映的是训练数据屮的噪声或孤立点。为了 保证决策树分类的质量和精确度,必须要修剪所构造的决策树。通常使用统计度 量,剪去最不可靠的分支,这将导致较快的分类,提
19、高树独立于测试数据正确分 类的能力,目前常采用的剪枝方法主要有减小错误修剪法、悲观错误修剪法、基 于代价复杂度的修剪法、代价敏感的决策树修剪方法等。6. 由决策树提取分类规则决策树可以以if-then形式表示分类规则。对从根到树叶的每条路径创 建一个规则。ifthen规则易于理解,特别是当给定的树比较大的时候。利用if-then形式的分类规则我们从图2中提取决策树屮表示的知识,从 而便于金业从屮发现销售规律,制定科学冇效的营销策略。(1)if education= “h” and area= t' or(area= “ii") and age= “v二3(t and prod
20、uction “high” then achievement “gooctif education= “h” and area= “i" and age= “315(f and then achievement= “good''(3) if education= “h” and area= v and age= “v=3(t and production= “low” then achievement- “bact(4) if education= “m" and production= “high” and age= “v=30” or(age= “31
21、5(t and area二 “t) then achievement二 “good”(5) if education= “mt and production= “high” and age= “>=5(f or(age= “31 -50" and area= “ il ”)then achievement= “ba(t(1)至(3)条分类规则说明该金业的高档产品对于受过高等教育的本地区的年 轻客户吸引力较大,低档产品对该类客户的吸引力较小;该企业的各档次产品对 于本地受过高等教育的中年客户吸引力均较大。(4) (5)条规则说明企业的高档产品对于受过中等教育的年轻客户或本地的 屮年客户吸引力较大;高档产品在受过中等教育的老年客户或外地区的屮年客户 中不太受欢迎。因此该企业的营销策略可以加大高档产品在年轻客户中的推广力 度,同时加大在本地受过高等教育的屮年客户
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 黑龙江大学《矿山地质》2023-2024学年第二学期期末试卷
- 广东职业技术学院《大数据技术》2023-2024学年第二学期期末试卷
- 湖北体育职业学院《港澳台广告》2023-2024学年第二学期期末试卷
- 湖南财经工业职业技术学院《物理化学研究进展与前瞻》2023-2024学年第二学期期末试卷
- 苏州健雄职业技术学院《动物生物化学》2023-2024学年第二学期期末试卷
- 烟台汽车工程职业学院《资源材料与可持续发展》2023-2024学年第二学期期末试卷
- 汉口学院《对流层传播》2023-2024学年第二学期期末试卷
- 吕梁师范高等专科学校《软件工程》2023-2024学年第二学期期末试卷
- 武汉理工大学《互联网运维技术》2023-2024学年第二学期期末试卷
- 心理健康课件模板
- DZ∕T 0054-2014 定向钻探技术规程(正式版)
- 2022年中国建筑集团有限公司招聘笔试题库及答案解析
- 温泉度假设施造价预算
- 青少年创意编程试题
- 电子商务客户服务5套综合测试题带答案
- 微观经济学课件第二章(高鸿业)
- RULES OF ORIGIN 原产地规则
- 国内旅游出团通知书(新版)
- LETTEROFINTENTION意向书范本
- 国内各航空公司差异化服务
- 《山东省自然科学基金资助项目年度进展报告》
评论
0/150
提交评论