




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)客户服务质量管理系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 随蓿信息技术的高速发展和市场竞争的加剧,客户关系管理的概念便应运悉 生了。客户关系管理的最终目标是提高企监的赢利能力,直接鬻标是提高客户的 满意度,改善企业与客户的关系。数据挖掘技术是在大量的数据中发现未知知识 的数据分析技术。利用数据挖掘技术,分析客户数据,发现其中的规律,从而为 客户关系管理提供决策依据。 本文以天津市某面向第四方物流信息平台为背景,在该平台的基础上讨论了 客户服务质量管理系统的设计与实现。首先对物流信息平台的总体结构和各模块 功能做了总体介绍,弗对客户服务质量管理系统进行了分析与建模,其次对数据 挖掘和决策树算法鞠关知识进行了概述,然后结合课题重点针对客户服务质量管 理的功能做了详细说明,设计出一套完整的客户服务质量管理体系,利用c 4 5 决策树分类算法对客户服务质量进行评价,通过最终形成的决策树模型可以得到 客户服务质量好坏的分类规则,从瑟就可以对客户服务质量进行等级评价,实现 用此评价等级帮助需求服务方选择满意的服务商,提高客户满意度,更好的维持 和发展与客户的关系的目标。 最后,对本文工作进行总结,并对数据挖掘在客户关系管理中的应用前景做 了展望。 关键词:决策树c 4 5 算法客户服务质量 a b s t r a c t w i t hf a s td e v e l o p m e n to fi n t e m e ta n di n t e n s ec o m p e t i t i o no fm a r k e t ,t h ec o n c e p t o fc 毽熨o f 爨e fr e l a t i o n s h i pm a n a g e m e n t ( c r m ) c o m e si n t ob e i n g 。c r ms e t si t su l t r a g o a it oi m p r o v et h ea b i l i t yo fe n t e r p r i s e st om a k ep r o f i t a n ds e t si t sd i r e c tg o a lt o i m p r o v et h er e l a t i o n s h i pb e t w e e ne n t e r p r i s ea n dc u s t o m e r d a t am i n i n gi st h ed a t a a n a l y s i st e c h n o l o g yt h a tf i n d su n k n o w n k n o w l e d g ei nt h el a r g ea m o u n to fd a t a u s i n g d a t am i n i n gt e c h n o l o g yt oa n a l y z ec u s t o m e r s d a t a ,w ec a r l f i n dc u s t o m e rb e h a v i o r m o d e lt op r o v i d es u p p o r tf o rd e c i s i o nm a k i n gi nc r m i nt h i sp a p e rw ed i s c u s s e dt h ec u s t o m e rs e r v i c eq u a l i t ym a n a g e m e n ts y s t e m i n d e s i g na n di m p l e m e n t a t i o no ff o u r - p a r t yo r i e n t e dl o g i s t i c si n f o r m a t i o nm a n a g e m e n t p l a t f o r m f i r s tt h es t r u c t u r eo fl o g i s t i c si n f o r m a t i o nm a n a g e m e n tp l a t f o r ma n dt h e f u n c t i o no fe a c hm o l da r ei n t r o d u c e d t h e ni ta n a l y z e dt h ef u n c t i o no fc u s t o m e r s e r v i c eq u a l i t ym a n a g e m e n ts y s t e ma n dm o d e l i n gu s i n gu m l a f t e rt h a t ,i n t r o d u c e d d 8 汝翔i n i n ga n dd e c i s i o nt r e ei ng e n e r a l a c c o r d i n gt o t h er e a lp r o b l e m ,i tp u tt h e e m p h a s i so nt h ed e s i g na n di m p l e m e n t a t i o no f c u s t o m e rs e r v i c eq u a l i t ym a n a g e m e n t s v s t e m b a s e do nc 4 5d e c i s i o nt r e ec l a s s i f y i n gm e t h o d ,t h i sp a p e rd e s i g n e da m e t h o d l oe v a l 骐a t e 壤ee u s t o m e r ss e r v i c eq u a l i t y 。u s i n gt h i sa l g o r i t h mc a nf o r mas e r i e so f r u l e st h a te x p r e s s e dt h el e v e l so fc u s t o m e rs e r v i c eq u a l i t y t h ec o m p a n y c a nj u d g e e v c r yc u s t o m e r ,ss e r v i c eq u a l i t yu s et h i sr u l e s f i n a l l y i tr e a l i z e dt h ep u r p o s et ou s e t h er e s u i to fe v a l u a t i o ni nh e l p i n gc u s t o m e r st oc h o o s et h es e r v i c ep r o v i d e rt h a tt h e y s a t i s 蠡甜。t h e r e f o r et h ec o m p a n yc a ni m p r o v ec u s t o m e rs a t i s f a c t i o nd e g r e e ,t h e nt o b e t t e rm a i n t a i na n dd e v e l o pt h er e l a t i o n s h i pw i t hc u s t o m e r s i nt h ee n d 。t h ec o n c l u s i o na n dt h ef u t u r eo ft h ea p p l i c a t i o no fd a t am i n i n gf o r c r ma r eg i v e n k e yw o r d s :d e c i s i o nt r e e ,c 4 5a l g o r i t h m ,c u s t o m e rs e r v i c eq u a l i t y 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他入已经发表 或撰写过的研究成果,也不包含为获得苤鲞基堂或其他教育机构的学位或证 书而使用过的材料。与我一厨工俸的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:水翟万己签字目期:印7 年 月哆蜀 学位论文版权使用授权书 本学位论文作者完全了解苤注盘鲎有关保留、使用学位论文的规定。 特授权岙鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:水雪承 签字日期:枷7 年月哆日 导师签名: 、o。档 吖丫秒我 i 签字日期:。夕年占月乒臼 第一章绪论 1 1 研究背景及意义 第一章绪论 随着经济的全球化和信息技术的发展,企业霭临着越来越激烈的全球化市场 竞争,传统的商业模式也发生了根本性的变化,企业间的竞争越来越激烈。在这 种环境下,建立和维持客户关系成为企业取得竞争优势的最重要的基础。为了提 高客户满意度,企业必须完整掌握客户信息,准确把握客户要求,快速嚷应个性 化需求,提供便捷的购买渠道、良好的售后服务与经常性的客户关怀等,c r m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ) 概念l j l 应运而生。 c r m 是企业为了保持竞争力,采取面向客户、客户驱动秘以客户为中心的 发展策略。企业要想与客户建立持久的关系,铁每个客户身上获取最大利润,降 低市场营销费用,减少由于客户流失和无效的经营策略产生的浪费,就要求企业 能深入的了解客户的习惯、喜好,最好能估计到客户的需求,并在最短的时间内 满足客户的需求。企业只有深度了解客户,建立鞠发展与客户的长裁关系,将客 户作为企业的战略瓷产进行经营和管理,才能真正获得企业的竞争优势。“第四 方物流”作为客户和它的物流和信息供应商之间的唯一中介1 2 】,起着密切客户和 第三方物流的关系并对其进行规范化管理的作用,客户满意就成为评价其服务质 量好坏的极为重要懿标准。因此,我们在天津市某面向第四方物流信怠管理系统 中设计了客户服务质量管理系统,通过对客户服务质量的评价对客户进行分类, 以便为需求服务方选择服务质量等级高的服务商,满足其服务质量需求,提高其 满意度。 通过强大的呼秘q 中心系统收集大量的可用数据,运用数据挖掘中的决策树分 类技术对这些数据进行分析,对客户服务质量进行分类,二者的有效结合,使客 户服务质量管理系统的实现变的简单且易实现。 客户服务质量管理对公司的发展有极其重要的意义,不徨可以实现将服务商 按照服务质量进行分炎,使公司有选择的发展和维护与不同服务商间的关系,而 且还帮助公司对需求服务方提供更好的服务,同时促进服务商提高服务质量,进 两更好的维持和发展公司与这两类客户的合作,提高公司的市场竞争力。 1 2 论文的研究内容和结构 本文运爱数据挖撼的决策树分类技术,对物漉信惠管理系统的服务商进行服 籀一章绪论 务质量管理,设计了套完整的服务质量管理体系,以使公司能为需求服务方提 供更好的器务,同时提高公罨本身的服务质量。本文的组织结构安撵如下: 第章绪论,主要介绍了论文的研究背景及进行客户服务质量管理的意义。 第二章相关知识,对论文涉及的基本知识数据挖掘、决策树算法和u m l 进行简单介绍,主要是数据挖掘的概念,方法,基本过程及功能稠应用,决策树 算法的基本原理和算法贪绍,及u m l 建模的概述。 第三章客户服务质量管理系统分析,简单介绍一下物流信息管理系统的总体 结构,主要功能模块及其功能等,使对整个项目有一个整体了解。然后重点分析 客户服务质量管理模块的功能,工作流程,并雳u m l 对其进行建模。 第四章c 4 5 决策树算法及其改进,首先介绍决策树分类算法的典型算法i d 3 算法,然后在此基础上重点分析c 4 5 算法的计算方法、流程及其改进算法。 第孤章客户服务质量管理系统设计与实现,运用c 4 5 算法对客户服务质量 进霉亍评价,给毫服务矮量评价等级,并将其运魇裂系统中,帮黝需求搬务方选择 理想的服务商。 第六章总结与展望,对论文的主要工作进行总结,并对数据挖掘在客户关系 管理中的应用前景做了展望。 第二章楣笑知识 2 1 数据挖掘 2 。1 。1 数据挖掘的概念 第二章相关知识 数据挖掘技术( d a t am i n i n g ,d m ) 是9 0 年代兴起的一项决策支持的新技术,许 多人把数据挖掘视为另一个常用的术语数据库中的知识发现眺( 基p k d d ) 的网义 词,丽另一些人知识把数据挖掘视为数据库中知识发现过程的个基本步骤。数 据挖掘从产生至今已有多种定义,种比较公认的数据挖掘的定义是:数据挖掘 是从大量数据中识别出有效的、新颖的、潜在有用的,以及最终可理解的知识和 模式的高级过程吲p l 。提取的知识筲以表示为概念、规贱、规律、模式等形式。 其中: 数据:是用来描述事物的信息集合,是我们进一步发现知识的原材料。 新颖:经过数据挖掘提取出的模式必须是薪颖的。模式是否薪颖可以通过露 个途径来衡量:其一是通过对毙当前得到的数据和以前的数据或期望得到的数据 之间的比较来判断该模式的新颖程度;其二是通过对比发现的模式与已有的模式 的关系来判断。 潜在有焉:即提取出的模式应该是有实瑟意义的。 可理解:数据挖掘的一个目标就是将数据中隐含的模式以容易被人理解的形 式表现出来,从而帮助人们更好地了解数据库中所包含的信息。数据挖掘不同于 以往知识获取技术,它的特点之一是发现的知识是人们( 至少是领域专家) 易于 理解的。因毙挖掘也是一个人视交甄、螺旋上升的过程。 模式:对具体的个别事物进行观测所得到的具有时间和空间分布的信息。 高级过程:数据挖掘是对数据进行更深层处理的过程,而不是仅仅对数据进 行加减或求和等简单运算或查询,因此说它是一个高级的过程。 数据挖掘是建立在大量数据的基础之上1 6 1 。这些数据可以是关系数据库中的 数据,也可以是文本、图形和图像数据,甚至还可以是分布在网络上的异构型数 据。数据挖掘在这些大量数据中提取到的有用信息和知识可以被用于信息管理、 查询优化、过程控铡等,并可以用它们对未来清滋进行预测,以辅助决策者谱估 风险来做出正确的决策。因此,数据挖掘把人们对数据的应用从低层次的简单查 询,提升到从数据中挖掘知识,提供决策支持。 数据挖掘是信息技术自然演化的结果。它涉及多学科技术的集成,包括数据 库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、 第j 二章相关知谈 信息检索、图像与信号处理和空间数据分析。获取的信息和知识可以j “泛用于各 静魔糟,包括商务管理、生产控制、市场分析、工程设计和科学探索等。 2 1 2 数据挖掘的方法 为了完成数据挖掘任务,人们从统计学、人工智能和数据疼等领域借用攀础 的研究成果和工具,提出了各种数据挖掘的方法。下面介绍数据挖掘的几种常用 方法8 】: 。 ( 1 ) 统计学方法 数据挖握过程孛使惩了很多统计技术和概念,魏概率、独立性、偶然性藕过 适应等。在数据挖掘中,统计学可用于预测、聚类、规则挖掘和时序数据的趋势 分析等【9 】。统计方法可以细分为回归分析、判别分析、聚类分析、探索性分析等。 ( 2 ) 信息论方法 信患论方法利用信息论的原理来构造算法【潮。信息论是研究信息的测度及 其性质、信息传输和信息处理系统的一般规律的学科分支。其研究内容主要包括: 以编码理论为中心的所谓狭义信息论,它研究信息的测度、信息的容量、信源特 性、信源编码、信道和信息系统模型等;信号处理技术,它研究信号昶嗓音分析、 信号的过滤与检测,以及有关理论;以计算机为中心的信息处瑷技术与理论,例 如模式识别、自学习理论、自动机器翻译等。 ( 3 ) 分类方法 最近邻和聚类:聚类和最近邻预测技术是数据挖掘中馒耀最早的技术,使用 这些技术预测一个记录的预测值是什么时,在历史数据库中寻找有相似预测值的 记录,并使用已分类记录中最接近的记录值作为预测值。最近邻算法也可以说是 聚类算法静一种改进,但它一般用于预测并且是有导师学习技术,蔼聚类一般用 于分类也称为无导师学习技术。 决策树:在知识工程领域,决策树是一种简单的知识表示方法,它将事例逐 步分成不同的类别。e l l 于分类规则是比较直观的。因而比较易于理解,在机器学 习领域内,多年来己研究出不少实施决策树翡有效算法( 絮i d 3 及其改进算法等) , 它们可以在多种多样的商业问题中用于探究和预测。 规则归纳:规则归纳是数据挖掘的一种主要形式。进行规则归纳时,数据中 所有可能的模式都要被系统抽取出来,然后再估计它们的正确陡和重要性,以判 断模式令人信服的程度有多高,荐次童现的可能性有多大。规则归纳系统可以得 到数据库中所有可能的有趣模式,但是为了得到真正有价值的规则有可能要对有 趣规则再进行一次数据挖掘。 搿) 生物学方法 第二二章相关知识 神经网络方法:神经网络模仿生物神经网络,本质上是一个分布式矩阵结构, 宅遽过对训练数据的采掘逐步计算网络连接之阕的权重值。它戮m p 模型穗h e b b 学习规则为基础,建立三大类神经网络模型:以感知机、反向传播模型和函数网 络为代褒,可用于预测、模式识别等方面的前馈式网络;以h o p f i e l d 的离散模型 和连续模型为代表,分别用于联想记忆和优化计算的反馈式网络;以a r t 模型、 k o h o l o n 模型为代表,用于聚类的囊组织网络。 遗传算法:遗传算法模仿人工选择培育良种的思想,从一个初始规则集合( 知 识基因) 开始,逐步地通过交换对象成员( 杂交、基因突变) ,产生群体( 繁殖) , 评价菸择优复制( 适者生存,不适应者淘汰) ,逐步迭代积累计算,最终得到优 化的知识集。可以用于分类、关联规则i lq 挖掘等。 另外,在数据挖掘中应用的还有集合论中的糊糙集方法、模糊逻辑等。每种 方法都有优缺点,它们从不同的角度对数据进行挖掘和知识发现,在使用时要根 据具体情况选择最合适的算法。 2 1 3 数据挖掘的基本过程 数据挖掘过程是一个以用户力书心,入机交噩的探索过程。蠢三个阶段组成: 数据准备、数据挖掘,以及结果解释和评估( 觅图2 1 ) 。数据挖掘可以描述为 这三个阶段的反复过程。 圈2 1 数据挖掘过程 1 ) 数据准备 数据准备又可分为三个子步骤:数据集成,数据选择和数据预处理。 数据集成:是将多个文件或多数据库运行环境中的数据合并处理,解决语义 模糊性、处理数据中的遗漏和清洗脏的数据等。 数据选择:其嚣的是确定发现任务的操佟对象,即謇标数摆,它是根据阕户 的需要从原始数据库中抽取出需要分析的数据,缩小处理范围,提高数据挖掘的 质量。 数据预处理:般可能包括消除噪声、推导计算缺值数据、消除重复记录、 完成数据类型转换,如把连续僖数据转换为离散型的数据,以便用于符号归纳, 第:章相关知l 识 或是把离散型的转换为连续值型的,以便于神经网络归纳等。溻数据挖掘的对象 是数据仓痒时,一般来说,数据预处理己经在生成数据仓时完成了。 ( 2 ) 数据挖掘阶段 这个阶段进行实际的挖掘操作,包括的要点有: 确定挖掘的任务或目的,如数据总结、分类、聚类、关联规则发现或序 列模式发现等。 q 确定了挖掘任务后,就要决定使用什么样的挖掘算法。同样的任务可以 用不同的算法来实现,选择实现算法有两个考虑因素:一是不同的数据有不同的 特点。因此需要用与之糨关的算法来挖掘;二是瘸户或实际运行系统的要求,有 的用户可能希望获取描述型、容易理解的知识,丽有的用户或系统的目的是获取 预测准确度尽可能高的预测型知识。 完成了上述准备工作后,就可以实施数据挖掘操作了。霈要指出的是, 尽管数据挖掘算法是数据挖掘的核心,也是霾薷研究人员主要磷究的志容,毽要 获得好的挖掘效果,必须对各种挖掘算法的要求或前提假设有充分的理解。 ( 3 ) 结果解释和评估 数据挖掘阶段发现出来的模式,经过雳户或机器的评估,可能存在冗余或无 关的模式,这是需要将其剔除;也肖可能模式不满足用户要求,这时则需要整个 挖掘过程退回到发现阶段之前,如熏新选取数据、采用新的数据变换方法、设定 新的数据挖掘参数值,甚至换一种挖掘算法( 如当发现任务是分类时,有多种分 类方法,不同的方法对不同的数据有不弱的效果) 。另外,数攥挖掘壹于最终是 面向人类用户的,因此可能地对发现的模式进行可视化,或者把结果转换为用户 易懂的另一种表示,如把分类决策树转换为“i f t h e n ”规则。 由以上的过程分析可以看出,数据挖掘质量的好坏有两个影响要素:一是所 采用的数据挖掘技术的有效性,二是用于挖掘的数据的质量和数量( 数据量的大 小) 。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换, 则挖掘的结果是不会好的。 整个挖掘过程是一个不断反复的过程。比懿,庵户在挖掘途中发现选择的数 据不太好,或使用的挖掘技术产生不了期望的结果,这时,用户需要重复先前的 过程,甚至从头重新开始。 2 1 。4 数据挖掘的功能和应用 数据挖掘的功能是从指定的数据中寻找出需要的模式,它的任务一般可以分 为两类:描述和预测。描述指的是对数据的一些特征的刻画,预测指的是在当前 数据的基础上进行推断。为了适应不同用户的不阕需求,数据挖掘算法毖须察鼍够 第一:章楣关知识 从数据巾获得多种类型的模式。从获取的模式的角度来分,数据挖掘的功能主要 有以下几个: ( 1 ) 臼动预测趋势和行为 数据挖掘自动在大型数据库巾寻找预测性信息,以往需要进行大量手工分析 的问题如今可以迅速巍接由数据本身得出结论。一个典型的例子是市场预测问 题,数据挖掘使用过去有关促销的数据来寻找来来投资幸回报最大的用户,其它 可预测的问题包括预报破产以及认定对指定事件最可能做出反应的群体。 ( 2 ) 关联分析 数据关联是数攒疼中存在的一类重要的可被发现的知识。若两个或多个变量 的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因 果关联。关联分析的聪的是找出数据库中隐藏的关联网。有时并不知道数据库中 数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 ( 3 ) 聚类分析 数据库中的记录可被化分为一系列有意义的子集,就称为聚类。聚类增强了 人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括 传统的模式识别方法和数学分类学。8 0 年代初,m c h a l s k i 提出了概念聚类技术及 其要点时,在麓分对象时不仅考虑对象之闻的距离,还要求划分出的类具有某种 内涵描述,从而避免了传统技术的某些片面性。 ( 4 ) 概念描述 概念描述就是对莱类对象的内涵进行撵述,并概括这类对象的有关特薤。概 念描述分为特征性描述和区别性描述。前者描述某类对象的共同特征,后者描述 不同类的对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象 的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 ( 5 ) 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义【1 2 】。 偏差包括很多潜在的知识,如分类中的反常实例,不满足规则的特例、观测结果 与摸型预测值的偏差、量值随时闻盼变佬等。编菱检测的基本方法是寻找麓测结 果与参照值之间有意义的差别。 目前,数据挖掘的研究和应用濉常热门,并且数据挖掘的工具和软件已在各 部门得到很好的应用,并收到明显的效益。其应用主要集中在以下一些领域: 零镁馒手场营销:这是数据挖攘技术应用最早也是最重要的领域,主要功能 是:市场定位、消费者分析、预测销售趋势、优化营销策略、分析库存需求、选 择零售点、价格分析等。 金融:数据挖掘在金融领域应瘸广泛,包括:金融市场分析和预测、账户分 第二:章福关知识 类、银行担保、信用评估,监督交易活动及发现交易规则等。 信;嚣保险:分掇保险客户的要掌弱信誉、保险风险行为模式敬及欺诈行为。 以及在工程和科学研究、过程控制和质量监督、化工医药、司法等领域都 有广泛应用,并且数据挖掘为解决诸如欺诈甄别、保留客户、数据库营销、市场 分析、风险分析、客户满意度、财务分析等业务阀题提供了有效的方法。 随着信息讫程度的提高,数据挖掘技术的潜在应用是十分广泛的,飙政府管 理决策、商业经营、科学研究和工业企业决策支持等各个领域都町以找到数据挖 掘技术的用武之地。 2 。2 决策树算法 2 2 1 分类概述 分类是一类重要的数据挖掘闻题,在商业领域中有着广泛的应用前景。 分类1 1 4 j 的目的是构造一个分类函数或分类模型( 也称分类器) ,该函数能把 数据库中的元组或记录映射到给定类别中的某一个,即给定的数据集d = ( x i ,x 2 ,。) ,其中每个元组包含若干个决策属性亵一个类别属性,类掰属性的集含 为c = c l ,c 2 ,c 阳 ,分类问题定义为从数据库到类集合的映射f d c ,该映射 能将数据库中的元组或记录x 分配到某个类c i 中,分类的目的就是采用某种方法 将隐含函数濠示出来。 要构造分类器,需要一个谢练梯本数据集( 称力诫练集) 作为输入,它楚指 数据库中为建立模型或构造分类函数而被分析的数据元组集合,训练集中的单个 元组称为训练样本,每个训练样本的类别属性值是已知的。分类的任务就是根据 从训练样本的属性中发现个体或对象的一般分类规则,从而根攥这些规则对j 训 练样本数据对象或数据库中的其它元组进行分类。 一般情况下,分类问题需要经历以下三个阶段。 ( 1 ) 分类模型训练阶段,也称为监督学习。在该阶段,每个训练样本的类别 属性值逶已知的,需要做的是建立一个分类模型,遥该分类模型来接述这些预先 已定义好的数据类别或概念,依据训练样本数据集中每个元组已知的类别归属总 结出般性的分类规则,建立分类模型。一般情况下,分类模型以分类规则、决 策树或数学公式给出。 的属性侔力当前结点的测试属性瞄”。该漏性使得对结巢划分中的样本 分类所需的信息量最小,并反映划分的最小随机性或“不纯性”。因此,判定树 算法是一种基于信息熵的决策树学习算法,把信息熵作为测试属性的标准。 设s 是训练样本集,它包含1 1 个类别的样本,分别用c l ,c 2 ,c n 表示,那么对 一个绘定样本s 分类掰需的熵( e n t r o p y ) 或期望信怠为: 第l j q 章c 4 5 决策树算法及蕊改进 e n t r o p y ( s ) :一p , l o g2 p i公式) i = l 其中,p 。表示类c i 的概率。 如果将s 中的1 1 类训练样本看成n 种不同的消息,那么s 的熵就表示对每种 消息编玛平均需要盼比特数,| s | e n t r o p y ( s ) 就表示对s 进行编码需要蔚毙特数, 其中,i s l 表示s 中的样本数目。若n = 2 ,p l = p 2 = 0 5 ,那么, e n t r o p y ( s ) = - 0 5 1 0 9 2 0 5 - 0 5 1 0 9 2 0 5 = 1 如果n = 2 ,p l 瑙。6 7 ,瓿= q 。3 3 ,那么, e n t r o p y ( s ) = - 0 6 7 1 0 9 2 0 6 7 - 0 3 3 1 0 9 2 0 3 3 = 0 9 2 可见,样本的概率分布越均衡,它的信息量( 熵) 就越大,样本集的混杂程 度也越高。因此,烧露以作为训练集的不纯度的一个度量,熵越大,不纯度就越 高。这样,决策树的分支原则就是使划分后的样本的子集越纯越好,即它们的熵 越小越好。 设满性a 具有m 个不同的值 a l ,觏,a m ,可以用a 将s 划分成m 个子集 s l ,s 2 , - s m ) ,其中,s i 包含s 中这样一些样本,它们在a 上具番僮a i 。则根据a 划分的子集的熵或期望信息由下式给出: 绷呦= 喜静嘲( & ) 脚1 2 ) 其中,s i 表示根据属性a 划分的s 的第i 个子集,i s j i 和i s l 分别表示s i 和s 的样本数 目。 信息增益爝来鬻量熵的裳望减少值,因此,使焉属性a 对s 进行划分获得的 信息增益为: g a i n ( s ,彳) = e n t r o p y ( s ) - e n t r o p y ( s ,彳)公式( 4 3 ) g a i n ( s ,a ) 是指因为知道属性a 的值后导致的熵的期望压缩。g a i n ( s ,a ) 越大, 说明选择测试属性a 对分类提供的信息越多。因为熵越小代表节点越纯,按照信 息增益的定义,信息增量越大,熵的减少量也越大,节点越趋向于更纯。因此, 可以对每个属性按照它翻的信息增益大小排序,获得最大信惠增益救属性被选择 为分支属性。 第网章c 4 5 决策树算法及- 其改进 4 1 3i d 3 算法特点 i d 3 算法是一种典型的决策树算法,在测试藏性的选择上,刹焉了信息增益 的概念,具有理论清晰,实现简单,构建速度比较快等优点,后来发展的许多决 策树算法都是以i d 3 算法为基础的,这同时也说明,i d 3 算法本身还存在许多需 要改进的地方: ( 1 ) 只能处理分类属性,不能处理数值属性; ( 2 ) 信息增益的计算依赖于属性取值数目较多的属性,因此偏向于选择属性 值个数较多的属性,丽属性值个数较多的属性却不一定是最优的分类属,i , 生 2 8 1 ; ( 3 ) i d 3 算法不包含树的碜剪,模塑受噪声数据和统计波动的影响比较大; ( 4 ) i d 3 算法在建树时,每个节点只含一个变最,属性之间的相关性强调的不 足,嚣然多个属性通过一棵决策树联系起来,但是联系还是松散的1 2 9 】; ( 5 ) i d 3 算法对噪声较为敏感。 ( 6 ) 在不重建整棵树的条件下,不能方便的对决策树做更改。 4 2c 4 5 算法及其改进 c 4 5 算法是i d 3 算法的扩展,继承了i d 3 算法的优点,同时又增加了许多新功 能,它与i d 3 算法的不同点包括: ( 1 ) 分支指标采用增益比例,丽不是i d 3 所使用的信息增益; ( 2 ) 珂以处理具有连续值的湄练样本; ( 3 ) 将训练样本中的未知属性值用最常用的值代替,或者用该属性的所有取 值的平均值代替,从而可以处理缺少属性值的训练样本; ( 4 ) 通过使用剪枝技术来避免决策树的不平餐; ( 5 ) 使用k 次迭代交叉验证,评继模型豹优劣程度; ( 6 ) 规则的产生; 下诼我们将针对这些不同点对c 4 。5 算法展开讨论。 4 2 1 连续型属性值离散化 i d 3 算法最初的定义假设属性值是离散化的,该算法没有处理连续属性的功 能,但实际环境孛,锻多属性是连续懿。c 4 。5 算法针对这一清况,增加了处理连 续属性的功能,即首先将连续属性的值“离散化 为不目的区闻,其具体方法是: 首先,寻找该具有连续值属性的最小值和最大值,并分别把它们赋值给m i n , m a x : 然焉,设置区润 m i n ,m a x 中的n 个等分煮x i ,它们可表示为: 第网章c 4 5 决策树算法及其改进 藏:鼢+ m a x _ - m i n f ,净l ,2 ,n ;公式( 4 4 ) n 再分别计算把 m i n ,x i 和i x ,m a x ( i = l ,2 ,n ) 作为区间值时的信息增益比 例值g a i n ,并进行比较。 最磊选取g a i n 毽最大的x i 作为该具有连续筐瘸性的断点,把连续属性毽设置 为 m i n ,x i 和 x i ,m a x 两个区间值。 4 2 2 增益比例的计算 信息增益是一种衡量最优分支属性的有效函数,但是它倾向于选择具有大量 不同取值的属性,从而产生许多小而纯的子集。因此,我们需要新的指标来降低 这种情况下的增益,在c 4 5 算法中,使用增益比例来代替信息增益。 首先,对绘定样本训练集s ,关于震性a 的信怠熵i n f o ( s ,a ) 的计算公式如下: m 邮卅一喜斟崦z 斟 公式( 4 - 5 ) 其中,s i 表示根据属健a 划分的第i 个样本子集,m 表示属性a 番m 个取僵。 这个信息熵是与样本的类别无燕的。样本在a 上的取值分布越均匀,i n f o 的 值也就越大,因此,用i n f o 值来衡量属性分裂数据的广度和均匀性。 属性a 的增益比例计算公式如下: g a n _ m t o ( 墨舻鬈黑 蛐4 6 ) 其中,g a i n ( s ,a ) 表示信息增益,已杰公式( 4 - 3 ) 给出。 一个属性分割样本的广度越大,均匀性越强,该属性的i n f o 值越大,增益比 例就越小,因此,增益比例降低了选择那些值较多且均匀分布的属性的可能性。 例如,含n 个样本的集合按a 划分为n 组( 每组一个样本) ,a 的分裂信息i n f o 为 l 0 9 2 n ;按属性b 划分剃平分为两组,则b 的分裂信息i n f o 为l ,菪a 、b 有相同的信 息增益,显然,按信息增益比倒度量应选择属性b 。 但也有可能存在这种情况,当i 使得i s i i l s l 时,i n f o 将非常小,从而导致增益 比例异常的大,c 4 。5 为解决这一问题进行了改进,先计算每个属性的信息增益, 对于超过平均信息增益的属性,再根据增益比例来选取属牲。 因此,采用信息增益比例作为属性的标准,克服了信息增益度量的缺点,但 是它偏向于选择取值较集中的属性,即熵最小的属性,而它并不一定是对分类最 重要的属性。 第四章c 4 5 决策树算法及其改进 4 2 3 剪枝 在建树过程中,由于训练集中的噪声、孤立点以及某个节点的数据量太小, 决策树的许多分枝反映出训练集中的异常,这就是决策树的过分适应问题。它表 现为用某些分类规则对训练集预测十分准确,而对测试集的预测却误差极大。过 分适应闻题是影响决策树预测准确率的关键闫题。剪技就是用来解决过度适应盼 问题。 剪枝的原则主要有三个。第一,“如无必要,勿增实体”,即在与观察相容 的情况下,应当选择最简单的一个;第二,决策树越小越容易瑗解,其存储与传 输的代价也就越小;第三,决策树越复杂,节点越多,每个节点包含的训练样本 个数越小,则支持每个节点的假设的样本个数就越小,可能导致决策树在测试集 上的分类错误率越大。但决策树过小也会导致错误率较大,因此,需要在树的大 小与正确率之间寻找均衡点。 常用的剪枝技术有预剪枝和后剪枝两种。 预剪枝:就是限制决策树的过度生长,就是在完全正确分类训练集之前,较 早地停止树的生长。具体在什么时候停止决策树的生长,有多种不同的方法: 一种最为篙荤酶方法就是在决策树到达一定高度的情况下就箨止树的 生长,这种停止标准在一定情况下能取得比较好的效果; q 另外,到达此结点的实例具有相同的特征向量,而不必一定属于同类, 也可停止生长。这种情况可以处理数据中的数据冲突问题; 还有,到达此结点的实例个数小于菜一个阙值也可停止树的生长,箕不 足之处是不能处理那些数量较小的特殊情况实例; “还有一种更为普遍的做法是计算每次扩张对系统性能的增益,如果这个 增益僮小于某个阈僮嬲不进行扩震。如果在最好情凝下的扩展增益都,l 、于阙馑, 则即使叶节点包含不属于同一类实例集,算法也停止。 预剪枝存在视野效果问题。也就是说在相同的标准下,也许当前的扩展不能 满足要求,但是更进一步的扩展能够满足要求。采用预剪枝有可能过早地停止决 策树的构造。但是,由于预剪枝不必生成整稞决策树,且算法楣对简单。效率很 高,适合解决大规模问题,所以这种方法仍然得到广泛的应用。 后剪枝:后剪枝技术允许决策树过度生长,然后根据一定的规则,剪去决策 树中那些不具有一般代表性的叶节悫或分支。 后剪枝算法有自上而下和自下丽上的两种修剪策略。自下丽上的算法首先从 最底层的内节点开始剪枝,剪去满足一定条件的内节点,在生成的新决策树上递 归调用这个算法,直到没有可以剪枝的节点为止。自上而下的算法是从根节点开 始向下逐个考虑节点的剪枝问题,哭要节点满足剪枝的条件就进行修剪。 第p q 章c 4 5 决策树葬泫及其改进 值得注意的是,剪枝并不是对所有的数据集都好,就像最小树并不是最好( 具 有最大酶预测率) 的树。当数据稀疏时,要防止过分剪棱。默菜种意义土讲,势 枝也是一种偏向,对有些数据效果好而有的数据则效果差。 4 2 4 基本算法流程及其改进 c 4 5 算法基本流程如下: 图4 1c 4 5 决策糖的形成过程图 我们采用预剪枝方法来避免决策树中的过度拟合问题。过度拟合是当数据中 有噪声或者训练样本数量太少以至于不能产生目标函数的有代表性的采样时,这 令算法产生的树裁会过度拟合予调练样本。过度拟合对于决策树是一个重要的实 践难题。预剪枝方法是在树的生长过程完成前进行剪枝,即在c 4 5 算法完美分类 训练数据之前就停止树的增长。其优点是在树的生长同时就进行剪枝因而效率 高。其方法为:当一个节点的数据集中属于同一类别的样本比例大于给定阈值 a ( o 5 a = 1 ) 时,羹| 该节点为叶节点,并标记为桷应的类,停止树的增长。 第图章c 4 5 决策树算法授蒸改进 采用预剪枝方法的c 4 5 改进算法描述如下: f u n c t i o nc 4 5 输入:r :含有连续值属性集;c :目标属性;s :训练集: 输出:r 一棵决策树 b e g i n i f si se m p t yt h e n r e t u r nas i n g l en o d ew i t hv a l u ef a il u r e ; i ft h ep e r c e n t a g et h a tt h er e c o r d so fsb e l o n g i n gt oas a m ev a l u ee x c e e d sa 固。5 c t a j ;臌取最大增益的惩作为值点 e n d ; l e tdb et h ea t t r i b u t ew i t hl a r g e s tg a i n _ r a t i oa m o n ga t t r i b u t e si nr ; 缀墼取r 中增益毙铡最大的属性作为分类属性 l e t d jl j = l ,2 ,n ) b et h ev a l u eo f a t t r i b u t ed ; l e t s j 【i = l ,2 ,n ) b et h es u b s e t so f sf o ra t t r i b u t er e s p e c t i v e l yo f r e c o r d sw i t h v a l u ed jf o ra t t r i b u t ed : 根据属性的僮把调练集s 划分为子集 譬= l ,, - - - , n ; r e t u r nat r e ew i t hr o o tl a b e l e dda n da r c sl a b e l e dd l ,d 2 , - - , d ng o i n gr e s p e c t i v e l y t o t h et r e e s c 4 。5 ( r - d ,c ,s o ,c 4 5 ( r - d ,c ,s 2 ) ,c 4 。5 ( r 一 d ,c ,s 。冀 3 l 第网章c 4 5 决策树算法殷葜改进 ,以d 为根节点,并以其值作为分支,递归调用c 4 5 算法 e n dc 4 。5 4 2 5 规则的产生 在c 4 。5 中,从决策树中抽取规则一般分为鼹个步骤,首先获取简单规燹唾,然 后精简规则属性。 简单规则:对于已生成的决策树,可以直接从中获得规则,并以i f - t h e n 形式 表示。对从根节点到叶节点的每一条路径都可以是一条规则,沿着给定的路径上 的每个属性一值对形成规裂前件i f 郏分) 的一个含取项,对节点包含类预测,形 成规则后件( t h e n 部分) 。 精简规则:这样获取的简单规则中可能包含了许多无关的属性,精简规则就 是在不影响预测效果的前提下,尽量删除不必要的属性,达到使规则更加简练趋 基的。 3 2 筇五章客户服务质量管理系统设计与实现 第五章客户服务质量管理系统设计与实现 该物流信息管理中心承担着天津北京地区的大部分运输业务,拥有客户 3 0 0 0 多家,每天可接电话1 0 0 0 多个,发送信息条数上万条。面对众多的客户, 我们有必要对其服务商进行服务质量管理,以便对这些服务商进行分类选出服 务质量好的服务商优先为其服务,这样不仅可以很好的满足需求服务方的需要, 提高公司本身的服务质量,也可以促进服务商提高自己的服务质量。同时,大量 的数据也为我们进行数据挖掘提供了必需的和足够的信息量,本章我们将运用 c 45 决荒树分类算法对客户服务质量进行评价,实现客户服务质量管理。 5 1 数据准备 5 1 1 数据采集 数据准备是进行数据挖掘的首要环节,蔓进行数据挖掘必须先要有足够的、 有效的数据,为了确保将来工作时有良好的性能必须要采集和利用足够多的原 始数据。实现客户服务质量管理,我们采用呼叫中心收集反馈信息,在每次交易 完成后由需求服务方( 即货主) 打电话到呼叫中心反馈服务信息,其界面如下; 圉5 - i 客户服务质量管理采集信息畀面 第五章客户服务质量管理系统设计与实现 根据m g k 模型认为影响服务质量的七个凶素1 3 0 ,即产品质量、产品支持( 技 术方面) ,可得性,产品支持( 销售方面) 、价格政策、交流和传递质量,再结合 物流运输系统的特点,该物流信息管理系统的服务质量管理系统主要从价格、车 辆质量、按时性、服务态度等四个方面进行考察。 因此,在收集用户服务信息时,主要记录“网号、价格、车辆质量、按时性、 服务态度、备注、是否满意、记录时间”几个方面,其中,属性“是否满意”为 类别属性字段。“网号”用来标记网员,以备对该网员进行管理。“备注”用来填 写除上面情况以外的信息或是对该次合作中出现的情况做记录等,也包括投诉
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 寒暑假教学设计-2025-2026学年中职基础课-拓展模块一 上册-北师大版(2021)-(数学)-51
- 教师招聘之《小学教师招聘》模拟题库【夺冠】附答案详解
- 智研咨询-2025年中国宠物牵引绳行业市场规模、行业集中度及发展前景研究报告
- 2025年工业污染场地修复技术实施与成本效益动态调整方案报告
- 门窗工程技术方案(3篇)
- 科马卫浴工程方案(3篇)
- 酒店电视工程方案合同(3篇)
- 2025年无人零售行业市场前景与风险控制研究报告
- 工业污染场地修复2025年技术方案成本效益分析及环境保护产业政策实施效果分析报告
- 2025年工业互联网平台网络流量整形技术在智能电网中的应用报告
- 2024年危险化学品典型事故案例反思
- 甲醛治理招标方案(3篇)
- 云南大学管理制度
- 大队委竞选笔试题目及答案
- 上海交大工科分流试题及答案
- 2025医疗机构劳动合同模板
- 牛的健康问题图像识别诊断-洞察阐释
- 浙江甬岭数控刀具有限公司年产600万只U钻、50万套镗刀技改项目环评报告
- ISOIEC 38505-1 2017数据治理程序文件一整套
- 医院机电系统设计汇报
- 生态环境标准应用 课件 大气污染物综合排放标准2
评论
0/150
提交评论