




已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)基于统计的分类算法及其在潜在客户识别中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 摘要 随着数据库技术的成熟和数据应用的普及,以数值形式存在的数据 正以指数速度迅速增长。人们不再满足于对这些数据进行简单的事务管 理和信息检索,而期望从数据中获取知识来辅助决策。这种需求,使数 据挖掘成为近年来计算机领域研究的热点之一。而经过十多年的研究, 数据挖掘技术已较为成熟,因此近年来研究的重点转为挖掘技术的应用, 商务作为数据挖掘的主要应用领域,对知识的需求尤为显著。面对巨大 的市场压力,竞争状态主要表现为企业问对最有利客户的激烈争夺上。 因此潜在客户识别的研究具有重要的现实意义。 本文首先介绍了潜在客户识别和分类算法概念。在此基础上,分析 了潜在客户识别中存在的问题。针对条件属性取值和特定客户类别问的 关联,本文在深入研究基于数理统计的算法基础上,提出一种具有统计 的确定性因子算法。该算法首先根据条件属性将论域数据划分成等价类, 然后计算各等价类中特定类别数据元个数与该等价类数据元总数的比 值,得到确定性因子,并将其正态标准化后,作为条件属性的相关度量。 实验结果表明,该算法能有效地解决知识的不确定性问题。针对属性选 择的问题,本文在分析现有属性选择算法的基础上,提出一种基于推理 思想的两层选择算法。该算法首先采用条件属性和类标识属性间的相关 度量来判断两者的相关程度,去除与类标识属性无关或负相关的条件属 性,减小了后续的学习规模,从而减少了时间开销;在属性选择中引入 反馈原理,提出基于改善的属性选择模型,有效的抑制了人为给定阈值 所致的选择的属性子集不是最优解或较优解问题,算法在节省时间的同 时提高了属性选择的准确率,从而提高了模型精度。实验结果验证了这 一结论。本文还针对相关条件属性综合要素对分类的影响,提出了一种 构造变量的算法。该方法通过加入自变量来表征相关条件属性的综合要 素与数据特定类别的关联,即通过模型对相关条件属性的综合要素的反 映,减小了模型误差,提高了模型精度。本文在原有统计算法的基础上, 结合上述改进,最后实现了基于统计和粗糙集的潜在客户识别系统原型。 关键词:数据挖掘;分类;统计学;粗糙集;数据识别;特征提取; 确定l 生因子 基于统计的分类算法及其在潜在客户识别中的应用研究 a bs t r a c t w i t ht h e r i p e o fd a t a b a s et e c h n o l o g ya n dt h ep o p u l a r i z a t j o no fd a t a a p p l i c a t i o n ,t h e n u m e r i c a lv a l u ef o r m a td a t ai s i n c r e a s i n g a tt h e e x p o n e n t i a ls p e e d p e o p l ew i l tn o ts e t t l ef o rs i m p l ea f f a i rm a n a g e m e n ta n d i n f o r m a t i o ns e a r c ho nt h e s ed a t a ,b u tl o o kf o r w a r dt og a i n i n gk n o w l e d g e f r o md a t at oa s s i s t a n td e c i s i o n m a k i n g s u c hd e m a n dm a k e sd a t am i n i n g b e i n go n eo ft h eh o t s p o t si n t h ef i e l do fc o m p u t e rr e c e n t l y d a t am i n i n g t e c h n o l o g yh a sb e c o m er i p e rb yt h er e s e a r c ho ft e na n dm o r ey e a r s s on o w t h ee m p h a s e so fr e s e a r c ha r ec h a n g i n gf o rt h ea p p l i c a t i o no fd a t am i n i n g t e c h n o l o g y a n db u s i n e s sa f f a i r sa r e b e c o m i n g t h e l e a d i n ga p p l i c a t i o n d o m a i n s ,a n dt h er e q u i r e m e n t so fd e m a n da r em o r ep r o m i n e n t i nt h ef a c e o f h u g ep r e s s u r eo fm a r k e t ,t h e c o m p e t i t i o n s t a t e sa r eb e h a v e da st h e c o n t e n t i o n d r a s t i c a l l y o ft h em o s tf a v or a b l ec u s t o m e r sb e t w e e n c o r p o r a t i o n s t h e r e f o r e w ec a nk n o wt h er e s e a r c ho fl a t e n tc u s t o m e r s d i s c r i m i n a t i n gh a si m p o r t a n tr e a l i s ms i g n i f i c a n c e f i r s t l y t h i s p a p e r i n t r o d u c et h e c o n c e p t i o n o fl a t e n tc u s t o m e r s d i s c r i m i n a t i n g a n d c l a s s i f ya l g o r i t h m ,b a s e d o nw h i c ht h e p r o b l e m s e x i s t e di nl a t e n tc u s t o m e r s d i s c r i m i n a t i n g a r e a n a l y z e d a i m e d a tt h e c o n d i t i o na t t r i b u t ev a l u e sa n dt h er e l a t i o n s h i po fs p e c i a lc u s t o m e r ss o r t s , a u t h o ra d v a n c e sa na s s u r e df a c t o r s a l g o r i t h m b a s e do ns t a t i s t i c t h e a l g o r i t h mb a s e do nt h er e s e a r c ho fs t a t i s t i c a la l g o r i t h ma n dt h ea l g o r i t h m p a r tt h ed a t as e t st oe q u i v a l e n tc l a s s e sb a s e do nc o n d i t i o n a lc o n t r i b u t i o n s f i r s t l y ,t h e nt oc a l c u l a t et h er a t i oo fs p e c i a ls o r td a t am e m b e r n u m b e r sa n d t h et o t a lo fd a t am e m b e r st o g a i n a s s u r e df a c t o r sa n da st h ec o r r e l a t i o n m e a s u r e m e n to fc o n d i t i o n a lc o n t r i b u t i o n sa f t e r n o r m a l l y s t a n d a r d t h e e x p e r i m e n t r e s u l t si n d i c a t et h a tt h e a l g o r i t h m c a nr e s o l v et h eu n c e r t a i n k n o w l e d g ep r o b l e m se f f e c t i v e l y a i m e d a tt h e p r o b l e m o fa t t r i b u t e s s e l e c t i o n ,a u t h o ra d v a n c e sat w ol a y e r ss e l e c t i n ga l g o r i t h mb a s e do nt h e a n a l y s i s o ft h ea t t r i b u t i o n s s e l e c t i n ga l g o r i t h m s i ne x i s t e n c e t h e a l g o r i t h mu s e sc o n d i t i o n a la t t r i b u t i o n sa n dt h ec o r r e l a t i o nm e a s u r e m e n to f c l a s sm a r kc o n t r i b u t i o n st oe s t i m a t et h ec o r r e l a t i o nd e g r e eb e t w e e nb o t h t h ea l g o r i t h mw i p e so f ft h o s ec o n d i t i o n a la t t r i b u t i o n si n d e p e n d e n to fo r i i 硕十学位论文 n e g a t i v ec o r r e l a t i v ew i t hc l a s sm a r kc o n t r i b u t i o n sa n dm i n i s h e st h ef o l l o w l e a r n i n g s c a l et or e d u c et h et i m e s p e n d i n g ;o nt h e o t h e rh a n d ,a u t h o r i m p o r tf e e d b a c kt h e o r yi n a t t r i b u t i o ns e l e c t i o na n da d v a n c e saa t t r i b u t i o n s e l e c t i o nm o d e lb a s e do ni m p r o v e m e n t t h i sm o d e le f f e c t i v e l yr e s t r a i n s l e a r n i n gi n s u f f i c i e n c ya n de x c e s s i v el e a r n i n gq u e s t i o n sc a u s e db ya r t i f i c i a l t h r e s h o l d o nt h ew h o l et h ea l g o r i t h me n h a n c e st h ep r e c i s i o no fa t t r i b u t i o n s e l e c t i o na tt h es a m et i m eo ft i m e s a v e i n gt o i m p r o v et h em o d e lp r e c i s i o n t h ee x p e r i m e n tr e s u l t si n d i c a t et h er e s u l t t h ep a p e ra l s oa i m e da td a t a c o n t r a d i c t i o np r o b l e ma d v a n c e sac o n s t i t u t i o nv a r i a b l ea l g o r i t h mt ot o k e n t h ei n f l u e n c eo ft h e i n t e g r a t i o n e s s e n t i a l so fc o r r e l a t i o nc o n d i t i o n a l a t t r i b u t i o n st od a t ad i s c r i m i n a t i n g t h ea l g o r i t h mt o k e n st h ea s s o c i a t i o no f t h e i n t e g r a t i o n e s s e n t i a l so fc o r r e l a t i o nc o n d i t i o n a la t t r i b u t i o n sa n dd a t a s p e c i a l c l a s s e s b ya d d i n gi n d e p e n d e n tv a r i a b l e s ,i n o t h e r w o r d s ,b y r e f l e c t i n gt h ei n t e g r a t i o ne s s e n t i a l so fc o r r e l a t i o nc o n d i t i o n a la t t r i b u t i o n s u s i n gm o d e lt om i n i s hm o d e le r r o r sa n di m p r o v et h em o d e lp r e c i s i o n t h e p a p e rb a s e s o nt h es t a t i s t i c a l a l g o r i t h m s i ne x i s t e n c ea n dc o m b i n e st h e i m p r o v e m e n t a d v a n c e d a b o v e , i nt h e e n d ,r e a l i z e s t h ec u s t o m e r d i s c r i m i n a t i n gs y s t e mp r o t o t y p e b a s e do n r o u g h s e t sa n ds t a t i s t i c k n o w l e d g e k e y w o r d s :d a t am i n i n g ;c i a s s l f i c a t i o n ;s t a t i s t j c s ;r o u g hs e t s ;d a t ai d e n t i f i - c a t i o n ;c h a r a c t e re x t r a c t i o n ;a s s u r e df a c t o r i l l 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名: 日期:j 竹年0 月日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密团。 ( 请在以上相应方框内打“4 ”) 日期:;” 年。月j f 日 日期:劲降r 月矿日 畅节 磷 名名签签者师作导 硕士学位论文 第1 章绪论 1 1 潜在客户识别概述 1 1 1 研究背景 商务领域的数据多以数值化的形式表示。随着计算机技术的发展,六十年代 人们开始了对此领域数据的研究并经历了一个较长的发展过程。从六十年代以数 据收集为重点发展到八十年代着重于数据检索的研究,再到九十年代数据挖掘技 术的兴起,反映出人们对数据理解的逐步深入和对知识获取的需求。在商务领域 中,多种因素的共同作用增加了客户关系的复杂性。而面对激烈的竞争格局,如 何以有效的方式最大可能的获取客户从而保证自身竞争力是决策者重点关注的问 题。中国加入w t 0 后,外资保险将在五年之内占据我国3 0 的市场份额,外资保 险将利用i t 技术提供更深层次的服务及更先进的产品,并通过包括网上保险在内 的优秀分销体系来覆盖整个市场。国内保险人才流失的同时,国内保险企业还将 失去部分有影响的主要客户。在对中国保险业加入w t 0 屠的竞争格局进行了宏观 的分析后,i b m 认为,国内保险市场的竞争状态主要表现在保险商对企业和最有 利客户的激烈争夺上“1 。但从数据中随意的选择或简单的检索。并不是有效获取 潜在客户的方式。因此期望采用挖掘技术从数据库中自动地发现相关模式来预测 客户的类别。 1 1 2 研究意义 数据挖掘1 2 】是多学科交叉的计算机应用技术,在金融领域得到广泛应用“1 。因 为市场的竞争主要是对企业和最有利客户的激烈争夺。所以将客户信息进行分类 后提取潜在客户信息用于辅助决策有重要的现实意义。因为没有任何一种分类算 法能适合所有数据,也没有任何一种分类算法从本质上优于其它分类算法,所以 在实际应用中需要根据研究对象的数据特征来选择适合的算法并迸行改进。因此 分类算法有较强的研究意义。 选择本课题作为研究对象主要基于下述三点考虑: 1 研究的可能性:计算机硬件和应用技术的高速发展为研究提供了所需的研究 数据,而数据挖掘技术和统计学等学科知识的发展和完善为研究提供了可供 选择的分类算法。 2 研究的必要性:潜在客户识别是客户关系管理( c r m ) 系统的重要组成部分, 基于统计的分类算法及其在潜在客户识别中的应用研究 而c r m 是一种“以客户为中心”的先进经营管理理念,能够实现通过客户利益 的最大满足促进企业利润极大增长的经营目标。数据挖掘作为一种先进的数 据分析方法,是实现对客户数据进行深入分析的有效工具,是帮助企业实现 既定目标的最佳途径。所以在竞争日益激烈的当今社会,这种研究是必要的。 3 研究的可行性:现实世界中,因主观因素影响使客户在具有相同的客户特征 时,产生不同的购买行为,因此当客户信息以数据的形式表达时,表现为: 数据元各条件属性取值相同,而类标识属性取值不同。致使数据的不一致, 数据的不一致又被称为数据矛盾。经典的数据挖掘算法在建立数学模型时对 上述情况造成的影响考虑不够,因此常规算法建立的数学模型与实际问题闾 有一定的模型误差,从而使模型精度不高。又因分类是实现从数据元条件属 性到数据元决策属性的映射,所以本文将对条件属性的研究作为重点,通过 选择合适的算法并进行改进来提高模型精度。 1 1 3 研究任务 潜在客户识别是指从给定人群中准确或较为准确的找出潜在客户的过程,实 质上是从数据集中分离出表征客户的数据元。因此需要在数据元类别未知的情况 下预测其表征客户的可能性。这种预测应建立在对现有数据学习的基础上。从理 论角度和实践过程均可证明:对数据进行相应的分析和归纳就可以得到表征潜在 客户的数据所具有的共性。当测试数据集中的某数据元具有这些共性,我们就认 为该数据元表征潜在客户。因此潜在客户识别的实质是对数值化信息的分类。 随意抽取人群的数据信息,通常潜在客户人数远远小于非潜在客户人数,根据 商务规则:从2 0 的客户身上可获取8 0 的利润,因此在实际应用中采用选出 2 0 的客户,期望选出客户中的潜在客户数目尽可能多的方式。因此在给定阈值 的前提下,期望计算机通过学习,能准确或较为准确的从给定的数据信息中找出 潜在客户信息,从而减少市场营销的盲目性,提高投入、产出比,有较为重要的现 实意义。 1 2 数据挖掘 数据挖掘( d a t am i n i n g ) 建立在对数据研习的基础之上,是指从海量数据中 提取有用信息来辅助决策的过程。数据挖掘中的知识通常以数值形式表示和被处 理,其本质是数据分析的一种形式。近几年来,该技术受到经济领域和数据库界 的共同关注,是数据库和信息决策领域前沿的研究方向之一。研究的主要目标是 发展有关的方法论、理论并应用挖掘技术实现从数据库中自动提取相关模式。 2 硕士学位论文 数据挖掘研究涉及的学科领域和方法众多,应用领域广泛。常用的学科技术 有:统计学、机器学习、信息科学。现已经逐步覆盖人工智能、神经网络、模糊 集理论、粗集理论等学科技术。并在金融、证券、电信等领域得到广泛应用1 4 ) 。 1 3 国内外研究现状 潜在客户识别是企业收集和积累了消费者的大量信息后,经过对信息的分析 来预测消费者购买某种产品的可能性。因此潜在客户识别的基础是营销数据库的 建立。 营销数据库在西方发达国家的企业里已相当普及:在美国,1 9 9 4 年d o n n e l l e y m a r k e t i n g 公司的调查显示,5 6 的零售商和制造商有营销数据库,1 0 的零售商 和制造商正在计划建设营销数据库,8 5 的零售商和制造商认为在本世纪末,他 们将需要一个强大的营销数据库来支持他们的竞争实力i ,l 。而国内企业营销数据 库的建设起步较晚、方兴未艾,且对营销数据库的重要性认识不够,因此相对西方 发达国家,我国在潜在客户识别方面的研究和应用略为滞后。 潜在客户识别的本质是对数据挖掘技术中分类算法的研究,主要的应用领域 是零售业、金融和保险业。常用分类算法主要包括四大类:机器学习方法【6 7 1 、统 计方法、神经网络 6 】方法和数据库方法。机器学习中,可细分为:归纳学习方法( 决 策树( d e c i s i o nt r e e ) 、规则归纳1 9 1 ( r u l ec o n c l u s i o n ) 等1 、基于案例的推理1 1 0 “1 ( c a s e b a s e dr e a s o n i n g ,c b r ) 、遗传算法1 1 2 ( g e n e t i ca l g o r i t h m ) 等。统计方法 中,可细分为:回归分析1 1 4 | ( 多元回归l 【5 i 、自回归( 1 6 1 等) 、判别分析( 贝叶斯判别【1 7 1 ) 等。神经网络方法中,可细分为:h 后向神经网络l l b l ( s p 算法等) 、自组织神经网络【1 9 】 ( 自组织特征映射、竞争学习等) 等。数据库方法主要是多维数据分析【2 0 1 或o l a p t 2 1 l 方法,另外还有k 最临近分类1 2 2 1 、租糙集l i 3 :l 和模糊逻辑技术陋】可供选择。 在潜在客户识别的研究中,各种分类算法都成为研究者关注的重点,人们发 现采用不同的分类算法都能够完成潜在客户的识别,但因为没有任何一种分类算 法能适合所有数据,也没有任何一种分类算法从本质上优于其它的分类算法,所 以研究者期望选择合适的算法使分类模型的精度高、响应时间短,且能行之有效 的解决实际问题。 1 4 研究内容 分类算法研究的关键在于数据特征的提取和分类模型的自动生成。具体到潜 在客户识别,主要是实现客户特征的提取和通过分类模型实现对类别未知数据的 类别预测。这些问题的解决对实现潜在客户识别有重要的意义。因此客户特征的 提取和分类模型的设计是本文研究的重点。通常提取的客户特征是根据条件属性 3 基于统计的分类算法及其在潜在客户识别中的应用研究 得到的基本范畴,故客户特征通常采用条件属性取值的合取形式表示。因此该部 分研究的关键点是:通过学习后得到数据元条件属性取值的决策规则。分类模型 的设计是实现分类算法的数学模型,该模型是:建立从数据元条件属性到决策属 性的映射函数。因此该部分研究的关键点是:自变量的选择和度量,即条件属性 的选择和度量。因分类算法研究的两个关键问题都涉及条件属性,所以本文将对 条件属性的研究作为进行算法改进的重要线索。 研究潜在客户识别问题需要明确该问题不是纯理论的概念,而是现实中存在 的一个问题。现实中众多因素的影响使问题具有不确定性,如:本文研究任务中存 在矛盾数据元。矛盾数据元可定义如下:令条件属性为c i ,类标识属性为d ,数 据元定义为( c j ,d ) ,当两数据元j 、k 的c 。= c ,i = 1 、2 r l 时,d ,d i ,称这 样的数据元对为矛盾数据元。显然集合中数据元的各相关条件属性取值都相同且 类标识属性取值也相同时,该集合无矛盾数据,集合中数据元的各相关条件属性 取值相同而类标识属性取值不同时,该集合存在矛盾数据。因训练数据和测试数 据中均可能存在矛盾数据元,所以通过对矛盾数据的学习得到的是不确定的知识, 故提取的客户特征具有不确定性。针对客户特征的不确定性,本文提出了基于统 计的确定性因子算法。本文还针对条件属性的选择、度量及相对类标识属性重要 程度等问题提出了相应的改进算法。本文的主要研究工作如下: 1 潜在客户识别的本质是在给定阈值的前提下对数据元进行分类,故本文的研 究重点是给定阙值的分类模型设计。因此首先对分类算法进行系统的理论和 应用研究。此阶段本文主要分析了决策树分类算法和粗糙集分类算法,并对 算法的理论知识、实现过程及应用进行了细致的研究。 2 针对条件属性取值和特定客户类别间的关联,本文在深入研究基于数理统计 算法的基础上,提出一种基于统计的确定性因子算法。该算法首先根据条件 属性的取值将论域数据划分成等价类,然后计算等价类的确定性因子,并将 其正态标准化后,作为条件属性的相关度量。实验结果表明,该算法能有效 地解决知识的不确定性问题。 3 针对属性选择问题,本文在分析现有属性选择算法的基础上,提出一种基于 推理思想的两层选择方法。该算法首先采用条件属性和类标识属性问的相关 度量来判断两者的相关程度,并根据度量值去除与类标识属性无关或负相关 的条件属性,减小了后续的学习规模,从而减少了时间开销。在属性选择中 引入反馈原理,提出基于改善的属性选择模型,有效的抑制了人为给定阈值 所致的属性选择的收敛速度过快或过慢的问题,算法提高了属性选择的正确 率。实验结果验证了这一结论。 4 本文还针对条件属性综合要素对分类的影响,提出了一种构造变量的改进算 法,该算法通过构造自变量来表征条件属性综合要素与数据特定类别的关联, 4 硕士学位论文 即通过模型对条件属性综合要素的反映,减小了模型误差,提高了模型精度。 5 + 本文在原有统计算法的基础上,结合上述改进,最后实现了基于统计的潜在 客户识别系统原型。 全文分为五章,主要内容如下: 第一章概述了潜在客户识别、数据挖掘和本课题的国内外研究现状并介绍本文研 究内容。第二章介绍了常用分类算法,分析了决策树和粗糙集的基本原理及优缺 点。第三章介绍了统计原理,重点探讨了基于统计的分类算法。第四章介绍了在 基于统计算法的基础上进行的算法改进:针对条件属性取值和特定客户类别间的 关联,提出一种基于统计的确定性因子算法;针对条件属性选择问题,提出一 种基于推理思想的两层选择方法;针对条件属性综合要素对分类的影响,提出了 一种构造变量的算法;本文还针对条件属性相对类标识属性的重要程度问题,提 出了带权的相关属性度量算法。第五章实现一个基于改进算法的统计评分模型的 原型系统。对系统的设计,关键技术的处理,主要功能的实现作了全面的描述。 重点分析了数据选择、特征提取和相关属性选择等关键问题。 小结 本章介绍了潜在客户识别和数据挖掘的相关内容及国内外的研究现状,并且 介绍了本文的主要工作、研究意义以及论文的结构。并指出对原算法的改进以条 件属性为研究重点,针对实际问题提出相应的改进方案。 基于统计的分类算法及其在潜在客户识别中的应用研究 2 1 基本术语 第2 章常用分类算法研究 训练集:为建立模型而被分析的数据元组成的集合。 训练样本:训练集中的单个数据元。 测试集:为评测模型的参数而被分析的数据元组成的集合。 测试样本:测试集中的单个数据元。 模型的查准率:采用模型对测试集分类,模型从测试集中分离的样本的准 确率。 模型的查全率:采用模型对测试集分类,模型从测试集中分离的正确测试 样本与测试集中正确测试样本的百分比。 2 2 分类过程及评测标准 2 2 1 分类过程 在数据挖掘中对任务的分类有多种划分标准。根据训练集数据特点对任务进 行划分,学习过程和相应的算法可分为两种类型:当训练集中数据的类别未标识, 称之为无指导的学习,相应的算法称之为无指导的学习算法;当训练集中数据的 类别己标识,称之为有指导的学习,相应算法称之为有指导的学习算法。从上述 角度分析:因为对数值化数据的分类需要根据训练数据的类标识属性来判断数据 类别,所以训练数据的类别已标识,故属于有指导的学习。 在获取一定数量的己标识类别的数据元后形成训练集,分类算法通过对训练 集中数据元的学习来构造分类模型,然后使用分类模型对测试集中数据进行分类 并计算模型的精度来检测分类算法的可行性和有效性。 分类是数据分析的一种形式,其目的是从数据库中自动提取重要的数据类的 模型并实现对类别未知数据的类别预测j 。因此其过程包括两个步骤:1 ) 分类模 型的建立。即通过分类算法对已标识类别的训练集数据进行学习后得到分类规则; 2 ) 使用模型对数据进行分类。即应用分类规则对测试集数据进行测试,得到模 型的评测参数,然后采用分类效果较好的模型对未标识类别的数据进行分类。以 本文研究对象的数据为例,分类过程如下图所示: 1 2 3 4 5 6 硕士学位论文 1 , 分类规则或判定 分类算法j 树或数学公式 7r 图2 1 分类规则的提取 ,、 分类规则或判定 树或数学公式 l 惯数据集j h 在、 z o 7 j 客户 条一阵属性类标识属性 7 彳厶:, 新数据集 128 5 ( 选出的 数据样本信息 潜在客户) 图2 2 潜在客户的识别 潜在客户识别是典型的分类问题。客户信息以数值的形式存在于数据库中,每位 客户信息构成的数据称为数据元,客户属性称为数据项。客户信息通常包含多个 属性,因此数据元由多个数据项构成。将属性分为条件属性和决策属性。因为通 过观察决策属性的取值,就能判断数据元的类别。所以决策属性又称为类标识属 性,它表征数据元从属已定义类别的信息。将问题抽象化后,潜在客户的识别实 际是用数学的方法来实现从数据元中条件属性到决策属性的映射,即建立一个以 条件属性的某种度量为自变量、以决策属性的某种度量为因变量的函数模型来完 成这种映射。因此分类是根据条件属性和类标识属性间的函数关系将数据进行归 类的过程。 2 2 2 模型的评测标准 对分类模型的评测有以下几个评估参数1 2 7 j : 7 基于统计的分类算法及其在潜在客户识别中的应用研究 1 预测的准确率:预测的准确率是评价一个分类模型好坏的重要指标,用来 表征模型的预测能力。可从两个层面进行理解:首先,分类模型是分类算 法对训练集数据进行学习后获取的,所以模型应具有对已学习数据进行预 测的能力;其次,分类模型建立的目的是对未标识类别的数据进行类别预 测,所以模型同时应具有对不曾学习和未标识类别的数据进行预测的能力。 因此在测试模型此参数时,需要选择合适的测试集。通常考虑选择独立于 训练集的数据元形成测试集。因为测试集和训练集是随机选取的样本,当 测试集独立于训练集,测试集中数据更好的反映出不同于训练集的新数据 信息,更利于对模型预测新信息能力的检测。因此采用已标识类别的数据 元组成测试集,通过检测被模型正确分类的数据元的百分比来标识预测的 准确率。能有效缓解学习模型过分适应数据的现象,并对模型形成较为客 观的评估。 2 速度:速度是对产生和使用模型计算开销的反映,在硬件设备确定的前提 下,能较为直观的反映模型性能。在同等条件下对众多模型进行比较,运 行速度是评定模型性能的又一重要指标。 3 强壮性:因为从现实中获取的数据通常包含噪音信息或存在数据项缺省, 我们通常期望模型具有对现实数据进行正确预测的能力,因此模型应具有 抗噪性,具有抗噪性的模型是强壮的。 4 可解释性:通过分类算法对训练样本进行学习得到的分类模型有多种表达 形式,从便于人们理解的角度考虑,模型应该为人们所理解和接受,故应 具有可解释性。 2 3 判定树算法研究 2 3 1 判定树相关概念简介 判定树( d e c i s i o nt r e e ) 是一种基于贪心算法的分类方法12 8 1 ,采用自顶向下递 归的思想进行构造1 2 9 圳。因此是一种类似于流程图的树结构。其中每个内部结点 代表一个属性上的测试,每个分支代表一个测试输出,而每个树叶结点代表一个 类或类分布。以使用条件属性i 和条件属性j 来预测决策属性的取值是否为真为 例,判定树如下图: 对训练集数据进行学习后构造判定树,并使用判定树对类别未知的数据样本 进行分类,因此分类的过程就是样本属性在判定树上进行测试的过程。当某个类 别未知的样本的测试路径满足判定树中从根结点到某个叶结点的路径时,此样本 被划入该叶结点所表征的类中,从而实现类别未知的样本从条件属性到决策属性 8 硕士学位论文 图2 3 典型判定树 的映射。因此判定树的路径实际就是分类规则,可以用l f t h e n 的形式表示, 故具有较好的可解释性。 采用判定树算法对数据样本进行分类需要进行测试属性选择。在树的根节点 和每个内部结点上使用基于信息增益的度量来选择测试属性,并选择具有最高信 息增益的属性作为当前结点的测试属性。信息增益计算如下: 设训练集t 中有s 个数据样本,类标号具有m 个不同值,因此可定义r f l 个 不同的类c f ( i = 1 、2 m ) ,设是类e 中的样本数,对一个给定样本分类的所 需的期望信息表示为: ,g ,、s :。) 一一p 。l o g :0 ;) ( 2 1 ) 衙 其中p j 是任意样本属于类g 的概率,并用估计。 设属性a 具有v 个不同的属性值( a 1 a :棚,) ,故根据属性a ,训练集的s 个样 本被划分为v 个子集( 五、s :。) ;其中s ,包含s 中这样的样本:它们属性a 的取 值为a i 。当a 是测试属性时jv 个子集对应该结点的v 个分枝。设s ;f 是子集j 中 类的样本数。由属性a 划分成子集的熵或期望信息表示如下: e ) 。砉盟等监坼喝) ( 2 z ) 其中垒二警表示属性a 取f f i 为口,的样本数与训练集样本总数的比,作为 第j 个子集的权;,b ,、“) # 一薹既l 0 9 2 b ) ,其中岛4 阿$ i j 一一渴中样本属于 类e 的概率。 在a 上分枝将获得的编码信息为: g a i n ( a ) ;i ( s 。、s 2 j 。) 一e 0 ) ( 2 3 ) 9 基于统计的分类算法及其在潜在客户识别中的应用研究 算法计算每个属性的信息增益g a i n ( 爿:) ,选择具有最高信息增益的属性作为给定 集合s 的测试属性,创建一个结点,并以该属性标记,对属性的每个取值创建一 个分枝,并据此划分样本。 在判定树构造时,由于训练数据中的噪音或孤立点,许多分枝反映的是训练 数据中的异常,使用这样的判定树对类别未知的数据进行分类,分类的准确性不 高。因此试图检测和剪去这样的分枝,检测和剪去这些分枝的过程被称为树剪枝。 树剪枝方法用于处理过分适应数据问题。通常,这种方法使用统计度量,剪去最 不可靠的分枝,这将导致较快的分类,提高树独立于训练数据正确分类的能力。 树剪枝有两种方式,称为先剪枝和后剪枝。在先剪枝方法中,通过提前停止树 的构造( 例如:通过决定在给定的节点上不再分裂或划分训练样本的子集) 而对 树“剪枝”。一旦停止,节点成为树叶。该树叶可能持有子集样本中最频繁的类, 或这些样本的概率分布。在构造树时,如统计意义上的z 2 、信息增益等度量,可 用于评估分裂的优良性。如果在一个节点上划分将导致低于预定义阐值的分裂, 则给定子集的进一步划分将停止。然而,选择一个适当的阙值是困难的。当阈值 较高时,可能导致产生过分简化的树,而当阈值较低时,又可能使产生的树简化 程度不够。 在后剪枝方法中,剪枝是通过在“完全生长”的树上剪去分枝来实现的。通 过删除节点的分枝来剪去树节点。最下面未被剪枝的节点成为树叶,并用它先前 分枝中最频繁的类标记。对于树中每个非树叶节点,算法计算该节点上的子树被 剪枝可能出现的期望错误率。然后,使用每个分枝的错误率,结合沿每个分枝观 察的权重评估,计算不对该节点剪枝的期望错误率。如果剪去该节点导致较高的 期望错误率,则保留该子树,否则剪去该子树。产生一组逐渐被剪枝的树后,使 用一个独立的测试集评估每棵树的准确率,就能得到具有最小期望错误率的判定 树。显然,后剪枝的计算开销大于先剪枝的计算开销,但通常产生更可靠的树 a l l 。 2 3 2 判定树算法在潜在客户识别中的应用 潜在客户识别问题的研究,旨在通过数据挖掘的算法对问题进行求解。又因 判定树算法无需领域知识的同时具有学习和分类较快的特点,且分类规则的表达 具有较好的可解释性,所以考虑作为潜在客户分析的备选方案,通过构造判定树 实现数据样本从条件属性到类标识属性的映射。 首先令条件属性集合为a ,a 中元素表示条件属性序号。计算训练样本的各 条件属性的信息增益g a i n ( a ) ( t = l 、2 8 5 ) ,从中选择信息增益最高的作为根结 点来创建判定树并从条件属性集合a 中删除该属性序号,根结点用该属性序号表 示,并根据该属性的每个取值为根结点创建一个分枝。因此根据根节点对应的条件 1 0 硕士学位论文 属性,训练集的数据元被v 个分枝划分为v 个子集,v 个子集中如果存在这样的 集合:其所有元素属于同一类别,则用叶结点表示该集合并用集合的类别标识该 叶结点。将元素不属于同一类别的集合用内部结点表示并为这些内部结点建立条 件属性集合a 。,a 。是集合a 的一个拷贝。这样就可确保已选择的测试属性在以后 的测试中不被选择。 然后对每个内部结点对应的子集样本计算属性集合a 。中各属性的信息增益 g a i , ) ,从中选择信息增益最高的作为测试属性并从条件属性集合4 中删除该属 性序号。此内部结点用该属性序号表示,对应该属性的每个取值为该内部结点创 建一个分枝,因此该子集又被h 个分枝划分为h 个子集,h 个子集中如果存在集 合,其所有元素属于同一类别,则用叶结点表示该集合并用集合的类别标识该结 点。将元素不属于同一类别的集合用内部结点表示并为这些内部结点建立条件属 性集合一,4 。是集合4 的一个拷贝。重复对新产生的内部结点进行属性测试, 直至所有分枝产生的新子集均能用叶结点表示或已无属性可供测试。在无属性可 供测试的情况下,用叶结点表示该集合并用该集合多数元素从属的类别标识。 从理论角度考虑,采用判定树作为分类算法的可行性可从以下三方面理解: 1 判定树算法具有较好的可解释性。在本文研究中。只需找到判定树中表示类 别取值为真的叶结点,从根结点到该叶结点的路径中根节点和内部节点的取 值表示条件前件,叶节点的取值表示条件后件,从根结点到该叶结点的路径 就可转换为用i f t h e n 形式表达的分类规则,因此易于理解,可解释性较好。 2 判定树算法具有较好的鲁棒性。由于数据中存在噪音和孤立点,使创建的判 定树的许多分枝反映的是训练集数据中的异常,实质上这是过分适应数据的 体现,可采用剪枝方法进行处理,剪去反映数据异常的分枝后得到具有最小 期望误差率的判定树,因此具有较好的抗噪性。 3 判定树算法具有一定的可改进性。因大部分判定树算法限制训练样本驻留主 存,而在数据挖掘中通常需要包含大量数据的训练集,这样就限制了算法的 可伸缩性,使判定树构造的效率低下。通过将训练样本划分成子集构造多棵 判定树后进行组合虽使分类的准确度低于使用训练样本构造判定树,但可使 判定树的构造效率提高且满足增量算法的要求。 虽然判定树算法在理论上有较好的可行性,但实际实现过程中存在以下问题: 1 因研究对象的训练样本从数据库中获取,数据元较全面的表征客户信息,因 此数据元通常具有数目众多的条件属性且每个条件属性具有多个取值,令条 件属性个数n ,判定树从根结点到叶结点的路径中可能包含( n 一2 ) 个内部结 点,因此创建判定树的时间开销较大,而在去噪处理时,为使判定树更可靠, 通常采用后剪枝法。在建立完全生长树后再进行剪枝,因此进一步增加了时 间开销,故该算法的运行时间长、运行速度较慢。 基于统计的分类算法及其在潜在客户识别中的应用研究 2 因研究对象的训练样本从数据库中获取,因此类别属性取值为假的样本个数 远远大于类别属性取值为真的样本个数,故在无属性可供测试情况下,将样 本子集的类别标识为该子集多数元素从属类别可能产生不准确的分类规则, 故该算法生成的分类模型的精度不高。 综上所述,通过实验证明,在理论上具有一定可行性的判定树算法在实现潜 在客户识别时与期望的识别能力相距甚远。 2 4 粗糙集算法 2 4 1 粗糙集算法相关概念简介 粗糙集理论是波兰数学家z p a w l a k 于1 9 8 2 年提出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 锚链热处理工试用期转正考核试卷及答案
- 轧制加热工客户反馈处理考核试卷及答案
- 石雕工合规化技术规程
- 研发合作协议书
- 热缩材料制造工配送路线优化建议考核试卷及答案
- 公司美术颜料制造工工艺技术规程
- 栲胶干燥工岗位职业健康、安全、环保技术规程
- 江苏省无锡市查桥中学2026届数学九上期末质量跟踪监视试题含解析
- 内蒙古通辽市2026届数学七年级第一学期期末学业水平测试模拟试题含解析
- 2025钢管租赁合同
- 2025版静脉输液治疗实践指南
- 骨科术后并发肺栓塞护理
- 2025年融媒体中心招聘考试笔试试题(60题)含答案
- 社区工作者网格员考试题库及答案
- 快乐主义伦理学课件
- 运筹学:原理、工具及应用肖勇波习题答案(可编辑)
- 长期留置导尿的并发症及管理
- 民国时期农村管理制度
- 2025年医药流通行业运行统计分析报告
- 茶叶示范基地管理制度
- ELK培训课件教学课件
评论
0/150
提交评论