(计算机应用技术专业论文)基于人工免疫系统的分类方法及其应用研究.pdf_第1页
(计算机应用技术专业论文)基于人工免疫系统的分类方法及其应用研究.pdf_第2页
(计算机应用技术专业论文)基于人工免疫系统的分类方法及其应用研究.pdf_第3页
(计算机应用技术专业论文)基于人工免疫系统的分类方法及其应用研究.pdf_第4页
(计算机应用技术专业论文)基于人工免疫系统的分类方法及其应用研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕上学位论文 摘要 人工免疫系统研究旨在抽取生物免疫系统中独特的信息处理机制,研究和设 计相应的模型和算法,进而应用与解决各种复杂问题。人工免疫作为计算智能领 域的研究热点,已经在信息安全、模式识别、智能优化、自动控制、数据挖掘等 诸多领域得到了应用,体现了强大的信息处理和问题求解能力。 本文重点研究了一种基于人工免疫系统的分类算法,并将其应用到电信行业 的客户流失分析中。所做工作归纳如下: 对人工免疫系统理论及人工免疫系统生物学基础做了概括和分析,综述了国 内外的几种典型的人工免疫算法。 对国内外电信流失分析研究做了概括和分析,综述了几种传统的数据挖掘分 类算法。目前决策树、神经网络等算法都要采用过量抽样才能进行挖掘,而贝叶 斯算法不能产生容易理解的规则。 针对i f r a i s ( i n d u c t i o no ff u z z yr u l e sw i t ha na r t i f i c i a li m m u n es y s t e m ) 算法 在克隆选择过程中容易陷入局部最优的弱点,在原来克隆选择过程中增加了抗体 与抗原的交叉,并改变了抗体的变异模式,提出了抗体抗原交叉的规则归纳算法 ( i n d u c t i o no fr u l ew i t ha n t i b o d y - c r o s s a n t i g e no fa r t i f i c i a li m m u n es y s t e m , i r a a ) 。同时也分析了变异概率对i r a a 算法分类性能的影响,还对i r a a 算法 的样本分类过程进行了讨论。实验结果表明,i r a a 算法是一种性能较高的分类 算法。; 提出了一种基于,统计的属性相关性的属性约简算法,该算法不但能过滤 掉属性集中的无关属性,而且能有效地找到属性集中的冗余属性,并对其算法复 杂度进行了分析。 以i r a a 算法为基础,结合属性约简新算法,数据挖掘过程为线索,构建了 电信客户流失预测模型。在该模型下对i r a a 、i f r a i s 和传统分类算法进行比 较实验,结果表明,这些改进有效地提高了算法性能,而且基于人工免疫系统的 分类方法在挖掘过程中具有不需要过量抽取数据和产生容易理解的规则的特点, 在其他行业业务系统中将有广泛的应用前景。 关键词:人工免疫系统;数据挖掘;分类;客户流失;克隆选择;属性约简 基于人工免疫系统的分类方法及其应用研究 a b s t r a c t t h e p u r p o s e o fa r t i f i c i a li m m u n e s y s t e m ( a i s ) i s t o e x t r a c t s p e c i a l i n f o r m a t i o np r o c e s s i n gm e c h a n i s m sc o n t a i n e di nb i o l o g i c a li m m u n es y s t e m ,a n d t h e nt os t u d ya n dd e s i g nt h ec o r r e s p o n d i n gm o d e l sa n da l g o r i t h m s ,w h i c hc a nb e u s e dt os o l v em a n yk i n d so fc o m p l e xp r o b l e m s a st h eh o t s p o to fi n t e l l i g e n t c o m p u t a t i o nr e s e a r c hf i e l d ,a r t i f i c i a li m m u n es y s t e mh a sb e e na p p l i e di nm a n y f i e l d ss u c ha si n f o r m a t i o ns e c u r i t y , m o d e lr e c o g n i t i o n ,i n t e l l i g e n to p t i m i z a t i o n , a n t o m a t i o nc o n t r o l ,d a t am i n i n g ,w h e r ei t ss t r o n ga b i l i t yo fi n f o r m a t i o np r o c e s s i n g a n dp r o b l e mp r a c t i c a b l es o l u t i o ni se m b o d i e d i nt h i st h e s i s ,w ef o c u so nt h er e s e a r c ho fac l a s s i f i c a t i o na l g o r i t h mb a s e do n a r t i f i c i a li m m u n es y s t e mf i r s t l y ,a n dt h e nt h i sa l g o r i t h mi sa p p l e dt ot h ec u s t o m e r l o s sa n a l y s i si nt e l e c o m m u n i c a t i o n t h ew o r k sa r el i s ta sf o l l o w i n g : g e n e r a l i z et h eb a s i so fa r t i f i c i a li m m u n es y s t e mt h e o r ya n da r t i f i c i a li m m u n e s y s t e mb i o l o g y m e a n w h i l e ,s u m m a r i z es e v e r a lc l a s s i ca r t i f i c i a li m m u n ea l g o r i t h m s i nc h i n aa n da b r o a d g e n e r a l i z et h es t u d yo nt h ec u s t o m e rl o s sa n a l y s i si nc h i n aa n da b r o a d ,a l s o , s u mu ps e v e r a lt r a d i t i o n a ld a t am i n i n gc l a s s i f i c a t i o na l g o r i t h m s ,s u c ha sd e c i s i o n t r e ea n dn e u r a ln e t w o r ki nw h i c ho v e r s a m p l i n gi sr e q u i r e di nt h ed a t am i n i n g o n t h eo t h e rs i d e ,t h ea l g o r i t h mo fb a y e s i a nc a n to b t a i ne a s y t o u n d e r s t a n dr u l e s i nv i e wo ft h ed r a w b a c k so fi f r a i s ( i n d u c t i o no ff u z z yr u l e sw i t ha n a r t i f i c i a li m m u n es y s t e m ) a l g o r i t h mf o rl o we f f i c i e n c ya n dl o c a lo p t i m u mi nc l o n e s e l e c t i o n p r o c e s s , an e wc l a s s i f i e d m e t h o d , i n d u c t i o n o fr u l ew i t h a n t i b o d y c r o s s - a n t i g e no fa r t i f i c i a li m m u n es y s t e m ( i r a a ) ,i sp r o p o s e d i nt h i s s y s t e m ,t h ei n t e r s e c t i o nb e t w e e na n t i b o d ya n da n t i g e ni sb r o u g h ti n t oo r i g i n a lc l o n e s e l e c t i o np r o c e s s a n dt h e nt h em u t a t i o nm o d e lo fa n t i b o d yi sc h a n g e d m e a n w h i l e , w ea n a l y z et h ee f f e c to fm u t a t i o nr a t eo ni r a ac l a s s i f i c a t i o np e r f o r m a n c ea n d d i s c u s st h es a m p l ec l a s s i f i c a t i o np r o c e d u r eo fi r a a t h ee x p e r i m e n t a lr e s u l t sp r o v e t h a tt h ep r o p o s e da l g o r i t h mh a sh i g he f f i c i e n c y an e wa l g o r i t h mb a s e do na t t r i b u t ec o r r e l a t i o no fx zs t a t i t c sf o rr e d u c t i o no f a t t r i b u t ei sp r o p o s e d t h i sa l g o r i t h mc a nn o to n l yr e m o v ei r r e l e v a n ta t t r i b u t e ,a n d a l s of i n dr e d u n d a n tf e a t u r ew i t hh i g ha t t r i b u t ec o r r e l a t i o n f u r t h e r m o r e ,t h et i m e c o m p l e x i t yo ft h ea l g o r i t h mi sa n a l i z e d i i i t a k i n gi r a aa st h ef o u n d a t i o n ,c o m b i n i n g w i t ht h en e wa l g o r i t h m f o r r e d u c t i o no fa t t r i b u t e ,t h ep r o c e s so fd a t am i n i n ga st h ec l u e ,t h ep r e d i c a t i o nm o d e l o ft h ec u s t o m e rl o s sh a se s t a b l i s h e d c o m p a r e dw i t h t r a d i t i o nc l a s s i f i c a t i o n a l g o r i t h m s ,i r a ad o e s n tn e e do v e r s a m p l i n g ,a n di tc a n o b t a i nh i g h e rc l a s s i f i c a t i o n a n de a s y - t o u n d e r s t a n dr u l e s b a s e do nt h e s ec h a r a c t e r i s t i c s ,t h ec l a s s i f i c a t i o n m e t h o d sb a s e do na i sw i l lh a v eab r o a dp r o s p e c ti no t h e rb u s s n i s ss y s t e m so f i n d u s t r y k e yw o r d s :a r t i f i c i a li m m u n es y s t e m ( a i s ) ;d a t am i n i n g ;c l a s s i f i c a t i o n ;c u s t o m e r l o s s ;c l o n es e l e c t i o n ;a t t r i b u t er e d u c t i o n i v 硕l 学位论文 插图索引 1 1 移动用户发展情况3 2 1 生物免疫系统免疫机理8 2 2 一般免疫算法流程图1 0 2 3r 连续位匹配规则1 3 2 4 基于规则的方法和基于实例的方法的区别1 4 2 5 决策树16 3 1 变异概率对i r a a 算法性能的影响2 6 5 1 客户流失的分类3 5 5 2 客户流失预测系统总体架构3 5图图图图图图图图图 基于人工免疫系统的分类方法及其戌用研究 附表索引 2 1 一般免疫算法和免疫系统之间的比较1 0 2 2 不同距离问的差别一13 3 1 三个数据集信息一2 5 3 2 参数表2 5 3 3i r a a 和i f r a i s ,c 4 5 分类性能比较2 5 4 1 两个属性a 、b 的频度列表3 2 5 1 用户基本信息表3 6 5 2 用户月信息表3 7 5 3 用户状态异动表 3 9 5 4 客户流失评价矩阵4 1 5 5 各种算法分类性能比较一4 2 5 6i r a a 、i f r a i s 以及贝叶斯分类性能比较4 3 5 7 全部数据各种算法分类性能比较4 3 i x 表表表表表表表表表表表表表 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取 得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其 他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果 由本人承担。 作者签名: 丘1 7 小寸 日期:劢d 留年7 月拿日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查 阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关 数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位 论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密口。 ( 请在以上相应方框内打“4 ”) 作者签名: 导师签名: e t 期:知口8年7 月q 日 日期: 硼锣年 月7 日 守及弋、 、“胗 小弘 训啷 硕十学位论文 1 1 研究背景 第1 章绪论 + 生物体是一个复杂的大系统,其信息处理系统可分为脑神经系统、免疫系统 和内分泌系统。近年来,人们不断从生物系统获得灵感,提出了若干采用计算途 径实现的学习系统,包括人工神经网络( a n n ) 、遗传算法( g a ) 、蚁群系统( a n t s y s t e m ) 等,它们分别从大脑神经系统、自然进化过程和蚂蚁群体觅食、筑巢等 社会活动启发而来i ij 。 生物免疫系统同样是一个高度进化的生物系统,它旨在区分外部有害抗原和 自身组织,从而清除抗原,保持有机体的稳定。从计算的角度来看,生物免疫系 统是一个高度并行、分布、自适应和自组织的系统,具有很强的学习、识别、记 忆和特征提取的能力【2 1 。人们自然希望从自然免疫系统的运行机制中获取灵感, 开发面向应用的免疫系统计算模型人工免疫系统( a r t i f i c i a li m m u n es y s t e m , a i s ) ,用于解决工程实际问题。目前,a i s 已发展成为计算智能研究的一个崭新 的分支【3 1 。 人工免疫系统已经用于解决许多不同的工程和科学问题。目前关于人工免疫 系统的研究成果主要涉及计算机安全、数据挖掘、机器入、异常和故障诊断、优 化、模式识别、机器学习、分子生物学、图像处理、自动控制等领域1 4 j 。 1 2 人工免疫系统在数据挖掘中的研究概况 1 2 1 人工免疫系统概述 在生物学研究领域,免疫学是一门相对较年轻的学科,而人类对于自然免疫 的认识可以追述到3 0 0 年以前。早在1 7 世纪,我国医学家就创造性地发明了“人 痘”以防天花。19 7 6 年,英国医生e d w a r dj e n e r 的“牛痘”的发明,取代了人痘疫 苗,从此现代免疫学拉开了帷幕【5 】。 19 7 4 年,美国诺贝尔奖获得者,生物学家、医学家、免疫学家j e r n e 提出了 免疫网络理论而引起关注。继该文后,f a r m e r 、p e r e l s o n 、b e r s i n i 、v a r e l a 等理 论免疫学者分别在1 9 8 6 年、1 9 8 9 年和1 9 9 0 年发表了有关论文,在免疫系统启 发实际工程应用方面做出了突出的贡献,其中f a r m e r 的关于免疫系统与机器学 习的研究是具有创造性和开拓性的工作,他们的研究工作为建立有效的基于免疫 原理的计算系统和智能系统的发展开辟了道路【6 】。 v a r e l a 在l9 8 9 年讨论了免疫网络以某种方式收敛的思想以及免疫系统能够 基于人t 免疫系统的分类方法及_ j e 麻用研究 通过产生不同的抗体和变异适应新环境的思想l ,都为使免疫系统成为有效地解 决工程问题的灵感源泉做出巨大贡献由此诞生了一个崭新的研究领域一人工免 疫系统。 1 2 2 人工免疫系统在数据挖掘中的应用 数据挖掘技术本身是一个发展历史较为悠久的领域,随着互联网发展和知识 更新换代速度不断加快,数据挖掘为人们及时准确地从庞大的数据库宝库中获取 想获得的信息提供了较为理性的方式。简单地说,数据挖掘主要包括任务、方法、 对象三大部分。任务主要有分类、聚类、建模等,方法有统计方法,机器学习方 法,可视化等。对象则包括数据库、文本、w e b 页等。人工免疫系统作为一种新 兴智能系统,可以作为一种新的数据挖掘方法,用于完成数据挖掘的分类,聚类 任务,其挖掘的对象则可以多种多样,目前涉及的主要是数据库、w e b 页等。在 人工免疫数据挖掘技术中,抗原一般指要分析的数据对象,抗体则对应反应抗原 数据特征的数据【8 】。基于本文的研究内容,下面只对分类任务作简单介绍。 在基于免疫系统开发的分类技术方面,f a r m e r 最早证明了分类器和独特型 免疫网络模型之间的相似性【6 1 ,从动力学系统角度研究免疫系统的一般模式识别 性质,该研究确定了许多与h o l l a n d 的分类器系统的类似性,奠定了人工免疫系 统用于数据挖掘技术的理论基础。从生物学角度看,免疫系统机制之所以可以用 于设计分类器,是因为免疫系统强大而高效的模式识别能力即从非自体分子区分 自分子的能力,本质上就是分类的过程。 目前,人工免疫系统在数据挖掘中的应用主要采用克隆选择方法和否定选择 方法p 】。关于这两种方法的原理将在下一章作重点介绍。 从知识表示( k n o w l e d g er e p r e s e n t a t i o n ) 的角度上来说,基于人工免疫系统的 分类方法可以分为基于实例的( i n s t a n c e b a s e d ) 和基于规则的( r u l e b a s e d ) 两种。基 于实例的方法有资源有限人工免疫分类器( a i r s ) 1 0 - 1 2 】和克隆选择算法 ( c l o n a l g ) 1 1 3 1 ;基于规则的方法有人工免疫模糊规则归纳算法( i n d u c t i o no f f u z z yr u l e sw i t ha na r t i f i c i a li m m u n es y s t e m ,i f r a i s ) 1 1 4 】和免疫克隆分类算法 ( i m m u n ec o l n a la l g o r i t h mf o rc l a s s i f i c a t i o n ,i c a c ) 1 5 】。基于实例的方法生成的矢 量集包含所有的属性,对于规则的理解带来困难,而基于实例的方法产生的是一 些属性的归纳集合。由于本文主要将基于人工免疫系统的分类方法应用于电信的 客户流失分析,为了便于产生容易理解的规则,因而采用基于规则的方法。 1 3 电信客户流失研究概括 世界各地众多无线运营商正经历着不同程度的客户流失,以l9 9 9 年为例, 欧洲的客户流失率为2 5 ,美国为3 0 ,亚洲则达到4 8 1 1 6 1 。对于世界各地已 经建立真正竞争机制的市场而言,电信业的客户流失现象由于网间客户资源的竞 2 硕上学位论文 争、服务质量的好坏等若干原因而不可避免。这种现象随着市场的不断饱和与竞 争的日益加剧更加严重,日本占市场份额最大的移动运营商n t td o c o m o 于 2 0 0 7 年2 月公布,该公司0 7 年1 月份用户净增长只达到7 0 0 0 人,而流失的用 户数约为1 0 万人。同期,n t td o c o m o 的竞争对手k d d i 和软银公司1 月份净 增用户分别为2 0 8 万人和l6 4 万人。据统计,日本移动通信市场1 月份由各家 运营商转出的用户总数中约有5 5 来自n t td o c o m o ,但各家运营商新转入的 用户总数中只有2 0 转入到了n t td o c o m o 中。 中国移动董事长王建宙在参加2 0 0 7 年9 月的达沃斯夏季峰会时预测,“如果 以中国目前13 亿的人口规模为基数,中国国内手机用户数在达到八亿时将接近 饱和”。而目前国内移动电话用户数已经突破5 亿,按照每月新增6 0 0 万用户数 的增长速度计算,4 年之后,国内手机用户即将基本饱和。如图1 1 所示。 2 0 0 0 2 0 0 l2 0 0 22 0 0 32 0 0 42 0 0 52 0 0 62 0 0 7 年份( 年) 图1 1 移动用户发展情况 因此,对于客户流失的分析研究也已成为目前各电信运营商研究的重点。传 统的客户流失预测是基于业务量的,即由市场人员定期编制市场分析报告,从中 分析主要客户的业务量相对于上一周期的变化情况,如果发现客户的业务量呈下 降趋势,则认为该客户可能流失。这种方法仅仅从业务量的角度加以分析,一方 面不够全面客观,因为业务量与其本身的经营状况和宏观经济形势也有关系;另 一方面,即使业务量保持稳定,甚至有所攀升,也无法排除客户突然改变供应商 的可能。因此,如何利用现有挖掘技术对客户行为属性等进行分析,以获取客户 流失的模型特征是目前的研究重点。 国外对电信客户流失的研究已经有六、七年的时间,两且已经研究出较为成 熟的模型,投入到市场应用之中。从大量的反馈来看,这些模型并不具备很强的 健壮性,也没有很高的准确率【1 7 】。然而,数据量的激增,对模型的性能要求也 越来越高。因此,现阶段的主要目标是提出改进的算法来对客户流失预测分析模 型进行优化、完善。 f e r r e i r a 【l8 j 等人用l s e 和s i e 方法对属性进行约简,然后分别利用神经网络、 6 5 4 3 2 l 0 翠v 簌旺 基于人t 免疫系统的分类方法及j e 应用研究 决策树、遗传算法、模糊神经网络建立了电信客户流失预测模型;h u n g 【l9 】等分 别利用决策树和b p 神经网络建立了预测模型;d a t t a 2o 】等人提出了c h a m p 模 型,并将其应用于无线通信业的客户流失建模。这些研究在数据预处理、属性选 择和建模等方面己经比较完善,所得的模型也有较高的预测准确率,但都只是把 流失预测当作一个普通的分类问题来处理,没有考虑到两类分类错误的不同代 价。目前比较流行的软件包括i b mi n t e l l i g e n tm i n e r 、s a se n t e r p r i s em i n e r 、s p s s c l e m e n t i n e 、d b m i n e r l 2 1j 等,本文在后面的实验比较中就采用了s p s sc l e m e n t i n e 软件来建立传统分类模型。 在我国,电信业的发展刚刚起步,电信企业的精力主要集中在抢占市场上, 采取的手段也主要是用经过初步的市场调研和表面上的数据分析得出的结果来 制定新的服务策略。技术研究主要是业务支持系统( b s s ) 的更新换代。近几年来, 一些电信企业也意识到挽留老客户的必要性,开始逐步着手对历史数据进行分 析、挖掘。但是,大部分都只是试探性的建立简单的模型,有的还处于调研与可 行性分析阶段,并没有实际可用的成熟产品投入使用。同时,由予国内的电信市 场与国外的电信市场存在着很大的差异,将国外的模型应用到国内之前必须进行 调整以适应国内电信市场的要求。 文献【2 2 】使用支持向量机方法( s v m ) 对移动通信行业客户流失倾向进行预 测,通过对s v m 与决策树算法预测的结果进行对比结果表明支持向量机在选取 全体客户的2 2 31 中,可以预测出5 0 0 7 流失的客户。 文献【2 3 针对实际客户流失数据中正负样本数量不平衡而且数据量大的特 点,提出带有不同参数的支持向量机算法,通过调整类权重参数改变分类面位置, 以提高算法分类准确性,并取得较好的客户流失预测效果。 文献 2 4 】以某移动通信公司的部分客户数据为基础,运用数据挖掘技术和方 法对客户流失进行了深入探讨,针对客户流失于营销之间的关系进行了分析,为 市场人员制定“一对一”的个性化销售策略提供了较为可靠的理论依据。 文献 2 5 ,2 6 介绍了数据挖掘技术在国内电信行业的应用领域,并以客户流失 分析作为实例,探讨了数据挖掘的整个应用过程。 文献【2 7 】基于客户在流失前一般都会在行为上表现出一定的异常性,利用 c 4 5 决策树、支持向量机和贝叶斯网络建立了保险业的客户流失预测模型。 文献 2 8 】改进了i d 3 决策树算法,并基于改进算法建立了流失预测模型网。 蒙肖莲等人运用交叉表分析和l o g i s t i c 回归建立了商业银行的客户流失预测模 型。目前国内对客户流失预测的建模,基本都没有考虑样本的不对称分布问题, 也没有对建模属性的选择进行深入研究,在一定程度上影响了模型的预测准确 率。 文献【2 9 基于电信客户流失不仅与客户的属性、客户所在运营商的能力有 4 硕:l :学位论文 关,还与竞争者、行业环境等外部因素有关。从竞争情报的角度,利用美国联邦 调查局( f b i ) 的情报预测方法,根据专家的认识和已有的研究成果,构造移动 通信个人客户流失预警流程,为解决客户流失预警问题提供了新的思路。 文献 3 0 通过分析传统的客户流失预测把客户流失作为普通的模式识别问 题处理,建立基于普适机器学习的预测模型。在两类错误的错分代价相差较大的 情况下,基于普适机器学习的预测模型缺乏实用价值,因此引入代价敏感学习理 论建立了基于改进支持向量机的电信客户流失预测模型,将不同的错分代价纳入 建模过程,以提高了模型的预测性能。 文献 31 】分析设计了电信业c r m ( 客户关系管理) 系统中客户挽留流程,研究 了如何使用人工神经网络技术实现流程的核心客户流失预测模型最后基于 该流失预测模型构建了电信业c r m 客户挽留系统。 文献 3 2 结合客户综合分析的思想,提出了一种新的电信企业客户流失预警 模型。并在湖南某大型电信企业中的其一个地市分公司进行了客户维系与挽留一 期工程的实施试点,试点结果表明,提出的客户流失预警模型具有良好的预警功 能能从企业海量的客户信息中有效地发现具有潜在离网倾向的有价值客户从 而为企业有针对性地开展客户维系与挽留工作提供科学的参考和依据。 文献【3 3 采用贝叶斯网络分类器进行电信客户流失分析。在贝叶斯网络构造 过程中,结合采用k 2 和m c m c 算法构建网络。根据贝叶斯网络的拓扑结构, 筛选出客户流失相关的显著指标,由条件概率表确定客户的流失规则,进而确定 高流失的客户群。考虑分类的误判损失函数,给出了不同分类临界值下贝叶斯网 络模型的分类效果。与其它分类算法相比,在客户流失率很低的情况下,该算法 不需要进行过量抽样。 而文献 3 4 利用面向属性归纳和决策树c 4 5 算法对客户基本信息进行分析, 找出客户流失的特征,以帮助保险公司有针对性地改善客户关系。 文献【3 5 通过分析电信客户流失中客户心理、服务质量和对手竞争等诸多复 杂的因素,利用这些已有的先验知识,分析变量,采集样本数据,通过贝叶斯网 络的结构学习和参数学习,建立客户流失模型并进行客户流失趋势预测,取得了 比标准数据集更准确的结果,该结果和决策树方法的预测结果相比还具有较大的 优势,说明贝叶斯网络是分析客户流失等不确定性问题的有效工具。 但是,上述研究方法大都聚集于实验样本分布均匀的假设上,而实际中,国 内电信企业每月的客户率低于4 ,属于薄靶的数据分布,采用传统的决策树、 人工神经网络等模型就必须加大流失客户在总样本中的比例,否则就可能导致模 型失效。贝叶斯模型虽然不用采用过量抽样,但是它不能产生容易理解的规则。 基于人t 免疫系统的分类方法及其应用研究 1 4 本文主要工作 本文对基于人工免疫系统的分类算法进行了研究和探讨,主要工作总结如 下: 介绍了当前国内外人工免疫系统在数据挖掘中的研究概况和相关的理论知 识。介绍了国内外客户流失预测的发展概况。分析和研究了目前数据挖掘中比较 流行的分类算法。为本文后续章节的研究提供理论基础。 针对i f r a i s 算法在克隆选择过程容易陷入局部最优的弱点,改变了其变异 方式,增加了抗体与抗原的交叉,提出了一种新的基于人工免疫系统的分类算法 ( i r a a ) ,同时也分析了变异概率对i r a a 算法分类性能的影响,还对i r a a 算法 的样本分类过程进行了讨论。实验结果表明,该改进提高了分类准确率。 提出了一种基于x 2 统计的属性相关性的属性约简算法,该算法不但能过滤 掉属性集中的无关属性,而且能有效地找到属性集中的冗余属性,并对其算法复 杂度进行了分析。 在工程应用方面,结合属性约简新算法,将i r a a 算法成功地应用于电信客 户流失分析。实验结果表明,该算法除了具有较高的预测准确率,也产生了让人 容易理解的规则,同时具有一定的应用价值。 1 5 论文结构 本文共分为五章,各章的主要内容如下: 第一章绪论。主要介绍课题的研究背景和意义,论文的研究内容和组织。 第二章基础知识。主要介绍基于人工免疫系统分类方法的基本理论,比如 人工免疫系统原理,知识表示的分类,亲和度的计算方法等。还介绍了目前流行 的分类算法模型。 第三章一种新的基于人工免疫系统的分类方法。详细分析了基于人工免疫 系统分类算法中的i f r a i s 算法,提出了一个改进的算法,并通过实验验证各种 改进的效果。 第四章本章首先介绍了属性约简的相关概念和原理,然后重点介绍了目前流 行的两种属性约简算法,针对这两种算法在属性约简过程中都忽略了各个属性间 的相关度,提出了一种基于x 2 统计的属性相关性的属性约简算法,并对其算法 复杂度进行了分析。 第五章基于人工免疫系统的客户流失分析。建立客户流失预测模型,结合 属性约简新算法,用第三章提出的新算法在各种不同比例实验数据的情况下同传 统的分类方法进行比较,验证新算法的有效性。 之后是本文的结论,并对下一步研究工作做出展望。 6 硕士学位论文 第2 章基础知识 人工免疫系统是继人工神经网络、遗传算法和蚁群系统之后,又一个从生物 系统中获得灵感,并与计算机技术相结合用于解决工程实际问题的计算机模型。 人工免疫系统是生物免疫学与计算机科学相结合的产物,生物免疫系统是人工免 疫系统的结构和工作原理的重要思想来源。为了更深入的了解人工免疫系统,需 要对生物免疫学的相关概念有一定的了解,本章将首先对生物免疫系统进行全面 的介绍,然后分析介绍了几种常用的人工免疫算法,最后分析介绍了几种常用的 数据挖掘分类算法,为本文后续的章节提供理论基础。 2 1 免疫系统原理 2 1 1 生物免疫系统及其功能 免疫系统【3 叫( i m m u n es y s t e m ) 是保护肌体免受各种致病菌侵袭,维护肌体健 康的重要生物系统,其功能是免疫( i m m u n i t y ) 。免疫是肌体的保护性生理反映, 即:通过识别“自己 和“非己”,排除抗原性“异物( 病原生物及其产物、衰 老的自身细胞、突变产生的异常细胞) ,维护肌体内环境平衡。免疫分两种:特 异性免疫( s p e c i f i ci m m u n i t y ) 和非特异性免疫( n o n s p e c i f i ci m m u n i t y ) 。非特异性 免疫又称先天性免疫,是肌体在进化过程汇总逐步建立起来的天然防御功能,与 生俱来,对各种病原生物都有防御作用,没有特殊针对性,它是肌体防御外来侵 袭的第一道防线,主要由皮肤、粘液等组织完成;特异性免疫又称获得性免疫, 是免疫系统通过对环境不断学习,后天积累的,针对特定致病因子的防御功能, 特异性免疫是肌体适应环境的体现,由免疫细胞完成,它是免疫学主要研究对象。 免疫系统包括免疫淋巴组织和免疫活性细胞,免疫淋巴组织按作用不同分为中枢 淋巴组织和周围淋巴组织。前者包括胸腺、腔上囊( 鸟类特有) ,人类和哺乳类的 相应组织是骨髓和肠道淋巴组织;后者包括脾脏、淋巴结和全身各处的弥散淋巴 组织。免疫活性细胞是指接收抗原刺激,并且能够引起特异性免疫反应的细胞。 按发育成熟的部位及功能不同,免疫活性细胞分成t ( t h y m u s ) 细胞和b ( b u r s a ) 细胞两种。t 细胞全称为胸腺依赖性淋巴细胞,其主要功能是执行体液免疫。t 细胞由胸腺内的淋巴干细胞在胸腺素的影响下增殖分化而成,主要分布在淋巴结 的深皮质区和脾脏中央动脉的胸腺依赖区。t 细胞受到抗原刺激时,首先转化为 淋巴母细胞,然后分化成免疫效应细胞,参与免疫反应。t 细胞按功能不同,又 可以分成杀伤性t 细胞、辅助性t 细胞和抑制性t 细胞。杀伤性t 细胞的主要 7 基于人t 免疫系统的分类方泫及其虑用研究 功能是识别并清除抗原;辅助性和抑制性t 细胞的主要功能是进行免疫调节。b 细胞由腔上囊或类囊组织中的淋巴细胞分化而成,主要功能是执行细胞免疫。b 细胞主要分布在淋巴结皮区的淋巴小结、髓索及脾脏白髓的淋巴小结、脾索等非 胸腺依赖区。b 细胞受抗原刺激后,首先转化成浆母细胞,然后分化成浆细胞, 分泌抗体参与免疫反应。其整个过程如图2 1 所示。 体 内 干 细 胞 呈鲨呈塑璺 未成熟 0 死亡 未成熟t 听商 成熟 体 内 的 抗 原 图2 1 生物免疫系统免疫机理 抗体( a n t i b o d y ) 又称为免疫球蛋白,其主要功能是识别、清除肌体内各种病 原性异物( 抗原一a n t i g e n ) 。各种抗原份子都有特异结构( i d i o t y p e m 抗原决定基, 又称e p i t o p e m 表位) ,而每个抗体分子也存在类似结构( 受体,或称p a r a t o p e 一对 位) 。抗体根据其受体与抗原决定基的份子排列相互匹配情况识别抗原:当两种 分子排列的匹配程度较高时,两者亲和力( a f f i n i t y ) 较大,亲和力的抗体和抗原之 间会产生生物化学反应,通过相互结合,形成绑定( b a n d i n g ) 结构,并促使抗原 逐步凋亡。 抗原侵入肌体后会刺激免疫系统发生一系列复杂的连锁反应,这个过程叫做 免疫应答( i m m u n er e s p o n s e ) ,或称为免疫反应( i m m u n er e a c t i o n ) 。免疫反应分初 次反应和二次应答。未知抗原侵入肌体后,达到一定匹配程度( 亲和力) 的抗体被 激活,经过持续的“体液高变异( s o m a t i ch y p e m u t a t i o n ) 和“克隆选择( c l o n e s e l e t i o n ) ”逐渐产生与抗原高亲和度的抗体,并形成一定的浓度优势快速清除抗 原。随着抗原被消灭,抗体的数目大幅度下降,在各种效应因子的相互影响和作 用下,最后在一定数目上达到系统平衡。随着借助抗体间信息传递,不断生成一 定数目的同类抗体,长期滞留在免疫系统中,形成免疫记忆,这是初次反应;当 肌体遭遇同类抗原的再次侵入,免疫系统产生二次反应。由于抗原的涌入,系统 原有的静态平衡被破坏,同时由于免疫记忆的存在,系统中高亲和力的抗体急剧 增加,从而能够保证快速有效地消灭抗原。 2 1 2 免疫系统的主要特点 从信息处理角度,免疫系统具有以下特点【3 7 】: 1 免疫系统具有强大的学习能力。免疫系统的学习能力体现在两个方面: 在微观上,通过克隆选择,产生与各种抗原相匹配的特殊抗体分子结构,并加以 分类储存;在宏观上,利用免疫网络,通过免疫反应,对所处环境及其所受威胁 8 硕十学位论文 进行合理评价,给出相应对策。 2 免疫系统具有强大的模式识别能力。抗原结构纷繁复杂,免疫系统仅靠 有限的免疫组织就能识别几乎无限的抗原结构,并能够有效地识别敌我。 3 免疫系统是一个分布式系统。生物免疫系统没有中央控制器,它由广泛 分布在全身的免疫细胞组成,这些免疫细胞利用时间和空间上的分布式网络结 构,通过相互通讯协作,完成各种复杂的免疫功能。 4 免疫系统是一个鲁棒性很强的自适应系统。生物体所处环境具有某种不 可预知性,免疫系统能够使肌体迅速适应环境变化,保持生物体的健康和稳定。 5 免疫系统是一个动态系统。免疫细胞时刻处在旺盛的新陈代谢之中,各 种免疫效应分子在相互抑制和刺激中维持着动态平衡。 2 2 人工免疫算法 生物免疫系统具有很高的智能型,主要表现在其所具有的学习能力和自适应 能性。目前,通过学习和模范生物免疫系统的学习机理,设计出多种面向不同应 用系统的人工免疫算法。这些人工免疫算法也为人工智能的研究做出重大的贡 献。下面将介绍一些主要的免疫学习算法。 2 2 1 一般免疫算法 基于免疫系统的免疫响应过程、抗体自我调节、疫苗接种、免疫记忆等原理, 人们设计出了多种免疫优化算法,但是还没有像遗传算法一样的应用广泛的一般 形式和模式。在模仿免疫系统抗体和抗原识别、结合抗体产生过程而抽象出来的 一般免疫算法【3 引,基于这种免疫系统中最基本的免疫机制的免疫算法目前应用 较多。目前工程应用中的这种免疫算法分为以下六步,如图2 2 所示 步骤1 识别抗原:免疫系统确认抗原入侵,将需要解决的问题抽象成符合处 理的抗原形式; 步骤2 产生初始抗体群:激活记忆细胞产生抗体,清除以前出现过的抗原, 从包含最优抗体( 最优解) 的数据库中选择出来一些抗体; 步骤3 计算亲和度:计算抗原和抗体之间的亲和度; 步骤4 记忆细胞分化:将与抗原有最大亲和度的抗体加给记忆细胞。由于记 忆细胞数目有限,新产生的与抗原具有更高亲和度的抗体替换较低亲和度的抗 体; 步骤5 抗体的促进和抑制:高亲和度抗体受到促进,高密度抗体受到抑制; 步骤6 抗体产生:对未知抗原的响应,产生免疫细胞取代步骤5 中清除的抗 体。这个步骤通过交叉等算予变异产生多种抗体; 9 基于人工免疫系统的分类方法及j t 应用研究 图2 2 一般免疫算法流程图 在使用一般免疫算法解决问题时,一般各个步骤对应形式如表2 1 【3 9 】所示。 把外来入侵的抗原对应为代求解的问题,把免疫系统产生的抗体对应为问题的 解,亲和度反映了抗体包含解决抗原的关键信息的大小,基于免疫系统对优秀抗 体的克隆复制机制,保留精英个体,保证算法的搜索能力和群体收敛性。在解决 具体问题中,研究人员可对上述免疫算法进行不同的改进或变化,比如与遗传算 法结合,利用遗传算子产生多样抗体等,以符合解决具体问题需要,从而发展出 多种形式的免疫算法,但基本上都遵循这6 个步骤。 表2 1 一般免疫算法和免疫系统之间的比较 抗原要解决的问题 抗体 抗原识别 从记忆细胞产生抗体 淋巴细胞分化 细胞抑制 抗体增加( 细胞克隆) 最佳解向量 问题识别 联想过去的成功解 优良解( 记忆) 的保持 剩余候选解的消除 利用遗传算子产生新抗体 l o 硕十学位论文 2 2 2 克隆选择算法 克隆

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论