(计算机应用技术专业论文)遗传算法在商业银行信用风险评估中的应用.pdf_第1页
(计算机应用技术专业论文)遗传算法在商业银行信用风险评估中的应用.pdf_第2页
(计算机应用技术专业论文)遗传算法在商业银行信用风险评估中的应用.pdf_第3页
(计算机应用技术专业论文)遗传算法在商业银行信用风险评估中的应用.pdf_第4页
(计算机应用技术专业论文)遗传算法在商业银行信用风险评估中的应用.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机应用技术专业论文)遗传算法在商业银行信用风险评估中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,一 一 a b s t r a c t c o m m e r c i a lb a n k so c c u p i e sac r u c i a lp o s i t i o ni nt h ef i n a n c i a ls y s t e m a n d h a v ep l a y e dac e n t r a lr o l ei nt h ei m p l e m e n t a t i o no fm o n e t a r yp o l i c ya n ds o c i a l i n v e s t m e n t a tt h es a m et i m e c o m m e r c i a lb a n k sa l s of a c e dw i t hav a r i e t yo f f i n a n c i a lr i s k si nt h ec o u r s eo fi t sb u s i n e s s t h e s er i s k sw i l ln o to n l ya f f e c tt h e o p e r a t i n gr e s u l t so f c o m m e r c i a lb a n k s b u ta l s od e t e r m i n e st h es u r v i v a lo f c o m m e r c i a lb a n k s a st h ec h i n a se c o n o m i cr e f o r ma n da c c e s s i o nt ow t o e c o n o m i cg l o b a l i z a t i o ni sg r a d u a l l yd e e p e n i n g ,t h eb a n k i n gi n d u s t r yi nt u r ni s f a c e dw i t hm a n yn e wa n du n p r e c e d e n t e dr i s k s h o wt oh a n d l et h e s en e wr i s k s w i l lh a v eag r e a ts i g n i f i c a n c et om a i n t a i nt h ef i n a n c i a ls y s t e m ss t a b i l i t ya n d e c o n o m i cs e c u r i t y i nt h i sc o n t e x t ,t h e s ea r t i c l e sd or e s e a r c hi n t oo n c o m m e r c i a lb a n kr i s ka s s e s s m e n tb y u s i n g t h eg e n e t i ca l g o r i t h m s f i r s tw ei n t r o d u c e dt h ec o m m e r c i a lb a n kr i s k m a i n l yi n t r o d u c e dt h eo r i g i n a n dd e v e l o p m e n to ft h ec o m m e r c i a lb a n kr i s km a n a g e m e n t a n dw ed i s c u s s e d s e v e r a lt y p e so fr i s k sw h i c hc o m m e r c i a lb a n k sf a c e da n dc u r r e n tm a n a g e m e n t m e t h o d si nt h ew o r l d a n dr a i s e dt h em a i np r o b l e m sa n dg o a l sa b o u tc h i n a s c o m m e r c i a lb a n kr i s km a n a g e m e n t s e c o n d l y , t h ea r t i c l ed e s c r i b e st h eb a c k g r o u n do fr o u g hs e tt h e o r ya n d r e s e a r c hs t a t u s i n t r o d u c e dt h eb a s i cc o n c e p t so fr o u g hs e tt h e o r yi nd e t a i l s , e x p l a i n e dt h eb a s i ci d e ao fa t t r i b u t er e d u c t i o nt h r o u g he x a m p l e s m a k ea b r i e f l yd e s c r i b e da b o u tt h eo r i g i n a ls o u r c e sd a t eu s e di ne x p e r i m e n t ,i n t r o d u c e d t h et w ok i n d so fm e t h o do fd a t ad i s c r e t i z a t i o nw eu s e d a tl a s tw eg i v ea d e s c r i p t i o na b o u t t h et r a i n i n gd a t aa f t e rd i s c r e t i z a t i o np r o c e s s e da n das p e c i f i c a l g o r i t h mw h i c hw a su s e df o rt h ed a t ad i s c r e t i z a t i o n f i n a l l y , w ei n t r o d u c e dt h ec h a r a c t e r i s t i c so fg e n e t i ca l g o r i t h m sa n d t h e b a s i cp r i n c i p l e sa n dp r o c e s s e s t h ea r t i c l em a k e sa na n a l y s i sa b o u tt h ev a r i o u s e l e m e n t so ft h eg e n e t i ca l g o r i t h mt h a ti m p a c tt h ep e r f o r m a n c eo ft h eg e n e t i c a l g o r i t h m t h i sp a p e rm a d es t u d i e sa b o u th o w t ou s et h eg e n e t i ca l g o r i t h mt o s o l v et h ec o m m e r c i a lb a n k sr i s ka s s e s s m e n t p r o p o s e dat o t a ls o l u t i o nf o r d i s c r e t i z a t i o no ft h eo r i g i n a ld a t aa n da t t r i b u t er e d u c t i o n ,o b t a i nt h e c l a s s i f i c a t i o nr u l eb y c a l l i n gt h eg e n e t i ca l g o r i t h m c a r r i e do u ta ni m p r o v e m e n t i nt h ed a t ap r e p r o c e s s i n ga n dt h eg e n e t i cm a n i p u l a t i o n ,i m p r o v e dt h e c o n v e r g e n c e , p e e da n d 。 一c i e n c yo fg e n e t i ca lo r i t h m t h efinaconvergences p e e da n ds e a r c he t t l c l e n c yo ig e n e u ca l g o n m m1 f i ei l ra l l e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ew h o l ep r o g r a mi sf e a s i b l ea n d e f f e c t i v e k e yw o r d s :c o m m e r c i a lb a n kr i s ka s s e s s m e n t ;g e n e t i ca l g o r i t h m ;r o u g hs e t ;d a t a p r e p r o c e s s i n g , 目录 第一章绪言1 1 1 论文研究背景1 1 2 论文主要工作2 1 3 沦文使用的理论和研究方法2 1 4 论文结构2 第二章商业银行风险管理5 2 1商业银行风险概述5 2 2 商业银行信用j x l 险5 2 3 商业银行风险管理主要方法6 2 4 商业银行风险管理现状7 2 4 1 商业银行风险管理存在的问题7 2 4 2商j l k 银行风险管理的目标8 第三章粗糙集理论9 3 1 粗糙集理论简介9 3 2 粗糙集理论的基本概念1 0 3 3 属性约简和属性重的要性1 2 3 3 1 属性的重要性1 2 3 3 2 属性约简1 3 3 4 粗糙度与分类质量1 4 第四章遗传算法1 7 4 1 遗传算法简介1 7 4 2 遗传算法基本流程1 7 4 3 遗传算法的关键要素1 8 4 3 1 编码方式1 8 4 3 2 遗传操作1 9 4 3 3 适应度函数2 1 4 4 遗传算法的运行参数2 2 第五章基于遗传算法的商业银行风险评估研究2 3 5 1 引言2 3 5 2 数据离散化2 3 5 2 1 数据来源2 3 5 2 2 基于粗糙集的数据离散化2 4 5 3 属性约简2 6 5 4 遗传算法实现过程2 8 5 4 1 编码设计2 8 5 4 2 适应度函数设计2 9 5 4 3 遗传操作2 9 5 4 4 程序实现流程3 0 5 5 实验结果与分析3 l 第六章总结与展望3 5 6 1 课题总结3 5 6 2 课题展望3 5 参考文献3 7 附录4 0 致谢4 3 攻读学位期间的研究成果4 4 学位论文独创性声明4 5 第一章绪言 第一章绪言 1 1 研究背景和研究现状 随着全球经济一体化的发展,金融安伞成为了全世界面临的共同问题,如何实现 金融安全、如何保障商业银行的风险管理工作也足世界各国共同探讨的问题。在我困, 信用风险管理刚刚起步,部分银行等金融机构的信用风险管理水平普遍不高。国有四 大商业银行也一直被高违约率和不良贷款问题所困扰,导致这些银行的国有资产质量 恶化,资产利润率低下【。随着中国加入w t o 以后,国内经济和会融全球化步伐不断 加快,在这种新形势下,如何有效的防范和化解金融风险、使会融更好地为经济社会 发展服务,成为了人们同益关注的问题。 风险评估技术产生于2 0 世纪3 0 年代,由于早期的商业银行j x l 险比较单一,金融 风险的危害还不是很严重,因此j x l 险评估技术主要是定性为主【2 1 。7 0 年代以后,会融 活动越来越复杂,金融风险丌始逐步显现,其危害逐步加大,金融风险丌始引起人们 的重视。8 0 年代木,随着布雷顿森林体系的崩溃,世界经济会融格局发生了重大变化, 金融活动空前活跃。但是,随着国际金融j 业长足发展的同时,商业银行所i a | 临的风险 隐患同益增多,传统的风险管理理沦和风险评估方法已明显地不能与之相适应,因此 商业银行等金融机构不得不重新丌始研究新的风险管理理论和设计新的风险评估方 法。1 9 7 5 年,由1 0 国中央银行行长组成的巴塞尔委员会成立。以风险管理为重点的 巴塞尔委员会在综合各国银行风险管理经验的基础上出台了一系列包括风险评估在内 的风险管理理论和方法,最早提出了以信用风险为主要风险的风险管理理论和风险评 估方法【3 1 。 传统的信用风险评估方法在对信贷对象进行判别时,往往存在主观臆断性较强, 缺乏客观评价基础等不足,因此需要引进先进的信息处理技术为决策者提供决策支持。 近年来,随着智能信息处理技术的出现和发展,智能算法被引入到信用j x l 险评估中, 取得了显著的成果。我们通过引入领域知谚 ,利用特定的人工智能方法如遗传算法、 神经网络以及决策树等能够高效、及时的做出判断,对决策者提供有效的决策支持。 遗传算法( g e n e t i ca l g o r i t h m ) 由m i c h i g a n 大学的h o l l a n d 教授于1 9 7 5 年提出,借 鉴生物界自然进化机制的一种随机搜索算法,具有自组织、自适应以及隐含并行性, 被广泛应用于机器学习、组合优化问题求解等领域中。相对于神经网络的不透明性, 遗传算法可以生成易于理解的规则,增加了结果的可信性。此外,由于遗传算法具有 较高的鲁棒性,使其在解决缺乏先验知识的大而复杂的问题时,仍具有良好的适应性。 因此,越来越多的商业用户丌始使用遗传算法对银行风险评估问题建立决策支持模型。 但遗传算法自身也存在收敛速度慢、算法效率偏低等问题。因此本文针对上述问题, 着重研究了遗传算法在商业银行风险评估中的应用,并重点讨论了以下几个方面的内 容: 1 青岛人。学硕十学位论文 1 如何将遗传算法应用到商业银行风险评估i 、u j 题中; 2 在保证原有数抛关联的前提下,使用i l l j l , t 方法进行数据预处理,减少数据冗余; 3 怎样使用遗传算法以使产生的最终规则集的分类准确率最高。 4 怎样将该方法使用到实际中,提高分类效率。 1 2 主要工作 根据以上的研究背景和国内外研究现状,在课题研究和论文撰写过程中,主要做了 一下几项工作: 1 广泛地阅读各种文献,初步探讨了风险评估问题。 2 j 备遗传算法应用到商业银行j x l 险评估问题中。 3 使用 f 1 糙集理论对原始数据进行数据预处理,减少数据冗余。 4 结合遗传算法提出了一种可行有效的分类规则集生成方法。 1 3 论文使用的理论和研究方法 本文的主要研究内容是遗传算法在商业银行风险评估中的应用。以信用风险为主要 对象,从银行的重要j i k 务之一信用卡申请审批问题入手,将银行信用卡历史审批数据 作为训练数据,使用遗传算法搜索一个对于训练样例集合分类精度较高的分类规则集。 同时,为了提高算法的收敛速度和效率,在数据预处理部分使用了粗糙集相关理论对 原始数据进行离散化处理,减少属性冗余并且保持原有数据属性之间的关联关系,从 而提高了遗传算法的整体性能。 1 4 论文内容安排 本文的章节安排如下: 第一章绪言。介绍了沦文的研究背景、主要工作、研究方法和论文结构,明确需要 解决的问题以及使用到的理论和工具。 第二章商业银行j x l 险评估。着重介绍了商业银行风险的概念以及分类。详细阐述了国 际上比较成熟的几种针对商业银行风险管理的方法,以及各自的优缺点。提出了我国 目前银行风险管理工作中存在的几个问题和相应的目标。 。 第三章粗糙集理沦。简单介绍了粗糙集理论中的如决策系统、等价关系、上下近似等 一些基本概念。阐述了属性约简的基本思想,引入了属性重要性这一概念,并通过结 合实例说明了其度量方法。 第四章遗传算法。介绍了遗传算法的起源发展、基本概念、特点以及应用领域。详细 说明了遗传算法的基本流程、关键要素,并阐述了运行参数的设置对算法性能的影响。 2 - 。1 i 第一章绪言 第i 章基于遗传算法的商业银行风险评f 【i i 研究。提出了一套针对信用卡原始审批数掘 生成相应分类规则的完整方案。并对方案中的各个环节进行了详细说明。 第六章总结与展望。对本文的工作进行了总结并提出下一步的:一r 作。 青岛人。f 硕十学位论文 4 第一二章商业银行风险管理 第二章商业银行风险管理 2 1 商业银行风险概述 商业银行是以信用为基础、通过结算业务和货币经营借贷为赢利点的高负债高风 险行业。商、j k 银行的经营特点和它在保持国民经济稳定中所处的重要地位和关键作用, 导致了银行经营风险具有隐蔽性和扩散性的特点。如果银行在经营过程所面临风险转 化成现实损失,不仅可能导致银行破产,而且将对整个圉民经济秩序产生严重影响【4 】。 因此,建立有效的风险防范和控制机制,对商业银行而言有着更为重要的意义。 商业银行j x l 险指银行在经营中由于各种因素而招致经济损失的可能性,或者蜕是 银行的资产和收入遭受损失的可能性。8 0 年代以来,金融自由化和全球一体化加剧了 商业银行经营环境的风险程度,不少大银行损失惨重,即使尚未达到安全性岌岌可危 的地步,至少也已元气大伤。例如,1 9 9 0 年全美国的银行无法收回的贷款总额创+ f3 0 0 亿美元的历史最高纪录;1 9 9 2 年底英国著名的巴克莱银行和国家西敏寺银行在呆滞贷 款上的损失分别达2 6 亿英镑和1 9 亿英镑【5 】【6 1 。这些惨痛损失几乎都可以归因于银行经 营者对风险管理和风险环境缺乏足够的认识和重视。相反,那些以全方位风险管理为 己任的商业银行却在全球金融h k 激烈的竞争中从容立足、稳健发展。 为了保障国际银行体系健康稳定的发展,1 9 8 8 年巴塞尔协议颁布实施,标志 着西方银行j x l 险管理理论的完善和统一。之后,巴塞尔银行监管委员会于1 9 9 7 年9 月 公布了有效银行监管的核心原则,将银行业面临的主要j x l 险归纳为4 个方面,主要 包括信用风险、市场风险、利率风险、法律风险【引。其中信用j x l 险为当自才商业银行面 临的主要风险,相关研究表明,导致银行破产的最常见原冈就是信用风险。 2 2 商业银行信用风险 信用j x l 险是客户违约行为形成的一种风险,违约即指客户没有对到期债务按契约 偿本付息。违约行为可能会造成贷款人的债权全部或部分损失。在资本市场上可以通 过提高公司债务的折现率,降低公司市值或降低其信用评级来评估和量化这些j x l 险。 信用风险是本文主要研究的一种会融风险,可以用信用等级米评估其发牛的可能 性。银行内部埘客户进行内部信用评级,外部信用等级则来自于评级机构。通过评级 来量化客户发生违约行为的概率和当违约行为发生时的损失率,现代风险管理技术最 突出的进展就表现在对信用j x l 险的量化上。 在商业银行业务多样化的今天,不仅涉及传统的信用风险仍然是商业银行的一项 主要j x l 险,而且,透支、信用卡、证券包销等业务中涉及的信用风险也是商业银行面 临的新型风险【9 】。以商业银行的主要业务之一信用卡业务为例,据粗略统计,美国消 费者人均有5 张信用卡,信用总额度在5 万亿美元上下,流通额度超过8 0 0 0 亿美元。 受次贷危机以及失业率升高等因素影响,0 8 年美国信用卡行业坏帐率平均超过1 0 , 5 青岛人。学颂十学位论文 各大丰要商业银行的相关呆帐比例都达到两位数,消费信贷指数史是创下3 4 年以来的 最大降幅,成为美因经济复苏的主要障碍【m 1 。由此- 叮见,银行信用风险的管理不仅关 系到银行的生存,更关系到国家经济的健康发展。 2 3 商业银行风险管理主要方法 1 专家意见法 又称德尔菲方法,是美图著名的咨询机构兰德公司于5 0 年代初发明的。后来该方 法被广泛的运用于各种风险的识别和决策过程中。在对商业银行的风险管理过程中, 该方法采用以下程序: ( 1 ) 首先商业银行管理人员制定调查方法以及调查内容; ( 2 ) 聘请若干名专家,向其提供商业银行某一时问段经营业绩的相关资料; ( 3 ) 专家组针对调查表反映的问题提出各臼的意见; ( 4 ) 管理人员总结并整理这些意见,并将不j j 意见和理由反馈给专家; ( 5 ) 多次反复使最终结果逐步收敛,最后得到基本上趋于一致的结果。 由于该方法带有反馈地进行意见测试,使得各种不同意见相互启发,从而容易得 出埘风险正确的评价。另一方面也存在着4 i 足之处,那就是受风险管理者主观上对调 查方案的选择影响较大,使结果可能发生偏差】。 2 贷款审查标准化 贷款审查标准化是一种传统的信用j x l 险管理方法。其基本原理就是依据特定的流 程和指标审查借款人的历史信用状况从而最大限度的避免有可能发生的信用风险。另 一方面,会融机构还可以利用贷款分散化等手段来降低信用风险,其基小原理是信用 j x l 险之问的相互转化和抵消。贷款审查标准化和投资分散化是信用j x l 险管理体系中相 对初级但也是必不可缺的一种方法。f h 是利用这两种方法来控制信用风险,其效果往 往会因为投资分散化机会较少而大打折扣。凶此,利用上述方法控制信用风险的效果 是有限的。 3 资产证券化和贷款出售 资产证券化是将有一定信用风险的会融产品和金融资产组成一个资产池并将其转 让给其它证券商或者投资机构。从风险管理者的角度来看,因为通过将资金合理分配 在多个金融产品的组合中,可以有效的降低信用风险,因此这种通过资金重组而产生 的资产是非常有吸引力的。 贷款出售主要是指风险承担者在贷款出售市场中将其部分或全部j x l 险业务转售给 其它金融机构。例如,商业银行在给某投资商发放短期贷款后,一般情况下会将其贷 款一并转让给第三方投资机构。上述两种方法在信用j x l 险管理问题上都起到了重要作 6 第二章商业银行风险管理 用。但是,资产证券化方法更加适用于一些有稳定资会链或有类似特点的贷款业务。 例如,车贷和房贷,因此该方法在实际应用中有一定局限性。 4 记分模型法 该方法足以交易对象或客户的历史数据库为基础,埘照预先设计的一套标准化指 标体系,对交易对象或客户的j x l 险状况的每个指标项进行打分,然后对各项打分按照设 定的权重加权平均,以总分作为客户风险评级的主要依据,从而在历史数据上构建概率 统计模型包括判别分析模型、违约概率度量模型和违约损失率度量模型) 。该方法的 优点是效率高、使用成本低、违约风险计量精度高,不足之处在于对定性指标难以直 接进入模型,因而难以反映定性指标信息。 2 4 商业银行风险管理现状 随着全球经济一体化进程的加快,商业银行之问的竞争h 趋激烈的同时,其经营过 程中所面临的风险越来越复杂。面对f 1 益,偃峻的市场环境,如何提高风险管理水平, 构建完善的风险管理体制,成为了国内外各大商业银行亟需解决的一个重要问题。从 上世纪9 0 年代初开始,会融领域中的一些机构丌始尝试在风险管理、风险控制方面进 行创新。例如,c r e d i t r i s k & c r e d i tp o r t f o l i o v i e w 信用风险管理系统、j p m o r g e n 创建 的c r e d i t m e t r i c sk m v 模型。这些方法和模型在解决银行风险评估问题方面,取得了显 著成效,但仍然存在以下几个问题。 2 4 1 商业银行风险管理存在的问题 我国商业银行的风险管理起步相对较晚,风险管理理念和风险防范意识普遍不高, 全面风险管理的理念还不到位,主要存在以下几个问题 ( 1 ) 没有建立科学完善的风险管理体系。我国商业银行风险管理工作的重点主要 放在了对资产风险的重组、转化、处置等事后管理上,而对风险资产的事自 、事中的 防范控制做得不够。风险管理部门对于分散在各个部门的j x l 险管理工作并未起到检查 和督导作用,不良信用记录边清边冒的问题比较严重。 ( 2 ) 风险识别和管理方法落后,缺乏相应的风险防范预警机制。目前囤内大部分 的商业银行都没有专门的风险监测和预警系统,j x l 险管理长期以来以定性分析为主, 缺乏量化分析,在风险识别、度量、预测等方面科学性不够,对于早期风险的防范仍 是一片空白。 ( 3 ) 风险管理理念存在问题,重视程度不够。我国商业银行对风险管理和业务发 展关系的认识则存在较大偏差。具体表现为,不能正确地看待风险以及不能j f 确处理 业务发展和风险管理的关系。 7 青岛人学硕l :学何沦文 2 4 2 商业银行风险管理的目标 商、l k 银行风险管理的目标指因为在损失发生的所作的经济保证而在损失发生后有 令人满意的复原,通常有两部分:一是损失自订的目标,主要指避免或减少损失的发生; 二是损失后的目标,尽快恢复到损失自i f 的状态。其最终日标是控制与处置风险,防止 和减少损失,保障银行体系的正常运转。 针对我固商j i k 银行的风险管理工作中存在的实际问题,并且在对我国的风险管理 水平和现状有清楚认识的基础l ,我们的主要目标是尽快建立健全科学完善的风险管 理体系,实现全方位、全过程的j x l 险管理;加强风险管理理念建设、通过广泛的风险 教育和重视业务上的j x l 险评估来增强风险管理的意识;借鉴国际先进银t 亍- j x l 险管理方 法,结合我国实际国情,运用智能信息处理、数据挖掘、数理统计等先进技术,建立 准确高效的商业银行风险评估模型。 8 l;j: 一 第二章粗糙集理论 第三章粗糙集理论 在自然科学,社会科学和工程技术的很多领域中,都不同- 个v 壬1 度地涉及到对不确定 因素和对不完备信息的处理。从实际系统巾采集到的数据常常包含着噪声,不够精确 甚至不完整。采用纯数学上的假设末消除或网避这种不确定性,效果往往不理想,反 之,如果正视它,对这些信息进行合适地处理,常常有助于相关实际系统问题的解决 【1 2 】。多年来,研究人员一直在努力寻找科学地处理不完整性和不确定性信息的有效途 径。 3 1 粗糙集理论简介 1 9 8 2 年波兰科学家z p a w l a k 发表了经典论文r o u g hs e t s ,宣告了粗糙集理论的诞 生。该理沦在创立之初由于语言的问题,只有东欧国家的部分学者关注并研究它。直 到1 9 9 1 年,随着z p a w l a k 的著作粗糙集一关于数据推理的理论一书的出版,拳h 糙集理论引起了国际上计算机界和数学界的重视,由此粗糙集理论及其应用的研究进 入了一个崭新的时代。 粗糙集理论是一种处理不完整性和不确定性问题的数学工具,其基本思想足在保 持分类性能不变的前提下,通过知识约简,导出概念的分类舰则。其中,属性的约简 是一个非常重要的课题。另一方面,和传统的数据挖掘以及知识发现方法相比,粗糙 集理论还可以对数据进行分析和归纳,从而发掘其中隐藏的知识以及包含的规律。 粗糙集理论具有以下三个特点【1 5 】: ( 1 ) 料糙集可以表达和处理不完备信息。它可以谚 别并评估数据之问的依赖关 系,揭示属性f n j 的联系,在保留关键信息的前提 - x , t 数据进行化简并求得知谚 的最小 表达式, 适于智能控制中规则的自动生成。 ( 2 ) 粗糙集以不可分辨关系为基础,侧重分类,它与基于模糊理论的数据挖掘方 法以及基于证据理论的数据挖掘方法有很强的互补性。此外,粗糙集和证据理论也有 一些相互交叠之处,在实际应用中可以相互补充。 ( 3 ) 粗糙集不需要先验知识。概率统计和模糊集是处理不确定信息的常用方法, 但这些方法需要一些数据先验信息的或先验信息附加信息,如概率分l i e u 模糊隶属函 数等,而这些信息并不容易得到。 目前,粗糙集相关理论主要的研究方向有三个方面: 理论上的研究方向主要包括:使用拓扑关系定义粗糙空间;尝试将粗糙集理论与 其他智能算法或者人工智能方法相接合,例如和模糊理论、人工智能、启发式算法、 遗传算法等;结合抽象代数等方法研究粗糙集代数空间中存在的某些特殊代数结构; 通过将建立在等价关系上的经典粗糙集理论延伸到相似关系或者一般关系上的粗糙集 9 青岛人学硕十学位论文 理论,解决经典料糙集理论中存在的局限性,使卡i ;l 糙集理沦的框架得以拓展。 智能计算方面主要包括两部分:首先,与其他智能算法的结合。例如:结合支持 向量机s v m ;结合遗传算法;使用粗糙集理沦中的数据预处理方法,再结合神经网络, 从而解决了神经网络收敛速度慢的问题;将车h 糙集理论应用于模糊理论中,获得了令 人满意的效果;其次研究了料糙集理论在属性约简算法和规则获取等方面的应用。例 如,基于属性重要性、基于信息度量的启发式算法【1 6 】。与模糊集理论相比,虽然料糙 集理论也是一种面向集合的不确定性的理沦,但是; l 糙集理论的特点在于它关注的重 点在于集合之问的不确定性,而模糊集理论侧蕈于研究集合内各元素之j 日j 的彳i 确定性。 因此,这两种理论具有很强的互补性,也是当今国际上研究的一个热点。 在现实生活中,粗糙集理论在许多领域得到了应用,例如企业设备故障珍断、预 测与控制、模式识别与分类、专家系统和数据挖掘、医学诊断、图像处理等其它领域。 3 2 粗糙集理论的基本概念 1 决策系统:又称作知识表达系统,是秆l 糙集理论的基础,主要作用是将知识从原 始表达形式转换为一种新的目标表达形式( 人类或者计算机便于处理的形式,如逻辑形 式。一般地,一个决策系统可以表示为:i s = ,u 为对象的非空有限集合,简 称对象集,称为论域;a 为属性的非空有限集合,简称属性集;v 是属性的值域集合; f 为信息函数f u a v ,即任意a e a ,x u ,f ( x ,a ) v 【1 3 】。有时i s 可以简化为 i s = 。若属性集a 由条件属性c 和决策属性d 组成,且c n d = o ,c u d = a ,则 i s 也简称为c d 决策表或信息表,记作d s = 。 2 等价关系:在知识表达系统中,相差不大的个体被归于同一类,它们的关系就是 等价关系,又称作不可分辨关系。假设只用三角和证方两种彤状把集合中的物体分割 两类, 三角形物体) , 正方形物体) ,那么同为方形的两个物体就是不可分辨的,因 为描述它们特征属性的信息相同,都是方形。如果再引入红,蓝颜色的属性,又可以 将物体进一步分割为四类: 红色三角形体) , 蓝色三角形物体) , 红色正方形物体) , f 蓝色正方形物体。这时,如果两个同为红色正方物体,则它们还是不可分辨的,不可 分辨关系也称为一个等效关系。 、 一般地,对于每个埔性子集r ca ,若 i n d ( r ) = ( x i ,x j ) e u u ,va e r ,f ( x i ,a ) = f ( x j ,a ) ) 公式3 - ( 1 ) 即x i ,x j 对属性r 而言具有相同属性值v ,则称x i ,x j 是等价的。 3 上近似和下近似:一个对象a 是否属于集合u 需根据现有的知识来判断,可分为 三种情况:( 1 ) 对象a 肯定属于集合u ;( 2 ) 对象a 肯定不属于集合u :( 3 ) 对象a 可能属于 也可能不属于集合u 。集合的划分密切依赖于我们所掌握的关于论域的知识,是相对的 1 0 第二章粗糙集理论 而不是绝对的。因此对于一个给定的知识表达系统i s = ,设尺彳、xcu , 则x 对于r 的上近似集和下近似集分别定义如下: 3 - ( 2 ) 3 - ( 3 ) r - ( x ) = x u i r ( x ) c _ x ) r 一( x ) = x u i r ( x ) f 7 x o ) 公式 公式 其中p o s c ( x ) = r _ ( x ) 称为x 的c 正域,是根据条件属性c ,u 中所有确定能一定 归入集合x 的元素的集合;n e g c = u r - ( x ) 称为x 的c 负域,是根据条件属性c ,u 中所有确定不能归入集合x 的元素的集合;b n d c ( x ) = r - ( x ) r 一( x ) 称为x 的c 边界域, 是某周意义上论域的不确定域,其具体内容将在下- d , 节中详细讨论。 表3 1 数据表 姓名 李明 干凯 刘强赵阴张峰 教育程度高中高中小学人学搏十 是否找到l :作否是否是是 例3 1 表1 中的数据描述一些人的教育程度以及是否找到工作,旨在说明两者之 问的关系。其中”教育程度”为条件属性,”足否找到工作”为决策属性。设f 表示找到工 作的人的集合,则f = 王凯,赵丽,张峰) ,设e 为表示属性”教育程度”所构成的一个 等效关系,根据教育程度的不同,该论域被分割为四个等效类: 李明,王凯) , 刘强) , 赵丽) , 张峰 。则f 对于e 的上、下近似分别为:e _ ( f ) = 李明,王凯,赵丽,张峰) 、 e ( f ) = f 赵丽,张峰 。 所以,根据等效类和上、下近似我们可以初步归纳出下面几条规则,揭示教育程 度与是否能找到工作之问的关系: r u l e1 :i f ( 教育程度= 大学) o r ( 教育程度= 博士) t h e n ( 可以找到工作) r u l e2 :i f ( 教育程度= 小学) t h e n ( 找不到工作) r u l e3 :i f ( 教育程度= 高中) t h e n ( 可能找到工作) 4 依赖度:在一个决策系统中,x 的依赖度y ( x ) 定义为 y ( x ) - - c a r d ( p o s c ( x ) ) c a r d ( u ) 公式 3 - ( 4 ) 其中p o s c ( x ) = r _ ( x ) ,c a r d ( p o s c ( x ) ) 表示根据决策属性c ,u 中所有一定能归入 1 1 青岛人。硕十学何论文 到x 的元素数目。集合的基数足用x 的下近似集成员个数与对象集成员个数之比来度 量的。当y ( x ) = l 时,称c 是完全依赖于u 的;当o v ( x ) l 时,称c 部分依赖于u 的;当y ( x ) = o 时,则称c 是完全独立于u 的。 由依赖性的定义可以推出,当c 依赖于u 时,由u 导出的分类的正域覆盖了决策 系统中y ( x ) x1 0 0 的元组。另一方面,只有属于分类j r 域的元组4 能被唯一的分类, 且l j x t 象的y ( x ) x1 0 0 的元组通过条件属性c 划入到分类i f 域的模块中去。 5 属性的核c o r e ( a ) t 1 :对于任一属性a e a ,如果i n d ( a ) i n d ( a a ) ) ,则称a 为a 巾不司省略的;否则,a 为a 中可省略的。a 中所有不可省略关系的集合称为a 的核,记为c o r e ( a ) 。 核足决策系统中必不可少的一个重要属性,它是所有属性最小子集的交集,主要 有两方面作用:首先可以解释为在属性约简时它是不能消去的元组特征部分的集合。 其次它可以作为所有约简的计算基础,这是凶为核包含在所有的约简之中,并且计算 可以直接进行,因此在进行属性约简的时候,我们可以先从核属性入手,然后逐个分 析其它属性。 3 3 属性约简和属性重的要性 3 3 1 属性的重要性 在讨论属性约简之前,首先介绍一下属性约简问题的一个关键的皋础概念,那就 是属性的重要性。在一个决策系统中,不同的属性可能自不同的重要性:通过属性重 要性的计算将重要性为零或桐对非常小的属性去掉就起到了属性约简的作用。 由上一小节中介绍的卡i i 糙集基奉概念呵知,在一个决策系统中,条件属性集合c 相对于决策属性d 的依赖度为: yc ( d ) = c a r d ( p o s c ( d ) ) c a r d ( u ) 相应的,条件属性子集b c 关于d 的重要性为: 0 。,( d ) = y c ( d ) y c b ( d )公式3 - ( 5 ) 下面我们通过一个例子来具体说明属性重要性的计算方法。 例3 2 表3 2 中共8 个元组u i u 8 ,5 个属性a l a 5 ,其中a l 、a 2 、a 3 条件属性, 记为c = a l ,a 2 ,a 3 ) ;a 4 、a 5 是决策属性,记为d = a 4 ,a 5 ) 。计算各个条件属性相 对于决策属性的重要性。 1 2 第二章粗糙集理论 表3 2 数据表 u a i a 2a 3 a d a s u i 20 0 l l u 2 0ll0 l u 3 l022o u 4 2ll12 u 5 ol1l2 u 6 22o1l u 7l02ol u s llo22 从表中可以得出: i n d ( a i ,a 2 ,a 3 ) = “2 ,5 ) , 3 , i n d ( a i ,a 2 ) = 2 ,5 ) , 3 ,7 ) , i n d ( a i ,a 3 ) = “2 ,5 ) , 3 ,7 ) , i n d ( a 2 ,a 3 ) = 2 ,4 ,5 ) , 3 ,7 i n d ( a 4 ,a s ) 2 1 ,6 ) , 2 ,7 ) , 因此,根据依赖度公式计算: 7 ) , yc ( d ) = c a r d ( p o s c ( d ) ) c a r d ( u ) = c a r d ( l ,4 ,6 ,8 ) c a r d ( u ) = 4 8 = 0 5 yc a i ( d ) = c a r d ( p o s c a 1 ( d ) ) c a r d ( u ) = c a r d ( l ,6 ,8 ) ) c a r d ( u ) = 3 8 = o 3 7 5 yc a 2 ( d = c a r d ( p o s c a 2 ( d ) ) c a r d ( u ) = c a r d ( 1 ,6 ,4 ,8 ) c a r d ( u ) = 4 8 = o 5 yc - a 3 ( d ) = c a r d ( p o s c a 3 ( d ) ) c a r d ( u ) = c a r d ( 1 ,6 ,4 ,8 ) c a r d ( u ) = 4 8 = o 5 则属性a l ,a 2 ,a 3 重要性分别为:ya l ( d ) = yc ( d ) yc a i ( d ) = o 5 0 3 7 5 = 0 1 2 5 , ya 2 ( d ) = yc ( d ) 一y c - a 2 ( d ) = o 5 0 5 = 0 , ya 3 ( d ) = yc ( d ) 一yc a 3 ( d ) = 0 5 0 5 = 0 。 根据计算结果我们可以看出来属性a l 是最重要的。 3 3 2 属性约简 所谓属性约简,就是在保持决策系统分类能力不变的条件下,删除其中不相关或 不重要的属性。在拳h 糙集理论的各种应用中,属性约简算法具有重要意义,一直是粗 糙集理论研究的核心问题之一,目自订提出的方法有很多。但是无论采用什么方法进行 属性简约,都有一个基本标准,即:在不损失原有信息的前提下保留最重要的属性, 保证总的数据约简量最大,以便将约简后的信息重新组合而产生新的决策规则。 下面通过介绍一个最常见的属性约简算法:一般约简算法,来说明属性约简的基 13 、,、, 8 、r,、l, , , 回佟” 8 8 8 ,r j i f t r t ,、, 1 j 6 , , , 4) 4 6 3 ,r ,i rt,l ,、j ) 4 , , , l r t 1,1,1j 6 1 5 ,r j l 青岛人一f - 硕十学位论文 本思想和流程。 算法3 1 :一般约简算法f 1 7 】 没决策表的条件属性集合为c ,c = a i ,a 2 ,a 3 ,a i ) ,决策属性集合为d = d ) , 约简后的属性集合为s i m u ,初始为空,即s i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论