(计算数学专业论文)基于粗糙集理论的若干应用技术研究.pdf_第1页
(计算数学专业论文)基于粗糙集理论的若干应用技术研究.pdf_第2页
(计算数学专业论文)基于粗糙集理论的若干应用技术研究.pdf_第3页
(计算数学专业论文)基于粗糙集理论的若干应用技术研究.pdf_第4页
(计算数学专业论文)基于粗糙集理论的若干应用技术研究.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 粗糙集理论作为一种处理模糊、不完整和不确定性知识的数学工具,已 广泛应用于各个领域目前虽然在粗糙集的理论和应用方面作了大量的研究 工作,然而现有的理论并不完备,还不能完全满足解决实际问题的需要本文 针对粗糙集在不确定性问题的应用和研究方面的局限性和不足之处,推广了 经典的粗糙集模型,并利用模糊集理论,确定性理论,证据理论进行互补研究 本文首先针对传统的模糊聚类在解决问题时的局限性,提出了基于粗糙 集属性重要性的模糊聚类算法,解决了定量和定性属性并存情况下的模糊聚 类问题,并依据聚类结果建立了相应的决策表 其次,针对传统的粗糙集模型在规则提取时的局限性,本文首先给出了分 布式b a y e s i a n 粗糙集模型的定义,利用所提出的分布式b a y e s i a n 模型提取可信 度规则,根据可信度规则给出了最小风险损失函数,从而对新的数据利用最 小风险b a y e s 决策进行分类规则提取,最后给出了一个应用实例 再次,针对专家系统的不确定性推理问题,讨论了确定性理论及其局限 性,由于确定性理论中可信度系数是由专家给出的具有很大的主观性,为此 我们改进了可信度推理模型,建立了基于变精度粗糙集理论下的可信度模型, 直接从信息表中获得可信度系数,大大提高了可信度系数的客观实际性 接着,讨论了证据理论在解决不确定性时的局限性以及它和粗糙集理论 的关系,建立了基于变精度粗糙集下的证据理论并通过一个实例说明了该 方法的有用性和可行性 最后,对全文进行了总结,简述了本文的创新之处以及有待进一步研究的 问题 关键词:粗糙集;确定性理论;证据理论;模糊聚类;b a y e s 决策;变精度粗 糙集 a b s t r a c t r o u g hs e tt h e o r yi s a ne x c e l l e n tm a t h e m a t i c a lt o o lf o rd e a l i n gw i t h v a g u e ,u n c e r t a i n ,i m p r e c i s ei n f o r m a t i o n ,i th a sb e e ns u c c e s s f u l l ya p p l i e di n m a n yf i e l d s n o w a d a y s ,a l t h o u g hm u c hr e s e a r c hh a sb e e nt a k e no nt h es i d e o fr o u g hs e tt h e o r ya n da p p l i c a t i o n ,i tc a nn o tm e e tt h en e e df o rs o l v i n gt h e p r a c t i c a lp r o b l e m s i nt h i sp a p e r ,w ec o n s i d e rt h ei n s u f f i c i e n c ya b o u tr o u g h s e tf o rd e a lw i t hu n c e r t a i np r o b l e m sa n da p p l i c a t i o n s ,c l a s s i c mr o u g hs e t m o d e li se x t e n d e d f u r t h e rm o r e ,f u z z ys e tt h e o r 弘t h et h e o r yo fc e r t a i n t y , e v i d e n c et h e o r ya r es t u d i e d f i r s t l y , an e wm e t h o di sp r o p o s e df o rc a l c u l a t i o nt h es i m i l a r i t ya b o u t d i f f e r e n ta t t r i b u t e r s ,n a m e l y , t h ef u z z yc l u s t e r i n gd e c i s i o nb a s e do nt h es i g - n i f i c a n c eo fa t t r i b u t e r s b yt h ep r o p o s e dm e t h o d ,t h ed i f f e r e n ta t t r i b u t e r s a r ec o u p l e d ( e s p e c i a l l yt h eq u a n t i t a t i v ea t t r i b u t e sa n dt h eq u a l i t a t i v ea t t r i b u t e s ) i nt h ef u z z yi n f o r m a t i o nt a b l eo ri n f o r m a t i o n t a b l ec o n s i d e r i n gt h e s i g n i f i c a n c eo fd i f f e r e n ta t t r i b u t e r s i na d d i t i o n s ,t h eq u e s t i o n so fc l u s t e r - i n ga b o u tq u a n t i t a t i v ea t t r i b u t e sa n dq u a l i t a t i v ea t t r i b u t e si ni n f o r m a t i o n t a b l ea r es o l v e d ,a n d ,t h ed e c i s i o nt a b l e sa r es e tu pa c c o r d a n c ew i t ht h e r e s u l t so ff u z z yc l u s t e r s e c o n d l y , c o n s i d e r i n gt h es h o r t c o m i n go fc l a s s i c a lr o u g hs e ti nr u l e sa c q u i s i t i o n ,d i s t r i b u t e db a y e s i a nr o u g hs e tm o d e li sp r o p o s e d ,a n dc e r t a i n t y r u l e sa r ea c q u i r e du s i n gt h ep r o p o s e dm e t h o d ,t h e nt h ef u n c t i o no fm i n i - m u mr i s ki sg a i n e db a s e do nc e r t a i n t yr u l e s n e x t ,b a y e sd e c i s i o no ft h e m i n i m u mr i s ki su s e dt oc l a s s i f yan e wd a t as e t ,a n da ne x a m p l ei sg i v e n 1 1 1 a b s t r a c t t h i r d l y , f o c u so nt h eu n c e r t a i nr e a s o n i n gp r o b l e m a b o u te x p e r ts y s t e m , t h et h e o r yo fc e r t a i n t ya n di t ss h o r t a g ea r ed i s c u s s e d ,c e r t a i n t yf a c t o ri s g i v e nb ye x p e r ti nt h e o r yo fc e r t a i n t yw h i c hh a ss u b j e c t i v i t y s ot h em o d e l o fr e l i a b i l i t yt h e o r yi si m p r o v e do na n dt h et h e o r yo fc e r t a i n t yb a s e do n v a r i a b l er o u g hs e ti so b t a i n e d f i n a l l y , c e r t a i n t yf a c t o r sa r eg a i n e df r o m i n f o r m a t i o nt a b l e ,t h eo b j e c t i v i t ya b o u tc e r t a i n t yf a c t o r si si m p r o v e d f o u r t h l y ,t h er e l a t i o nb e t w e e ne v i d e n c et h e o r ya n dr o u g hs e ti s d i s - c u s s e d t h es h o r t a g ea b o u te v i d e n c et h e o r yf o rd e a lw i t hu n c e r t a i np r o b - l e m ,a n de v i d e n c et h e o r yb a s e do nv a r i a b l er o u g hs e ti sc o n s t r u c t e d ac a s e s h o w st h a tt h i sm e t h o di sf e a s i b l ea n dp r a c t i c a l f i n a l l y , ac o n c l u s i o ni sg i v e nf o rt h i sp a p e ra n ds i m p l yd e s c r i b e st h e n e wi d e a so ft h i sp a p e r k e y w o r d s :r o u g hs e t ;t h et h e o r yo fc e r t a i n t y ;e v i d e n c et h e o r y ; f u z z yc l u s t e r i n g ;b a y e sd e c i s i o n ;v a r i a b l er o u g hs e t 1 v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包括其他人已经发表或撰 写过的研究成果,也不包含为获得西北师范大学或其他教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 签名:测8 饥谨腓砷年月小 关于论文使用授权的说明 奉人完全了解西北师范大学有关保留、 交论文的复印件,允许论文被查阅和借阅; 采用影印、缩印或其他复制手段保存论文。 使用学位论文的规定,即:学校有权保留送 学校可以公卸论文的全部或部分内容,可以 ( 保密的论文在解密后应遵守此规定) 签名:沁昧导师签名:砸蹶7 年6 月只 1 绪论 1 1 引言 粗糙集理论( r o u g h s e t st h e o r y , 简记为r s t ) 最初是由波兰数学 家z p a w l a k : :1 9 8 2 年【l 】提出的,是一种处理不完整和不确定性知识的数学工具,由于 最初关于粗糙集理论的研究大都是用波兰语发表的,因此当时没有引起国际计算机学界 和数学界的重视,研究仅限于东欧的一些国家,直到2 0 世纪8 0 年代末才逐渐引起各国学者 的注意 1 9 9 1 年,p a w l a k 的专著( r o u g hs e t :t l i e o r e t i c a la s p e c t so f r e a s o n i n ga b o u td a t a ) ) , 奠定了粗糙集理论的基础1 9 9 2 年在波兰召开了第一届国际粗糙集研讨会,这次会议着 重讨论了集合近似的基本思想及其应用,其中粗糙环境下的机器学习的基础研究是这次 会议的四个专题之一1 9 9 3 年在加拿大召歼了第二届国际粗糙集与知识发现研讨会,这次 会议积极推动了国际上对粗糙集应用的研究由于这次会议正值知识发现成为热门研究 话题,一些著名的知识发现学者参加了这次会议,并且介绍了许多应用扩展粗糙集理论的 数据挖掘的方法与系统1 9 9 6 年在r 本东京召开了第五届国际粗糙集研讨会以及2 0 0 1 年 在我国举行的研讨会推动了亚洲地区和我国对粗糙集理论与应用的研究现在,美国、加 拿大、波兰、日本都有粗糙集研究的专门机构 粗糙集作为一种处理不完整和不确定性知识的数学工具,有许多优点: ( 1 ) 粗糙集首先从新的视角对知识进行了定义,把知识看作是关于论域的划分,从而 认为知识是具有粒度( g r a n u l a r i t y ) 的,认为知识的不精确性是由知识粒度太大引起的 ( 2 ) 粗糙集为处理数据( 特别是带噪声、不精确或不完全数据) 分类问题提供了一套严 密的数学工具使得对知识能够进行严密的分析和操作 ( 3 ) 粗糙集理论无需提供除问题所需处理的数据集合之外的任何先验信息,这是和模 糊集理论和证据理论截然不同的地方,因此其受到更广泛的关注 ( 4 1 粗糙集在知识上的定义、属性约简、规则提取等理论,使得人们对数据库上的数 据挖掘有了深刻的理论基础,从而为数据挖掘提供了一种崭新的工具粗糙集不仅自己 可以独特的挖掘知识,而且可以和其他的数据挖掘算法结合起来,从而产生了许多混合数 1 1 绪论 据挖掘算法,大大开拓了数据挖掘的算法和技术,丰富了数据挖掘的工具 ( 5 ) 粗糙集理论和模糊逻辑( f u z z yl o g i c ) 、神经网络n e r v en e t w o r k ) 、概率推 理( p r o b a b i h t yr e a s o n i n g ) 、信度网络( b e l i e fn e t w o r k ) 和遗传算法g e n e t i ca r i t h m e t i c ) 一起形成了软计算( s o f tc o m p u t i n g ) 的基础,而软计算的指导原则是利用所允许的不精确 性、不确定性和部分真实性得到易于处理、鲁棒性强和成本较低的解决方案,以便更好 地与现实系统相协调 ( 6 ) 粗糙集理论作为一个独立的理论框架,不但能有效地处理和表示不精确、不确定 性知识,根据不确定、不完整的知识进行推理,在保留信息的前提下进行约简,并分析数 据问的相关性,提取相应的决策规则,进行决策分析等由于其独特的性质,已经被广泛 应用于机器学习、知识获取、决策分析、专家系统、模式识别、归纳推理和智能控制等 方面 1 2 粗糙集理论研究 对粗糙集理论的研究主要有数学性质,粗糙拓扑、关系和函数的近似、模型的拓 广、属性的离散化、核及其约简问题的求取,以及与其它不确定性方法的关系和互补 f 1 ) 相糙集的数学性质 对粗糙集数学性质的研究主要包括集合和分类的性质、决策表性质、代数结构、 拓扑结构以及收敛性问题,它们是粗糙集理论形成和发展的基础 ( 2 ) 属性离散化 在运用粗糙集理论处理决策问题时,要求信息表中的值用离散型( 整型、字符串型、 枚举型) 数据表达,如果某些属性值为连续值,则在处理之前必须进行离散化处理,而且, 即使对于离散化数据,有时也需要通过将离散值进行合并得到更高抽象层次的离散值,因 此粗糙集中属性的离散化是粗糙集理论研究中的一类重要课题,由于它是在粗糙集理论 分析的其他环节( 如约简) 之前进行,故它属于粗糙集理论中的预处理问题之一 ( 3 ) 核与约简 核与约简问题一直是粗糙集理论研究的核心问题,约简有值约简和属性约简一个 信息表中包含了大量领域样本的信息,表中的一个样本就代表一条决策规则,这样的规则 没有适应性,只足机械的记录了一个样本的情况,为了从决策表中抽取得到适应度大的规 则,需要对决策表进行约简、使得经过约简处理的决策表代表一类具有相同规律特性的样 2 1 绪论 本,这样的决策表具有较高的适应性但是求最小约简是一个n p 完全问题,因此一般采 用启发式算法。 ( 4 ) 模型的拓广 经典的r s 模型是用精确的上下近似来定义集合的分类的,变精度粗糙集( v 耐a b l e p r e c i s i o nr o u g hs e t ,简记为v p r s ) 模型最早是加拿大学者z i a r k o 在【2 】中提出的,它是经 典r s 模型的推广v p r s 模型引入了一个参数卢,即允许一定的错误分类率存在,这一方 面完善了近似空间的概念,另一方面也有利于用粗糙集理论从认为不相关的数据中发 现数据变精度粗糙集模型的主要任务是解决属性问无函数或不确定关系的数据分类 问题虽然v p r s 大大推广了经典的r s 模型,能够对噪音数据有很好的处理能力,但由于 它是含参数的,很多时候人们无法确定参数的具体取值,对v p r s 中参数的取值问题,很 多人进行研究,如c h a o - t o ns u 等人在【3 】,m a l c o l mb e y n o n 在 4 1 6 e 都进行了研究,但是要 对v p r s 模型中的参数的取值给出一个满意的答案,并运用其解决实际问题还是一件比 较困难的事情,于是d s l e z a k ,w z i a r k o 在2 0 0 2 年 5 1 6 e 提出j b a y e s i a n 粗糙集( b r s ) 模型 后来推广到变精度贝叶斯粗糙集模型,它具有更广泛的应用而巩增泰等在 6 1 5 b 给出了 一般关系下的变精度粗糙集模型另外,张文修等在【7 1 给出了概率粗糙模型,孙秉珍等 住【8 1 进行了推广,提出了变精度概率粗糙集模型 ( 5 ) 与其它不确定性方法的关系和互补 粗糙集与模糊集是两种主要的、应用最为广泛的处理不确定性的方法,如何有效地 将它们结合,使它们优势互补,同时克服它们各自的缺点,将是很有趣的研究课题它们 的结合涉及到许多问题,如它们之间的关系问题,它们是互相独立的还是互为从属的,对 这一问题的回答众说不一有的作者认为粗糙集是泛化的模糊集,如z p a w l a k ,有的作者 持否定态度甚至相反观点,如m w y g r a l a k 但将他们结合起来的应用或许更为广泛,目前 对它们的主要研究有,粗糙模糊集( r o u g hf u z z ys e t s ) 与模糊粗糙集( f u z z yr o u g hs e t s ) , 这是两种不同的结合观,前者是从粗糙集的角度研究模糊集,而后者侧重于从模糊集的角 度去刻画粗糙集2 0 0 6 年巩增泰等人将二者进行了结合,讨论了区间值模糊信息系统上 的粗糙集理论【9 1 粗糙集和确定性理论,确定性理论足s h o r t l i f f e 与b u c h a n a n 等人开发的医疗专家系 统m y c i n 系统中使用的一种不确定性推理模型该模型采用可信度作为不确定测度表 示假设在证据e 下主观信任度的一种修改量,在实际应用l j ,可信度一般足由专家给出 3 1 绪论 的,因此具有主观性,但可信度用概率表示的形式可以用贝叶斯粗糙集模型来表示和计 算 粗糙集和证据理论都是处理不确定性知识的数学工具,研究表明,粗糙理论方法是证 据理论的基础,体现在证据理论中的信任函数,似然函数和基本概率指配都可以用粗糙集 方法计算,对于一个信息系统,下近似的质量是一个信任函数,而上近似的质量是一个似 然函数相比证据理论中,函数的指配由专家给出,通过粗糙集方法得到的函数具有很大 的优越性 1 3 粗糙集理论的应用研究 粗糙集理论已经被广泛应用与机器学习、知识获取、决策分析、专家系统、模式 识别、归纳推理和智能控制等方面目前国际上已经研制出来了一些r o u g h 集工具软 件,如r o u g he n o u g h ,r o s e ,r o s e t t a ,k d d r ,l e r s 等r o u g he n o u g h 是挪威t r o l ld a t a i n c ,在4 g ld b m sp a r a - d o xf o rw i n d o w s 下开发的一个基于r o u g h 集理论的数据挖掘工 具r o s e ( r o u g hs e td a t ae x p l o r e r ) 系统足由波兰工业大学计算科学研究所智能决策支持 系统实验室开发的一个模块化软件系统,它实现了粗糙集理论的基本理论和规则获取技 术这个系统实现了p a w l a k 的基本粗糙集模型和z i a r k o 的可变精度粗糙集模型r o s e 系 统足r o u g hd a sr o u g hc l a s s 系统的新版本r o s e t t a 足由挪威科技大学计算机与信息科 学系和波兰华沙大学数学研究所合作开发的一个基于i 如u 曲理论框架的表格逻辑数据分 析工具包,实现了对数据挖掘和知识获取的支持从数据的初始浏览和预处理,计算最小属 性约简和产生i f t h e n 决策规则或描述模式,到对所得到的规则或模式的验证和分析 r o s e t t a 的目的是要作为不可分辨关系模型的通用工具,而不足为某个特定的应用领域设 计的专用系统k d d r 足由加拿大r e g i n a 大学研制开发的基于变精度粗糙集模型的数据 库知识获取k d d 系统k d d - r 系统曾成功应用于医学数据分析和电信市场的决策分析 等还有美k a n s a s 大学开发的l e r s ( l e a r n i n gf r o me x a m p l e sb a s e do i la s ) 系统,在医 疗诊断、社区规划、全球气象研究等方面都有应用2 0 0 6 年以来,巩增泰等人在 1 0 ,1 1 】中 将粗糙集理论应用到干旱区内陆河流域水资源分配中,建立了干旱区内陆河流域水资源 分配的粗糙集模型 1 4本文的主要研究内容和结构组织 奉文共七章第一章:绪论主要介绍了粗糙集理论的发展、研究现状以及粗糙集理 4 论的应用 第二章:粗糙集理论基础介绍了粗糙集理论的概念和基本原理,以及拓广的变精度 粗糙集模型、贝叶斯粗糙集模型和变精度贝叶斯粗糙集模型的概念,属性约简等理论 第三章:基于粗糙集属性重要性的模糊聚类决策及应用本章首先针对传统的模糊 聚类在解决问题时的局限性,提出了基于粗糙集属性重要性的模糊聚类算法,解决了定量 和定性属性并存情况下的模糊聚类问题,并依据聚类结果建立了相应的决策表 第四章:分布式b a y e s i a n 粗糙集模型与最小风险b a y e s 决策本章考虑到传统的粗糙 集模型在规则提取时的局限性,首先给出了分布式b a y e s i a n 粗糙集模型的定义,利用所 提出的分布式b a y e s i a n 模型提取可信度规则根据可信度规则给出最小风险损失函数,从 而对新的数据利用最d , x l 险b a y e s 决策进行分类规则提取,最后给出了一个应用实例 第五章:基于变精度贝叶斯粗糙集下的可信度推理模型本章讨论了贝叶斯粗糙集 模型和可信度模型的关系,并针对专家系统的不确定性推理问题,讨论了确定性理论及其 局限性,由于确定性理论中可信度系数是由专家给出的,具有很大的主观性,为此我们改 进了可信度推理模型,建立了基于变精度贝叶斯粗糙集下的可信度模型 第六章:基于变精度粗糙集的证据推理模型本审讨论了证据理论在解决不确定性 时的局限性以及它和粗糙集理论的关系,建立了基于变精度粗糙集下的证据理沧 第七章:总结对全文进行了总结,简述了本文的创新之处以及还需要进一步研究的 问题 5 2 粗糙集理论基础 2 1 基本概念 2 1 1 信息系统 在粗糙集理论中,信息系统s 可以表示为一个四元组:s = ( 以a t ,u ,) ,其中u 是非 空有限集合,称为论域或对象空间,u 中的元素称为对象;a t 表示对象空问中的全部属 性集合;a t = g u d ,c 为条件属性集合,d 为决策属性集合;y 是属性值组成的集合; ,:u a t 一y 是信息函数,指定了【,中每个对象的属性值如果a t = c ,即只有条件 属性而没有决策属性,则称s 为一个信息表,否则s 称为决策表 2 1 2 不可分辨关系 对于任意的rca t ,则r 在上的不可分辨关系可定义为: i n d ( n ) = ( t ,) u u n a 疗,( z ,n ) = f ( y ,o ) 不可分辨关系也称为等价关系 u r 表示j r 的所有等价类构成的集合,m r 表示包含元素z 的兄的等价类i n d ( r ) _ j t e 论域u 划分为七个等价类,记蔓j u r = x ,x 2 ,k ) 一个知识库就是一个关系系 统k = ( 阢r ) 2 1 3 集合近似 对于给定的知识库k = ( 以兄) ,任意的对象集合x u ,则集合x 关于r 的上下近似 分别定义为: 直x = z t s l x r c x , 积= 忙u l x l r n x 0 集合b n r ( x ) = 宣一再x 称为x 的曰边界,p o s r ( x ) = 旦x 称为x 的厅正域,n e g n ( x ) = u 一旦x 称为x 的r 负域 定义2 1 ( 1 ) x 为只可定义集当且仅当r x = 蓖x ; ( 2 ) x 为n 粗糙集当且仅当且x 面x 6 l ! 型垫叁堡垒茎型 2 1 4 近似质量 。 对于给定的知识库= ( 以r ) ,x = x l x 2 ,x k 是u 上的一个划分,则称 i 宣托i a r ( x ) = 警一, i 再五l = l 七 i 旦咒i 里( 玲= ! 勺广, i 页墨i 可( x ) = ! 勺厂, 为x 的崩匠似质量,下近似质量和上近似质量 2 1 5 约简和核 给定一信息系统s ,令a t 为一等价关系族,对于a a t ,如果存在i n d ( a t ) = i n d ( a t 一 n ) ,则称n 为a 丁中不必要的,可以去除的,否则n 为4 丁中必要的 对于属性子集月a t ,若存在m = a a ,且mcp ,使得i n d ( m ) ;i n d ( p ) , 且m 为最小子集,则m 称为a 的约简,用r e d ( a ) 表示 一个属性集合1 中可能有多种约简,在所有约简集合中都包含的不可省略的属性的 集合称为1 的核,用o o r e ( 1 ) 表示,c c r r e ( a ) = n r e d ( a ) 2 1 6 属性重要性 定义2 2 设s 为信息系统,对于a a t ,则口关于d 的属性重要性为: s i g ( o ) = r c ( d ) 一r c 一 。l ( d ) , 其中即( d ) = c o d 血a ( p 州o l 们o ( n ) ) ,c a r d ( ) 表示集合的基数,j ) d s c ( d ) 是d 的g 正域 2 2 变精度粗糙集合模型 v p r s 模型的主要任务是解决属性问无函数或不确定关系的数据分类问题 z i a r k o 在【2 ,1 2 】将p 作为一个错误分类率,定义在区i h j 【o o5 ) 当p = o 时,退化为经典 粗糙集模型然而,a ne ta l ,在f 1 3 】中将其作为一个正确分类率,将其定义在区间( o 5 ,1 】 当口= 1 时,退化为经典粗糙集模型本文住讨论问题时,将口作为一个错误分类率,定义 在区问f o ,o 5 ) 7 2 粗糙集理论基础 足义2 3 搜s 是一个佰思糸统,x u ,【0 ,o 5 j ,则果苗爿天丁a 臣j - - r 珏似 和口一上近似以及卢一边界和卢一负域分别定义为: ,x = xeu :号鑫暑芦一p , 耻= x eu :咤铲 雕 跳弘 x e u :卢 咪铲 1 卅, 脚郇x = x eu :0 p ( x ) ) , n e g ( x ) = u e u a :p ( x i e ) 尸( x ) , b n d + ( x ) = u e u a :p ( x i e ) 一p ( x ) 其o b r s 模型的正域表示对预测事件x 发生的可能性可信度增强的区域,负域表示 对预测x 发生的可能性可信度降低的区域,即预测x 不发生的可能性增强的区域, 边界是既不能预测x 发生的可能性增强也不能预测x 不发生可能性增强的区域其 中p ( x i e ) = 幽c a r d ( e ) ,p ( x ) = 篆崭 2 4变精度贝叶斯粗糙集合模型 定义2 5 设s 是一个信息系统,x u ,a a t ,e 1 0 ,1 ) ,则变精度贝叶斯粗糙集 合( v a r i a b l ep r e c i s i o nb a y e s i a nr o u g hs e tm o d e l ,简i g 为v p b r s ) 模型的正域,负域,边 界分别定义为: p o s 5 ( x ) = u e v a :p ( x i e ) 2 1 一e ( 1 一p ( x ) ) , n e a 6 ( x ) = u f u a :p ( x i e ) 曼p ( x ) ) , b n d 5 ( x ) = u e u a :e p ( x ) p ( x i s ) 1 一( 1 一j p ( x ) ) 8 ! ! 望鳖叁堡垒茎堡 同理,其中v p b r s 模型的正域表示对预测事件x 发生的可能性可信度增强的区域,负域 表示对预测x 发生的可能性可信度降低的区域,即预测x 不发生的可能性增强的区域,边 界是既不能预测x 发生的可能性增强也不能预测x 不发生可能性增强的区域 9 3 基于粗糙集属性重要性的模糊聚类决 策及应用宋汉腿川 本章利用粗糙集理论,考虑到不同属性之间的重要性,对模糊信息表或信息表中的不 同属性之间( 特别是定量属性与定性属性之间) 进行耦合,提出了一种计算不同属性问 相似度的计算方法,即基于粗糙集属性重要性的模糊聚类方法,解决了模糊信息表或信息 表中属性值定量与定性描述并存情况下的聚类问题,最后根据聚类结果建立了决策表 众所周知,模糊聚类方法在模糊识别、模糊综合评价、数据挖掘等方面已经得到了 广泛应用常用的聚类方法主要包括划分方法、层次方法、基于密度方法和基于网格方 法等基于粗糙集的聚类算法的研究比较少,文献【1 4 ,1 5 】中提出的方法是基于遗传算法 的,但实际上速度非常慢值得注意的足当模糊信息表或信息表中含有定性描述,特别足 定量与定性描述并存的情况下,利用传统的方法进行聚类分析将受到限制这种限制主要 来自两个方面:一是如何将定性描述在模糊相似度中进行度量;二是如何将定量描述和 定性描述在相似度的计算中进行耦合奉文利用裉糙集理论提出了基于粗糙集属性重要 性的模糊聚类决策方法首先,考虑到不同属性之问的重要性,将模糊信息表或信息表中 定量描述和定性描述在相似度的计算中进行耦合,利用编码理论中的h a m m i n g 娅离,得 到了不同对象之间的相似性计算,将信息表转化为一般的模糊相似矩阵,通过传递闭包 法,形成模糊等价矩阵,从而实现了无监督聚类,并建立了决策表 3 1 预备知识 定义3 11 1 6 l 称( x ,) 是偏序集,若满足忱,y ,z x 有 ( 1 ) 自反性:z z ( 2 ) 反对称性:z y ,y z = 号z = y ( 3 ) 传递性:z y ,y z 弓z z 定义3 21 1 6 设( x ,) 足偏序集。若对于v t ,y x ,都有数d ( x ) 与之对应,且满足 ( 1 ) 0sd ( u z ) sl , ( 2 ) z y 爿d ( y x ) = 1 , 】0 3 基于粗糙集属性重要性的模糊聚类决策及应用 ( 3 ) z y z j d ( x z ) d ( z u ) 则称d 为x 上的包含度 定义3 3 【16 】设为有限集,p 表示c ,上的全体子集,“”表示集合的包含关系 则( p ,) 为偏序集,并且记 d ( f e ) = i e nf i i e i 则称d 为p 上的包含度 定理3 1 【16 】设g 表示c ,上的全体划分,( g ,) 为偏序集,d 为( p ,曼) 上的包含度,对 于u 上任意两个划分: a = a 1 ,a 2 ,a k ,b = b 1 ,b 2 且 il 记d ( b a ) = v ,) ( b j a ) , i = 1j = 1 则称d 为( g ,) 上的包含度 通过信息系统发现知识,主要是用属性来表达知识的分类,各种属性在表达知识分类 中的作用是不同的,有些属性是绝对不必要的去掉这些属性并不影响知识的发现:有些 属性是绝对必要的,去掉这些属性必然会影响到知识发现:有些属性是相对必要的,它与 所有绝对必要属性搭配起来才不影响知识发现因此对信息系统的属性关于知识发现的 重要性有一个度量指标,这就是属性重要性 定义3 41 1 0 1 设( 以a ,f ) 是一个信息系统,r b 是盯上的等价关系,对于任意b a , 记a ( 口) = w r b ,d 为u 上的分划全体g 上的包含度,称 r ( a ) = 1 一d ( a ( a ) a ( a n ) ) , 为属性a 的重要性 3 2 基于粗糙集属性重要性的相似性度量方法 本章对信息表中定量表示的属性,对其不同对象之间的距离用一般统计学 的e u c l i d e a n 距离( 当然可以采用统计学的其他距离,如m a n h a t t a n 距离,m a h a l a n o b i s 距 离等以及传统相似矩阵中不同对象i n j 相似度计算中的距离 1 7 , 1 8 】) 进行属性重要性扩展; 对于定性描述的属性,由于在粗糙集信息表中往往是将定性描述赋予特定的码宁来表示 的,因此对不同对象2 _ f 目j 的定性描述采用编码理论1 1 9 】中的h a m m i n g 距离;考虑到不同属 1 1 ! ! 叁塑垫叁星竺皇墨些箜堡塑墨耋达整墨皇望 性之间的重要性,特别足属性定量表示与定性描述之间差别,使得不同属性之间科学地 耦合( 所谓“耦合”是指将不同的表示置于相同的平台,通俗地讲就是使得不同属性的度 量“单位”一致) ,提出了一种新的相似性度量方法,使得聚类结果的质量更高 定义3 5 设s = ( v l a ,) 为一个信息系统,其中u 为对象集,即= 和i ,z 2 , ( 1 i n ) 为u 中的每个对象,a 为条件属性集,且a = a l ,a 2 ,a m ,6 1 ,6 2 ,饥) ,其中a s 为定性属性集,b t 为定量属性集s = l ,2 ,m ,= 1 ,2 k 其重要性:y g r ( a 。) ,r ( b t ) ,8 = 1 ,2 ,m ,t = 1 ,2 ,k ,记 悔) = 丽而未等篇誊去篙南丽 慨) 一丽葡而掣篇筹高等杀j 碉 分别为定性属性和定量属性的全局重要性 ( 1 ) ( 2 ) 考虑对象也,码u ,对于定量表示的属性6 t 0 = 1 ,2 ,) ,定义其扩展的e u c i i d e a n 距离 为 如( 矾,) =jf=lr ( b t ) ( x , t - - x j t ) 2 其中表示对象也在属性b 。下的定量表示值 对于定性表示的属性a 。,s = i ,2 ,m ,在h a m m i n g 距离意义下,如果两个对 象x i ,马在定性属性吼下的码字不同,则该属性下对象h j 的h a m m i n g 距离l a 。( ) 一a 。( 巧) i = 1 ,如果码字相同,则为i 吼( 戤) 一( q ) l = 0 即 妇( 墨,码) = :r ( 口。) i o 。( 。t ) 一a a ( 巧) 1 ( 4 ) 将刻划定性表示属性o 。0 = 1 ,2 ,m ) 之间的h a m m i n g 距离和表示定量属性b t ( t = 1 ,2 ,) 之间e u c l i d e a n 距离进行耦合,得到不同对象,的相似性度量公式如下: rs t , 巧) 刮酬t 一老搋) + r ( 吼z 一纛鹨) ,( 5 ) 特别地,当每个属性重要性相同时,x j 的相似性度量公式退化为如下: 巾鹕) = 熹( 1 一老象) + 熹( 1 一而d 砒e ( x l , x j ,) ) ( 6 ) 3 3 模糊聚类分析 根据对象l 日】的相似性,按确定的标准将对象进行分类的数学方法称为聚类分析但由 于现实世界中很多对象的类与类之间并无清晰的划分,边界具有模糊性,它们之l 、且j 的关系 1 2 3 基于粗糙集属性重要性的模糊聚类决策及应用 是模糊关系,对这类对象使用模糊数学方法进行聚类,称为模糊聚类分析 定义3 6 【1 7 】设x ,y 是两个论域,那么x 到y ( 或在x 与y 之间) 的f i l z z y 关系r 是一 个直积x y = ( 。,u ) i x x ,y y ) 上的集,即兄r ( xxy ) ,r :xxy 一【0 ,l 】_ r ( x ,g ) 表示z 与具有r 关系的程度,特别当x = y 时,r 称为x 上的一个f u z z y 关系 定义3 7 【1 8 设x 是论域,r 是xxx 上的一个模糊关系, ( 1 ) 如果r ( x ,z ) = l ( v x ,y x ) ,则称是r 自反的; ( 2 ) 如果r ( u ,z ) = r ( x ,) ( 忱,y x ) ,则称r 是对称的; ( 3 ) 如果r ( x ,z ) 2 兄( 。,y ) ar ( ,z ) ( 比,y ,z x ) ,则称尼黾传递的 如果剐黾一个自反、对称、传递的模糊关系,则称只足一个等价的模糊关系 定义3 81 1 7 一个f u z z y 关系r f ( x x ) 称为是m a x - m i n 传递的,如果ror r 即( v ( x ,z ) xxx ) ( v r 0 ,g ) an ( y ,z ) r ( x ,z ) ) ,其中y x , , 定义3 91 1 q 设r f ( x x ) ,如果: ( 1 ) s f ( xxx ) 足传递的且s2 见 ( 2 ) q f ( x x ) 且q 三r 号q2 s 则称s 为兄的传递闭包,记为( 兄) 定义3 1 0h s 设x = 扣l ,。2 ,z 。) 与y = y 1 ) 抛,咖 为有限集,则xxy 上的f u z z y 关系r 可用一个mx 扎阶的f u z z y 矩阵表示,这种表示f u z z y 关系的矩阵称 为f u z z y 矩阵,记为兄;( r q ) 。,其中r 0 = r ( x i ,) ,r s 3 【0 ,1 i 定理3 21 18 】设r = ( ) 。是u 上的n 阶模糊相似矩阵,贝l j t ( r ) = r 的充要条件是存 在最小正整数k ,使得r 2 j , = r i , 其中 定义31 1 【18 】设r = ( ) n x n 是u 的n 阶模糊相似矩阵,则r = ( r l j k 。称为a 截矩阵 其中a 1 0 ,1 】 吲壮f 1 l0 , i ,r t j a i _ r r i 3 a 3 基于粗糙集属性重要性的模糊聚类决策及应用 定理3 3 任何一个粗糙信息表,设有n 个对象,m + k 个属性,定性属性个数为m ,定 量属性个数为按照公式( 5 ) 的距离度量方法进行计算,其必然与一个nx 扎的模糊相似 矩阵r 相对应,并且可被转化成一个n n 的模糊等价矩阵兄其中,巧为数据集u 中的 对象,d e 为公式( 3 ) ,妇为公式( 4 ) ,s = 1 ,2 ,m ,t = 1 ,2 k ,r ( x l ,巧) 为对象的相似性 度量,也就是相似矩阵的元素 证明:首先证明自反性:r i i ;r ( 盈,甄) = 1 ,t 扪j :d e ( x l ,巧) = 0 ,d z ( x 。,q ) = 0 ,因此 r i l = r ( d i ) + r ( b e ) = 1 其次证明对称性:r q = r ,即r ( x i ,x j ) = r ( x j ,戤) ;由于d e ( x i ,x j ) = d e ( x 3 ,鼢) , d h ( x l ,码) = d ( x j

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论