(机械电子工程专业论文)基于粗糙集的知识发现在故障诊断中的应用研究.pdf_第1页
(机械电子工程专业论文)基于粗糙集的知识发现在故障诊断中的应用研究.pdf_第2页
(机械电子工程专业论文)基于粗糙集的知识发现在故障诊断中的应用研究.pdf_第3页
(机械电子工程专业论文)基于粗糙集的知识发现在故障诊断中的应用研究.pdf_第4页
(机械电子工程专业论文)基于粗糙集的知识发现在故障诊断中的应用研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北大学硕士学位论文 基于粗糙集的知识发现在故障诊断中的应用研究 摘要 机械设备发生故障,若不能及时得到诊断并排除,往往造成严重的经济损失,据此, 研究机械设备的智能系统具有极其重要的意义,但是由于知识和经验描述的多样性和不 确定性,因此知识的获取和有效处理已成为专家系统的“瓶颈”问题。目前,在机械故 障诊断中应用比较广泛的是人工神经网络方法,这一方法要求有大量典型的训练样本数 据或先验知识,但是在大型机械设备中,大量典型故障数据往往很难获得。 近年来,以粗糙集理论为基础的数据处理方法得到了广泛的发展,基于粗糙集的知 识理论由于不需要预先给定某些特征或属性的数量。可从现有的数据出发给出知识的简 化方法,成了软计算方面的强有力工具。我们利用粗糙集理论强大的数据分析能力和分 辨能力,对专家系统中存在的大量多余的信息进行精简并消去一些不必要的属性,这样 就降低了故障诊断专家系统知识库的繁杂性,并明显改善了专家系统的整体效能。 本文介绍了知识发现、知识发现方法粗糙集的基础知识以及基于知识发现的故障诊 断方法;讨论了等价关系、属性核、数据约简相对正域等粗糙数据分析的现有算法及算 法复杂度;提出了知识获耿平台( k n o w l e d g e d i s c o v e r y p l a t f o r m ,k d p ) 系统构成与机器 实现的设计算法,数据推理原理和各种数据推理方法,各种决策规则约简、提取的方法, 并用m a t l a b 语言实现k d p 知识获取平台。 本文还将k d p 平台通过c + + 语言嵌入到p r o l o g 语言中心开发的e s t a 专家系统框 架中,使k d p 系统与e s t a 系统实现了基于文本文件的数据交换。文中介绍了e s t a 系统的汉化、扩展及知识库设计方法;分别给出了k d p 系统在故障诊断中诊断规员j j 提 取的应用实例、e s t a 系统的故障诊断实例以及k d p 与e s t a 集成的诊断实例。 关键词:故障诊断;粗糙集;m a t l a b 程序:应用平台:知识发现;v i s u a lp r o l o g :e s t a 专家系统框架 东北大学硕士学位论文 a b s t r a c t r e s e a r c ho ft h ek n o w l e d g e d i s c o v e r y a p p l i c a t i o nb a s e d o nr o u g hs e ti n m e c h a n i c a lf a u l td i a g n o s i s a b s t r a c t i tw i l lc a u s es e r i o u se c o n o m i c a ll o s ei ft h ef a u l t sw o u l dn o tb ed i a g n o s e dw h e nt h e m a c h i n e sg ow r o n g s oi th a sg r e a ts i g n i f i c a n c et or e s e a r c ht h ei n t e l l i g e n ts y s t e mf o r m e c h a n i c a le q u i p m e n t t h e r e f o r e ,t h eo b t a i n i n ga n de f f e c t i v ep r o c e s s i n go f k n o w l e d g eh a s b e c o m et h eb o t t l e n e c kf o rt h ed i v e r s i t ya n du n c e r t a i n t y i nr e c e n t ,m a n u a ln e u t r a ln e th a sb e e n w i d e l yu s e di nm a e h a n i c a lf a u l td i a g n o s i sa sk n o w l e d g eo b t a i n i n gm e t h o d ,i tr e q u i r e sag r e a t d e a lo ft y p i c a lt r a i n i n gs a m p l e so rk n o w l e d g ep r o v e de f f e c t i v e b u ti ti sh a r dt oo b t a i nt h e t y p i c a ls a m p l e so f b i gt y p em a c h i n e s i nr e c e n ty e a r s ,t h ed a t ap r o c e s s i n gm e t h o db a s e do nr o u g hs e t h a sb e e nd e v e l o p e d i t d o e sn o tn e e dt h eg i v e na t t r i b u t e so fs o m ep a r a m e t e r s ,w h i c hc a nb eo b t a i n e db ym e a n so f p r e d i g e s t i o n r o u g hs e th a sb e c o m eav e r yp o w e r f u lt o o li ns o f tc o m p u t i n g ,w eu s ei tt o c o n d e n s et h er e d u n d a n td a t ai ne x p e r ts y s t e m ,w h i c hw i l lr e d u c et h ec o m p l e x i t yo ft h ef a u l t d i a g n o s i ss y s t e ma n di m p r o v et h ew h o l ee f f i c i e n c y t h i sp a p e rf i r s ti n t r o d u c e st h eb a s ek n o w l e d g eb a s eo fk n o w l e d g ed i s c o v e r y , t h em e t h o d r o u g hs e tt h e o r ya n dt h ef a u l td i a g n o s i sm e t h o db a s e do nk n o w l e d g ed i s c o v e r y s e c o n d ,t h e p a p e rp r e s e n t st h ea l g o f i t h md i s c u s s i o no fe q u i v a l e n c er e l a t i o n , a t t r i b u t ec o r e , d a t ar e d u c t i o n , r e l a t i v e l yp o s i t i v er e g i o n t h i r d ,t h es t r u c t u r ea n da l g o r i t h m so fk d ps y s t e ma r er a i s e d , m a n yk i n d so f a l g o r i t h m so f d e c i s i o nr u l ee x t r a c t i o na r er e s e a r c h e d t h ek d pi sr e a l i z e dw i t h m a t l a b ,t h et h o u g h ta n di d e ao fi n t e r f a c ed e s i g na r em e n t i o n e da n dm a t l a bp r o g r a mi s g i v e n t h ep a p e ra l s oi n t r o d u c e sa ne sf l a m en a m e de s t ad e v e l o p e db yt h ep r o l o g d e v e l o p m e n tc e n t e r t h ek d p i se m b e d d e di nt h ee s t ab yc + + w h i c hr e a l i z e sd a t at r a n s f e r b a s e do nt e x td o c u m e n t t h ep a p e ri n t r o d u c e st h em e t h o do fc h i n e s i z a t i o n ,e x t e n d i n ga n d d a t a b a s ed e s i g no f t h ee s t a i tg i v e st h ee x a m p l e so f t h eu s eo f k d re s t aa n dt h eu n i o no f k d pa n de s t ai nf a u l td i a g n o s i s k e yw o r d s :f a u l td i a g n o s i s ;r o u g hs e t ;m a t l a bp r o g r a m ;a p p l i c a t i o np l a t f o r m ;k n o w l e d g e d i s c o v e r y ;v i s u a lp r o l o g ;e s t ae x p e r ts y s t e mf r a m e i i i 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢 意。 学位论文作者签名: 娴 日 期:沙i i ;、够、? 2 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师不同意网上交流,请在下方签名;否则视为同意。) 学位论文作者签名: 签字日期: 导师签名: 签字日期: 东北大学硕士学位论文 第一章绪论 第一章绪论 1 1 问题的提出 机械设备发生故障,若不能及对得到诊断并排除,往往造成严重的经济损失,据此, 研究机械设备的智能故障系统具有极其重要的意义。故障诊断的专家系统( e s ) 是人工智 能( a i ) 在故障诊断领域中的应用,因其能有效地模拟专家的决策过程故被广泛应用。 但是由于知识和经验描述的多样性和不确定性,因此知识的获取和有效处理已成为 专家系统的“瓶颈”问题。目前,在机械故障诊断中应用比较广泛的是人工神经网络方 法,这一方法要求有大量典型的训练样本数据或先验知识,但是在大型机械设备中,大 量典型故障数据往往很难获得,因而,这成了制约人工神经网络等智能诊断方法发展和 应用的重要因素f ”。而且,由于人工神经网络学习算法实际上是利用梯度下降法调节权 值,使目标函数达到极小值,导致了人工神经网络过分强调克服学习错误而泛化能力不 够强,同时,人工神经网络隐层的数目难以确定,它的学习算法缺乏定量的分析与枫理 完备的理论结果【“。 近年来,以粗糙集理论为基础的数据处理方法得到了广泛的发展,成了软计算方面 的强有力工具1 3 】。我们利用糨糙集理论强大的数据分析能力和分辨能力,对专家系统中 存在的大量多余的信息进行精简并消去些不必要的属性,这样就降低了故障专家系统 知识库的繁杂性,并明显改善了专家系统的整体效能。 1 2 知识发现 知识发现【4 】( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 是从数据库中提取可信的、新 颖的、有用的并能被人理解的模式的高级处理过程。数据挖掘是全部过程的个特定的、 关键的步骤。是指应用特定算法从数据中提取模式。知识发现中的其它步骤则是用来保 证从数据中挖掘得到的知识是有用的知识,否则,盲目挖掘容易导致所发现的模式是无 意义的。事实上,在现今文献中的大多数场合,这两个术语的使用是不加区别的。 知识发现的任判5 】是: ( 1 ) 假设检验:由于假设检验并不是显式的发现存在于数据中的模式,所以它不同 于其它的发现任务。相反,它的任务是评估某既定的假设。这种分析模式在提炼或扩展 已经发现的知识时,特别有用。 ( 2 ) 分类:分类能够产生一个分类函数,这个分类函数能够根据某些决策属性的值 东北大学硕士学位论文 第一章绪论 把给定的示例集合划分为互不相交的子集。分类能够区分不同概念中的对象。 f 3 ) 聚类:聚类是根据示例间内在的某些标准,把示例集合划分成子群或聚类。这 种发现模式不同于分类,分类需要一个事先定义分类的示例集。 ( 4 ) 关联分析:关联分析的目的是发现特征之间或数据之间的相互依赖关系。数据 的关联关系代表了一种重要的可发现的知识。一个依赖关系存在于两个元素之间。如果 从一个元素a 的值可以推出另一个元素b 的值,则称b 依赖于a 。 ( 5 ) 偏差分析:偏差分析包括分类中的反常实例、例外模式、观测结果对期望值的 偏离以及量值随时间变化等,其基本思想是寻找观测结果与参照量之间的有意义的差 别。通过发现异常,可以引起人们对特殊情况加倍注意。偏差分析的一个重要特征就是 它可以有效的过滤大量不感兴趣的模式。 ( 6 ) 建模:就是通过数据挖掘,构造描述一种活动或状态的数学模型。机器学习中 的知识发现,实际上就是对些自然现象进行建模,重新发现科学定律,如b a c o n , s d s 等。 1 3 粗糙集理论与知识发现 由于粗集理论具有这样的特点:能够处理各种数据,包括不完整的数据以及拥有众 多变量的数据;能够处理数据的不精确性和模棱两可,包括确定性和非确定性的情况; 能求知识的最小表达和知识的各种不同颗粒层次:能从数据中揭示出概念简单、易于操 作的模式:能产生精确而又易于检查和证实的规则,特别适于智能控制中规则自动生成。 粗糙集的这些特点保证了它能够提供有效的技术用于数据挖掘的数据预处理、数据的约 简、规则生成等方面,故该理论作为数据挖掘领域的一种主流方法,正受到越来越多研 究者的关注。 1 3 1 粗糙集与其它知识发现方法比较 知识发现的方法1 4 】除粗糙集( r o u g hs e t ,r s ) 理论以外还有决策数( d e c i s i o n t r e e ) 方法、神经网络( n e u r a ln e t w o r k ) 方法、覆盖正例排斥反例方法、贝叶斯网络 ( b a y e s i a n - n e t w o r k s ,b n ) 方法、概念树方法、遗传算法( g e n e t i ca l g o r i t h m s ,g a ) 、 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 、公式发现( f o r m u l ad i s c o v e r y ,f d ) 、空间 统计分析( s p a t i a ls t a t i s t i c s ) 方法、可视化( v i s u a l i z a t i o n ) 技术案例推理( c a s e b a s e d r e a s o n i n g ,c s r ) 法、非线性回归方法、进程化程序设计( e v o l u t i o n a r yp r o g r a m m i n g , e p ) 、模糊论等方法。 东北大学硕士学位论文第一章绪论 粗糙集方法与其它知识发现方法比较有如特点: ( 1 ) r s 不需要先验知识。粗糙集、模糊集、概率统计都是处理不确定信息的方法, 但是模糊集与概率统计方法需要一些数据的附加信息或先验知识,如模糊隶属函数和概 率函数等,但这些信息有时并不容易得到。而r s 数据分析仅利用数据本身提供的信息, 无须任何先验知识。 ( 2 ) r s 它能表达和处理不完备信息。r s 以不可分辨关系为基础,侧重分类;能在 保留关键信息的前提下对数据进行约简并求得知识的最小表达;能识别并评估数据之间 的依赖关系,揭示出概念简单的模式;能从经验数据中获取易于证实的规则知识。特别 适于智能控制。 ( 3 ) r s 与模糊集分别刻画了不完备信息的两个方面:r s 以不可分辨关系为基础, 侧重分类,模糊集基于元素对集合隶属程度的不同,强调集合本身的含混性。从r s 的 观点看,粗糙集合不能清晰定义的原因是缺乏足够的论域知识,但可以用一对清晰集合 逼近。有关r s 和模糊集内在联系的阐述及模糊粗糙集的概念,r s 和证据理论也有一 些褶互交叠之处,在实际应用中可以相互奉 充。 ( 4 ) r s 可以定性、定量描述知识。粗糙集方法可以输入定性、定量或者混合信息, 可以描绘知识表达中不同属性的重要度,简化知识表达空间,从训练数据中推理规则, 人工神经网络方法一般不处理具有语义形式的输入,人工神经网络方法可以实现无导师 聚类学习,但不能确定哪些知识是冗余的,哪些知识是有用的。 ( 5 ) 知识的粒度性。粗糙集理论认为知识的粒度性是造成使用已有知识不能精确地 表示某些概念的原因。通过引入不可分辨关系作为粗糙集理论的基础,并在此基础上定 义了上下近似等概念,揭示出了论域知识的颗粒状结构。 粗集理论主要是研究在确定系统中,利用近似概念和不可分辨性,从数据中挖掘知 识表达、系统简化和决策规则推理;统计概率主要是研究在不确定系统中,利用系统的 熵值的信息的不确定性,以及条件概率、贝叶斯准则等方法,从数据中挖掘知识表达和 决策规则推理。 1 3 2 基于r s 的知识发现系统嘲简介 ( j ) l e r s l e r s ( l e a r n i n g f r o me x a m p l e sb a s e do nr o u g hs e t ) 系统是美国k a n s a s 大学开发的 基于粗糙集的实例学习系统。它是用c o m m o n “s p 在v a x 9 0 0 0 上实现的。l e r s 已经 为n a s a 的j o h n s o n 空间中心应用了多年。另外,l e r s 还被广泛的用于环境保护,气 东北大学硕士学位论文第一章绪论 象研究和医疗研究。 ( 2 ) r o s e r o s e ( r o u g hs e t d a t a e x p l o r e r ) 是由波兰p o z n a n 科技大学丌发的,用于决策分析。 r o s e 是运行在p c 兼容集w i n d o w s n t 上的交互式软件系统。 ( 3 ) k d d r k d d r 出加拿大的r e g i n a 大学开发的基于可变精度粮糙集模型的知识发现系统, 这个系统被用于对医学数据分析,以产生症状与疾病之间的新联系,另外它还支持电信 业的市场研究。该系统由四部分组成:数据预处理、基于v p r s 模型的属性依赖分析和 消除冗余属性、规则提取、决策。 ( 4 ) d a t a l o g i c r d a t a l o g i c r 幽加拿大的r e c l u e ts y s t e mi n c 公司万发的用于数据库知识发现的软件, 它是用c 语言开发的,可安装在个人计算机上,为科研和工业界服务。 ( 5 ) k n i g h t s k n i g h t s 是南京大学计算机学院开发的一个知识挖掘系统,是一个通用的数据挖掘 工具,可适应不同领域的不同要求。 1 4 基于知识发现的故障诊断 本文中研究的知识发现方法主要是粗糙集方法。将数据预处理结果,采用粗糙集方 法建立决策表,然后对决策表进行属性约简,从而得到诊断规则。对属性约简后的决策 表进行范畴约简,得到简化的甚至最小的决策规则。 基于粗糙集的故障诊断【8 】步骤如下: ( 1 ) 原始信息的提取,信息表的形成。 选择系统可量测的特征部位,进行特征信号量测。对量测信号采样,编码,离 散化。采样时间可视不同信号而定,为了表示信号幅值和变化趋势。可将同一信号在不 同采样时刻的值单独作为一个条件属性。所取的采样间隔与采样个数视不同信号而定。 采样个数越多则误警越少,但是得到的信息表结构也越复杂。 根据不同的情况,量化每个条件属性的取值决定各个属性的取值范围。最 佳的属性范围应视能够正确区分所有故障特征波形的最小属性值集合。属性值取值越 多,则信号的论域划分越细,精度越高,但是相应的信息表的复杂程度也越高。 f 2 ) 系统故障的判断依据视剥用子系统的信息熵是否发生变化。如果新样本信息熵 设有发生变化。说明系统运行正常,否则进入故障定位。 ( 3 ) 运用改进的区分矩阵方法,形成最后的诊断规则形式。 ( 4 ) 对不一致信息的处理。 4 东北大学硕士学位论文 第一章绪论 如果条件属性一致而结论不同,则计算结论为d l 的规则条数作为分子,总的冲突 规则条数作为分母,则得到在此条件属性下结论d l 的可能性。 基于粗糙集的故障诊断方法是一种利用粗糙集理论对知识的获取能力,从形式上模 拟人的学习能力和决策行为。该方法不需要先验知识,从一定程度上解决了故障诊断中 关于故障知识获取的瓶颈问题。 1 5 本文的研究内容与结构安排 本文的研究内容与结构安排如下: 第一章首先介绍了知识发现的基本知识,并介绍了基于粗集理论的发现方法在国内 外的研究现状以及基于知识发现的故障诊断方法; 第二章介绍r o u g h 集理论的由来,着重阐述了r o u g h 集的基本概念和r o u g h 集数 据处理的方法; 第三章讨论了等价关系、属性核、数据约简、相对正域等r o u g h 数据分析的现有算 法及算法复杂度,提出了k d p 系统结构及数据处理算法; 第四章论述了k d p 的设计,介绍了k d p 主要功能,给出了基于k d p 平台的故障 诊断规则提取的例子: 第五章介绍了p r o l o g 语言及由其实现的e s t a 专家系统框架,提出了e s t a 的扩展、 汉化、知识库设计以及与k d p 集成的方法,给出了e s t a 的以及e s t a 与k d p 结合的 故障诊断例子; 第六章对文章进行总结与展望。 东北大学硕士学位论文 第二章粗糙集理e e - b 应用 第二章粗糙集理论与应用 粗糙集( r o u g hs e t ,简写为r s ) 是波兰数学家z p a w l a k 为开发自动规则生成系统 及研究软计算问题于1 9 8 2 年提出的【9 】o1 9 9 1 年z p a w l a k 出版了专著,奠定了严密的数 学基础。 r s 理论是一种处理不精确、不确定与不完全数据的新的数学方法。能有效地分析 和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在 的规律,由于它在机器学习与知识发现、数据挖掘、决策支持与分析、专家系统、归纳 推理、模式识别等方面的应用突出,现已成为一个热门的研究领域。 2 1 粗糙集的基本概念 2 1 1 等价关系与等价类 定义2 1 :设r 是集合0 到彳的二元关系,如果对v 口4 有( 口,a ) r ,则称r 是彳上的自反关系。 定义2 2 :设r 是集合a 上的二元关系,如果对va ,b c a 有,b ) r ,也必有 ,e r ,则称r 是爿上的对称关系。 定义2 3 :设r 是集合a 上的二元关系,对va ,b ,t e a ,如果无论什么时候有( 疗, b ) r 和( 6 ,c ) r ,必有0 ,c ) r ,则称r 是a 上的传递关系。 定义2 4 :设五是集合a 上的二元关系,如果它是自反、对称和传递的,则它是a 上的等价关系。 定义2 5 :设五是a 上的一个等价关系,与a 中的一个元素a 相关的所有元素的集 合被称做a 的一个等价类,记成l a b 。当仅考虑一个关系时,我们可略去下标,而简写 成 口 。形式地,【a b = p :( 口,曲r 。 定义2 6 :一个划分“定义为:靠= a i ,也,以) ;a ,u ,a f 西,a f n a j = 中, 对于f 纠,i ,= l ,2 ,n ,且u f - u o 定义2 7 :u 上的一族划分称为关于u 的一个知识库( k n o w l e d g eb a s e ) 。图2 1 说明 了集合的划分概念。 东北大学硕士学位论文 第二章粗糙集理论与应用 图2 1 一个集合的划分 f i g 2 1d i v i s i o no f as e t 2 1 2 粗糙集的基本概念 定义2 8 :设置y _ c 工r 是定义在u 上的等价关系,集合鼻关于r 的下近似集为: 疋2 u r 卅r :y c 抑( 2 1 ) r 一( 习是根据现有知识判断肯定属于x 的对象组成的最大的集合,称为正区,记为 e o s ( x ) 。 上近似集为: 胄国= u y 卅胄:y n z 印)( 2 2 ) 其中:中表示为空集。r - ( x ) 是由所有集合z 相交非空的等效类的并集,是那些可 能属于x 的对象组成的最小集合。 集合边界区定义为: b n d ( x ) = r - ( x ) 一疋 ( 2 3 ) 定义2 9 :如果b n d ( x ) 是空集,则称x 关于r 是清晰的;反之,如果胁姗不是空 集,则称x 为关于r 的粗糙集。 定义2 1 0 :一个信息系统t 可以表示为: 仁( 职a ,c ,d ) ,其中,u 是对象的集合,即论域;a 是属性集合;如果属性集 可以分为条件属性集c 和决策属性集d ,即c u d = a ,c n d = 中,则该信息系统称为决 策系统或决策表,其中d 一般只含有个属性。 r s 理论中应用决策表来描述论域中对象。它是一张二维表格,每一行描述一个对 象,每- - y | j 描述对象的一种属性。属性分为条件属性和决策属性,论域中的对象根据条 件属性的不同,被划分到具有不同决策属性的决策类。表2 1 为一张信息系统决策表的 一7 一 查些查堂堡主芏堡堕圭堑三主塑竺叁墨堕鱼生旦 例子:u - = - x ,印,靠 为对象集,c - s ,s 2 ,晶) 为条件属性集,d 为决策 属性集,后表示第i 个对象的第,个条件属性值,d i 是第i 个对象的决策属性值。 表2 1 信息系统决策表 t a b l e2 1d e c i s i o nt a b l eo f a ni n f o r m a t i o ns y s t e m 表2 2 为一张决策表,论域u 有7 个对象,编号1 7 , 口,b ,c ,田是条件属性集, e 为决策属性。对于分类来说,并非所有的条件属性都是必要的,属性c 多余的,去除 这些属性不会影响原来的分类效果。 表2 2 某一决策表 t a b l e2 2ad e c i s i o nt a b l e 定义2 1 1 :在信息系统中,对于每个属性子集r c _ a ,不可分辨关系i n d ( r ) : 1 n d ( r ) = 0 ,y ) u u :r e r ,r ( x ) = r f y ) ) ( 2 4 ) 显然1 n d ( r ) 是一个等价关系。 对象茁在属性集震上的等价类 x j :u o ( r ) f g 义为: m 州邱5 l v :y euy m 研r ) x ( 2 5 ) 为简便起见,在不产生混淆的情况下用尺代替s n d ( r ) 。 定义2 1 2 :在信息系统s 中,若p ,q 4 ,则q 的p 正区域p ( q ) 定义为: p o s e ( q ) 5 l j p - ,工芒卅q ( 2 6 ) 定义2 1 3 :决策属性d 对条件属性c 的依赖度为: 啼“d ) _ 等掣 ( 2 7 ) 依赖度,。( d ) 表示在条件属性c 下能够确切划入决策类u d 的对象与u 上全体元素数 一8 一 查! ! 垄芏堡主鲎堡堡查 苎三! 垫堂叁墨堕兰生旦 目的比率,表达了决策属性对条件属性的依赖程度,显然,o k 1 。 c j 。d 表示d 在k 度上依赖于c 。若k = l ,d 完全依赖于c ;若0 k 1 ,d 粮 略地( 部分地) 依赖于c ;如果k = 0 ,d 完全不依赖于c 。若c 。d ,则可以写作c jd 。 可以证明,c j d 当且仅当i n d ( c ) j i n d ( d ) ,此时,e o s c ( o ) = u 。 依赖性c 。d 的量度k 并不能表明这种依赖性实际在v l d 类间是如何分布 的。如:有些决策类可由c 完全表征,有些决策类只有部分表征,因此需一个系 数值托( 耻篙,其中肌叩。 针对某一具体问题,各属性的重要性是不同的。为了检查某个属性的重要性,从表 中去掉这个属性后来看分类是否变化。如果去掉该属性分类发生了显著变化,则这个属 性的重要性是大的,否则是小的。 对于属性集d 导出的分类,属性集c 亡c 相对于由属性c 引起的分类的重要性测 度可表示为:厂c 倒如c 到,测度值越大,c 钓重要性越高。 定义2 1 4 :设u 为一个论域,p ,q 为u 上的两个等价关系( 即知识) 。设p ,q 在u 上导出的划分分别为卫e 胎 蜀,x :,以) ,y = z ,e ,名) ,则 p ,q 在u 的子集组成的盯一代数上定义的概率分布为: 酬= 基:,i 麓) 亿s , 瞵印卜l p 凶j & :) t p 泌) j q 。8 ) 瞰小麓a 2o 匕) , 眵印卜) p ( e ) t 赢) j q 。9 其恸鳓= 斜,i 1 ,2 ,n - p ( 驴科一1 1 2 ,一符即| 表示 集合的基数。 定义2 1 5 :知识p 的熵用矽: 厝( p ) = 一p ( 五) l o g p ( 置) ( 2 1 0 ) 信息熵h ( p ) 表征了变量p 的随机性。只有当随机变量是一确知量时,熵才等于零。 定义2 1 6 :知识q 相对于知识p 的条件熵h ( q i p ) : h ( q i p ) = - z p ) p ( t 墨) l o g 孵l 五) ( 2 1 1 ) 东北大学硕士学位论文 第二章粗糙集理论与应用 信息熵h ( q i p ) 知识9 相对于知识p 的随机性。 2 2 粗糙集数据处理方法 2 2 1 约简的基本概念 定义2 1 7 :属性的约简与属性的核:一中所有必需的属性的集合称为爿的核( c o r e ) , 表示为c o r e ( a ) 。核是所有约简的交集,即c o r e ( a ) = nr e d ( a ) ,其中r e d ( a ) 是a 的 所有约简构成的族。 核的用途有: ( 1 ) 因为核包含在所有的约简之中,所以可作为所有约简的计算基础; 犯) 可解释为当属性约简时,它是不能消去的重要属性的集合。 定义2 1 8 :属性的相对约简:令c ,d a 是信息系统s 中的两个属性集,c c , 若p o s c ( d ) _ p n 靶 。 ( d ) ,则称c 在c 中相对于d 是可省去的,或称为d 可省去的,否 则称c 在c 中相对于d 是必需的,或称d 必需的。如果所有的c c 在c 中相对于d 是必需的,则称c 相对于d 是无关的,否则c 相对于d 是相关的。 定义2 1 9 :属性的相对核:c 中所有相对于d 必需的属性的集合称为属性集c 相 对d 的核,或称c 的d 核,表示为: c o r e o ( c ) 2 c cip o s c ( d ) p o s c f 。) ( d ) ( 2 1 2 ) 设b c c ,若b 相对于d 无关且p o s c ( d ) = p o s b ( d ) ,则称b 是c 的相对于d 的约 简,或称b 是c 的d 约简。 定义2 2 0 :范畴约简的定义为:令严 搦,尼,焉) 为一集合族,蜀u , 如果n ( b 蜀) ) 一n f ,称蜀为f 中可省略的,反之置是f 中不可省略的。对于族gc f , 当g 中所有分量都不可省略时,则g 为独立的,反之,g 是依赖的。所有不可省略的 最小子集都称为f 的约简,简化集族的交集称为f 的核,记为c o r e ( f ) ,即c o r e ( f ) 2 n r e d ( f ) 。 该定义与属性约简定义的区别仅在于:这里处理的是集合,是输入信息模块,不是 属性。 定义2 2 1 :范畴的相对约简与相对核:令f = 墨:彳2 ,_ 0 ) 为一集合族,五u , 且子集y u ,使得n f y ,且n ( f 一 x ,) ) c y ,称五为f 中】,可省略的,反之, 是f 中y 不可省略的。对于族g f ,当g 中所有分量都是y 不可省略时,则g 为y 独立的,反之,g 是y 依赖的。所有f 中r 不可省略的最小子集都称为f 的y 约简。f 中所有王,不可省略集的族,即相对简化族r e d ,( ,) 的交集称为f 的y 核,记为 一】0 一 东北大学硕士学位论文 第二章粗糙集理论与应用 c o r e ,( f ) ,同理有c o r e r ( f ) = n r e d y ( f ) 。 2 2 2 规则的准确度和覆盖度 定义2 2 2 :决策规则蜥:五一巧,巧n 疋p 的准确度即: r ( f ,力2 | 巧n 五l ,o r ( i ,j ) 1( 2 1 3 ) 当r ( i ,d = i 时,啊是确定的;当0 r ( i ,力 1 时,协是不确定的。 显而易见,准确度r ( f ,力表示在满足规则石一巧前件的1 个对象中,只有r ( f ,) + 瞄1 个对象满足x i y i 。换言之,规则的准确度描述了当规则的前件成立时,规则后件成立 的可能性,当准确度小于1 时,说明在满足规则的条件时,将有多个可能的结论,因此, 它反映了规则的不一致性。 定义2 2 3 :决策规则:置一巧,巧n 庐的覆盖度定义为: s ( f ,力2i 巧n i “巧i ,o s ( i ,d l( 2 1 4 ) s ( f ,) 描述了同时满足规则的条件和结论的数据对象在满足规则后件中的数据对象 中所占的比例。若规则的覆盖度太小,说明只有少数的数据对象同时满足规则的前件和 后件,规则的条件和结论之间的因果关系缺乏足够的数据支持,每一条规则本身是精确 的,不矛盾的,但此时规则的前件是充分的,而不是必要的,规则对数据的代表性还不 够,从而表现出一定的随机性。当这种随机性过大时,则其对新的数据对象的预测能力 会大大下降。在极端的情况下,每个规则仅仅代表数据表中的一个数据对象,这种规则 显然很难适用于新的数据对象上。 例如,在如图2 2 所示的情形中,假定决策属性等价类为乃,玛,则可以分析如下: 图2 2 粗糙决策规则的准确度和覆盖度 f i g 2 2d e g r e eo f n i c e t ya n dc o v e r t s ( 1 ) 规则局_ 墨和玛啼艺:低准确度,低覆盖度,因为对于相同的x 墨,结论 可能是y e x 或者y e ,准确度很低;同时,i z ,n y , i 比陌i 也小的多,所以覆盖度也很 低: 东北大学硕士学位论文 第二章粗糙集理论与应用 f 2 、x - 斗x :准确度和覆盖度均比较高; ( 3 ) x 2 寸誓:高准确度,低覆盖度; ( 4 ) x 4 斗x :低准确度,高覆盖度。 因此,规则x - - + i 是在分析中希望得到的规则。 从以上分析可知,粗糙规则的不确定性由两部分构成:不一致性和随机性,规则的 准确度主要是对决策规则和数据信息中的一致性进行评价;规则的覆盖度则主要是对决 策规则和数据信息中的随机性进行评价。在获取规则知识时,一般希望能够在准确度和 随机性两个方面均获得较好的性能。 2 2 3 规则获取 下面介绍用分明矩阵和分明函数进行规则获取的方法【1 2 】: 设s = ( u ,爿) 是一个信息系统,并置a = a l ,a 2 ,a m ) ,我们利用m 表示n n 阶矩阵( 嘲,称它为s 的分明矩阵,使得 。f = = a e a :4 ( “f ) 口( u 3 “f ,u i eu a i ,_ 1 ,, r l ( 2 1 5 ) 直观地解释,一个输入c l 是由所有那些能分明个体和的属性组成。因为j j l i 是对 称的并且对f _ 1 ,2 ,“驴,所以我们只利用下三角形部分表示心两。 由于任一分明矩阵m ,我们都可以用下面的方法唯一地确定一个分明函数厶: 一个信息系统的分明函数拥有m 个命题变量口,毋,其中a t e a ,i = l ,m 。 它的表达形式被定义为全体表达式v c u 式的合取,其中v c f 是所有q 中元素的析取,其 中l 了 d e s ( y j ) ,xn x i 中 ( 3 1 ) 规则决策正确度: 啡,j ) 。i y j n x il | x ii ,0 r ( i j ) 1 ( 3 2 ) 规则决策覆盖度: s ( i ,j ) 2i y j n x i1 月y jl ,o ( s o ,j ) l ( 3 3 ) 当r ( i ,j ) = 1 时,r i j 是确定的;当0 e l ( 第1 行)a lc 2 - - ) e 2 ( 第5 行) 。 得核值表: 表3 2 范畴约简后决策表 t a b l e3 2d e c i s i o nt a b l ea f t e rv a l u er e d u c i n g ( 3 ) 表3 2 中可以看住,在第e i 和e 2 类决策中,每一个决策的核值和集合是简化的 因为下面规则为真:a ld 2 - - e 1 a ld 3 - - e l a 3 - - e 2 。 对于第c 3 和e 4 类决策,核值不能形成值约简,因为下面规则不相容: d l - - ) e 3 ( 第5 行) c 4 - - e 4 ( 第7 行) c 2 - - ) c a ( 第6 行) 一e 4 ( 第4 行) 因此,得到最快融合算法为: a 1d 2v a ld 3 专e l a 3 。 e 2 c 2d lv a 4 c 2va l d l 专e 4 c 4 。e 4 2 5 ;2 2 3 3 4 4 2 3 一 一 , 一 一 一 2 3 4 5 6 7 8 东北大学硕士学位论文 第四章k d p 平台的设计与应用 第四章k d p 平台的设计及应用 粗糙集理论对知识进行了形式化定义,为知识处理提供了一套严密的分析工具,粗 糙集理论中所有的概念和运算都是通过代数学的等价关系和集合运算来定义的,我们称 之为粗糙集理论的代数表示。在代数表示下,粗糙集理论的很多概念与运算的直观性较 差,人们不容易理解其本质。另外,在此表示下,目前还没有关于知识约简的高效算法。 系统的总体设计主要分为两个部分,即系统的功能设计和系统界面结构的设计。 4 1k d p 应用平台的功能设计 本k d p 系统主界面设计【2 0 】为:用户参数设定、待处理决策表文件读入、功 能执行、结果显示等四个主要功能区,如图4 1 。 图4 1k d p 系统主界面 f i b 4 1i n t e r f a c eo f k d p 粗糙集理论所有的概念和计算都是以不可分辨关系( 一种等价关系) 为基础,通过 引入上近似集和下近似集,在集合运算上定义的。这通常称为粗糙集理论的代数观点。 另外,也有一些学者从信息论的观点对粗糙集理论进行研究,以信息熵为基础提出了相 一2 6 东北大学硕士学位论支 第四章k d p 平台的设计与应用 应的粗糙集理论的信息论观点。在以往的研究中,许多学者分别从代数的观点和信息论 的观点来研究基于粗糙集理论的信息系统约简问题,分别提出了很多有效的约简算法。 在有的算法研究中,甚至将这两种观点下的概念和定义互相引用。在所有以前的研究中, 大家无不认为这两种观点是等价的,所以认为这两种观点下得到的约简结果也是等价 的,概念也可以相互直接引用。但是,我们经过认真研究这两种观点中定义的粗糙集理 论,发现这两种观点不一定是等价的,即:在相容信息系统中,粗糙集理论的代数观点 和信息论观点是等价的:在不相容信息系统中,粗糙集理论的代数观点和信息论观点是 不等价的【2 l j 。 例如想处理一个“异或”逻辑的具有两个条件属性和一个决策属性及四个对象的决 策表。事先把4 行,3 列且最后一列是决策属性的数值矩阵放在路径和名称为d : i 姒t l a b 6 p 5 w o r k x a t x t 的文本文件内。 4 1 1r s 函数含义及功能描述 把本开发平台中编写的主要的函数或指令的含义描述如下,并以决策表4 1 为例, 给出函数的运行结果。其中,参数设置为:r o w s = 7 ;c o l u m n s = 5 ;d e c i s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论