




已阅读5页,还剩47页未读, 继续免费阅读
(计算机应用技术专业论文)粗糙集理论及其在烟草品质判别中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
粗糙集理论及其在烟草品质判别中的应用研究 摘要 粗糙集理论是一种新的处理不精确、不确定性信息的理论,近年来已被广 泛应用于机器学习、数据挖掘、智能数据分析等领域。本文从粗糙集理论概念入 手,以粗糙集理论在信息处理中的应用为归宿点,从理论模型到算法实现和实际 应用系统,其中融入了作者读研究生期间该方向所进行的实际研究工作。 第一章对粗糙集理论的国内外研究现状及发展动态进行了介绍。第二章介 绍了粗糙集的基本理论基础,包括知识与分类,信息表知识表达系统,粗糙集的 基本概念,基于粗糙集的知识获取等,这是以后各章内容的基础。第三章在对粗 糙集的粗糙性进行归纳的基础上,基于等价关系和一般二元关系,通过引入粗集 边界熵的概念,利用粗集边界的知识粗糙性和粗集本身的粗糙度刻画粗集粗糙 性,为粗集粗糙性提供了一种更为合理的度量方法,为粗糙集中概念的获取和刻 画提供了理论依据。第四章将变精度粗糙集模型推广到一般二元关系下,讨论了 在一般二元关系下的变精度粗糙规则集及规则的可信度和重要度,并给出了一般 二元关系下变精度粗糙集的规则提取方法,进一步拓广了粗糙集理论的应用范 围。第五章对粗糙模糊集近似算子进行了分析,并讨论了一种新的粗糙模糊集近 似算子表示方法,阐述了其在信息处理中的合理性。第六章结合实际,提出了一 种基于粗集理论的烟草品质判别方法,通过进行实验验证,说明了该判别方法的 有效性,并对试验结果进行了分析说明。第七章对全文进行了总结,并提出下一 步研究方向。 关键词:粗糙集,变精度粗糙集,粗糙模糊集,约简,烟草品质 r o u g hs e t sa n dl t sa p p ii c a t i o n s i ne v a iu a t i o nf o r c i g a r e t t eo u a ii t y a b s tr a c t r o u g hs e t st h e o r yi s an e wm a t h e m a t i c a lt o o lo fd e a l i n gw i t hi m p r e c i s ea n d u n c e r t a i ni n f o r m a t i o n i th a sb e e na p p l i e dt om a n ya r e a si n c l u d i n gm a c h i n el e a r n i n g , d a t am i n i n ga n di n t e l l i g e n td a t aa n a l y s i s t h et h e s i ss t a r t sw i t ht h eb a s i ct h e o r yo f r o u g hs e t sa n de n d sw i t ht h ea p p l i c a t i o no f r o u g hs e t si ni n f o r m a t i o np r o c e s s i n g ,f r o m t h e o r ym o d e lt oa l g o r i t h ma n dp r a c t i c a la p p l i c a t i o ns y s t e m ,w h i c hc o n t a i n st h em a i n r e s e a r c hr e s u l t so ft h ea u t h o r sd u r i n gp o s t g r a d u a t e r e c e n tr e s e a r c h e sa n dd e v e l o p m e n t so nr o u g hs e t st h e o r ya r ed e s c r i b e di nf i r s t c h a p t e r ,a n dt h eb a s i so fr o u g hs e t st h e o r yi s i n t r o d u c e di ns e c o n do n e ,w h i c h i n c l u d i n gk n o w l e d g ea n dc l a s s i f i c a t i o n ,d e c i s i o nt a b l e ,t h eb a s i cc o n c e p to f r o u g hs e t s a n dk n o w l e d g ea c q u i s i t i o nb a s e do nr o u g hs e t st h e o r y i nc h a p t e rt h r e e ,an e wm e t h o do fr o u g h n e s sm e a s u r e m e n tt or o u g hs e ti sd e f i n e d b a s e do ne q u i v a l e n c er e l a t i o na n dg e n e r a lb i n a r yr e l a t i o n t h ec o n c e p to fb o u n d a r y e n t r o p y i sp r e s e n t e dw h i c hd e n o t e db yk n o w l e d g er o u g h n e s so fr o u g hs e tb o u n d a r y , t o g e t h e rw i t hr o u g hd e g r e e ,am o r er e a s o n a b l em e t h o do f m e a s u r i n gt h er o u g h n e s so f r o u 出s e ti si n t r o d u c e dw h i c hp r o v i d e st h e o r e t i cb a s i sf o rc o n c e p ta c q u i s i t i o na n d d e s c r i p t i o ni nr o u g hs e tt h e o r y i nc h a p t e rf o u rv a r i a b l ep r e c i s i o nr o u g hs e tm o d e li se x t e n d e db a s e do ng e n e r a l b i n a r yr e l a t i o n v a r i a b l ep r e c i s i o nr o u g hr u l e ss e t ,r e l i a b i l i t ya n di m p o r t a n c eo f r u l e s a r ed i s c u s s e d a tl a s t ,a na l g o r i t h mo fr u l em i n i n gi sg i v e nb a s e do ng e n e r a lb i n a r y r e l a t i o n a l lt h i sp r o v i d e st h e o r yb a s i sf o rm o r ee x t e n s i v ea p p l i c a t i o n so fv a r i a b l e p r e c i s i o nr o u g h s e tm o d e l i nc h a p t e rf i v e ,t h es h o r t c o m i n go ft r a d i t i o n a lo p e r a t o ro fr o d g hf u z z ys e t si s a n a l y s e d ,t h e nan e wa p p r o x i m a t i o no p e r a t o ro fr o u g hf u z z y s e t si na c c o r d a n c ew i t h t h ed r a w b a c ki sp r o b e d i te l a b o r a t e st h a tt h en e wo p e r a t o ri sr e a s o n a b l ei nd e a l i n g w i t hi n f o r m a t i o na n de x p l a i n st h a tt h en e wm e t h o di se f f i c i e n tb ym e a n so fa r l e x a m p l e i nc h a p t e rs i xa na p p r o a c ht ot h ee v a l u a t i o nf o rc i g a r e t t eq u a l i t yi sp r o p o s e da sa n p r a c t i c a la p p l i c a t i o no fr o u g hs e t st h e o r y t h ee x p e r i m e n t a lr e s u l ts h o w st h a tt h e m e t h o di se f f e c t i v ea n df e a s i b l e i nt h el a s tc h a p t e ras u m m a r yo ft h et h e s i si sm a d ea n dt h ef u r t h e rr e s e a r c h d i r e c t i o n sa r cp u tf o r w a r d k e yw o r d s :r o u g hs e t s ,v a r i a b i ep r e c is i o nr o u g hs e t s ,r o u g hf u z z ys e t s , r e d u c t i o n ,c i g a r e t t eq u a ii t y 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含禾获得l 逵! 翅遗直墓丝盂要挂型壹明 的:奎拦亘窒2 或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文 竺兰立理一 一姐一边一 签字日期o _ 矿j - 月毛归 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并向国家有 关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权学校可以将学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:j 9 签字日期汐辞_ f 钼王扩日 学位论文作者毕业后去向 工作单位: 通讯地址: 新酶丁饩讪 签字日期:衫年r 月, ,日 电话 邮编 辅i 糙集理论及其在烟草品质判别中的应用研究 第一章绪论 1 1 选题背景及其研究意义 1 1 1 选题背景 智能信息处理是当前信息科学理论和应用研究中的一个热点领域。随着过 去几十年中人们在专家系统、知识工程、人工神经网络、模糊集合等众多领域的 不断实践和探索,取得了很多很好的成绩。当今,社会已经进入了网络信息时代, 计算机与网络信息技术的飞速发展使得各个领域的数据和信息急剧增加,并且由 于人类的参与使数据与信息系统中的不确定性更加显著。如何从大量的、复杂无 章的、强干扰的数据( 海量数据) 中挖掘潜在的、 有利用价值的信息,这给人 类的智能信息处理能力提出了前所未有的挑战。虽然已经有很多对数据进行分析 的简单统计技术,但高级的智能数据分析技术还远没有成熟。因此,数据信息的 产生和对它的理解之间的差距越来越大。 粗糙集理论( r o u g hs e t st h e o r y ) 与方法已在这方面开始表现出它的潜力。它 与概率方法、模糊集方法和证据理论方法等其他处理不确定性问题的最显著的区 别是它无需提供问题所需处理的数据集合之外的任何先验信息,并与其他处理不 确定性问题的理论有很强的互补性。 国际上,粗糙集理论己成为信息科学最为活跃的研究领域之一。自1 9 9 2 年 在波兰召开第一届粗集理论国际研讨会以来,已越来越受到各国计算机及相关专 业的学者和科技人员的青睐。我国近年来在此领域的研究发展速度也非常快。 2 0 0 1 年在重庆邮电学院成功召开了“第一届中国r o u g h 集与软计算学术研讨会 ( c r s s c 2 0 0 1 ) ”,随后每年的研讨会在规模和质量上均呈良好的增长趋势。这使 得r o u g h 集理论及应用不断发展和完善。探讨和研究r o u g h 集理论,使它更好 地与其他智能技术结合和互补,尤其是研究在智能信息处理中的应用,使得信息 处理过程更加科学和高效,是非常必要的。 毂l 糙集理论及其在烟草品质判别中的应用研究 1 1 2 研究意义 智能数据分析、处理技术是一个不断发展的技术,目前高级数据分析技术 还远没有成熟,粗糙集理论在信息处理方面表现出的潜力还没有充分挖掘出来, 研究和推广r o u l g h 集理论,搭建科学、快速、高效、准确的信息处理平台,减 少人为因素对信息处理过程的影响,快速低成本地完成信息处理过程,不仅有重 要的理论意义,更有实际的应用价值。 1 2 粗糙集理论国内外研究现状及发展趋势 粗糙集( r o u g hs e t s ,r s ) t 里论是八十年代初由波兰数学家z p a w l a k 首先提 出的一个分析数据的理论1 1 ,2 1 。由于最初的研究是用波兰文发表的,因此,这项 研究当时并未引起国际学术界的重视,研究地域也只局限在东欧各国。 到了八十年代末,这个理论引起了世界各国学者的关注。从1 9 9 2 年至今, 每年都召开以r o u g hs e t s 为主题的国际会议,国际上成立了粗糙集学术研究会, 并在i n t e m e t 上定期发布电子公告,加速了粗糙集理论的发展与交流。由于粗糙 集理论能够分析处理不精确、不一致和不完备信息,因此作为一种具有极大潜力 和有效的知识获取工具受到了人工智能工作者的广泛关注。目前,对应粗糙集概 念,发展了粗糙代数、粗糙逻辑等,并与其他有关理论( 如模糊集、证据理论) 的关系也得到了研究和阐明,明确了粗糙集在数学上的独立地位。近年来,粗糙 集不但在数学理论上得到不断完善,而且在其他研究领域,如在机器学习、过程 控制和数据库知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 等领域,也得 到了成功的应用引。 目前,对粗糙集理论研究主要集中在粗糙集拓广、粗糙集理论中的度量、 与其他不确定方法的关系和互补、知识不确定性对粗糙集粗糙性的影响,以及有 效算法等方面。 在粗糙集拓广方面的研究主要涉及变精度粗糙集模型、模糊粗糙集模型与 粗糙模糊集模型、不完备信息系统下的粗糙集模型,以及对连续属性的离散化等 等f 13 - 2 7 。 在粗糙集理论中的度量方面主要研究粗糙集数据分析中的度量、知识的不 粗糙集理论及其在烟草品质判别中的应用研究 确定性度量,以及粗糙集与粗糙关系数据库的信息度量等p ,1 9 , 2 8 。3 们。 在粗糙集理论与其他处理模糊性或不确定性方法之间关系的研究中,主要 讨论它与模糊集理论和d e m p s t e r s h a f e r 证据理论的关系与互补3 1 - 3 3 】。另外,同 信息理论中的信息熵的结合以及与神经网络的结合进行规则提取的研究也是非 常热门的课题 3 4 4 2 1 。 在粗糙集有效算法方面的研究,主要集中于抽取最优决策规则算法、约简 的启发式算法、最小属性约简算法等等【4 3 5 ”。 粗糙集理论的生命力在于它具有非常强的实用性,从诞生到现在的短短二 十几年时间,已经在许多领域取得了令人鼓舞的成果。例如: ( 1 ) 在股票数据分析方面,文e 5 2 应用粗糙集方法分析了十年间股票的历史 数据,研究了股票价格与经济指数之间的依赖关系,获得的预测规则得到了华尔 街证券交易专家的认可。文 5 4 1 利用模糊粗糙原理预测股票价格,收到了很好的 效果。 ( 2 ) 在医疗诊断方面,粗糙集方法根据以往的病历归纳出诊断规则,用来指 导新的病历。现有的人工预测早产的准确率只有1 7 3 8 ,利用粗糙集理论则 可提高到6 8 一9 0 “。 ( 3 ) 在模式识别方面的典型应用,文 5 3 应用粗糙集方法研究了手写字符识 别问题,提取了特征属性。 ( 4 ) 在决策分析方面,文 4 6 1 应用粗糙集方法进行规则约简,并通过- - i 中n 发式算法获得最简规则,弥补了常规决策方法的不足。希腊工业发展银行e t e v a 应用粗糙集理论协助制定信贷政策,是粗糙集多准则决策方法的一个成功范例 5 5 1 。 ( 5 ) 在专家系统方面,文 5 7 利用粗糙集抽取规则,从而为构造专家系统知 识库提供了一条崭新的途径。文 s s l n 过构建粗糙神经专家系统改善了传统专家 系统的推理过程。 ( 6 ) 在人工神经网络方面,为了克服训练时间过于漫长的固有缺点,文 5 2 应用粗糙集约简神经网络训练样本数据集,使训练速度提高了4 7 7 倍,获得了 较好的效果。文 4 5 ,5 6 :l g * r 糙集与神经网络结合起来,充分利用粗糙集处理不 确定性的特长增强神经网络的信息处理能力。 粗糙集理论及其在烟草品质判别中的应用研究 ( 7 ) 在粗糙控制方面,粗糙集根据观测数据获得控制策略的方法被称为从范 例中学习,属于智能控制的范畴。基本步骤是:把控制过程中的一些代表性的状 态以及操作人员在这些状态下所采取的控制策略都记录下来,形成决策表,然后 对其分析约简,总结出控制规则。在过程控制领域,粗糙控制的优点是简单迅速、 实现容易,不需要象模糊控制那样进行模糊化。因此在特别要求控制器结构与算 法简单的场合,采取粗糙控制较为合适。另外,由于控制算法完全来自观测数据 本身,其决策和推理过程可以很容易被检验和证实。一种新的有吸引力的控制策 略模糊一粗糙控制也在悄然兴起,其主要思想是利用粗糙集获取模糊控制规则。 ( 8 ) 在数据库知识发现方面,k d d 是当前人工智能和数据库技术交叉学科的 研究热点之一。粗糙集方法现已成为k d d 的一种重要方法,其导出的知识精练 且便于存储和使用。 虽然粗糙集理论至今只有二十几年的发展历史,但它所取得的研究成果是 令人瞩目的。它是一种非常有前途的软计算方法,为处理不确定信息提供了强有 力的分析手段 5 9 - 6 1 。我们相信粗糙集理论具有广阔的发展空间,今后会在更多的 实际领域中发挥作用。 粗糙集理论仍是一个处在发展中的学科,是目前最具有挑战性的领域之一。 目前主要的研究方向及应用领域包括: ( 1 ) 快速、高效的约简算法。约简算法是粗糙集知识发现的基础,虽然目前 提出的诸如:处理新增数据的增量算法,提高处理速度的并行算法等,但还没有 一种真正十分有效的约简算法。 ( 2 ) 基于粗糙集理论的粗糙逻辑以及不精确推理的研究。该项研究不仅对于 知识的挖掘和表示,而且对于人工智能中的不确定性推理将发挥重要作用。 ( 3 ) 粗糙集w e b 知识发现问题。随着i n t e m e t 的迅速发展,w e b 页面的增加, 利用粗糙集进行知识发现将是今后最重要的课题之一。 ( 4 ) 与模糊集方法等其他方法的结合问题。目前有很多知识发现方法,粗糙 集如何与其他方法结合,可能是提高知识发现效率的一种途径。 ( 5 ) r s 拓广方面:如r s 的代数与拓扑结构,涉及粗糙集模型的推广,另外, 建立粗糙逻辑被不少逻辑学家和理论计算机科学家认为是基于r s 的不精确推理 的基础;还有性能评估等问题。 j :h 糙集理论及其= i ! i = 烟草品质判别中的应用研究 ( 6 ) 模糊与随机环境下的粗糙集理论与知识获取问题。 1 3 论文主要研究内容 本文以粗糙集理论在信息处理中的应用为归宿点,从粗糙集理论概念入手, 从理论模型到算法实现和实际应用系统,其中融入了作者读研究生期间该方向所 进行的实际研究工作。 第一章对租糙集理论的国内外研究现状及发展动态进行了介绍。第二章介绍 了粗糙集的基本理论基础,包括知识与分类,信息表知识表达系统,粗糙集的基 本概念,基于粗糙集的知识获取等,这是以后各章内容的基础。第三章在对粗糙 集的粗糙性进行归纳的基础上,提出了一种新的粗集粗糙性度量方法。第四章提 出了一般二元关系下的变精度粗糙集模型及其规则提取方法,在理论模型和规则 算法方面对粗糙集进行了理论扩展。第五章对粗糙模糊集上下近似算子进行了分 析,并讨论了一种新的粗糙模糊集近似算子表示方法,阐述了其在信息处理中的 合理性。第六章结合实际应用,提出一种基于粗集理论的烟草品质判别方法,通 过实验验证,说明了该方法的有效性和可行性,并对试验结果进行了分析说明。 第七章对全文进行了总结,并提出下一步研究方向。 粗糙集理论及其在烟草品质判别中的应用研究 2 _ 1决策表 2 1 1 知识与知识库 第二章粗糙集理论基础 设u 为论域,对于任何子集x u ,称为一个u 中的概念或范畴。u 中的 任何概念族称为关于u 的抽象知识,简称知识【5 9 】。它代表了对u 中个体的分类。 设r 为u 上的一个等价关系,u i r 表示r 的所有等价类构成的集合。【x 。表示 包含元素x 的r 等价类。一个知识库就是一个关系系统k = ( u ,r ) ,其中u 为论 域,r 是u 上的一族等价关系。 2 1 2 信息表知识表达系统 信息表知识表达系统的基本成分是研究对象的集合,关于这些对象的知识 是通过指定对象的属性( 特征) 和它们的属性值( 特征值) 来描述的。一般地, 一个信息表知识表达系统s 可以表示为s = 。其中,u 为论域,r 是 属性集合,子集c 和d 分别称为条件属性集和决策属性集,v = u 旷是属性值的 r e r 集合,一表示属性r r 的属性值范围,即属性r 的值域, :u r j v 是一个 信息函数,它指定u 中每一个对象x 的属性值。 为了直观方便,u 也可以写成一个二维表格,纵轴表示实例标记,横轴表 示实例属性,实例标记与属性的交汇点就是这个实例在这个属性的值。这个表就 称为信息表。 2 1 3 决策表 决策表是一类特殊而重要的知识表达系统,也是一种特殊的信息表,它表 示当满足某些条件时,决策( 行为、操作、控制) 应当如何进行【6 i 】。定义如下: 耵i 糙集理论及其在烟草品质判别中的应用研究 定义2 1 一个决策表是一+ 4 - g 息表知识表达系统s = r = c u d 是属性集合,子集c 和d 分别称为条件属性集和决策属性集,d 。 一个决策表中的决策属性有时是唯一的,称为单一决策;有时是不唯一的, 称为多决策。对于具有多个决策属性的决策表,通常转化为单一决策表来处理, 这有利于问题的简化和求解。 2 2 粗糙集的基本概念 令x u ,r 为u 上的一个等价关系,当x 能用某些r 基本范畴的并来表 达时,称x 是尺可定义的;否则称是r 不可定义的。月可定义集也称作r 精 确集,r 不可定义集称作r 非精确集或尺粗糙集( r o u g hs e t s ) 6 0 1 。 对于月粗糙集,用两个上近似集和下近似集( 均为精确集) 来描述: 旦( ) = u z u ri x ) 公式2 - 1 - r ( x ) = u 亿u r 1 l n j ) 公式2 - 2 星( ) 和r ( x ) 分别称为z 的r 下近似集和r 上近似集。墨( x ) 是根据知识 r ,【,中所有一定属于x 的元素的集合,r ( x ) 是根据知识r ,u 中可能属于x 的元素的集合。集合如。( x ) = r ( ) 一墨( x ) 称为x 的r 边界;p o s 。( x ) = 墨( ) 称 为x 的尺正域:n e g 。( x ) = u 堡( x ) 称为的j r 负域。 2 3 粗糙集理论的特点 粗糙集理论的特点是:( 1 ) 无需提供除问题所需处理的数据集合之外的任 f = - i 先验信息( 比如统计学所必需的概率分布,d e m p s t e r s h a f e r 证据理论所基于的 基本概率赋值,模糊集理论中隶属度等) 。( 2 ) 它本身是一个强有力的数据分析工 具。它能表达和处理不完备信息,能在保留关键信息的前提下对数据进行约简并 求得最小表达,能识别并评估数据之间的依赖关系,能从经验数据中获取易于证 实的规则知识等。( 3 ) 与已知的模糊集工具形成互补。粗糙集和模糊集分别刻画 了不完备信息的两个方面:粗糙集以不可区分关系为基础,侧重分类,模糊集基 粗糙集理论及其在烟草品质判别中的应用研究 于元素对集合隶属程度的不同,强调集合本身的含混性。从粗糙集的观点看,粗 糙集合不能清晰定义的原因是缺乏足够的论域知识,但可以用一对清晰集合逼 近。( 4 ) 粗糙集是一种软计算方法。软计算的指导原则是利用所允许的不精确、 不确定性和部分真实性以得到易于处理、鲁棒性强和成本较低的解决方案,以便 更好地与现实系统相协调。 2 4 基于粗糙集的知识获取 粗糙集理论支持知识获取的多个步骤,比如数据预处理、数据约简、规则 生成、数据依赖关系获取等。基于粗糙集理论的知识获取,最主要的是通过对原 始决策表的约简,在保持决策表决策属性和条件属性之间依赖关系不发生变化的 前提下对决策表进行简化,包括属性约简和值约简。 2 4 1 知识的依赖性 设k = ( u ,r ) 为知识库,且p ,q r ,k = r p ( q ) = c a r d ( p o s ,( q ) ) c a r d ( u ) , 称知识q 是k 度可导的( 0 k 1 ) ,或称知识q 是k 度依赖于知识p 的,记作 p j 。o 。依赖性表示了每个u i q 类的元素可以怎样通过知识p 分类的。 2 4 2 属性重要性 对于属性集d 导出的分类,属性子集b b 的重要性可用两者依赖程度的 差来量度,定义为 r b ( d ) 一r b 、口( d ) 。 公式2 3 它表示了当从集合口中去掉某些属性子集b 后对对象进行分类时,分类 ud 的正域将会受到怎样的影响。 属性重要性可以有多种度量方法,如也可以用r b 。( d ) 和( d ) 之商的形式 来表达。在第六章烟草品质判别中我们采用了知识的条件信息量来度量属性重要 性。 j ! u 糙集理论及其谯烟草品质判别中的应用研究 2 4 3 决策表属性约简和核 在粗糙集理论中,知识被认为是一种对对象的分类能力。求解属性约简的 目的是用约简后的属性集对决策表进行模式分类。 设p 和q 是论域u 上的等价关系,r p 。若p o s ,( q ) = p o s ( 尸 ( q ) ,则称 关系r 为p 中相对于o 是可省略的( 多余的) ,简称p 中o 可可省略的;否则, 称r 为p 中相对于q 不可省略的( 必要的) 。若j d 中的每个,都是p 中q 可省略的, 则称p 为( 相对于) q 独立的。p 的所有q 不可省略原始关系集合称为p 的q 核, 记为c o r e 。( 尸) 。即 c o r e o ( p ) = p p :p o s p ( q ) p o s n ( q ) 。 若p 的q 独立子集s c p 有p o s ,( q ) = p o s 。( q ) ,则称s 为p 的o 约简,并 记p 的所有q 约简为r e d 口( j d ) 。约简s 是保留了p 的分类能力的最小属性集合。 2 4 4 决策表值约简 值约简是在属性约简的基础上对决策表的进步简化。经过属性约简的决 策表,可以获得一些决策规则,规则的前件是由约简后条件属性的并所组成,规 则后件则是由决策属性组成。但是属性约简只是在定程度上去掉了决策表中的 冗余属性,但没有充分去掉决策表中的冗余信息。经过值约简处理后所得到的规 则集合中的所有规则都不含有冗余条件属性,亦即规则的条件属性数目被尽可能 的减少了。 粗糙集理论及其在烟草品质判别中的应用研究 第三章一种新的粗集粗糙性度量方法 粗糙集理论为研究不确定知识和数据的表达、学习、归纳提供了一种重要 理论方法。信息熵是事件不确定性程度的度量。近年来,许多专家、学者探讨了 知识粗糙性、粗集粗糙性与信息熵之间的关系 5 , 4 0 - 4 2 , 5 0 , 6 2 ,为粗集理论中知识粗 糙性和粗集粗糙性提供了一种信息解释。 本章比较了现有的粗集粗糙性的几种度量,针对其不足提出了粗集边界熵 概念,它能更确切地描述粗集粗糙性。该方法分别基于等价关系和一般二元关系, 从粗集本身的粗糙度以及边界的知识粒度出发定义粗集的粗糙性,为粗集粗糙性 提供了一种更为合理的度量方法【8 3 】。 3 1 预备知识 定义3 1 4 0 设s = 口,4 ) 是一个信息系统,p a ,u i p = l ,一,x 。) 则知识p 的熵为:( p ) = 一喜p ( z ) 1 0 9 尸( 以) 其中,p ( 五) = 斜,f = 1 ,n ;符 1 2 ll 。l 号j x i 表示集合确基数。 定义3 2 设s = ,爿) 是一个信息系统,p a ,u i p = 1 ,一,x 。) 定义知识p 的粗糙熵为s a p ) = p ( x , ) l o g l x , i 。其中e ( x a i x ,降义同上。 i = 1 3 2 等价关系下粗集粗糙性的度量 关于粗集的粗糙性,很多学者提出了自己的见解。设s = ( u ,a ) 是一个信息 系统,x u ,p a 。文 5 7 定义了集合x 的p 粗糙度为:p p ( ) = 1 一口,( x ) a 舯州耻矧舭关于蹦训黼庞集粗黻腚义在吱程度上说 明了集合的不确定程度,但是没有考虑到知识粗糙性( 知识粒度) 对粗集不 粗糙集理论及其在烟草品质判别中的应用研究 确定性的影响。文 6 2 指出了粗糙度度量定义的不足,利用信息熵的变形形式给 出了粗集粗糙性更为精确的度量方法: 定义3 3 设s = ( u ,a ) 是一个信息系统,u ,p a ,u i p = x l ,一,x 。) , 粗集关于知识p 的粗糙熵定义如下: e ,( ) = 肼( x ) e ,( j p ) 公式3 1 其中p e ( ) 为集合x 的粗糙度,( p ) = p ( x ,) l o g x ,l 为知识p 的粗糙熵。此 i = 1 公式表明粗糙集的粗糙熵随着信息粒度的变小而单调减少。李玉榕4 ”等将集合 x 的粗糙熵定义为粗糙度与知识粗糙熵之和的形式: 定义3 4 设s = ( u ,a ) 是一个信息系统,x u ,p a ,u l p = x l 一,x 。) , 定义集合x 的粗糙熵为 e ,( x ) = p ,( x ) + e ,( p ) 公式3 2 p ,( x ) ,e ,( j d ) 含义同上。由此得出了集合粗糙熵随着边界区域的不确定性和知 识粗糙性的增加而增加的结论。 以上结论从粗糙度和知识粗糙熵方面很好地刻画了粗集的粗糙性,弥补了单 纯从粗糙度方面测量的不足。但遗憾的是没能充分考虑到粗集x 边界的知识粒 度。粗集的不确定性是由于粗集x 的边界不确定性引起的【6 0 1 。粗集x 的边界越 大,其确定性程度就越小。如果一个粗糙集不存在边界,则它就变为普通的精确 集。因此考察粗集x 的粗糙性,关键应考虑其边界。知识粗糙熵刻画了知识粒 度的大小,但它是一种平均化的结果。如果某一区域知识粒度很小,而集合的 边界区域粒度较大,在这种情况下,若按公式3 1 、3 2 计算集合x 的粗糙熵,所 得结果可能为一较小值,即意味着集合x 的粗糙性较小,但实际上集合x 的粗 糙性较大。因此有必要寻求一种更为确切的方法来衡量粗集粗糙性。基于以上分 析,本章引入一种新的粗集粗糙熵定义。 定义3 5 设s = ( u ,a ) 是一个信息系统,x u ,p a ,u l p = x 一,。) , b n ,( ) = ( ) 一( ) 为x 的p 边界。记此边界被p 导出的划分为: b n ,( ) i p = b l ,b 。, ,i ) ! , l j b n ,( x ) l p u l p 。定义x 的p 边界熵如下: 粗糙集理论及i e 在烟革品质判别中的应用研究 岛( j d ) = p ( b ,) l o g b 公式3 3 其中,尸( e ) = 斟,符号1 b l 表示集合口的基数。上式反映了集合边界的知识 粒度的粗糙程度。 定义3 6 设s = ( u ,爿) 是一个信息系统,x u ,p a ,u i p = x l ,x 。) , 定义集合x 的粗糙熵如下: e ,( ) = p p ( x ) e 。( d 公式3 4 纬( j ) = 1 一刿i p ( x ) i 为集合j 的粗糙度,e 。( 即为z 的p 边界熵。 公式3 - 4 不仅兼顾了集合本身的粗糙度,而且充分考虑了集合鼻边界的 知识粒度对其粗糙性的影响。 例1 设信息系统s = 缈,爿) ,p ,q 量a , up = ( x 。,x :) ,( 工,z ,) ,( 工。,) ) , uq = ( z 。) ,( x :) ,( x ,x ,) ,( x 。,x 。) ) ,x = 扛。,z ;,x 。) 。 显然,粗集z 在j p 和q 下具有相同的粗糙度p p ( ) = 岛( ) = l ,2 ,并且其边 界砌,( ) = p ( 一! ( z ) 2 k ,屯) = b n 口( 彳) = 百( 石) 一望( ) ,即在p 和q 下具有相 同的边界,此边界在p 和q 下导出的划分为:b n ,( 并) 1 p = ( 屯,) ) = b n 。( x ) i q 。 现分别用公式3 - 1 、3 - 2 、3 - 4 求取粗集x 在p 和q 下的粗糙熵。在知识p 下,用 公式s _ 计算得e ( x ) = 圭( 詈。s :z + 詈l o g :2 + 詈。s :z ) = 三;公式,一z 计算得 t ( z ) = 主;公式3 - 4 计算得e ,( ) = 丢陪1 。g :2 = i 1 在知识q 下,计算结果 分别为1 3 ;i 7 :三6 。公式3 - 1 、3 2 计算结果表明,在知识q 下,粗集x 的粗糙 熵比在p 下变小了,这是出于知识q 相对尸较细,使得q 下知识粒度平均较小, 用此较小的平均值去度量粗集x ,必然引起x 粗糙熵的变化。而实际上x 的粗 糙性是不变的,因为其边界并没有改变。新定义的公式3 - 4 从信息熵角度币好地 相糙集理论及j e 在烟草品质判别中的应用研究 描述了粗集边界的知识粒度与粗集粗糙性的本质关系。 3 3 基于一般二元关系的粗集粗糙性的度量 等价关系下集合的边界熵和粗糙熵也可推广n - 般二元关系下。在一般二元 关系下,论域中集合边界元素的邻域大小反映了边界知识粒度的大小,从而 反映了边界的粗糙性程度,而知识粒度的大小用论域中任一元素在一般二元关系 构成的所有元素的邻域中出现的次数来刻画。由此提出一般二元关系下集合的边 界熵,并由集合的粗糙度和边界熵来共同刻画集合的粗糙熵。 定义3 1 设信,e 系a s = ( u ,一) ,量u 2 ( z 。,2 ,如【) ,p a ,月p 表 示在知识p 下的邻域算子,n ,( _ ) 表示在p 下j 的一般二元关系邻域, t ,( _ ) ,i = 1 , 2 ,juj 。j p ( 丘) = j ij 月,( _ ) 椰为集合x 的下近似, p ( x ) = x ih ,( 一) n x 为集合x 的上近似。b n ,( ) = p ( x ) 一p ( x 。) 为一 般二元关系下集合x 的边界,即b n ,( ) = “ln ,( x ,) n x 4 r n ,( j i ) 旺x ) , i = 1 , 2 ,l u l ,显然,砌,( ) 呈u 。定义集合x u 在知识尸下的边界熵如下: 蹦嘲2 高。磊炒小 公式3 - s 其中,lj ,= i 伽,( x 川j 。,( x ,) ,x ,b n ,( ) ) i ,为x i 在所有元
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年机务防寒考试题库及答案
- 高空作业工程施工合同(3篇)
- 安徽滁州辅警笔试题目及答案
- 文化旅游项目土地征用及文化保护协议范本
- 高效节能个人鱼塘承包管理合同
- 高端单位职工食堂承包与餐饮品牌形象打造合同
- 语言教育政策与全球化的影响-洞察及研究
- 2025至2030中国药用香料行业发展趋势分析与未来投资战略咨询研究报告
- 大学班委述职报告演讲
- 2025至2030中国航空煤油行业项目调研及市场前景预测评估报告
- 云南省三校生语文课件
- 园艺产品的主要贮藏方法与原理课件
- 质量改进培训-课件
- 社会及其构成要素
- 环境风险评价(共84张)课件
- 函数极限说课
- 农业经济学ppt全套教学课件
- 果蔬贮藏保鲜概论:第五章 采收与采后商品化处理(第2节 分级 Sorting)
- 弱电桥架安装及电缆敷设施工方案(PPT)
- FQFNew8.0+供应商自审表格使用手册
- 人教版部编三年级上册道德与法治一课一练(含答案)
评论
0/150
提交评论