（计算机软件与理论专业论文）基于粗糙集的并行约简研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：73 大小：2.24MB 积分：0 举报 版权申诉

已阅读5页，还剩68页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

暑鼍究粗糙集理论是数据挖掘的重要工具，也是粒计算理论的一个重要分支。经典粗糙集是由波兰学者p a w l a k 于上世纪8 0 年代提出来的。粗糙集理论通过对象间的不可区分关系( 等价关系) ，为不完全和不充分信息的处理提供了一套系统的方法。当前粗糙集理论已经成为计算机科学、信息科学、人工智能等领域的研究热点。知识约简是粗糙集理论的重要应用，也是其核心问题之一。知识约简是指在不改变整个数据集的分类能力的情况下，消去信息系统或者决策表中的冗余。由于数据集本身的复杂性和传统约简方法的局限，在处理海量数据时，粗糙集理论没有体现出它应有的活力。许多学者在知识约简方法的改进上做了大量的探索。例如并行约简的概念。并行约简是近两年出现的知识约简研究的热点，它利用并行计算的思想和方法，应用到基于粗糙集的数据挖掘当中。并行约简的概念比较新，理论体系、方法和技术等均有待完善，目前还没有一种高效的并行属性约简算法，值得研究和探索。本文围绕基于粗糙集的并行约简定义、性质的讨论，对不同形式的数据集进行子表抽样，子表并行约简和提取决策规则展开。论文所做的工作有： ( 1 ) 针对不同的数据特点，引入相应的并行约简定义，并进行局部的扩展和算法研究。本文一共定义了三种类型的并行约简：基于正域的并行约简、基于差别矩阵的并行约简以及基于属性重要度的并行约简，并同时完成了这三种形式的并行约简算法设计。 ( 2 ) 针对基于正域的并行约简的条件限制，提出了变精度并行约简概念，并 t 对变精度并行约简的性质进行了讨论。 ( 3 ) 针对不同性质的数据集，设计了不同的子表抽取策略。并在如何对海量数据进行子表抽样问题中，提出了一种聚类抽取子表的方法。 ( 4 ) 对现有的决策规则提取方法的局限性进行了分析，针对增量式规则提取，给出了一种解决方法。关键词：粗糙集；并行约简；变精度并行约简；子表抽取策略；规则提取 i i 1 1 擎 r l a b s t r a c t s e do n r o u g h s e tt h e o r y , p r o p o s e db yp o l a n ds c h o l a rp a w l a ki n19 8 2 ，i sa p o w e r f u lt o o l f o rd a t am i n i n ga n da ni m p o r t a n tb r a n c ho fg r a n u l a rc o m p u t i n g t h er o u g hs e tt h e o r y p r o v i d e s as y s t e m a t i cm e t h o df o r d e a l i n g w i t h i m p e r f e c t a n di n s u f f i c i e n c y i n f o r m a t i o nb yi n d i s t i n g u i s h a b l er e l a t i o n s h i p r o u g hs e th a sb e c o m eah o tt o p i ci n c o m p u t e rs c i e n c e ，i n f o r m a t i o ns c i e n c ea n da r t i f i c i a li n t e l l i g e n c ee t c k n o w l e d g er e d u c t i o ni sa ni m p o r t a n ta p p l i c a t i o na n dac o r ei s s u ei nr o u g hs e t t h e o r y k n o w l e d g er e d u c t i o nd e l e t e st h er e d u n d a n c yi n f o r m a t i o ni ni n f o r m a t i o n s y s t e m so rd e c i s i o nt a b l e sw h i l ei td o e sn o tc h a n g et h ec l a s s i f i c a t i o no fw h o l ed a t a s e t b e c a u s eo ft h ec o m p l e x i t yo ft h ed a t a s e ta n dt h el o c a l i z a t i o no ft r a d i t i o n a lr e d u c t i o n s ， r o u g hs e t c a n ts h o wi t sv i t a l i t yw h i l ew ed e a lw i t ht h em a s sd a t a m a n ys c h o l a r s m a k ea na t t e m p to ni m p r o v e m e n to fk n o w l e d g er e d u c t i o na l g o r i t h m ，s u c ha sp a r a l l e l r e d u c t i o n p a r a l l e lr e d u c t i o nh a sb e c o m eah o tt o p i ci nr e c e n ty e a r s i tm a k e su s eo ft h ei d e a a n dm e t h o do f p a r a l l e lc o m p u t i n g ，a n dc a nb eu s e di nd a t am i n i n gt h a tb a s e do nr o u g h s e t b e c a u s ep a r a l l e lr e d u c t i o ni san e w l yc o n c e p t ，i t sp a r a d i g ma n dm e t h o da n d t e c h n o l o g ys h o u l db ei m p r o v e d b u tn o wt h e r ei s n ta ne f f i c i e n tp a r a l l e lr e d u c t i o n m e t h o d t h er e s e a r c ho ft h i st h e s i si sm a i n l ya b o u tt h ep a r a l l e lr e d u c t i o nd e f i n i t i o n ， p r o p e r t i e sb a s e do nr o u g hs e ta n ds u b t a b l es a m p l i n gf o rd i f f e r e n tt a b l e s t h em a i nc o n t r i b u t i o n sa n di n n o v a t i o n so ft h i st h e s i sa r ea sf o l l o w s i a tf i r s t , a c c o r d i n gt ot h ec h a r a c t e r i s t i co fd i f f e r e n td a t a ，w ei n t r o d u c e dt h e d e f i n i t i o no fp a r a l l e l r e d u c t i o n ，a n de x t e n di t sc o n c e p t w ei n t r o d u c e dt h r e et y p e s p a r a l l e lr e d u c t i o n ：p a r a l l e lr e d u c t i o nb a s e do np o s i t i v ea r e a ，p a r a l l e lr e d u c t i o nb a s e d o nd i s c e r n i b i l i t ym a t r i x ，p a r a l l e lr e d u c t i o nb a s e do ni m p o r t a n c ed e g r e eo fa t t r i b u t e m e a n w h i l ew e d e s i g n e dt h r e ea l g o r i t h m sf o rt h et h r e ep a r a l l e lr e d u c t i o n s s e c o n d l y , b e c a u s eo ft h es t r i n g e n to ft h ep a r a l l e lr e d u c t i o nb a s e do np o s i t i v ea r e a ， w ep r o p o s e dt h ed e f i n i t i o no fp a r a l l e lr e d u c t i o nb a s e do nv a r i a b l ep r e c i s i o n ，a n d i n v e s t i g a t e di t sp r o p e r t i e s t h 硼l y ，w ep r o p o s e dd i f f e r e n ts a m p l i n gs t r a t e g i e sb a s e do nd i f f e r e n td a t es e t ；w e a l s op r o p o s e dac l u s t e r i n gm e t h o df o rs u b t a b l ee x t r a c t i o n f i n a l l y , w ea n a l y z e dt h el i m i t so fd e c i s i o nr u l e se x t r a c t i o n ，a n dp r o p o s e da l l e f f e c t i v ei n c r e m e n t a le x t r a c t i o no fd e c i s i o nr u l e st os o l v e t h e s ep r o b l e m s k e yw o r d s ：r o u g hs e t ；p a r a l l e lr e d u c t i o n ；v a r i a b l ep r e c i s i o np a r a l l e l r e d u c t i o n ；d e c i s i o nr u l e s ；s u b t a b l ee x t r a c t i o ns t r a t e g i e s i v 目录摘要i a b s t r a c t i 目录v 1 绪论l 1 1 研究的内容和目的1 1 2 粗糙集理论概述一3 1 2 1 粗糙集基本概念3 1 2 1 1 知识与分类3 1 2 1 2 粗糙集的上下近似集4 1 2 2 粗糙集理论的研究与应用现状5 1 3 文章内容组织结构7 2 决策表的属性约简9 2 1 决策表的基本概念一9 2 2 传统决策表属性约简算法一9 2 2 1 基于差别矩阵的决策表属性约简算法1 0 2 2 2 基于信息熵的属性约简算法1 2 2 3 动态数据、增量数据属性约简算法1 4 2 3 1 动态数据特点分析1 4 2 3 2 属性约简增量算法1 5 2 3 3 动态约简1 9 2 4 小结一2 1 3 并行约简2 2 3 1 并行约简概念2 2 v 3 1 1 基于正域的并行约简2 2 3 1 2 基于差别矩阵的并行约简2 4 3 1 3 基于属性重要度的并行约简2 5 3 2 变精度的并行约简2 6 3 3 并行约简子表生成策略2 7 3 3 1 增量式数据子表计算策略2 7 3 3 2 分布式数据子表计算策略2 8 3 3 3 海量数据集子表抽取策略一2 8 3 3 3 1 痕迹抽取法一2 9 3 3 3 2 概率抽取法3 0 3 3 3 3 聚类构造法3 1 3 4 并行约简算法及实验分析3 2 3 4 1 增量数据并行约简算法3 2 3 4 2 分布式数据以及海量数据并行约简算法实验3 3 3 4 3 并行约简算法实验3 6 3 4 4 并行约简算法与其他约简算法效率比较3 6 3 5 小结3 9 4 基于并行约简的决策提取4 1 4 1 常用决策规则提取方法4 1 4 2 增量式决策规则提取算法4 3 4 3 增量式决策规则提取算法实例4 6 4 4 小结5 0 5 总结与展望5 l 5 1 全文总结5 1 5 2 研究展望5 l 参考文献5 3 致谢5 7 攻读硕士学位期间主要的研究成果一5 9 l 6 0 6 0 6 1 畸摹 j 1 绪论伴随着互联网的快速发展，网络数据量呈爆炸性增长，知识也以日新月异的速度更新。然而与数据快速增长速度相对应的是，在海量数据中，发现有用的信息越来越难 1 1 。因此，如何在海量数据中发现有用的信息就成为信息时代的一个重要课题，为此数据挖掘这门学科应运而生【2 】。但是在海量数据库中的数据通常含有冗余特征及噪声，这不仅导致数据挖掘的代价高，而且导致规则提取的质量低。所以自从数据挖掘理论产生之日起，国内外许多专家学者都致力于研究如何能降低数据挖掘的代价同时又能提高规则提取的质量问题。现有的数据挖掘实现方法主要有：决策树方法 3 5 】、神经网络方法 6 9 1 、遗传算法 1 0 - 1 2 】、模糊集方法 1 3 1 5 】以及粗糙集理论 1 6 - 2 0 1 等等。其中由波兰学者p a w l a k 提出的粗糙集理论在不改变海量数据分类能力的情况下，对数据进行进行知识约简，导出决策规则或者对规则进行分类有很好的效果。粗糙集理论与方法能够有效的处理复杂系统中的数据和信息，尤其是对具有模糊性，不确定性和不完全性的信息，粗糙集能表现出很大的优势。粗糙集理论与其他不确定性问题处理工具和方法最大的差别在于：无须提供所处理数据的任何先验信息，可以基于现有的知识库进行数据挖掘。 1 1 研究的内容和目的粗糙集是波兰数学家p a w l a k 为开发自动规则生成系统，以及研究软计算问题于1 9 8 2 年提出的，它是一种处理具有模糊性、不确定性与不完全数据的新的数据分析理论。它的主要思想是利用已知的知识库，将不精确或不确定的知识用现有的知识库中的知识来近似刻画。粗糙集理论无需提供问题所需处理的数据集合之外的任何先验信息，通过在内部数据建立等价类，用上下近似集来逼近数据库中的不精确或者边界信息。粗 1 1 绪论糙集理论包含处理不精确或不确定原始数据的机制，所以与概率论、模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性。知识约简【2 l 】是粗糙集理论的主要应用方向，也一直是粗糙集理论的研究热点。知识约简通常包括属性约简和属性值约简。一般认为属性值约简是建立在属性约简的基础上的。属性约简是针对全数据集的处理，在不改变整个数据集的分类能力的情况下，消去信息系统或者决策表中的多余属性，通常也看做是对数据集的降维；而属性值约简是对数据集的中的每个对象进行处理，在不改变对象的分类能力的情况下，消去对象内的冗余值。当前，在属性约简研究方面已经取得了很多成果，例如由s k o w r o n 2 2 3 等提出的通过构造差别矩阵，求差别函数之间的最小析取范式方法；由吕跃进【2 3 1 等提出的遗传算法；由j a ngb a z a n 冽提出的动态约简等方法都在各自的研究领域取得了成果。但是在当前网络飞速发展，数据量呈爆炸性增长的现实面前，运用这些方法对动态数据或者海量数据进行属性约简都有或多或少的局限性。为了寻求针对动态数据或者海量数据属性约简更好的方法，我们提出了并行约简概念，以求更有效的获得属性约简集。属性值约简通常也称为规则提取方法，虽然现今存在许多种属性值约简方法，例如归纳值约简方法，基于决策矩阵的决策表的值约简方法等都很好的解决了决策表的规则提取，但是这些方法基本上都是处理静态数据集，当有新的数据添加到原有数据集时，若仍用这些属性值约简方法进行规则提取，则是非常繁琐的，需要做很多重复工作。因此决策规则的增量式更新算法的研究也是粗糙集应用的一个新的热点。本文主要的工作内容是在总结现有基于粗糙集的属性约简模型的基础上，分析当前动态数据和海量数据的性质，引入并行约简概念，并初步研究了其性质以及与其他属性约简的关系，最后将其应用到动态数据和海量数据的属性约简当中去。同时针对不同的数据特点，我们设计了不同的子表抽取策略，并基于这些子表抽取策略设计并实现了不同的并行约简算法。同时我们也分析了决策规则的增量式更新遇到的局限性，给出了解决的主要思想，并进行了算法描述。 2 1 绪论 1 2 粗糙集理论概述 1 9 8 2 年波兰学者p a w l a k 首次提出粗糙集概念，最初并没有受到很多专家学者的关注，研究只局限于波兰及周边一些东欧国家。直至1 9 9 1 年p a w l a k 的专著粗糙集一关于数据推理的理论的出版，以及1 9 9 2 年第一届关于粗糙集理论的国际学术会议在波兰召开，粗糙集的发展才逐渐受到各国学者的关注，粗糙集理论的研究应用也逐渐趋热。近些年来由于粗糙集理论在数据挖掘、知识发现、模式识别、决策支持与分析等领域的成功应用，使得粗糙集理论成为计算机科学理论研究的一个热点。 1 2 1 粗糙集基本概念 1 2 1 1 知识与分类 ”知识”这个概念，在不同的范畴中会有不同的含义。在数据挖掘、知识发现以及粗糙集理论中，”知识”被认为是一种分类的能力。人们的行为是基于分辨现实的或抽象的对象的能力，如医生给病人诊断，必须辨别出患者得的是哪一种病。这里的对象可以指能够想象到的任何事物，比如实物、状态、抽象概念、过程和时刻等等，所有对象的集合被统称为全域或论域( u n i v e r s e ) ，用u 表示。论域u 中的一个元素就是一个对象，任何对象的集合z u ，则称为u 中的一个概念或者范畴。粗糙集理论主要是对在论域【，上能形成划分的知识进行研究。定义1 1 假设u 是论域，u o ，r 是u 上的一个等价关系( e q u i v a l e n c e r e l a t i o n ) ，则u r 构成了u 上的一个划分，称足= 似固为u 中关于r 的近似空 ( a p p r o x i m a t es p a c e ) 。划分在某种程度上体现了知识分类( g r a n u l e s ) 的存在，它表明在已知的有限信息条件下，某些对象具有相似性，它们之间是不分明的( i n d i s c e r n i b i l i t y ) 。定义1 2 任意的x u 称为论域u 上的一个概念( c o n c e p t ) 。u 中的概念族 c = 五，置，e ) 称为关于u 的知识( k n o w l e d g e ) ，石u ，石o ，石n 为= g ， 3 1 绪论 ( f j ，i , j = 1 , 2 ，n ，u 置= u ) 。形式上，空集。也视为一个概念。一个知识库 ( k n o w l e d g eb a s e ) 是指u 上的一个分类族k = ，彤，其中，r 是u 上的等价关系族。定义1 3 设尸冬q ，且尸q ，肿所有等价关系的交集n p 也是一种等价关系，记作i n d ( p ) ，即 x i n d ( p ) = n t x ， r e p 其中 x p 表示由p 所确定的包含有元素珀勺等价类。定义1 4 给定近似空间k = ( u ，r ) ，非空子族集psr 所产生的不分明关系 i n d ( p ) 的所有等价关系的集合即u i n d ( p ) ，称为基本知识( b a s i ck o n w l e d g e ) ，相应的等价类称为基本概念( b a s i cc o n c e p t ) ；特别地，若关系per ，则关系p 就称为初等知识( e l e m e n t a r yk o n w l e d g e ) ，相应的等价类就称为初等概念( e l e m e n t a r y c o n c e p t ) 。定义1 5 设k = ( u ，尸) 和k = ( u ，q ) 为两个知识库，如果i n d ( p ) = i n d ( q ) ( 或者u p = u q ) ，则称k 和k 是等价的，记做奎k 。若i n d ( p ) c i n d ( q ) ，则称知识p 是知识q 的细化。由以上定义可知，概念即对象的集合，概念的族集( 分类) 就是u 上的知识， u 上分类的族集可以认为是u 上的一个知识库，或说知识库即是分类方法的集合。不分明关系( 通常是等价关系) 是粗糙集理论的起点，分类的观点是粗糙集理论的基本观点。 1 2 1 2 粗糙集的上下近似集在粗糙集理论中，知识库k 中的有些类是可定义的，有些类是不可定义的，还有些类是可近似定义的。设x u ，r 是u 上的等价关系，若x 是一些尺基本类的并集，则称x 是r - 可定义的( r - d e f i n a b l e ) ，否则称x 是r 不可定义的( r - u n d e f i n a b l e ) 。 r 可定义集也称为r 一精确集( r e x a c ts e t s ) ，r 一不可定义集也称为r 不精确集或 r 一粗糙集( r - i n e x a c ts e t s ，r - r o u g hs e t s ) 。 4 r ( x ) = x u ， x r n x a ) 或 r ( x ) = u y u r ：】，n x g ) 称为x 关于r 的上近似集( u p p e ra p p r o x i m a t i o n ) ，或者称为上近似算子。则论域u 上的二元组( 墨( x ) ，页( x ) ) ) 构成了一个粗糙集。定义1 7p o s r ( x ) = 堡( z ) 被称做x 的r 一正区域，n e g r ( x ) = u r ( x ) 被称做 x 的r 一负区域，b n r ( x ) = r ( x ) 一旦( x ) 被称做x 的尺一边界区域。如果边界域b r ( 石) = 彩，则x 被称做是可定义的，否则被称作是粗糙的。正域尸d 敛( x ) 或星何) 是指在知识尺下，论域w e e 所有必定能归入x 的元素的集合；负域n e g 月( x ) 是指在知识r 下，u 中所有必定不能归入x 的元素的集合；边界 b n r ( x ) 是指在知识r 下，u 中所有既不能肯定归入x 又不能肯定归入- 1 x 的元素的集合。显然若边界域非空，则x 便带有某种程度的不确定性，即x 具有模糊性。上、下近似是粗糙集的基础。粗糙集的粗糙性是一种基于边界的概念，即一个粗糙的概念，具有模糊性，不可被明确划分的边界。一般地，在给定近似空间中并非所有的对象子集都可以用给定的知识来表示成概念，这样的的子集就认为是粗糙概念( 即不精确或近似的概念) ，它可由上，下近似集这样一来两个精确集合来描述，这使得我们可以精确的描述不精确的概念。 1 2 2 粗糙集理论的研究与应用现状粗糙集理论由波兰数学家p a w l a k 于1 9 8 2 年提出，到现在经历了2 0 多年的发展壮大，已经成为了一门跨数学与计算机的交叉性学科，无论是在理论方面还 s 1 绪论是在应用方面都取得了很大的进展，并且仍是计算机学科的研究热点。其中在粗糙集理论研究方面，国际和国内的专家学者进行过很多研究，取得了长足的发展。其中大多数专家学者致力于粗糙集模型的推广以及数学理论方面的研究。粗糙集模型的推广【2 5 - 2 8 1 。p a w l a k 经典粗糙集的运算是建立在等价关系的基础之上，需要满足自反、对称和传递三种关系，但是在实际过程中传递性很难得到满足，因此如何推广粗糙集模型一直是粗糙集理论研究的主流方向。目前为止主要用两种研究方法：构造性方法和代数性( 公理化) 方法。构造性方法研究较为普遍，主要思想是从己知的近似空间去研究粗糙集和近似算子( 上下近似集) 。它以论域上的二元关系或布尔代数作为基本要素，导出粗糙集的代数系统。目前已有许多学者在一般关系下来推广粗糙集模型，相继提出基于覆盖的粗糙集理论、模糊粗糙集理模型、粗糙模糊集理模型等；代数方法亦称为公理化方法，它是基于粗糙集的代数系统的两个算子( 上下近似集) ，该方法可以深入描述近似算子的代数结构。数学理论方面的研究 2 9 - 3 1 】。粗糙集的产生主要是为了解决数学中的边界线区域的问题，后来经过各国学者的研究发展，逐渐引入到计算机理论当中来。现今粗糙集在数学理论方面主要讨论粗糙集的代数结构、拓扑结构，以及粗糙集的收敛性问题。从代数结构观点研究粗糙集的数学理论，与之关系比较紧密的有数理逻辑、格与布尔代数、模态逻辑、算子代数等。粗糙集的拓扑结构也一直是粗糙集理论数学方面研究的热点问题。传递关系下的粗糙集模型，证明了其中的上、下近似算子恰为一个拓扑空间的闭包与内部算子。对于p a w l a k 近似空间来说，所有的下近似集构成一个拓扑空间。随着粗糙集理论方面的研究取得很大进展，粗糙集理论的应用也越来越广泛。其中最广泛的算法研究主要集中在：约简的启发式算法；导出决策规则的增量式算法；粗糙集基本运算的并行算法。约简的启发式算法的基本步骤都是：由信息系统或决策表的核属性为起始点，然后根据属性重要性的计算，依次选择最重要的属性加入核属性中，直到满 6 粗糙集约简表达的是信息系统或者决策表属性间的确定性关系，正域之外等价类族表达的属性间关系并不被粗糙集认可，因此除要求属性满足确定性关系外，挑选有强烈概率因果关系的属性集是必须的。为了描述概率因果关系，处理这类数据时在约简算法中引入信息熵来度量属性重要度。导出决策规则的增量式算法，是粗糙集理论一个重要应用方向。在决策表中要进行决策规则的提取，通常是通过知识约简的方法实现。决策规则提取的一个基本思想是在保持原有的信息系统或者决策表的分类与决策能力不变的情况下，运用属性约简的方法把原来数据表中冗余的属性消去，得到一个属性约简集，然后从这个属性约简集中进行属性值约简进而提取决策规则。传统的属性约简算法是在固定的数据集上进行的，当决策表有数据增加时，若通过传统属性约简算法和属性值约简方法导出决策规则是非常复杂的。利用增量式算法对传统规则进行修正，从而得到关于增量数据集的规则是粗糙集的一个新的应用方向。粗糙集基本运算的并行方法：粗糙集的性质决定它的很多运算都可以实现分布式或者并行计算，随着计算机网络的飞速发展，大量相关的数据分布在世界各地，粗糙集可实现分布式或并行计算的性质就显得尤为重要。由于粗糙集在有效算法应用中取得很大进展，使得粗糙集理论在人工智能科学飞速发展，尤其对机器学习、知识发现、决策分析、专家系统、决策支持系统、模式识别等方面的发展具有十分重要的意义。 1 3 文章内容组织结构本文一共包括五章，简单的介绍了粗糙集理论及其思想，深入研究了基于粗糙集的属性约简方法，并提出了并行约简概念，同时在并行约简的基础上研究了 7 1 绪论基于增量式决策规则更新方法。第一章主要介绍了本文的写作目的，研究的内容并简单介绍了粗糙集理论的研究状况，最后给出了文章的结构安排。第二章主要综述决策表知识约简的基本知识，分别介绍了传统属性约简和增量、动态属性约简理论知识，最后分析了这些属性约简的特性。第三章是本文的重点内容，提出了基于正域的并行约简、基于差别矩阵的并行约简、基于属性重要度的并行约简三个概念，同时针对基于正域的并行约简的局限性，提出了变精度并行约简的概念，研究了变精度并行约简的性质。另外根据数据集的不同性质，分别给出了不同的子表抽取策略。在海量数据的子表抽取策略中，我们提出了一种新的子表抽取策略，即聚类子表抽样方法。此外，在这章内容的最后，我们设计实现了基于正域的并行约简算法，并同动态约简进行了效率比较，同时设计实现了基于差别矩阵的并行约简算法，比较了该算法与x h u 差别矩阵属性约简算法和d e n g 增量式属性约简方法的效率。第四章是本文研究的最后内容，本章首先介绍了决策规则的概念，并介绍了如何通过归纳值约简方法进行规则提取。最后针对决策规则增量式更新过程中遇到的问题，提出了基于差别矩阵并行约简的决策规则增量式更新方法，并通过实例进行了算法描述。第五章，总结与展望。对本文的研究内容做最后总结，并指出进一步研究工作的重点与方向 8 2 决策表的属性约简 2 1 决策表的基本概念定义2 1 设s = ( u ，a ，v ，) 是一个信息系统，其中u = 工。，x ：，x 。) 是论域，么为属性集合，y 是属性值集合，f 是u a _ v 的映射。定义2 2 设s = ( u ，a ，v ，) 是一个信息系统，a = c ud ，cnd = 彩，c 称为条件属性集，j d 称为决策属性集。具有条件属性和决策属性的信息系统称为决策表。多数决策问题都可以用决策表形式来表达，这一工具在决策应用中起着重要的作用。属性约简是粗糙集理论的重要应用之一，也是其赖以存在的重要基础。基于粗糙集理论的数据约简有多种分类方法。从信息系统是否包含决策属性来看分为绝对约简和相对约简。不包含决策属性的数据约简称为绝对约简，包含决策属性的约简称为相对约简。由于绝对约简可以转化为相对约简，所以一般情况下的约简都是指相对约简。在本文中所讨论的约简是基于决策表的，所以都是相对约简。 2 2 传统决策表属性约简算法从约简泛化能力的角度来看，可以将约简分为静态约简和动态约简。静态约简往往是处理一些固定数据或者数据量比较小的约简，所以我们通常称静态约简为传统的属性约简；而假如要计算海量数据或动态变化数据的属性约简，通常要寻求动态约简方法。目前对约简的研究工作主要在静态约简上，然而也有越来越多的人关注动态约简、增量式约简以及其他形式的约简。下面我们首先简单介绍几种常见的静态属性约简算法。 9 2 决策表的属性约简 2 2 1 基于差别矩阵的决策表属性约简算法差别矩阵和差别函数由a s k o w r o n 和c 。r a u s z e r 3 2 1 于1 9 9 1 年提出的，主要是用来计算约简和推理的方法。虽然这种方法因为计算复杂度问题受到了一些研究者的质疑，但是这种方法易于推理和解释，尤其是计算核属性简单方便，容易被人们接受，而且基于遗传算法的约简算法都是以差别矩阵差别函数为基础，并且许多规则提取的方法也是基于差别矩阵方法，所以还是有不少研究者对其进行研究。 a s k o w r o n 和c r a u s z e r 最初对差别矩阵、差别函数的定义如下：定义2 3 设d s = ( u , c u d ) 是一个决策表，则决策表d s 的差别矩阵为， m ( d s ) = m ( x ，y ) x ，y u 其中， m ( x ，y ) = 口c ：口( x ) 口( y ) ) 对应于差别矩阵m ( d s ) 的差别函数为， f ( d s ) = ( v ，z ( x ，y ) ) ，m ( x ，y ) 0 在实践过程中，由a s k o w r o n 和c r a u s z e r 提出的差别矩阵和差别函数有一定的局限性，由此许多专家学者对他们的定义进行过改进。当中由x h u 和 n c e r c o n e 3 3 】改进的差别矩阵、差别函数是应用最广泛的差别矩阵和差别函数，它的定义如下：定义2 4 设d s = ( u ；c u d ) 是一个决策表，则决策表d s 的差别矩阵为， m ( d s ) = m ( x ，y ) z ，y u 其中， i a c ：口( 石) 口( y ) )矿d ( 功a ( y ) 【a o t h e r w i s e 对应于差别矩阵m ( d s ) 的差别函数为， f ( d s ) = “毗瑚，如力0 上述两个定义在定义差别矩阵和差别函数时都没有考虑决策表的一致性，这个定义进行了改进，的差别矩阵为，吣棚= 力删硝删色戮黧议力。1 对应于差别矩阵m ( d s ) 的差别函数为， f ( d s ) = 小，如瑚，r e ( x , 力囝从上面几个差别矩阵的定义可以得到差别矩阵的一个重要性质：决策表的核属性是差别矩阵中所有单个元素组成的集合，即： c o r e ( a ) = c 7 1 c i m ( x ，y ) = 口) ，其中x ，y u 利用上面差别矩阵以及差别函数的定义，设计基于差别矩阵的决策表属性约简算法如下：输入：一个决策表d s = ( u ，c u d ，a ，f ) 。输出：决策表d s 的所有相对约简r e d c ( d ) 。步骤1 ：根据决策表差别矩阵的定义，计算坂h ( d s ) = ( ) 砌的下三角矩阵 ( 或上三角矩阵) ，其中= 1 , 2 ，2 。步骤2 ：搜索差别矩阵的所有元素，若没有囝，则转到步骤3 ，否则退出。步骤3 ：搜索决策表差别矩阵中的所有单属性元素，将其赋给c o r e c ( d ) ，输出c o r e c ( d ) = ai ( a c ) a ( 3 c o ，( ( c f a 厶一( d 丁) ) a ( c f = 口) ) ) ) 。步骤4 ：求出包含相对d 核的所有可能的属性组合，判断是否满足 0 v c u 坛一( d s ) ，当c q o 时，是否有b n c _ f j f 2 j ? 不考虑c f ，= g v 一的情形；召是否为独立的? 若满足上述两个条件，则将其赋给啦( d ) ，遍历所有包含相对d 核的属性组合。 2 决策表的属性约简步骤5 ：输出r e d c ( d ) ，算法结束。从上面的算法可以看出，该方法需要构件一个l u 川u i 的矩阵，当决策表的记录非常庞大时，该方法的时空复杂度就非常大，效率低下。刘清3 5 1 针对以上问题对基于差别矩阵的属性约简算法进行了改进，即简化算法中一定要生成差别矩阵这个中间环节，在决策表中提取关于属性值具有差别的属性构造差别合取范式，一边做这种逻辑公式的等价交换，直到得到最小析取范式，既是该决策表的约简。 2 2 2 基于信息熵的属性约简算法定义2 6 设d s = ( u ；c u d ) 是一个决策表，p c ，q c ，设尸，q 在论域u 上导出的划分分别为x = x 1 ，x 2 ，) ，y = y 1 ，】，：，k ，则p ，q 在u 上的子集组成的概率分布为 x ：p 】_ ， x 2 l p ( x 2 ) p ( ) j l ， r v ， y ：p 1 1 。。l p ( y 1 ) 其愀耻_ 丽l x , t 小1 ，2 ，棚叫】；) = 鼢乒1 ，2 ，一 y 2y 。 p ( y 2 ) p c ：n ) j 定义2 7 对于决策表傩= ( u ；c u d ) ，p c c 且p ( w l 脚( 尸) ) = ，置，以) ，则属性集p 的熵h ( p ) 定义为：日( 尸) = 一p ( a s ) l o g ( p ( a 5 ) ) t = l 其中，p ( 置) = l 置i i u i 由定义2 7 中可知，h ( p ) 0 ，它反映了知识尸对决策表d s 的分类能力的强弱。若h ( p ) 越大，则说明论域u 经过知识尸分类后，各等价类r 中的决策属性值分布就越均匀，表明知识p 对决策表d s 的分类能力越弱。反之，则说明知识p 对决策表d s 的分类能力越强。定义2 8 对于决策表d s = ( u ；c u d ) ，则条件属性集合q ( q c ) 的熵 1 2 集p ( p c ) 的熵石) ) 集，则q c 是c 相对于 ( 1 ) 日( d ) l q ) = 日( d ) l c ) ( 2 ) 对于q 中任意一个属性口，都有日( d ) jq ) 日( d iq - a ) 成立。则依据定义2 9 可以设计两个基于信息熵的属性约简算法。基于信息熵的属性约简算法1 ：输入：一个决策表d s = ( u ，c u d ，么，f ) 。输出：决策表d s 的所有相对约简r e d c ( d ) 。步骤1 ：计算决策表d s 中决策属性d 相对条件属性集c 的条件熵h ( d ic ) ；步骤2 ：计算条件属性集c 中相对决策属性d 的核属性集c o r e c ( d ) ，将非核条件属性记入集合a r t 中，即a t t = c c o r e c ( d ) ；步骤3 ：令b = c o r e c ( d ) ， ( 1 ) 如果i b l _ 0 ，则计算条件熵h ( d l b ) ，转( 4 ) 。 ( 2 ) 对每个属性a i a t t ，计算决策属性集d 相对条件属性集b u 口矗的条件熵h ( d i 口u 口j ) 。 ( 3 ) 选择使h ( d l b u 口f ) ) 最小的属性a j ( 若同时有多个属性达到最小值，则从中选取一个与b 属性值组合数最少的属性作为a j ) ，并且a t t 一国，b = b u a j 。 ( 4 ) 若h ( d i b ) = h ( d i c ) 则输出r e d c ( d ) ，并终止，否则转( 2 ) 。算法1 的主要思想决策属性集d 相对于条件属性集c 的条件熵；然后计算条件属性的核集是，在核集的基础上，依据属性重要度从d , n 大逐渐将各个条件属性添加属性集b ( 初始为核集) 中，直到h ( db ) = h ( dc ) 终止。 13 2 决策表的属性约简基于信息熵的属性约简算法2 ：输入：一个决策表d s = 缈，c u d ，么，f ) 。输出：决策表d s 的所有相对约简r e d c ( d ) 。步骤l ：计算决策表d s 中决策属性d 相对条件属性c 的条件熵h ( dc ) ；步骤2 ：计算决策属性相对每个条件属性的条件熵h ( di a i ) ) ( q c ) ，将口f 按h ( dl q ) ) 的大小降序

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机软件与理论专业论文）基于粗糙集的并行约简研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机软件与理论专业论文）基于粗糙集的并行约简研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档