(信号与信息处理专业论文)rough集应用研究.pdf_第1页
(信号与信息处理专业论文)rough集应用研究.pdf_第2页
(信号与信息处理专业论文)rough集应用研究.pdf_第3页
(信号与信息处理专业论文)rough集应用研究.pdf_第4页
(信号与信息处理专业论文)rough集应用研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

r o u g h 集应用研究 摘要 本课题的研究工作,主要围绕着粗糙集理论的特点以及粗糙集在实际中应用 的要点展开,涵盖了粗糙集理论的基本观点和特点、粗糙集理论进行实际应用的 一般模型、粗糙集信息表补齐和数据离散化的主要方法、属性约简的主要方案、 与其它机器学习方法在实际应用中结合的成功实例、粗糙集实验系统等内容。形 成了较为完善的粗糙集应用理论和技术方案。 回顾了粗糙集理论的基本观点和特点,对粗糙集的理论研究现状和应用情 况作了简单的归纳和总结。并提出了粗糙集在实际应用中的一般模型,对粗糙集 信息表补齐、连续数据离散化、属性约简的常用算法进行了介绍和讨论。 介绍了利用粗糙集理论和核f i s h e r 方法构造了r o u g h 一核f i s h e r 财务预警 系统。该系统以粗糙集理论的有关方法作为知识获取的预处理机制,以训练好的 核f i s h e r 方法作为系统的知识库,以此建立系统的总体结构。最后用实际的数 据库为例,构造了基于中国上市公司财务数据的财务预警模型,并得出令人满意 的分类正确率。 利用粗糙集方法中的决策规则提取,进行了车牌字符识别的研究。将车牌字 符进行归一化处理后构造1 6 1 6 的矩阵,以此为依据构造决策表;随后提取决 策规则构造决策规则表对车牌字符进行识别。最后通过实例,证明了本文所述方 法的有效性。 对目前常用的粗糙集实验系统进行了介绍,指出了它们的优势和不足,以便 供广大粗糙集学习和研究人员借鉴参考。 总结全文,粗糙集理论与方法对于智能信息处理的确为一种较为有效的手 段,值得大力研究和推广。若能在动态数据支持、大数据集中的处理效率、得到 的规则冗余性等问题得到更好的解决的话,将会有更好的发展前景。 关键词:粗糙集:应用方案;财务预警;车牌识别 a p p i y i n gr o u g hs e t st h e o r y in t op r a c t i c a ia p p ii c a t i o r a b s t r a c t t h i st h e s i si sc i r c l ea r o u n dt h ep o i n tt h a th o wt o a p p l yr o u g hs e tt h e o r yi n t op r a c t i c e a p p l i c a t i o na n dh o wt os o l v et h ep r o b a b l yd i f f i c u l t i e sl y i n ga h e a d t oa c h i e v et h i sp o i n t ,w e d i s c u s s e dr o u l 曲s e t s f u n d a m e n t a lt h e o r y , t h eb a s i cm o d e lo f r o u g hs e t sa p p l i c a t i o n ,i n f o r m a t i o n t a b l ec o m p l e t i o na n dd a t ad i s c r e t i o n i n t r o d u c i n ga n dr e v i e w i n go f v a i l o u sr e d u c t i o nm e t h o d sa r e a l s oi n c l u d ei nt h i st h e s i s f i n a l l y , t w os u c c e s s f u le x a m p l e sa r ei n t r o d u c e da n ds o m er o u 目血s e t s s o f t w a r et o o l k i t sa r ea l s oh a v eb e e nd e t a i l e dd i s c u s s e d t h u sac o n c r e t er o u 曲s e t sa p p l i c a t i o n t h e o r yf r a m eh a sb e e ne s t a b l i s h e d , r o u 曲s e t s b a s i ct h e o r ya r er e v i e w e d ,a n dr o u 9 1 1s e t s t h e o r e t i c a lr e s e a r c hc o n d i t i o na r e g e n e r a l i z e da n dt h ec u r r e n tr o u g hs e t sa p p l i c a t i o n sa r el i s t e d t h eg e n e r a lp r a c t i c a lm o d e lo f r o u g h s e t s0 3 el i s t e da n dt h i st h e s i sh a v er e v i e w e dt h ei n f o r m a t i o nc o m p l e t i o na n dc o n t i n u o u sd i s c r e t i o n , c o m m o nr e d u c t i o na l g o r i t h ma r ea l s oi n t r o d u c e da n dd i s c u s s e d af i n a n c i a lc r i s i sp r e d i c t i o nm o d e lc o m b i n i n gw i t hr o u 曲s e t sa n dk e i t i e lf i s h e r d i s c r i m i n a t i o n ( k f d ) m e t h o d si si n t r o d u c e d r o u g hs e t st h e o r yr e d u c t i o n ,ae f f e c t i v ef e a t u r e e x t r a c t i o nm e t h o di su t i l i z e da sd a t ap r e p r e p r o c e s s i n gp a r ta n dk f dm e t h o d sa r eu s e da s k n o w l e d g ea c q u i r i n gm e t h o d s f i n a l l y , t h i st h e s i sp u tt h i sm o d e li n t ot h ea n a l y s i so fc h i n e s e c o o p e r a t ef i n a n c i a ld a t a , a n dt h er e s u l to f e x p e r i m e n tv e r i f l e dt h ee f f i c i e n c yo f t h i sm o d e l a n o t h e re x a m p l ei su t i l i z i n gr o u g hs e t sd e c i s i o nr u l e si n t oc h a r a c t e rr e c o g n i t i o n t h et h e s i s u s ep i x e lm a t r i xa sd e c i s i o nt a b l ea n dd e c i s i o nr u l e sa sc l a s s i f i c a t i o nm e t h o d f i n a l l yt h i sm e t h o d i sp r o v e di t se 伍c i e n c yb ye x p e r i m e n t t h et h e s i sa l s oi n t r o d u c e dt h ec o m m o nr o t i g hs e ts o f t w a r et o o l k i t e a c ho ft h e mi sb e i n g r e v i e w e dw i t hi t sa d v a n t a g e sa n dd i s a d v a n t a g e s ib e l i e v et h i sp a r tw o u l db eg r e a tu s e f u lf o rt h o s e p e o p l ew h oa r ei n t e r e s t e di nr o u 曲s e t s i ng e n e r a l ,r o u g i is e t st h e o r ya n dm e t h o d sh a v eb e e np r o v e da sa ne f f e c t i v em e t h o di n i n t e l l i g e n ti n f o r m a t i o np r o e e s s i n ga n dd e s e r v e dt ob er e s e a r c h e da n db ep u ti n t op r a c t i c a l h o w e v e r , i ts t i l le x i s t ss o m ef a l l b a c k ,w h i c hi n c l u d ed y n a m i t i cd a t as u p p o r t ,v e r yl a r g ed a t a b a s e p r o c e s s i n ga n dr e d u n d a n td e c i s i o nr u l e s k e yw o r d s :r o u g h s e t s ;a p p ii c a t i o n ;f i n a n c i a ic r i s isp r e d i c t i o n :c h a r a c t e r r e c o g n i t ;o n ;t o o i k i t r o u g h 集应用研究 1 绪论 人工智能信息处理是当前信息科学理论和应用研究中的一个热点领域。在 过去的几十年中,人们在机器学习、人工神经网络、专家系统、模糊集合等众 多领域进行了不断的探索和研究,取得了很多很有价值的成果。随着社会的发 展,信息量越来越多,人们迫切希望能够从大量的数据中自动获得我们所需要 的信息。这样,大量的,乃至是超出人类处理能力的数据就可以快速的为人们 所用,人们就可以尽情的在信息的海洋中畅游。因此,研究如何从大量的信息 中提取出有用的信息( 模式) 就显得越来越重要。虽然目前已经有了很多对数 据进行分析的简单统计技术,但高级的智能分析技术还远没有成熟。因此,客 观的、海量的数据和人们主观的对它的理解之间的矛盾越来越尖锐。 r o u g h 集( r o u g hs e t s ,又称粗糙集、粗集) 理论“1 是波兰华沙理工大学 z p a w l a k 教授于2 0 世纪8 0 年代初提出的一种研究不完整、不确定知识和数据 的表达、学习、归纳的理论方法。近年来,r o u g h 集的研究在国际上得到了越来 越多的重视。以粗糙集为基础的数据分析技术正在获得越来越广泛的应用。在 国内,至今已举办了四届粗糙集与软计算学术研讨会,不少学者在粗糙集的理 论探讨和实际应用中已经做了很深入的研究,得到了一些很有很有价值的成果。 本章主要介绍粗糙集的产生和发展。首先介绍粗糙集的提出背景,然后对 粗糙集理论的基本概念和特点作了阐述,随后简述了粗糙集的国内外研究应用 现状。最后介绍了本课题的研究内容和各章节的主要安排。 1 1r o u g h 集的提出背景 经典逻辑中只有真、假二值,但实际上,在现实生活中有大量含糊现象存 在于真与假之间。因此,长期以来许多逻辑学家和哲学家就致力于研究含糊概 念。早在1 9 0 4 年,谓词逻辑的创始人g f r e g e 就提出了“边界区”一词,来表 示模糊的概念,即人们所知的边界线上的含糊元素的计算问题。也就是说在全 域上存在一些个体既不能在其某个子集上被分类,也不能在该子集的补集上被 分类。 2 0 世纪6 0 年代初,l a z a d e h 提出了模糊集,不少理论计算机科学家和逻 r o u 曲集应用研究 辑学家,试图通过这一理论解决g f r e g e 的含糊概念,但遗憾的是,模糊集是 不可计算的,没有给出数学公式描述这一含糊概念,故无法计算出它的边界线 上的具体的含糊元素数目。时隔2 0 年后的8 0 年代初,z p a w l a k 针对g f r e g e 的边界线区域思想提出了粗糙集。3 的雏形,这是一个运用数学方法来处理模糊和 不确定的信息的理论。随后他又在“1 文中提出一个假设:“知识就是分类能力”。 这个假设可能不是非常完备,但却是一个很精练的假设。他把那些无法确认的 个体都归于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差 集。由于上近似集和下近似集都可以通过等价关系给出确定的数学公式描述, 所以含糊元素数目可以被计算出来,即在真假二值之间的含糊程度可以计算, 从而实现了g f r e g e 的边界线思想。 粗糙集理论主要兴趣在于它恰好反映了人们用粗糙集方法处理不分明问题 的常规性,即以不完全信息或知识去处理一些不分明现象的能力,或依据观察、 度量到的某些不精确的结果而进行分类数据的能力。 1 2r o u g h 集基本知识 1 2 1 信息系统 粗糙集理论中的知识表达方式一般采用信息表( i n f o r m a t i o nt a b l e ) 或称 为信息系统( i n f o r m a t i o ns y s t e m ) 的形式,它可以表示为k = ( u ,爿,q ,厂) , 其中,u 即论域,是一个非空的有限集合a 是全体属性,也是一个非空的有限 集合a = - c u d ;c 是由条件属性构成的有限集合,d 是由决策属性构成的有限集 合。q 表示由所有g a 的值域所构成的集合:f 是一个信息函数,f :u 月q 。也即f ( u ,a ) = g ( 材u ,n a ,g q ) 。 表卜1 是一个信息系统的示例。 1 2 2 不可分辨关系 不可分辨关系是粗糙集理论的基础。对于论域u 中的一些元素而言,它们 r o u g h 集应用研究 可能均与相同的若干信息存在联系。因此,从这若干己知信息的视角上看,这 些元素之间有着一种不可分辨的关系( i n d i s c e r n i b l yr e l a t i o n ) 。换而言之, u 中的一些对象具有若干相同或相等的属性值,因而仅仅依据这些属性值是无 法区分这些对象的。所以,从此角度上说它们是不可分辨的旧。对于给定的属 性集合r a ,则可以构成一个二元等价关系r ,也称为r 不可分辨关系,它满足 i n d ( r ) = ( x ,) u i v a r ,f ( x ,d ) = f ( x ,口) ) 由上面的定义可知,如果( t ,z ,) 1 n d ( r ) ,那么对于z ,和x ,是不能被r 中 的属性所分辨的。定义r 不可分辨关系的等价类为【爿】。 表卜1 信息系统示例 c 1 c 2d x 1141 x 211o x 3 22 0 x 422l x 533o x 6 1 3 l x 7330 例如:对于如表1 - 1 的信息系统来说,有: n d ( c 1 ) = x 1 ,x 2 ,x 6 , x 3 ,x 4 , x 5 ,z 7 ) ) i n d ( c 2 ) = “x l , x 2 , x 3 ,x 4 , x 5 ,x 6 ,x 7 ) n d ( c 1 ,c 2 ) = x 1 ) , x 2 ) , x 3 ,x 4 , x 5 ,x 7 , x 6 ) ) 1 2 3 逼近集 定义子集x 关于等价关系r 的下逼近( l o w e ra p p r o x i m a t i o n ) 为 墨( j ) = 扛u i r o ) x ,它代表论域u 中一定属于子集x 的所有开等价类的 r o u g h 集应用研究 元素的并集。下近似也被称为_ 的正域( p o s i t i v er e g d o n ) ,记作p o s r ( ) 。 即p o s r ( x ) 2 熨x ) ;子集x 关于等价关系r 的上逼近( u p p e ra p p r o x i m a t i o n ) 为页( x ) = 扛u l r ( 力n x 砧,它表示论域u 中可能属于子集x 的所有等价类 的元素的并集。上近似与下近似之间的差异就构成了的边界域( b o u n d a r y r e g i o n ) ,定义为:b n 。( x ) = i ( x ) 一堡( j ) 。 论域u 中所有与子集x 完全不相交的等价类的元素的并集构成了x 的负 域( n e g a t i v er e g i o n ) ,记作g q ( x ) 。显然,n e g r ( x ) = u r ( x ) 。因此, 正域、负域和边界域构成了u 上的三个互不相交的区域,它们共同组成整个论 域u 。正域的元素完全且一定属于,负域的元素完全且一定不属于x ,边界 域的元素则有可能或部分属于工。 由上面的定义可见,通过逼近集的概念,r o u g h 集就实现了用确定的概念来 描述和定义模糊概念的功能。正域和负域是确定的,而边界域是模糊的。此外, 当鲋。( 彳) = 时,r ( x ) = 星( x ) ,则称x 关于厅是精确的或者是清晰的;反之, 石关于月是模糊的或者是粗糙的。 仍以表1 1 为例,定义j 为x = x l d ( x ) = 1 ,则( x ) = “,k ) , a ( x ) = x l ,x 3 ,x 4 ,x 6 ) ,b n a ( z ) = x 3 ,x 4 ) ,n e g ( ) = x 2 , x 5 ,而) 。 1 2 4 决策表 在r o u g hs e t s 理论处理不确定和模糊的信息时,所有数据都被存放在一张 决策表( d e c i s i o nt a m e ) 中。决策表是一张二维表,它用来描述论域中的全部 对象的特征。它的每行对应一个对象,每一列对应一个属性,行与列的交汇 处就对应一个具体的属性值。其中,属性包括条件属性( c o n d i t i o na t t r i b u t e ) 和决策属性( d e c i s i o na t t r i b u t e ) 两种。实际上,决策表就是一个信息系统。 r o u 曲集应用研究 元素的并集。下近似也被称为工的正域( p o s f t j v e e g i o n ) ,记作p o s 。( x ) 。 即p o g ( x ) - r ( x ) :子集* 关于等价关系r 的上逼近( u p p e ra p p r o x i m a t i o n ) 为页( ) = 扛u i r ( x ) n x ) ,它表示论域己,中可能属于子集j 的所有等价类 的元素的并集。上近似与下近似之间的差异就构成丁x 的边界域( b o u n d a r y r e g i o n ) ,定义为:b n 。( 工) = i ( j ) 一星( j ) 。 论域u 中所有与子集x 完全不相交的等价类的元素的并集构成了的负 域( n e g a t i v er e g i o n ) ,记作嬲。( x 】。显然,n e g 。( x ) = ur ( ) 。因此, 正域、负域和边界域构成了u 上的三个互不相交的区域,它们共同组成整个论 域u 。正域的元素完全且一定属于上,负域的元素完全且一定不属于z 边界 域的元素则有可能或部分属于工。 由上面的定义可见,通过逼近集的概念,r o u g h 集就实现了爿确定的概念来 描述和定义模糊概念的功能。正域和负域是确定的,而边界域是模糊的。此外, 当b n r ( x ) = 时,矗( x ) = 墨( 肖) ,则称并关于拧是精确的或者是清晰的;反之, j 关于厅是模糊的或者是粗糙的。 仍以表卜1 为例,定义z 为x = 协l d ( 功= = 1 ) ,则( x ) = x ,心) , a ( x ) = x i ,x 】,j 。,x 6 ) ,b _ ( 工) = 墨,x 4 ) ,n e g _ ( j ) = 扛2 ,x 5 ,) 1 2 4 决策表 在r o u g hs e t s 理论处理不确定和模糊的信息时,所有数据都被存放在 张 决策表( d e c i s i o nt a b l e ) 中。决策表是一张二维表,它用来描述论域中的全部 对象的特征。它的每一行对应一个对象,每一列对应一个属性,行与列的交汇 处就对应一个具体的属性值。其中,属性包括条件属性( c o n d i t i o na t t r i b u t e ) 和决策属性( d e c i s i o na t t r i b u t e ) 两种。实际上,决策表就是一个信息系统。 和决策属性( d e c i s i o na t t r i b u t e ) 两种。实际上,决策表就是一个信息系统。 r o u 曲集应用研究 1 2 5 属性约简和核 对于运用r s t 来寻找大量数据中蕴藏的未知知识而言,现有的全部条件属 性并非都是必要的。实质上,其中有一些属性是多余的,在去除这些冗余属性 后并不会影响原有的分类效果。另一方面,要更好的从海量的数据中发现知识 并且提高发现效率、降低噪音干扰,就必须有效的去除冗余数据。所以,必须 对数据进行数据约简( d a t ar e d u c t i o n ) 。其目的是在保存信息系统原有的分类 能力和近似空间的基本属性完整的前提下,去除系统中的冗余数据。r o u g hs e t s 的数据约简包括属性约简和值约简“”。 属性约简是粗糙集中重要的一个功能。在信息表中,一个条件属性就对应一 条等价关系,所有的条件属性会对整个论域形成个划分u c ,同样,所有的 决策属性也会对论域形成一个划分u d 。属性约简的目标就是要在保持分类能 力不变的前提下,删除其中不必要的或者是不重要的属性,使得部分必要的条 件属性相对于决策属性d 有相同的分类能力。一般的来说,满足要求的约简结果 不是唯一的,同一个决策表可能存在着许多相对约简。 设4 ,召是论域u 上的等价类,re a ,若p 0 峨1 ( 凹) = p o s 。( b ) ,则称,在 4 中是关于b 可省略的( d i s p e n s a b l e ) 反之,则称,在a 中是关于b 不可省略 的( i n d i s p e n s a b l e ) 。若每一个一a 都为不可省略的,则称a 关于占是独立 的,否则称a 关于占是依赖的。 令r ,s 均为属性集合a 的非空子集,s 是独立的,s c r ,i n d ( s ) :1 n d ( r ) 且对任意q c s 都有优d ( q ) i n d ( r ) ,则s 是r 的一个约简( r e d u c t ) ,记作 r e d ( r ) 。就是说,约简是保留了集合r 分类能力的最小集合。而r 的所有这些 集合( 约简) 的交集为胄的核( c o r e ) ,记作c o r e 佃 因此,c o r e ( 脚:f - i r e a ( r ) 。 显然,约简中的属性相互之间是独立的。r 的约简中的任一元素对于描述 r 而言都是不可省的。 在经过属性约简的决策表中,我们可以获得一些决策规则( d e c i s i o n r u l e s ) 。每条决策规则的形式为i f t h e n 结构:规则的前提是由约简后条件属 性的并组成,推论则是由决策属性组成。例如: r o u g h 集应用研究 i f ( c l = 1 & c 2 = 0 & c 3 = n j d l = 0 当决策表中的所有记录都支持某条决策规则时,我们称这条决策规则是确定 的:否则,我们称它是不确定的。 1 2 6 置信度 对于规则的不确定性,我们可以用置信度来度量“。 对于一条决策规则“i fjt h e np ( 或表示为卜d ,其中,x c ,为具 有相同条件属性的对象的集合;y d ,为具有相同决策属性的对象的集合。该 规则的置信度( c 。n f i d e n c e 。e g r e e ) 可表示为:叮= 等,( x 庐) 。 显然,当j n y = 庐时,c f 为0 ;当x n 】,= x 时,c f 为1 。 1 2 7 支持度 对于一条决策规则“i fjt h e nr ( 或表示为胄i n ,其中,x c ,为具 有相同条件属性的对象的集合;y d ,为具有相同决策属性的对象的集合。该 规则的支持度“”( s u p p o r t ) 可表示为: 鼢肥等c a r du 川圳。 1) 1 2 8 可分辨矩阵 可分辨矩阵是由a s k o w r o n 教授提出的,利用可分辨矩阵来表达知识有许 多优点,特别是利用它很容易计算约简和核。可分辨矩阵可这样定义: 令决策表系统为s = u ,r ,v ,f ) ,r = p u d 是属性的集合,子集 p = ql i = 1 ,m 和d = d ) 分别称为条件属性集和决策属性集, u 2 岛,x 2 ,x n 是论域,a , ( x j ) 是样本在属性q 上的取值。c a i ,j ) 表示可分 辨矩阵中第i 行第,列的元素,则可分辨矩阵c d 定义为: r o u g h 集应用研究 j q1 q p a a k ( x 1 ) a k ( x j ) ,d ( x i ) d ( x j ) c 岛( ,j ) 2 i 。, d 。薯,:d 。_ , 显然,可分辨矩阵是一个依主对角线对称的矩阵,在考虑可分辨矩阵的时候, 只需要考虑其上三角( 或下三角) 部分就可以了。 根据可辨识矩阵的定义可知,当两个样本( 实例) 的决策属性取值相同时, 它们所对应的可分辨矩阵元素的取值为o ;当两个样本的决策属性不同且可以通 过某些条件属性的取值不同而加以区分时,它们所对应的可分辨矩阵元素的取 值为这两个样本属性值不同的条件属性的集合,即可以区分这两个样本的条件 属性的集合;当两个样本发生冲突时,即所有的条件属性取值相同而决策属性 的取值不同时,则它们所对应的可辨识矩阵中的元素取值为空集。显然,可辨 识矩阵元素中是否包含不致( 冲突) 信息的依据。 1 2 9 属性的重要性 属性的重要性是我们在下面章节中讨论离散化、约简等问题的一个关键基础 概念。一般的,可定义属性的重要性为: 对于f 是属性集口导出的分类,属性子集岔在属性集丑中的重要性( b b , 如果属性集b 是默认的,如b 为条件属性全集,则可简称为属性子集b 的重要 性) 可定义为: r e ( ,) 一r m ( ,) 表示当我们从属性集丑中去掉属性子集b 时对f 近似分类的影响。 1 3r o u g h 集的特点 粗糙集理论具有一些独特的观点。这些观点使得粗糙集特别适合于进行数据 分析。如:知识的粒度性。粗糙集理论认为知识的粒度性是造成使用已有知识不 能精确地表示某些概念的原因。通过引入不可区分关系作为粗糙集理论的基础, 并在此基础上定义了上下近似等概念,粗糙集理论能够有效地逼近这些概念。新 型成员关系。粗糙集理论具有如下特点: ( 1 ) 数据分析是建立在经验系统的层次上,因此,r s 理论的一个重要特点 r o u g l l 集应用研究 是它不需要预先给定关于数据的任何附加信息,如统计学中的概率分布、模糊 集理论中的隶属度或隶属函数、证据理论的基本概率分配。 ( 2 ) 粗糙集理论是一个强大的数据分析工具,它能表达和处理不完备的数 据以及拥有众多变量的数据、能在保留关键信息的前提下对数据进行化简并求 得知识的最小表达、能识别并评估数据之间的依赖关系、能从经验数据中获取 最小规则。 ( 3 ) 粗糙集是一种软计算方法。软计算( s o f tc o m p u t i n g ) 的概念是由模糊 集创始人z a d e h 提出的“1 。传统的计算方法即所谓硬计算,使用精确、固定和 不变的算法来表达和解决问题,而软计算的指导原则是利用所允许的不精确性、 不确定性和部分真实性以得到易于处理、鲁棒性强和成本较低的解决方案,以 便更好地与现实系统相协调。软计算的主要工具包括粗糙集、模糊逻辑、神经 网络、概率推理、信度网络、遗传算法与其他进化优化算法、混沌理论等。 1 4r o u g h 集研究现状 r o u g h 集相关技术是近2 0 年才逐渐发展起来的,进入2 1 世纪后更成为科 研热点。它自问世以来,无论在理论上还是在实际应用上都有迅速的发展。 1 4 1 理论研究现状: 粗糙集理论的研究由于其历史较短,所以至今为止,对粗糙集的概念的定 义还没有完全统一,一种是原始的p a w l a k 意义下的”1 ,也有由上,下近似构成 的一对集合来命名的“”,还有以下近似和上近似构成的区间集( 集合类) 来定义 的“,定义观点的不同往往带来研究的侧重面的不同。目前,对粗糙集理论的 研究主要集中在:粗糙集的模型的推广,问题的不确定性研究,与其它处理不确 定性、模糊性问题的数学理论的关系与互补,纯粹的数学理论方面的研究,粗 糙集的算法研究等。这些研究有的是受应用的推动而产生的,有的是纯理论的。 p a w l a k 粗糙集模型的推广一直是粗糙集理论研究的主流方向,目前主要有 两种方法:( 1 ) 构造性方法;( 2 ) 代数( 公理化) 方法。 ( 1 ) 构造性方法是对原始p a w l a k 粗糙集模型的一般推广,其主要思路是从 给定的近似空间出发去研究粗糙集和近似算子。它是以论域上的二元关系或布 尔子代数作为基本要素的,然后导出粗糙集代数系统。这种方法所研究的问题 r o u 曲集应用研究 往往来源于实际,所建立的模型有很强的应用价值,其主要缺点是不易深刻了 解近似算子的代数结构。 在p a w l a k 粗糙集模型中有三个最基本的要素:一个论域西 上的一个二 元等价关系r 构成了近似空问,一个被近似描述的集合。这样,推广的形式主 要也有三个方向,即从论域方向、从关系方向( 包括近似空间) 和从集合方向。 从论域方向推广的目前只有种,就是双论域的情况”“,当然这时的二元 关系就变成为两个论域笛卡尔乘积的一个子集。对于将论域推广到多个的情形 来研究粗糙集理论的文献目前我们还未见到。 从关系方向的推广,一种是将论域上的二元等价关系推广成为任意的二元 关系得到了一般关系下的粗糙集模型“”:另一种是将对象x 所在的等价类看成 是的一个邻域,从而推广导出了基于邻域算予的粗糙集模型“”:也有将由关系 导出的划分推广成为一般的布尔子代数,以此出发去定义粗糙集和近似算子的 “;更般的有将普通关系推广成模糊关系或模糊划分“7 “”1 叫而获得模糊粗 糙集模型。 从集合和近似空间方向的推广,是与其它处理不确定、不精确或模糊的理 论( 如概率论,模糊数学,信息论,证据理论等) 结合起来进行研究的。当知识 库中的知识是由于随机原因或经统计得到的,即知识库中的知识很可能是不确 定的,很多学者提出了统计( 或概率) 粗糙集模型”“2 2 。”3 ,变精度粗糙集模型。” 实质上也可以归入这类模型,寻求具有最小风险的b a y e s 决策问题也可转化为 这类模型嘲。这一类模型在数据分析的增量式机器学习中有重要应用。目 前见到的此类模型中,近似空间中二元关系大都是等价关系,对于非等价关系 给出的情况文章的尚没见到,基于随机集的粗糙集模型既是对基于邻域算予 的粗糙集模型的推广,又适用于双论域情形,同时也是对统计粗糙集模型的推 广1 。 当知识库中的知识模块都是清晰概念,而被描述的概念是模糊概念,人们 建立了粗糙模糊集模型。1 来解决此类问题的近似推理。当知识库中的知识模块 也是模糊的,有些学者就提出了模糊粗糙集模型“”。”“。对于知识库中的知识 模块既是模糊知识又是随机得到的至今未见论及,但现实问题肯定存在,因此 也是值得研究的。 ( 2 ) 代数方法也称公理化方法( 有时也称为算子方法) ,这种方法不是以二 元关系为基本要素,它的基本要素是一对满足某些公理的一元近似算子 9 r o u g h 集应用研究 厶h :2 “- 9 - 2 ”,即粗糙代数系统( 2 “,u ,u n l ,h ) 中近似算子是事先给定的。 这种方法研究的明显优点是能够深刻了解近似算子的代数结构,其缺点是应用 性不够强。 近似算子的某些公理能保证有一些特殊类型的二元关系的存在,使这些关 系能够通过构造性方法产生给定的算子;反过来,由二元关系通过构造性方法 导出的近似算子一定满足某些公理,使这些公理通过代数方法产生给定的二元 关系。 公理化方法的研究一开始只局限于p a w l a k 粗糙代数系统,即公理与二元等 价关系相对应情形,后逐渐发展到一般关系下的粗糙集系统o “川。至今为止,关 于公理化方法的粗糙集理论研究大多局限于经典集情况,对于模糊集情况虽有 讨论”,但比较少。 粗糙集理论中知识的不确定性主要有两个原因:一个原因是直接来源于论域 上的二元关系及其产生的知识模块,即近似空间本身,如果二元等价关系产生 的每一个等价类中只有一个元素,那么等价关系产生的划分不含有任何信息。 划分越粗,每一个知识模块越大,知识库中的知识越粗糙,相对于近似空间的 概念和知识就越不确定,这时处理知识的不确定性的方法往往用s h a n n o n 信息 熵来刻画。知识的粗糙性与信息熵的关系比较密切,知识的粗糙性实质上是其 所含信息多少的更深层次的刻画。”。单从这个角度来看,粗糙集理论与信息论 的关系就比较密切,不少学者在这方面做了研究工作0 2 ”3 “。 寻求一个合适的度量来刻画知识的不确定性也是粗糙集理论研究的一个重 要方向。 在粗糙集理论与其它处理模糊性或不确定性方法的理论研究中,主要集中在 它与概率统计、模糊数学、d s 证据理论和信息论的相互渗透与补充。 在信息系统中,知识库的知识一般有两类:一类库中所有对象的描述是完全 已知的,p a w l a k 粗糙集模型和一般二元关系下的粗糙集模型就是属于这一种: 另一类库中的对象的描述只有部分是己知的,即知识库中的知识是不确定的, 它只能通过训练样本所提供的信息来刻画概念,为了使从训练样本获得的规则 符合整个论域的对象,在抽取样本时应符合统计规律性,因此概率统计作为研 究自然界,人类社会及技术过程中大量随机现象的规律性的- - f 学科,它与粗 糙集理论的结合就显得非常自然。 粗糙集理论与口$ 证据理论在处理不确定性问题方面产生和研究的方法是 r o u 曲集应用研究 不同的,但却有某种相容性,粗糙集理论是为开发规则的机器自动生成而提出 的,而口墨证据理论主要用于证据推理。粗糙集理论用概念的一对上,下近似 对其进行描述,而粥证据理论是用一对信任函数和似然函数在给定证据下对 假设进行估计和评价。粗糙集理论中的下近似和上近似的概率恰好分别是信任 函数和似然函数“2 ”,然而生成信任函数和似然函数的基本概率分配函数( 即 m a s s 函数) 方法是不同的,前者来源于系统中数据本身,比较客观,而后者往往 来自于专家的经验,带有很强的主观性。粗糙集理论与d s 证据理论有很强的 互补性。 粗糙集理论应用于数据分析时,会遇到嗓音、数据缺失、数据量大等系 列经典理论解决不够理想的问题。因此在近几年的研究中,出现了许多粗糙集 的扩展模型。其中典型的有变精度模型和相似模型。变精度模型使经典的粗糙 集模型具有了一定的容错性,增强了经典模型的抗干扰能力,并能够保持经典 模型的绝大多数良好的性质;相似模型解决了存在数据缺失的问题,在实践使 用中具有比经典粗糙集模型更好的性能。 粗糙集理论中有效算法研究是粗糙集在知识发现、决策支持和人工智能方向 上研究的一个主要方向和重要课题。目前国际上的许多研究都集中在这个方面, 并且这些研究成果都已取得了重要的应用价值和商业价值。典型算法主要有: 1 基本算法: 2 导出规则的增量式算法: 3 约简的启发式算法: 4 动态约简的算法: 5 复合系统的约简算法: 6 粗糙集基本算法的并行算法: 7 扩展算法: 8 基于粗糙集理论的遗传算法和神经网络算法。 随着对粗糙集理论的研究的不断深入,它与其它数学分支的联系也更加紧 密。例如,从算子的观点看粗糙集理论,与之关系较紧的有拓扑空间、数理逻 辑、模态逻辑、布尔代数、算子代数等;从构造性和集合的观点来看,它与概 率论、模糊数学、证据理论、图论和信息论等联系较为密切。粗糙集理论研究 不但需要以这些理论为基础,同时也相应的带动这些理论的发展。例如从算子 的角度来看,粗糙集代数系统是普通布尔代数系统加上两个一元集合算子x 和 r o u g h 集应用研究 j r 的推广。由于逻辑是计算机推理的基础,基于粗糙集的逻辑的研究也是粗糙 集理论研究的比较活跃的一个方向。例如粗糙集代数系统中的五个集合算子恰 好对应模态逻辑的五个算子,因此基于粗糙集的模态逻辑的研究显得特别活跃, 各种模型的粗糙集代数系统恰好对应于各种模态逻辑系统“”3 二者的结合有 重要的应用,基于这种联系粗糙集理论能丰富模态逻辑理论,反之亦然。 目前,纯粹的数学理论与粗糙集理论结合起来进行研究己有文章出现,并不 断有新的概念出现,如“租糙逻辑”。”“粗糙理想”、“粗糙半群”1 等等。我 们认为,随着粗糙结构与代数结构,拓扑结构,序结构等各种结构的不断整合, 必将不断涌现出新的富有生机的数学分支。 1 4 2 粗糙集理论应用研究现状 粗糙集理论是一种处理含糊和不精确性问题的新型数学工具,其基本思想是 在保持分类能力不变的前提下,通过知识约筒,导出概念的分类规则。它自从 问世以来,无论是在理论或应用上都是一种新的、最重要的并且是迅速发展的 一门既有理论又有应用的研究领域。下面简单介绍一下一些粗糙集应用研究的 成果。 1 股票数据分析。文献姐叼应用粗糙集方法分析了十年间股票的历史数据,研 究了股票价格与经济指数之间的依赖关系,获得的预测规则得到了华尔街证券 交易专家的认可。 2 模式识别。文献1 应用r s 方法研究了手写字符识别问题,提取出了特征 属性。 3 地震预报。文献“o 研究了地震前的地质和气象数据与里氏地震级别的依赖 关系。 4 冲突分析。文献“。应用r s 方法建立了反映以色列、巴勒斯坦、约旦、叙 利亚和沙特阿拉伯等六国关于中东和平问题各自立场的谈判模型。 5 从数据库中知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) “3 14 ,是 当前人工智能和数据库技术交叉学科的研究热点之一。r s 方法现已成为k d d 的 一种重要方法,其导出的知识精炼且更便于存储和使用。 6 医疗诊断。粗糙集方法根据以往的病例归纳出诊断规则,用来指导新的病 例。现有的人工预测早产的准确率只有1 7 一3 8 ,应用粗糙集理论则可提高到 1 2 r o u 曲集应用研究 6 8 - - 9 0 ”“ 7 人工神经网络( a n n ) 。训练时间过于漫长的固有缺点是制约a n n 实用化的 因素之一。文献“”应用粗糙集简化神经网络训练样本数据集,在保留重要信息 的前提下消除了多余的数据,使训练速度提高了4 7 2 倍,获得了较好的效果。 文“。”1 将r s 与a n n 结合起来,充分利用r s 处理不确定性的特长以增强a n n 的信 息处理能力。 1 0 决策分析“”。粗糙集的决策规则是在分析以往经验数据的基础上得到 的。粗糙集允许决策对象中存在一些不太明确、不太完整的属性,弥补了常规 决策方法的不足。希腊工业发展银行e t e v a 应用r s 理论协助制定信贷政策,是 粗糙集多准则决策方法的一个成功范例嗽”1 。 事实上,以上只是粗糙集成功应用例子中很小的一部分,粗糙集理论对于 机器学习、知识获取、决策分析、数据库的知识发现、专家系统、决策支持系 统、归纳推理、矛盾归结、模式识别、模糊控制及其他各个方面的应用,它都 为之提供了一种很有效的新的数学方法。粗糙集自提出以来一直得到模糊数学 的创始人z a d e h 的重视,并给予很高的评价,把他列入他新提倡的软计算的基 础理论之一。由此可见,粗糙集理论及其广泛应用越来越受到重视。 1 5 课题研究内容 本论文主要对r o u g h 集及其应用进行了研究。主要的创新之处在于:对粗糙 集应用中常见问题的解决作了讨论;首次将粗糙集方法与核f i s h e r 方法相融合, 研究财务预警问题;另外,提出了一种新的高效的基于粗糙集的车牌识别方法。 论文的组织如下:第二章主要讨论了粗糙集在实际应用中值得研究的一些问 题;第三章主要讨论了基于粗糙集的财务预警问题研究;第四章主要讨论了基 于粗糙集的车牌识别研究;在论文的第五章,介绍了目前常用的几种r o u g h 集 工具软件的使用方法和特点;并在第六章总结了r o u g h 集研究发展的趋势,并 提出了下一步研究方向。 r o u 曲集应用研究 2r o u g h 集应用相关问题研究 上一章简单叙述了粗糙集的基本概念和在理论方面和应用方面的研究现 状。可以说,粗糙集的应用越来越广泛,理论研究也逐渐深入:然而,粗糙集 的应用仍然碰到以下几种困难:首先是数据预处理,即如何补齐信息表中的数 据和连续数据如何离散化的问题;其次,在不同的应用中,究竟应当如何选择 约简算法也是一个值得研究的问题。本章希望在前人研究的基础上,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论