（计算机应用技术专业论文）基于粗集理论的增量式属性约简研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：52 大小：1.26MB 积分：0 举报 版权申诉

已阅读5页，还剩47页未读，继续免费阅读

（计算机应用技术专业论文）基于粗集理论的增量式属性约简研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要粗糙集理论是一个有效的数据挖掘方法，正越来越被人们所重视。其主要思想是保持分类能力不变的情况下，利用等价类，通过约简，达到发掘知识并简化知识的目的。首先，本文介绍了数据挖掘和粗糙集的基本理论和主要方法。然后研究了粗糙集理论的属性约简方法，并针对属性约简存在的问题提出了一种基于信息熵的属性约简算法，算法中引入了信息熵准则作为属性选择的标准。为满足数据库动态更新的需要，对该方法进行修改提出了一种基于信息熵的增量式属性约简。最后，给出了扩充特征矩阵的定义，提出了基于扩充特征矩阵的增量式规则提取方法。关键词：数据挖掘粗糙集约简增量式算法特征矩阵 a b s t r a c t r o u 曲s e tt h e o r yi s a 1 1e f f e c t i v em e t l l o do fd a t am i l l i n g hi s b e i n g r e c o g n i z e d 罂翟d u a i l yn sb a s i ct h e o r yi su t i l i z i n ge q u i v a l e n c ef e l a t i o n c l a s s ，恤o u 曲r e d u c t i o n ，o b t a 证证gk n o w l e d g ea n dr c d u c t i o no fk n o w l e d g e 、v i mt h cs 锄ea b i l i t yo fc l a s s i 矗c a t i o n a tf i r s t ，t h i sp 印e rd e s c r i b e st h eb a s i cp r i n c i p l e sa n dt h em a i nm e t h o d s o fd a t am i n i n ga i l dr o u g hs e tm e o r y t h e n “s t u d i e se s s e m i a lm e t h o d sa i l d a k o r i m m so fa t 晡b u t er e d u c t i o n a n dan e w 砌b u t e sr e d u c t i o na 1 2 0 r i 恤m b 船e do ni 1 1 f 0 n n a t i o ne n 仃o p yi sp r o p o s e dt ot a c k l et l l ep r o b l e m si n v o l v e di n r o u g hs e t t h en e wa i g o r i m ma d o p t si n f o m l a t i o ne n t m p ya sa t 缸b u t e s e l e c t i n gc r i t e r i o n i no r d e rt om c c td ”a m i cd a t a b a s e ，m i sp 印e rp m p o s e sa n e wi n c r e m e n t a la t 研b u t e sr e d u c t i o na l g o r i 血mb a s c do ni 1 1 f 0 册a t i o n e n 仃i ) p yb ym o d i 母i n gt h i sm e m o d a “a s t 也ed e f i m t i o no ff 音a t u r em a 啊xi s e x t c n d e d ，b a s e do nw h i c ha ni n c r e m e n t a lm l ee x t m c t i o n a l g o r i t h mi s p r o p o s e d k e yw o r d s ：d a t am i n i n gr o u g hs e tt h e o i 了 r e d u c t i o n i n c 代m e n t a la l g o r i t h mf e a t u nm a t r i i 第一章绪论 1 1 研究的目的和意义当今，社会已经进入了网络信息时代，计算机与网络信息技术的飞速发展使得各个领域的信息急剧增加( 信息爆炸) ，并且由于人类的参与使数据与信息系统中的不确定生更加显著( 复杂系统) 。如何从大量的、杂乱无章的、强干扰的数据( 海量数据) 中挖掘潜在的、有利用价值的信息( 有用知识) ，这给人类的智能信息处理能力提出了前所未有的挑战。由此产生了一个崭新领域一一数据挖掘( d m ) 。7 j 和数据库知识发现( k d d ) 【8 】o 数据挖据是从大量的，不完全的、有噪声的，模糊的、随机的数据集中识别有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程。它是一门涉及面很广的交叉学科，包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。数据挖掘技术是信息技术自然演化的结果，它从一开始就是面向应用的。它不仅是面向特定数据库的简单检索和查询调用，而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理，以指导实际问题的求解，发现事件间的相互关联，甚至利用已有的数据对未来的活动进行预测。如数据挖掘在零售业中的应用，能够识别顾客的购买行为，发现顾客的购买模式和趋势，改进服务质量，取得更好的顾客保持力和满意程度，提高货品销量，减少商业成本。数据挖掘在电信业中的应用有助于理解商业行为，确定电信模式，捕捉盗用行为，更好地利用资源和提高服务质量。此外，数据挖掘在金融系统和生物医学等方面的研究与应用也已获得极大成功，并促进了这些行业的发展。需要指出的是，数据挖掘所发现的知识都是相对的，具有特定前提和约束条件，面向特定领域，同时还要易于理解，最好能用自然语言表达发现结果。数据挖掘和知识发现的研究成果是很讲求实际的。进行数据挖掘的方法有很多，粗糙集方法便是其中的主要方法之一。粗糙集理论是波兰数学家z p a w l a k 教授为开发自动规则生成系统及研究软计算问题于1 9 8 2 年提出的，用于研究不完整数据和不精确知识的表达、学习、归纳的数学分析理论【9j 其特点是算法简单，无需提供问题所需处理的数据之外的任何先验信息，就可以直接从给定问题的描述集合出发，通过不可分辨关系和等价类确定给定问题的近似域，从而找出该问题的规律。属性约简是粗集理论中一个重要课题| l 。由于大型数据库中常常包含许多对发现规则来讲是冗余的、不必要的属性，研究人员发现，如果能将冗余属性删除，将大大提高系统潜在知识的清晰度，降低发现规则的时间复杂性，提高发现效率。当然，由于粗糙集理论未能包含处理不精确或不确定原始数据的机制，所以与其它处理不确定性问题的理论有很强的互补性。所谓粗糙集方法，是基于一个结构( 或一组结构) 关于一些现实的大量数据信息，以对观察和测量所得数据进行分类的能力为基础，从中发现推理知识扣分辨系统的某些特点、过程、对象等。粗糙集理论不仅为信息科学和认知科学提供了新的科学逻辑和研究方法，而且为智能信息处理提供了有效的处理技术。粗糙集理论对于人工智能和认知科学是十分重要的，自从提出以来一直得到模糊数学创始人z a d e h 的重视，并给与很高的评价，将之列入他新提倡的软计算( s o rc o m p m i n g ) 的基础理论之一。将粗糙集应用于数据挖掘领域，能提高对大型数据库中的不完整数据进行分析和学习的能力，具有广泛的应用前景和应用价值。 1 2 国内外研究现状八十年代初，波兰数学家z p a w l a k 教授提出了用粗糙集理论来研究不完整数船、不精确知识的表达、学习、归纳等方法。它把那些无法确认的个体都归于边界线区域，这个区域定义为上近似集和下近似集之差集，由于上近似集和下近似集都可以通过等价关系给出确定的数学描述，所以含糊元素数目可以被计算出来，从而真假二值之问的含糊程度可以计算。这套方法是与用统计方法处理不确定问题完全不同的，它不是采用概率方法描述数据的不确定性；与这一领域传统的模糊集合论处理不精确数据的方法也不相同。最初关于粗糙集理论的研究主要集中在波兰，当时并没有引起国际计算机界和数学界的重视。直到1 9 9 0 年前后，由于该理论在数据的决策与分析、模式识别、机器学习与知识发现等方面的成功应用，才逐渐引起了世界各国学者的广泛关注。1 9 9 1 年 z p a w l a k 的专著粗糙集一关于数据推理的理论的问世标志着粗糙集理论及其应用的研究进入了活跃时期。1 9 9 2 年在波兰召开了关于粗糙集理论的第一届国际学术会议，这次会议着重讨论了集合近似定义的基本思想及应用。其中粗糙集环境下的机器学习基础研究是这次会议的4 个专题之一。1 9 9 3 年在加拿大召开第二届国际粗糙集理论与知识发现研讨会，这次会议积极推动了国际上对粗糙集理论与应用的研究，由于当时正值数据库知识发现( k d d ) 成为研究的热门话题，一些著名k d d 学者参加了这次会议，并且介绍了许多应用扩展粗糙集理论的知识方法与系统。1 9 9 5 年a c mc o m m 吼i c a t i o n 将粗糙集列为新浮现的计算机科学的研究课题。1 9 9 8 年，国际信息科学杂志为粗糙集理论的研究出版了一期专辑。1 9 9 9 年在日本召开第七届粗糙集、模糊集、数据挖掘和粒度、软计算国际会议，主要阐述了当前粗糙集、模糊集的研究现状和发展趋势。2 0 0 0 年在加拿大召开了第二届粗糙集和计算的当前趋势学术会议。目前粗糙集理论已成为信包科学最为活跃的研究领域之一，在许多应用领域已得到发展，如医疗数据分析、水泥窑生产控制算法、地理学、振动分析、飞行员技能评定、开关电路综合、语言识别、近似分类、故障诊断、成本预测等 i ”。粗糙集理论自提出以来直得到模糊数学的创始人z a d e h 的重视，并给与很高的评价，把它列为他新提倡的软计算的基础理论之一。与国外相比，国内研究稍晚，没有形成整体力量。国内对粗糙集理论的研究始于9 0 年代中期，1 9 9 3 年国家自然科学基金首次对数据库中知识发现领域的研究项目给予资助。目前，许多科研单位和高等院校竞相开展相关领域的基础理论及应用研究，取得了令人鼓舞的成果。2 0 0 1 年5 月在重庆邮电学院举办了首届中国粗糙集和软计算学术研讨会 ( c r s s c 2 0 0 1 ) ，2 0 0 2 年1 0 月在苏州大学举办了第二届中国粗糙集和软计算学术研讨会，2 0 0 3 年5 月在重庆邮电学院同时举办第三届中国粗糙集和软计算学术研讨会和第九届粗糙集、模糊集、数据挖掘与粒度计算国际学术会议( r s f d g 坨2 0 0 3 ) ，这些会议的举办表明我国粗糙集理论和数据挖掘研究的队伍正在不断壮大，已经得到国际同行的重视和认可。粗糙集理论逐渐应用于数据挖掘( d m ) 领域中，并在对大型数据库中不完整数据进行分析和学习方面取得了显著的成果，使得粗糙集理论及数据挖掘的研究成为热点领域。 1 3 数据挖掘近些年来，随着电子商务和电子政务的迅速普及产生了大量的数据，同时日益增长的科学计算扣大规模的工业生产过程也提供了大规模的数据源。而日益成熟的数据库系统和数据库管理系统都为这些海量数据的存储和管理提供了技术保证。同时，计算机技术的另一个技术领域人工智能自1 9 5 6 年诞生之后取得了重大的进展，经历了博奕时期、自然语言理解、知识工程等阶段，目前的研究热点是机器学习。用数据库管理技术来存储数据，用机器学习的方法来分析数据，挖掘大量数据背后的知识，这两者的结合促成了数据库中的知识发现的产生。本章介绍数据挖掘的基本概念和主要过程，作为以后工作的基础。 1 3 1 数据挖掘的定义及其特点数据挖掘( d a t am i i l i n g 简称d m ) 是指从大量的原始数据中发现隐式的、未知的、有用的知识的非平凡过程【1 2 1 。简单的说，就是从数据到知识的过程。数据挖掘的对象一数据，既可以是集中在主机上的数据库，也可以是分布存放在互联网上的各种数据。这些数据可能有千兆字节或更多，故数据挖掘一般需要一些领域知识。由于数据挖掘所使用的数据直接来自数据库，数据的组织形式、规模都具有依赖数据库的特点，特别地，数据挖掘处理的数据量非常巨大，数据的完整性、一致性都难以保证。所以，数据挖掘算法的效率、有效性和可扩充性都显得至关重要。与传统的数据库查询系统比较，数据挖掘技术存在显著的不同u “。首先，传统的数据库查询一般都具有严格的查询表达式，可以用s o l 语句描述。而数据挖掘则常常表现出即时、随机的特点，查询要求不确定，整个挖掘过程无法用s q l 语言就能完整表达。其次，传统的数据库查询一般生成严格的结果集，但数据挖掘过程往往基于统计规律，产生的规则并不要求对所有的数据项总是成立，而是达到事先约定的闽值就可以了。最后，通常情况下，数据库查询只对数据库的原始字段进行，而数据挖掘可能在数据库的不同层次上发掘知识规则。在数据挖掘系统中被用来抽取知识的数据集称为训练集【l 。通过训练这个数据库中的数据，系统试图创建一般规则、模式的描述以及数据库中的关系，获得的知识不仅对所考虑的数据库是有效的，而且还要适合其他类型的数据。另一个数据集用来测试已获得的知识，它即为测试集f l 引。如果在训练集中发现的模式对其他数据也是有效的，此模式是清晰的；如果所获得知识是一般知识，将对测试集的大部分数据是合适的。一般情况下，数据库被分为两部分，一部分是训练集，一部分是测试集。数据库中7 0 用作训练集，且被数据挖掘系统训练。原始数据库的剩余部分则作测试集，测试从训练集中获取的知识是否合适。数据挖掘的基础是来自机器学习和统计领域的技术。通过使用数据库( 训练集) ，进行一个学习过程且获得数据库的模式。由此可以考虑学习的两种不同的方法：推理和归纳。推理学习结合数据库中已有的信息去提出实际已存在于数据库中的新的信息。一个推理系统通过使用之前定义了的规则集推理数据，这些规则制约着被给出推理系统的信息是怎样被使用得出结论和推断信息。归纳学习【i6 j 是发现存在于不同数据中的隐藏模式，该模式将导致更多的有意义的一般知识。归纳学习是数据挖掘的一个重要手段1 1 ”。就数据挖掘来讲，归纳学习是最适合的，也是 4 最好用的。这是由于用这种方法产生的知识不仅对所用的数据库对象适用，也对类似数据适用，而且对不可见对象亦可行。 1 3 2 数据挖掘的功能数据挖掘的功能用于指定数据挖掘任务中要找的模式类型。数据挖掘的任务一般可分为两类一一描述和预测i l 。数据挖掘得到的知识可以分为六大类：特征( c h 盯a c t c r i s t i c ) ：对数据集概括总体的特征，即对共性的描述。例如，盒装鲜牛奶的保质期一般为十天。关联规则( a s s o c i a t i o n ) ：相关数据在不同属性之间或同一属性的不同值之间的关联关系。例如，规则b u y ( x ，m i l k ) b u y ( x ，b r e a d ) 。聚类( c 1 u s t e r i n 2 ) ：按一定距离或相似性测试度把数据分成一系列相互区分的组。例如，帮助市场分析人员从客户数据库中发现不同的客户群，并且用购买模式来刻画不同客户群的特征。分类( c l a s s i f i c 砒i o n ) ：利用已知训练数据集的预定义类建立模型，用模型对数据库中的数据进行分类。例如，按每公里的油耗把汽车分类。趋势分析( t r e n da n dd e r i v a t i o na n a l v s i s ) ：构造和使用模型以评估给定样本可能具有的属性值或值区间。例如，股票走势分析。直接模式分析( p a t t e m d i r e c t e da n a l y s i s ) ：在数据中发现用户指定的模式，并标识其特征。数据挖掘的功能以及它们可以发现的模式类型介绍如下：概念类描述。特征化和区分：数据可以与类或概念相关联。关联分析：发现关联规则i l 。分类和预测：通过分类找出描述并区分数据或概念的模型，以便能够使用模型预测类标未知的对象类。聚类分析。孤点分析。 1 3 3 数据挖掘的方法数据挖掘中采用的方法综合了数据库、人工智能、统计学、模式识别、机器学习、数据分析等领域的研究成果。现有的数据挖掘方法主要有以下几种：一、决策树方法利用信息论中的互信息( 信息增益) 寻找出数据集中具有最大信息的字段，建立决策树中的每一个结点，再根据字段的不同取值建立树的分支的过程，即建立决策树。国际上最有影响的决策树方法是q u i n l a n 研究的i d 3 方法。二、神经网络方法它模拟人脑神经元结构，以m p 模型和h e b b 学习规则为基础，建立了三大类神经网络模型。 1 ) 前馈式网络，以反向传播模型、函数型网络为代表，用于预测、模式识别等方面。 2 ) 反馈式网络，以h o p f i e l d 离散模型和连续模型为代表，分别用于联想记忆和优化计算。 3 ) 自组织网络，以a p t 模型，k o h 0 1 0 n 模型为代表，用于聚类。三、模糊论方法利用模糊集合理论对实际问题进行模糊评判、模糊决篡，模糊模式识别和模糊聚类分析。模糊性是客观存在的，系统的复杂性越高，模糊性越强，这是z a d e h 总结出的互克性原理。四、遗传算法这是模拟生物进化过程的算法，由三个基本算子组成： 1 ) 选择，是指从一个旧种群( 父代) 中选出生命力强的个体，产生新种群( 后代) 的过程。 2 ) 杂交，是选择两个不同的个体的部分进行交换，形成新的个体。 3 ) 变异，对某些个体的某些基因进行变异。遗传算法已在优化计算和分类机器学习等方面发挥了显著的作用。五、粗糙集方法粗糙集理论是八十年代初z p a w l a k 针对gf i r e g e 的边界域思想提出的，基于给定训练数据内部的等价类的建立，用一对上下近似集合来逼近数据库中的不精确概念。用于分类，可以发现不准确数据或噪声数据内在的结构联系；用于特征归约，可以识别和删除无助于给定训练数据分类的属性；用于相关分析，可以根据分类任务评估每个属性的贡献或意义。其主要思想是在保持分类能力不变的前提下，通过知识约简，导出问题的决策或分类规则。 1 3 4 数据挖掘的步骤数据挖掘的实施大体可分为以下三步：一、数据准备( d a t a p r e p a r a t i o n ) ，本阶段分为两步： 1 ) 数据集成：从操作型环境中提取数据并加以集成，解决语义的二义性问题，消除脏数据。 2 ) 数据选择和预分析：进一步缩小数据范围，提高数据挖掘的质量。二、数据挖掘( d a t a m i n j n g ) 这个阶段实际的挖掘工作，包括： 1 ) 先决定如何产生假设，是让数据挖掘系统为用户产生假设，还是对于数据库中可能包含的知识提出假设。前一种称为发现型的数据挖掘，后一种称为验证型的数据挖掘； 2 ) 选择合适的工具： 3 ) 利用前面提到的数据挖掘方法挖掘数据库中的知识； 4 ) 证实发现的知识。三、规则表述( p r e s e n t a t i o n ) 数据挖掘将获得的信惑以方便用户理解和观察的方式反映给用户，这时可利用可视化工具。这些基于不同数据集合的分析结果除了通过可视化工具提供给用户外，还可以存储在知识库中，供日后进一步分析和比较。 1 3 5 数据挖掘系统典型的数据挖掘系统如图1 1 所示，其中，数据挖掘模块包括针对各种应用而开发的挖掘子模块，如关联规则挖掘模块、聚类分析模块、特征规则模块等。图1 1 数据挖掘系统图 1 4 粗糙集理论的产生和发展 1 4 1 粗糙集理论研究对象粗糙集的研究对象是由一个多值属性( 特征、症状、特性等) 集合描述的一个对象( 观察、病历等) 集合，对于每个对象及其属性都有一个值作为其描述符号，对象、属性和描述符是表达决策问题的3 个基本要素。这种表达形式也可以看成一个二维表格，表格的行与对象相对应，列对应于对象的属性；各行包含了表示相应对象信息的描述符，还有关于各个对象的类别成员的信息。通常，关于对象的可得到的信息不一定足以划分其成员类别。换句话说，这种不精确性导致了对象的不可分辨性。给定对象间的一个等价关系，即导致由等价关系构成的近似空间的不分明关系，粗糙集就用不分明对象类形成的上近似和下近似来描述。这些近似分别对应了确定属于给定类的最大的对象集合和可能属于给定类的最小的对象集合。下近似和上近似的差是一个边界集合，它包含了所有不能确切判定是否属于给定类的对象。这种处理可以定义近似的精度和质量。粗糙集方法可以解决重要的分类问题，所有冗余对象和属性的约简包含属性的最小子集，能够很好地近似分类，得到可以接受质量的分类。而且，它还可以用决策规则集合的形式表示最重要属性和特定分类之间的所有重要关系。 1 4 2 粗糙集理论的特点 1 ) 粗糙集不需要先验知识模糊集和概率统计方法是处理不确定信息的常用方法，但这些方法需要一些数据的附加信息或先验信息，如模糊隶属函数和概率分布等，这些信息有并不容易得到。粗糙集分析方法仅利用数据本身提供的信息，无须任何先验知识。 2 ) 粗糙集是一个强大的数据分析工具它能表达和处理不完备信息；能在保留关键信息的前提下对数据进行化简并求得知识的最小表达式；能识别并评估数据之间的依赖关系，揭示出概念简单的模式；能从经验数据中获取易于证实的规则知识，特别适于智能控制。 3 ) 粗糙集与模糊集分别刻画了不完备信息的两个方面粗糙集以不可分辨关系为基础，侧重分类，模糊集基于元素对集合隶属程度的不同，强调集合本身的含混。从粗糙集的观点看，粗糙集合不能清晰定义的原因是缺乏足够的论域知识，但可以用一对清晰集合逼近。虽然粗糙集和模糊集特点不同，但它们之间有着密切的关系，有很强的互补性；粗糙集和证据理论也有一些相互交叠之处，在实际应用中可以相互补充。 1 4 3 粗糙集理论应用的现状粗糙集理论是一种处理含糊和不精确性问题的新型数学工具，其基本思想是在保持分类能力不变的前提下，通过知识约简，导出概念的分类规则。它自问世以来，无论是在理论或应用上都是一种新的、最重要的并且是迅速发展的一门既有理论又有应用的研究领域。 1 ) 股票数据分析。文【2 0 1 应用r s 方法分析了十年间股票的历史数据，研究了股票价格与经济指数之问的依赖关系，获得的预测规则得到了华尔街证券交易专家的认可。 2 ) 模式识别。文 2 1 应用粗糙集方法研究了手写字符识别问题，提取出特征属性。 3 ) 地震预报。文 2 2 】研究了地震前的地质牵口气象数据与里氏地震级别的依赖关系。 4 ) 冲突分析。丈【2 3 】应用粗糙集方法建立了反映以色列、巴勒斯坦、约旦、叙利亚和沙特阿拉伯等六国关于中东和平问题各自立场的谈判模型。 5 ) 从数据库中知识发现( k n o w l e d g ed i s c o v e r vi nd a 协a s e ) 耳。j ，k d d 又称数据挖掘( d a t a m i n i n g ) ，是当前人工智能和数据库技术交叉学科的研究热点之一。粗糙集方法现已成为k d d 的一种重要方法，其导出的知识精炼且更便于存储和使用。 6 ) 粗糙控制。粗糙集根据观测数据获得控制策略的方法被称为从范例中学习( 1 e a m i n g 舶me x a m p l e s ) ，属于智能控制范畴。基本步骤是：把控制过程中的一些有代表性的状态以及操作人员在这些状态下所采取的控制策略都记录下来，形成决策袁，然后对其分析化简，总结出控制规则，形式为：i f c o n d i t i o n = n 满足t h e n 采取d e c i s i o n ：m 。粗糙集方法是一类符号化分析方法，需要将连续的控制变量离散化，为此z p a w l a l ( 提出了粗糙函数的概念，为粗糙控制打下了理论基础。文f 2 6 ，2 7 】应用粗糙控制研究了“小车一倒立摆系统”这一经典控制问题，取得了较好的结果。在过程控制领域，文【2 8 】应用粗糙集方法成功地提取出了水泥窑炉的控制规则。粗糙控制的优点是简单迅速、实现容易、不需要象f u z z y 控制那样进行模糊化和去模糊化。因此在特别要求控制器结构与算法简单的场合，采取粗糙控制较为合适。另外，由于控制算法完全来自观测数据本身，其决策和推理过程可以很容易被检验和证实。一种新的有吸引力的控制策略“模糊一粗糙控制 ( 矗j z z y - r o u 曲c o n 廿0 1 ) ”正悄然兴起，其主要思路是利用粗糙集获取模糊控制规则。 7 ) 医疗诊断。粗糙集方法根据以往的病例归纳出诊断规则，用来指导新的病例。现有的人工预测早产的准确率只有1 7 v 3 8 ，应用粗糙集理论则可提高到6 8 一9 0 。 8 ) 专家系统( e s ) 。粗糙集抽取规则的特点，为构造e s 知识库提供了一条崭新的途径。 9 ) 人工神经网络( a n n ) 。训练时间过于漫长的固有缺点是制约a n n 实用化的因素之一。文【3 0 】应用粗糙集化简神经网络训练样本数据集，在保留重要信息的前提下消去了多余的数据，使训练速度提高了4 7 2 倍，获得了较好的效果。 1 0 ) 决策分析【3 ”。r s 的决策规则是在分析以往经验数据的基础上得到的。r s 允许决策对象中存在一些不太明确、不太完整的属性，弥补了常规决策方法的不足。希腊工业发展银行e t e v a 应用r s 理论协助制定信贷政策，是r s 多准则决蓑方法的一个成功范例。这种理论在许多重要的实际生活中都有应用，利用粗糙集理论处理的主要问题包括数据库中的数据约简、数据相关性的发现、数据意义的评估、由数据产生决策控制算法、数据的近似分类、数据中的相似性或差异性的发现、数据中范式的发现以及因果关系的发现。特别地，粗糙集方法在医学、药学、银行、商业、金融、市场研究、工程设计、气象学、振动分析、开关函数、冲突分析、图像处理、声音识别、并发系统分析、决策分析、字符识别及其他领域都有重要的应用。 1 5 本文的主要研究工作与内容安排本文首先对数据挖掘做了概述，介绍了数据挖掘的主要概念和挖掘过程；然后对粗糙集理论做了简要介绍；并研究了粗糙集理论的核心问题之一：属性约简，比较了几种主要的属性约简算法；最后研究大型数据库的增量式地更新规则，总结了增量式规则提取方法的一般设计原则，给出了扩充特征矩阵的定义，在此基础上提出了基于扩充特征矩阵的增量式规则提取方法。本文的主要工作包括： 1 1 介绍了经典粗糙集的基本理论。经典粗糙集是建立在等价关系基础之上的，用一对上下近似集合来表示一个不精确的概念，其等价关系条件较强。 2 1 属性约简问题是粗糙集理论的核心问题之一，已被证明是一个 n 卜h a r d 问题i j ”j 。讨论了知识约简与知识依赖关系，知识表达系统和决策表的关系，探讨和比较了多种属性约筒方法。 3 ) 增量式算法是知识发现领域的一个热点问题。一般地，对粗糙集方法来说，就是指当新对象加入决策表时，以增量式的方式接受新对象。本文的内容安排如下：本章给出了数据挖掘和粗糙集理论的研究目的、发展状况和前景以及数据挖掘的主要过程和步骤；在接下来的第二章，介绍了粗糙集的基本理论和相关概念；第三章研究了粗糙集的核心问题之一：属性约简及几种主要的属性约简算法；第四章总结了增量式规则提取方法的一般设计原则，扩展了特征矩阵的定义，并在此基础上提出了一种增量式规则提取算法，该规则能够以增量的方式从样本数据中提取确定性和可能性规则：最后总结全文。第二章粗糙集基本理论粗糙集理论是一种新的处理模糊和不确定性知识的数学工具。其主要思想就是在保持分类能力不变的前提下，通过知识约简导出问题的决震或分类规则。下面将阐述粗糙集理论的基础及其思想，作为后面章节的理论准备。 2 1 信息系统一个信息系统包含一个对象集，每个对象有一些属性，并且这些属性有对应的属性值。对于所有对象属性是相同的，但属性值可能不同，因而一个信息系统多少与一个关系数据库类似。一个信息系统( i s ) 可用一个四元素表示：i s = ( u ，a ，v 。，f a ) ，其中u 是一个非空的有限对象集u = x l ，x 2 ，x 。一论域，a 是一个非空的有限属性集a = a 1 ，a 2 ，如。v 。为属性a 的值域，例如属性a 是表示对象大中小这一属性，那么可取值为f 大，中，小) ；对每个属性a a 定义信息函数f a ：u v 。信息系统可用二维信息表加以描述，表中的每一行表示u 中的一个对象，每一列表示a 中的一个属性，表中的每个元素表示该对象的多种属性的取值，即信息函数f a 的值。一个信息系统可简化定义为i s = ( u a l 。一个决策系统是一个信息系统，i s = ( u ，a ) ，其中a 中的属性被进一步划分为不相交的属性集c 和d 的并集，其中c 为条件属性集，d 为决策属性集。( a = c u d 且cn d = 币) 表2 1 给出一个决策系统的例子，是一个决策表。表中a ，b ，c ，d 属性分别表示s t u d i e s ，e d u c a t i o n ，w o r k s ，m c o m e 性。表2 1 收入决策表这个信息系统中有5 个人( 对象) ，每个对象均有其生活状况的属假设想从中发现规则，且这一规则能根据一个人的描述属性预测他或她的收入多少。收入属性即d 被当作决策属性( 或依赖属性) ，其余的属性：学习a 、教育b 、工作c 被作为条件属性。这种只有一个决策属性的情形是最普遍的。 2 2 粗集的基本概念令x cu ，且r 为一等价关系，当x 能用r 属性集确切地描述时，它可用某些r 基本集合的并来表示，称x 是r 可定义的，否则x 为r 不可定义的。r 可定义集是论域的子集，它可在知识库k = ( u ，r ) 中被精确地定义；而r 不可定义集不能在这个知识库中被定义。r 不可定义集也可称为r 非精确集或r 粗集。当存在一个等价关系r i n d ( k ) 且x 为r 精确集，集合x u 称为k 中的精确集；当对于任何r i n d ( k ) 且x 为r 粗集，则x 称为k 中的粗集m j 。下面首先定义不可分辨关系。如果在两对象中存在这样的关系，则意味着被考虑属性的属性值对于两者来说是相同的，因此，这些属性不能被区分或识别。不可分辨关系：对于信息系统i s = ( u ，a ) 的每个属生子集b a ，可定义等价关系i n d ( b ) ，称为不可分辨关系【3 6 ，”】，定义为： i n d ( b ) = ( x ，y ) u + u ：x ) = a ( y ) ，对每个a b ) ( 2 1 ) 对于前面给出的决策系统的例子，计算u n d ( c ) 有如下结果 u d ( a ，b ，c ) 2 “l ，2 ) ，( 3 ) ， 4 ，5 从中可以看出对象被统一划分，并且组成一个划分的对象在使用选定属性进行分辨时是不可区分的。一个等价关系就是一个划分。表2 2 是使用表格形式表示的划分：类e l 来自对象1 和2 ，类e 2 来自对象3 ，类e 3 来自对象4 和5 ，注意 e 3 的两个对象有不同的决策值。表2 2 收入决策表的等价划分结果 abc e in o9 0 0 dy e s e 2y e sg o o dy e s 里i呈旦旦竺旦!呈旦一、上、下近似集 3 8 4 0 1 下面给出的定义是粗集的基本概念，它说明了这一方法的中心点一模糊类。上、下近似集：信息系统i s = ( u ，a ) ，下近似集b ( x 1 和上近似集 b ( ) ( ) ，其中对象x u ，属性集b a ( 定义u 上的一个等价关系) ，根据等价关系中的类可被定义为： b 一( 工) = u x u 月v d ( 日) i ，= ；量。r ( 2 2 ) b 一( x ) = u 矸，毋v d ( b ) i k n x 庐) ( 2 3 ) 分别称为x 的b 下近似集和b 上近似集。集合 6 ( x ) = 日一( x ) 一罡( z ) 称为x 的b 边界。p 0 ( x ) = 厦( j ) 称为x 的b 正域；把聆锯。( z ) = u b 一( j ) 称为x 的b 负域，b n b ( ) 。称为x 的 b 边界域。下近似b ( x ) 是根据知识b ，u 中所有一定能归入x 的元素的集合，即所有包含于x 的y 的并，上近似b 。仪) 是根据知识b ，u 中一定能和可能能归入x 的元素的集合，即所有与x 的交不为零的y i 的并。 b n b ( x ) 是根据知识b ，u 中既不能肯定归入x ，也不能肯定归入x 的元素的集合。二、分辨矩阵在这种矩阵中，( 条件) 属性被插入，这些属性能被用来区分相关列行之间的类。分辨矩阵：信息系统i s = ( u ，a ) ，对于属性集b 爿，分辨矩阵定义如下：彳( b ) = ( 州。) 。，1 j ，”= i u 肋( b ) l ，那儿棚。= 口b i 口( 丑，) 日( 工，) ) ，f ，= 1 ，2 ，n ( 2 4 ) 分辨矩阵中的元素m ，i 是b 中能区分对象类x 。，x ，u i n d ( b ) 的属性集 4 ”。从上一个例子中，能够观察到e l ，e 2 之间仅有一个属性的属性值不同，即为a ，这个属性因而被放在矩阵中的相应的位置。如表2 - 3 所示。可见它是一个对称矩阵，且对角线为矿。表2 3 收入决策表的分辨矩阵如果一些分类具有相同的决策值，则不需要在这些类之间区分，这样的话，对于决策值相同的类就不需加入属性。如果任何类都有同样的决策值的话，那么就能得到更简单的规则。之前的例子不是这样，它的所有的类均有不同决策值。因而，对于一个决策系统i s = ( u ，c u d ) ，分辨矩阵可定义为h ：，( c ，d ) = ( 彳d ( f ，) ) 。，1 f ，_ ，盯= iu 月v d ( c ) ， 4 u 胁r d ( c ) = x l ，2 ，x 。) m 舻吲篇；，= d ( 巍三、分辨函数【4 3 j 分辨函数：属性集合b 量爿，分辨函数苁b ) 是：厂( b ) = 。瓢 vm n ( x 一，x ，) ( 2 5 ) ( 2 6 ) 其中n = l u i n d ( b ) i ，u i n d ( b ) = x l ，x 2 ，x 。，v m d ( z ，x ，) 是对应分辨矩阵元素m d ( x 。，x i ) 的布尔型变量“m 。( ，x ，) ”的并集i “。一个对象类x 的相对分辨函数艇，b ) 是：，( x ，b ) = 0 、vm d ( x ，x ) ( 2 7 ) j 1 1 ，l j 这表明分辨函数戊b ) 用来计算最小属性集，这些属性要求能从其它所有类中分辨出任何等价类。类似地，相对分辨函数，( x ，b ) 计算最小属性集，这些属性要求能从其它类中分辨出给定等价类x 。对于上面的例子可计算下面的相对分辨函数：，( 巨，c ) = 口 ( 6 v c ) ( 易，c t ) = d ( d v 6 v c ) 厂( e ，c ) = ( 6 vc ) v 6 vc ) 四、属性的约简和核在信息系统中，数据仅能在一定程度上区分类。然而，为了能够达到这一目的，不是所有的属性都可能被需要。为此，介绍下面的一些知识。数据约简即对某个不可分辨关系，如果某个条件属性被去除后仍有相同的等价关系的话，那么这个条件属性便是可省的【4 5 j 。首先，看一下独立性，对于属性日b 彳，如果i n d ( b ) = i n d ( b - a ) 则属性a 是冗余的；否则称a 是独立的或必要的。当对任意a b ，如果a 是独立的，则b 是独立的；当a 是独立的，且b 爿，则b 也是独立的。核和约简是粗集理论的两个基本概念。约简：对于属性集b b ，若对于所有属性口曰一b 。是不必的，且上，d ( 占) = n ，d ( b ) ，即b 。为最小子集，则b + 称为b 的约简，用r e d ( b ) 表示。一个属性集合b 可能有多种约简。分辨函数苁b ) 的基本集决定了b 的约简。核：b 的所有属性集中都包含的不可省略关系的集合，即所有约简关系簇r e d ( b ) 的交称为b 的核，记作c 0 r e ( b ) 。它是表达知识必不可少的重要属性集。属性集合的核和约简的关系表达为： c o r e ( b ) = nr e d ( b ) ( 2 8 ) 其中r e d ( b 1 是b 的所有约简关系簇【4 6 l 。核主要有两个作用：( 1 ) 它可作为所有约简的计算基础，因为核包含在所有约简之中，并且计算可以直接进行；( 2 ) 它是信息系统中必需的属性，即在知识约简时，它是不能消去的知识特性部分的集合。下面介绍另一个相关的概念一一相对约简1 4 ”。首先看一个分类相对另一个分类的正域，p 和s 为u 中的等价关系， s 的p 正域记为p o s p ( s ) ：p o s p ( s ) = u p ( x )x u s 对于u 伊的分类， u s 的正域是论域中所有通过分类u ，p 表达的知识能够确定地划入u s 类的对象的集合。当j p d s m ( 肼d ( s ) ) = p 0 s m ( h 川( ，d ( s ) ) 时，称a p 为p 中s 可省略的；否则a 为p 中s 不可省略的。当p 中每个a 都是s 不可省略的，则称p 是对于s 独立的。相对约简：如果q 是p 的s 独立的子集，且p o s o ( s ) = p o s p ( s ) ，则称子集qcp 为p 的s 约简，p 中所有s 不可省略的属性称为p 的s 核。相对核和相对约简关系如下： c o r e s ( p ) = nr e d s ( p ) 其中r e d s ( p ) 是p 中所有的s 约简关系簇。相对分辨函数，b ) 的基本集决定了b 的相对约简。r e d x ( b ) 是代表对于类x ，b 的相对约简。由此可见在信息系统中，相对约简包含足够的信息把一个类中的对象同其他类区分开来。对于上面的例子，为了发现相对约简，分辨函数被计算，下面将看到，每个函数被最小化成如下形式：，( e l ，c ) = d a ( 6 v c ) = ( 口 6 ) v ( 以 c ) 厂( 易，c ) = 日 0 v 6 v c ) = 口厂( 毛，c ) = ( 6 v c ) 0 v 6 v c ) = 6 vc 这给出所需的相对约简。例如，r e d d ( c ) = “a ，b ) ， a ，c ) ，相对约简是最小的，因为每个分辨函数是被最小( 相对) 的约简是一个约简，在约简中属性不可能被去掉，而同时不失掉约简的性质。五、知识依赖性的量度及粗集的粗糙度 1 、知识的依赖性量度【4 8 - 5 0 j 从知识的相对约简，知道从一给定的知识能导出另一知识时，则两种知识间存在依赖性。令k = ( u ，r ) 为一个知识库，且p ，q r ，若 i n d ( p ) i n d ( q ) ，则称知识q 依赖于知识p 或者称知识q 可由知识p 完全推导出来，记为pjq 。而且等价于p o s p ( q ) = u 。在很多时候，知识并非是完全可推导的。有一些知识( q ) 是可由知识( p ) 部分导出的，部分可导性可用知识的部分依赖性表达。为此给出知识的依赖性量度七= o ( q ) = c 口r d ( p ( 姆p ( q ) ) c r d ( u ) ( 2 9 ) 其中c a r d ( ) 表示集合的基数，则称知识q 是p 的k 度可导的( o k 1 ) ，记作p j i q 。这里c a r d ( p 0 s p ( q ) ) 是表示根据p ，u 中所有一定能归入o 的元素的集合。 2 、属性的重要性在进行分类时，去掉某些属性会改变分类，则说明该属性强度大，即重要性高；反之，说明属性的强度小，即重要性低。对于属生集d 导出的分类子集b 。b 的重要性，用两者的依赖程度的差来度量，即 ( d ) 一厶、。( d ) ( 2 1 0 ) 这表示当从集合b 中去掉某些属性集b 后对对象进行分类时，分类的正域将会受到怎样的影响。根据属性重要性来进行约简，将很轻松地得到该知识表申的核的构成，但核不是该原始知识表的约简。如果可省略的属性不唯一时，通常存在多种约简形式。 3 、粗集的粗糙度 r 为u 上的等价关系，x 是r 可定义的，当且仅当r 一( z ) = 尺一( x ) ； x 是r 不可定义的，当且仅当足一( x ) r 一( 1 ，因此，对于u 中的任意元素x ，其关于r 的精确可定义度a r ( x ) 和粗糙度p r ( ) ( ) 定义如下： ( x ) = c 甜d ( 月一( z ) ) c d 坩( r 一( x ) ) p r ( x ) = l a 。( x ) 2 3 规则的产生 ( 2 1 1 ) ( 2 1 2 ) 在数据库中规则代表依赖性，它也代表抽取知识【5 l 】。当不在原始信息系统中划分新的对象时，规则可以被利用。当约简被找到

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于粗集理论的增量式属性约简研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于粗集理论的增量式属性约简研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档