(应用数学专业论文)一种新的模糊规则权重方法的数据分类的研究.pdf_第1页
(应用数学专业论文)一种新的模糊规则权重方法的数据分类的研究.pdf_第2页
(应用数学专业论文)一种新的模糊规则权重方法的数据分类的研究.pdf_第3页
(应用数学专业论文)一种新的模糊规则权重方法的数据分类的研究.pdf_第4页
(应用数学专业论文)一种新的模糊规则权重方法的数据分类的研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 分类问题是数据挖掘领域的重要研究内容之一。分类是通过分析给出的数据 集构造分类模型,利用分类模型对已知类别的样本进行分类的一种技术。现有的 一些分类方法对平衡数据进行分类,一般都能取得较好的分类性能。然而对于现 实世界中存在的非平衡的数据,传统的分类算法在处理非平衡数据分类问题时会 倾向于多数类,而导致少数类的分类精度较低,因而研究用于处理非平衡数据集 的分类方法显得相当重要。 针对不同类型数据的分类,本文提出了一种有效调节平衡数据与非平衡数据 分类准确率的基于模糊规则的分类算法。将c me t 越规则生成算法与模糊分类推理 模型相结合进行分类算法设计。引入加权系数和样本分布函数对模糊规则权重的 计算方法进行改进,既使得样本类内匹配度得到均匀分布,又加强了类间的对比 度,起到了削弱类内差距和增强类间差异的作用。通过加权系数调节规则权重, 提高分类准确率。特别地,利用s m o t e 算法对非平衡数据进行预处理,使得处理 后的数据集少数类和多数类的样本在数量上达到了大致的平衡,在此基础上应用 提出的分类算法对非平衡数据进行分类。然后,将平衡的和具有不同非平衡度的 u c i 数据集进行m a t l a b 仿真实验,验证该分类算法的可靠性。最后,将得到的实 验数据与已有的分类算法的数据分类准确率进行比较,结果表明该算法优于其他 算法,具有较高的分类准确率。 关键词:数据分类;模糊规则;预处理;权重;非平衡数据 英文摘要 a b s t r a c t c l a s s i f i c a t i o ni so n eo f 也em o s ti m p o r t a n tr e s e a r c hc o n t e n t si nd a t am i n i n g i ti sa t e c h n o l o g yt h a tc o n s t r u c t sc l a s s i f i c a t i o nm o d e lb ya n a l y z i n gg i v e nd a t as e t sa n d c l a s s i f i e ss a m p l e so fk n o w nc l a s sb yu s i n ga b o v ec l a s s i f i c a t i o nm o d e l t h et r a d i t i o n a l c l a s s i f i c a t i o nm e t h o d st h a td e a lw i t hw e l l - b a l a n c e dd a t ac a l lo f t e no b t a i ng o o d c l a s s i f i c a t i o np e r f o r m a n c e h o w e v e r , t h e r ee x i s t sm o r ei m b a l a n c e dd a t ai nt h er e a l w o r l d f o rd e a l i n g 、访也c l a s s i f i c a t i o no fi m b a l a n c e dd a t a , t h et r a d i t i o n a lc l a s s i f i c a t i o n m e t h o d so f t e nt e n dt ot h em a j o r i t yc l a s sa n dl e a dal o w e rc l a s s i f i c a t i o na c c u r a c yt ot h e m i n o r i t yc l a s s t h u s ,i ti sv e r yi m p o r t a n tt om a k er e s e a r c h e so nt h ec l a s s i f i c a t i o n m e t h o d so ft h ei m b a l a n c e dd a t a t od i f f e r e mt y p e so fd a t as e t s ,t h i sp a p e rp r o p o s e sac l a s s i f i c a t i o na l g o r i t h mb a s e d o nf u z z yr u l e s ,w h i c hc a na d j u s tt h ec l a s s i f i c a t i o na c c u r a c yo nt h ew e l l - b a l a n c ed a t aa n d t h ei m b a l a n c e ad a t ae f f e c t i v e l y w ed e s i g nac l a s s i f i c a t i o na l g o r i t h mt h a ti n c l u d e st h e c h ie ta la l g o r i t h ma n dt h ef u z z yr e a s o n i n gm o d e l i ti n t r o d u c e sw e i g h t i n gc o e f f i c i e n t s a n dp a t t e r nd i s t r i b u t i o nf u n c t i o nt oi m p r o v et h ec a l c u l a t i o nm e t h o do ff u z z yr u l e s w e i g h t s t h i sa l g o r i t h mn o to n l yk e e p st h ep a t t e r nm a t c h i n gd e g r e ew i t h i nc l a s si n u n i f o r md i s t r i b u t i o n , b u ta l s oe n h a n c e st h ec o n t r a s to fi n t e r - c l a s s m o r e o v e r , i tw e a k s t h eg a po fw i t h i nc l a s sa n de n h a n c e st h ed i f f e r e n c eo fi n t e r - c l a s s s o ,c l a s s i f i c a t i o n a c c u r a c yi si m p r o v e db yt h er u l e sw e i g h t sa d j u s t e db ym e a n so fw e i g h t i n gc o e f f i c i e n t s i np a r t i c u l a r , w ea p p l yt h es m o t e a l g o r i t h mt op r e p r o c e s st h ei m b a l a n c e dd a t a , w h i c h l e a d st ob a s i cb a l a n c eb e t w e e nt h em i n o r i t yc l a s sa n dm a j o r i t yc l a s si nq u a n t i t y b a s e d o nt h es t u d i e s ,w ec l a s s i f yt h ei m b a l a n c e dd a t ab yu s i n gt h ec l a s s i f i c a t i o na l g o r i t h m t h e n , w ev e r i f yt h er e l i a b i l i t yo ft h ec l a s s i f i c a t i o na l g o r i t h mo nn u m e r i c a ls i m u l a t i o n a b o u tt h ew e l l b a l a n c e da n di m b a l a n c e dd a t aw h i c hh a v et h ed i f f e r e n ti r n b a l a n c e d d e g r e e so fu c id a t as e t s i na d d i t i o n , w ec o m p a r eo u re x p e r i m e n t a lr e s u l t sw i t l lo t h e r m e t h o d so nc l a s s i f i c a t i o na c c u r a c y f i n a l l y , t h ea b o v er e s u l t ss h o wt h a tt h ep r o p o s e d a l g o r i t h r ai ss u p e r i o rt oo t h e rm e t h o d s k e yw o r d s :d a t ac l a s s i f i c a t i o n ;f u z z yr u l e s ;p r o c e s s i n g ;w e i g h t ;i m b a l a n e e dd a t a 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成博硕士学位论文 ! = 社堑盥攫越趣则拯重左洼的麴握筮袭的研究:一。除 论文中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已 在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已 经公开发表或未公开发表的成果。本声明的法律责任由本人承担。 学位论文作者签名:一! 鱼壁 11 学位论文版权使用授权书 本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学 位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论 文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本 学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫 描等复制手段保存和汇编学位论文。同意将本学位论文收录到中国优秀博硕士 学位论文全文数据库( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论文全 文数据库( 中国科学技术信息研究所) 等数据库中,并以电子出版物形式出版发 行和提供信息服务。保密的论文在解密后遵守此规定。 本学位论文属于:保密口在年解密后适用本授权书。 不保密囤( 请在以上方框内打“,) 论文作者签名:i 马再 导师签名: 日期:州年 一种新的模糊规则权重方法的数据分类的研究 第1 章绪论 1 1 分类问题的背景和意义 分类1 1 , 2 1 是数据挖掘1 3 - 9 1 中的一个重要的目标和任务,由于数据挖掘是一个从 源数据集中挖掘知识的过程,这种类知识也必须来自于源数据,且是对源数据的 过滤、抽取( 抽样) 、压缩以及概念提取等。分类是通过分析给出的数据集构造分 类模型,利用分类模型对已知类别的样本进行分类的一种技术。从机器学习的观 点来看,分类技术是一种有指导的学习,即所给训练样本的数据对象已经有类标 识,通过学习可以形成表达数据对象与类标识间对应的知识。从这个意义上说, 分类的目标就是根据样本数据形成的类知识并对源数据进行分类,进而也可以预 测未来数据的归类。 分类算法大体可以分为传统分类算法和基于软计算的分类法两类,主要包括 相似函数、关联规则分类算法、k 近邻分类算法、决策树分类算法、贝叶斯分类 算法、遗传算法、粗糙集和神经网络的分类算法。现有的一些分类方法已经相对 成熟,用它们对平衡数据进行分类一般都能取得较好的分类性能。然而,这些分 类器的设计都是基于类分布大致平衡这一假设的,即各类所含的样本数大致相当。 但在现实世界的分类问题中往往包含许多不确定性或噪音,而且广泛存在着非平 衡数据 9 - 1 4 1 ,即数据中的一类样本在数量上远多于另一类,而其中少数类的样本通 常具有巨大的影响力和价值,是我们主要关心的对象。传统的分类算法在处理非 平衡数据分类问题时会倾向于多数类,而导致少数类的分类精度较低,因而研究 用于处理非平衡数据集的分类方法显得相当重要。非平衡数据集的分类问题是数 据挖掘和机器学习领域中新的研究热点,是对传统分类方法的重大挑战。近年来, 模糊理论在非平衡数据分类问题中的应用得到越来越多学者的关注。因为模糊集 合和模糊命题都具有模糊性,基于它们的推理可以很大程度上反映人类对客观事 物的认知和判断过程。并且,模糊规则具有较强的解释性。因此,利用模糊规则 进行数据分类便于人们对推理过程的理解。 分类问题的应用范围非常广泛。在天文学研究领域,有一个非常著名的应用 系统:s c a t 【1 7 1 ( s k yi m a g ec a t a l o g i n ga n da n a l y s i st 0 0 1 ) 。它是美国加州理工学院喷 第1 章绪论 气推进实验室与天文科学家合作开发的用于帮助天文学家发现遥远类星体的一个 工具。s k i c a t 的任务是构造星体分类器对星体进行分类,使结果能分辨的星体在 亮度上较以前方法低一个数量级以上,而且新的方法比以往方法的效率要高4 0 倍 以上。在商业应用领域,银行或商业上经常发生诈骗行为,这方面应用非常成功 的系统有信用卡欺诈估测系统【1 8 】,它已被大量零售银行用于探测可疑信用卡交易。 此外,在医疗诊断f 1 9 j 、风险管理【2 们、文本分类【2 l l 等方面也有广泛的应用。 针对分类问题的研究使人们对现实生活的认识又进入一个新的层次。目前分 类问题的研究主要集中在:( 1 ) 分类问题算法的效率及扩展性【1 7 】,当今由于数据产 生和收集技术的进步,大规模数据越来越普遍,即分类算法的运行时间必须是可 预见的并且是可接受的。( 2 ) 处理高维数据的分类算法【1 7 】,当前所储存的数据维数 越来越多,特别是在生物信息学领域,随着微阵列技术的进步,产生了涉及数千 特征的基因表达数据,开发能够处理高维数据的分类算法具有相当的紧迫性和必 要性。( 3 ) 非平衡数据的分类与预测,典型的分类器被设计为使整体准确率最高, 而不考虑每个类的相对分布情况,非平衡数据给这类典型的分类器提出了挑战。 1 2 分类问题的发展历史 数据挖掘的诞生可追溯到2 0 世纪8 0 年代,1 9 8 9 年8 月在美国底特律召开的 第1 1 届国际人工智能联合会议,举行了数据库中知识发现的专题讨论( k d d w o r k s h o p ) 。接着,美国人工智能学会在1 9 8 1 年、1 9 8 3 年和1 9 9 4 年相继举行了 k d d w o r k s h o p 。在这些讨论会的基础上,美国计算机学会成立了知识发现和数据 挖掘专业委员会s i g k d d ,并与1 9 9 5 年在加拿大蒙特利尔召开了第一届知识发现 与数据挖掘国际学术会议。数据挖掘技术主要包括关联规则发现、分类、聚类分 析、泛化和预测等。 分类作为数据挖掘技术的一个分支,已经取得了明显的效果,涌现了大量处 理平衡数据的分类问题的研究,如基于决策树的分类方法在大规模数据库条件下 的应用研究1 2 2 , 2 3 1 ;在较高的抽象层次分类中,m e h t a , m ( 1 9 9 6 ) 2 4 1 等人针对大型数 据库快速分类算法的研究;o w e n , a b ( 1 9 9 9 ) 1 2 5 1 对分类与回归的管状邻域研究; f d e d m a n , j h ( 1 9 9 7 ) 1 2 6 对最近邻分类的改进。用于分类的类知识可以用分类规则、 一种新的模糊规则权重方法的数据分类的研究 概念树,也可以以一种学习后的分类网格等形式表示出来,许多技术都可以应用 到分类应用中。最为典型的分类方法是基于决策树 2 7 1 的分类方法。它从实例中构 造决策树,是一种有指导的学习方法。该方法先根据训练子集( 又称为窗口) 形成 决策树,如果该树不能对所有对象给出正确的分类,那么选择一次而另外加入到 窗口中,重复该过程一直到形成正确的决策集。最终的结果是一棵树,其叶节点 是类名,中间节点是带有分支的属性,该分支对应该属性的某一可能值。最为典 型的决策树学习系统是i d 3 ,它采用自顶向下不回溯策略,能保证找到一个简单的 树。之后的改进算法包括i d 4 、i d 5 、c 4 5 、c 5 0 等。贝叶斯分类来源于概率统计 学,并且在机器学习中得到很好的研究。朴素贝叶斯分类具有坚实的理论基础, 和其他分类方法比,理论上具有较小的出错率。但是,由于受其应用假设的准确 性设定的限制,所以需要在提高和验证它的适应性等方面作进一步研究。随着研 究的深入,类比学习得到了广泛的应用,最典型的类比学习方法是k 近邻方法, 它属于懒散学习法,相比决策树等急切学习法,具有训练时间短但分类时间长的 特点。其他方法还有粗糙集、模糊集方法等。模糊性是客观存在的,按照z a d e h 的互克性原理,系统的复杂性越高,精确化能力就越低,也就意昧着模糊性越强。 利用模糊集合理论可以通过模糊推理和分析来达到发现有用知识的目的。 鉴于解决非平衡数据分类问题有着很深远的意义,因此国内外研究者对该问 题进行了大量的研究。相关研究 1 0 , 2 8 , 2 9 】主要围绕以下3 个方面展开:( 1 ) 改变数据的 分布( 数据层面) ;( 2 ) 设计新的分类方法( 算法层面) ;( 3 ) 设计新的分类器性能 评价准则( 判别准则) 。目前,模糊理论在非平衡数据分类问题中的应用得到越来 越多学者的关注,如何构建初始规则集是设计模糊分类系统的关键。国内外学者 为此进行了深入而广泛的研究:将神经网络应用于模糊分类规则集的产生、通过 聚类算法生成模糊规则、群体智能和遗传算法对模糊分类规则集的优化、将规则 编码为粒子,应用粒子群优化算法进行分类规则的提取、模糊分类规则的权值启 发算法等等。其中基于模糊规则的分类系统d o l ( f u z z yr u l eb a s e dc l a s s i f i c a t i o n s y s t e m s ,f r b c s ) 处理非平衡数据分类问题有着很好的分类效果 3 h ,主要有两个方 面:( 1 ) 构建具有良好性能的f l 氇c s ,来处理非平衡数据。已经取得的一些进展有 模糊决策树分类器 3 2 1 ,基于模糊图和遗传算法提取模糊规则 3 3 1 和e 一算法。其 第1 章绪论 中仅e 一算法使用了语言方法。( 2 ) 预处理非平衡数据。a l b e r t o f t 3 5 】等人利用过抽样、 欠抽样和混合方法对非平衡数据进行预处理,然后利用f r b c s 对其进行分类,取 得了较好的效果。 1 3 本论文的主要工作 本论文的主要目的是利用模糊规则研究数据的分类问题,包括对平衡数据和 非平衡数据的研究。本论文的主要工作包括: 1 提出一种新的模糊规则权重的计算方法。该方法是通过引入加权系数和样 本分布函数得到的。既在计算过程中使得样本类内匹配度得到均匀分布,又在判 断类别时加强了类间的对比度,起到了削弱类内差距和增强类间差异的作用。 2 构建基于模糊规则的分类算法。该算法由c l l ie ta l 规则生成算法、通用分类 推理模型和改进的模糊规则权重的计算方法三部分组成。 3 分别从平衡数据集和非平衡数据集两个方面对该分类算法进行验证,说明 算法的有效性和改进规则权重计算方法的合理性。特别地,针对非平衡数据集的 特性,我们采用s m o t e 算法进行数据预处理。实验证明该分类算法对不同数据集 都能够得到较高的分类准确率。 种新的模糊规则权重方法的数据分类的研究 第2 章模糊数学基础 模糊数学【3 6 1 是研究和处理模糊性现象的一种数学理论和方法。它始于1 9 6 5 年美国自动控制论教授l a z a d e h 发表的开创性的论文“模糊集合 。它的产生不 仅拓广了经典数学的数学基础,而且是计算机科学向人类的自然机理方面发展的 重大突破。模糊集合的产生与系统科学的发展有着更加密切的关系。在多变量、 非线性大系统中,复杂性与精确性形成了尖锐的矛盾。正如z a d e h 所指出的,随 着系统日益复杂,人们对它的精确而有意义的描述能力将相应的降低,以至达到 精确性与有意义成为两个几乎相互排斥的地步。因此,要想确切地描述复杂现象 和系统的任何现实的物理状态,事实上是办不到的。为了使整个问题的描述有意 义,必须在准确与简明之间取得平衡。模糊集合的提出,正是为了用比较简单的 方法,对复杂系统作出合乎实际的描述和处理。 人具有运用模糊概念的能力,能对模糊事物进行识别和判决。模糊数学正是 使计算机能够模拟人脑思维的模糊性特点,使部分自然语言作为算法语言直接进 入计算机程序,让计算机完成更复杂的任务,以便计算机能像人脑那样简洁灵活 的做出相应的判断,从而提高自动识别和控制模糊现象的效率。 自模糊集合论诞生至今的四十年来,模糊数学理论日臻完善,模糊技术迅速 发展,模糊集理论和方法已经广泛应用于自动控制、系统分析、知识描述、语言 加工、图像识别、信息复制、医学诊断、经济管理等不确定决策方面,有着明显 的实际效果,并取得了许多惊人的成果。实践表明,模糊集理论和模糊技术为处 理不确定复杂系统提供了新的途径,为计算机科学的发展提供了强有力的工具。 本章主要介绍本文所涉及的模糊数学的基本理论和基本原理:模糊集合及其 运算、模糊关系、模糊规则和模糊推理。 2 1 模糊集合及其运算 在介绍模糊集合前,先回忆下普通集合f 3 6 】。 论域u 中每个元“,对于子集acu 来说,要么材a ,要么z f 诺a ,二者必 第2 章模糊数学基础 居其一。子集a 由映射e :u - 9 0 ,1 ) 唯一确定。即集合彳可由特征函数 啪) = 怯葛 ( 2 1 ) 来刻画,只能表达“非此即彼 的现象,不能表达存在于现实中的“亦此亦彼 的现象。 但是,在某种意义上讲,客观世界中的绝大多数事物或现象都是表露不完全 或模糊不清的,一般的集合并不能描述这种模糊性。 例l 秃头悖论:任何人都是秃头。 公设:若具有刀根头发的人是秃头,则有n + l 根头发的人亦是秃头。 证明:由数学归纳法: ( 1 ) 仅有1 根头发的人自然是秃头; ( 2 ) 假设有n 根头发的人是秃头; ( 3 ) 由公设便知有n + l 根头发的人也是秃头。 由数学归纳法知任何人都是秃头。 这个悖论出现的原因在于,数学归纳法是以普通集合论为基础的数学方法, 而“秃头 是个模糊概念。用一个精确的数学方法来处理这样的模糊概念是不合 适的。 所以,z a d e h 将普通集合论的特征函数的取值范围由 0 ,1 ) 推广到闭区间 o ,1 , 于是便得到了模糊集的定义。 2 1 1 模糊集合的定义及表示 定义2 1 3 7 1 设给定论域【, u 到闭区间 0 ,1 的任一映射h h :u 寸【o ,1 】 ( 2 2 ) “一p 4 ( 甜) ( 2 3 ) 都确定【厂上的一个模糊集彳,h 称为模糊子集a 的隶属函数,h ( 甜) 称为”属于 a 的隶属度。模糊子集由其隶属函数所确定,而隶属函数是普通集合中特征函数的 推广。在不混淆的情况下,模糊子集也称为模糊集合。 上述定义表明,论域u 上的模糊子集彳由隶属函数h ) 来表征,h ) 取值 一种新的模糊规则权重方法的数据分类的研究 范围为闭区间 0 , 1 ,h ) 的大小反映了u 对于模糊子集的从属程度。h ) 的值 接近于l ,表示甜从属彳的程度很高;i t a ( “) 的值接近于0 ,表示u 从属a 的程度 很低。可见,模糊集完全由隶属函数来描述。对于定义2 1 ,对模糊集么,若h ) 仅取0 和l ,则彳就蜕化为普通集合。所以普通集合是模糊集的特殊情形。 2 1 2 特殊的模糊集合 定义2 2 3 3 1 空集:设彳为u 中的模糊集合,如果对v 材eu ,均有h ) = o , 则称么为空集,记做囝。 定义2 3 m 1 全集:设彳为u 中的模糊集合,如果x c v u u ,均有h ( “) = l , 则称彳为空集,记做q 。 定义2 4 t 3 8 1 等集:设彳和召均为u 中的模糊集合,如果对v u u ,均有 h ( ) = t t b ) ,则称b 与么相等,记做a = b 。 定义2 5 m 1 支集:设彳为u 中的模糊集合,称s u p p a = 伽ip 一( 甜) 0 为模糊集 彳的支集。 一个论域上的模糊集的隶属函数是千差万别的。下面将给出实数集上很有用 且又常见的三类隶属函数。 1 偏小型( 戒上型) p s c “,= ;1 + 口材一c 6 _ 1:三; c 2 4 , 式中,c u 是任一点,口和b 是两个大于零的参数。 2 偏大型( 戒下型) p c “,= 0 1 + 口。”一c ,一。,一, :二主三 c 2 5 , p ( “) = t ( 1 + 口( ”一c ) 一6 ) _ 1 “c 2 5 ) 式中,c u 是任一点,a 和b 是两个大于零的参数。戒上型和戒下型是对偶的。 3 中间型( 对称型或正态型) ( 材) - - e 一。”) 2 ( 2 6 ) 式中,c u 是任一点,k 大于零的参数。它是一类定义或描述近似程度的模糊集。 隶属函数的形式有多种,根据实际f - j 题而具体确定或选用。在实际应用中为 第2 章模糊数学基础 方便起见,常采用梯形、三角形较多。 2 1 3 模糊集合的运算 每两个模糊子集间的运算,实际上就是逐点地对隶属函数作相应的运算。 定义2 2 设彳,b f ( u ) ,若v ueu ,h 似) i t s ) ,则称b 包含彳,记为 a _ c _ b 。 如果么凹且b 崮,则称a 与b 相等。记作a = b 。 显然,包含关系“ 是模糊幂集足上的二元关系,具有如下性质: ( 1 ) 自反性:v a e f ( u ) ,彳型; ( 2 ) 反对称性:若a _ c b ,b _ c a ,则彳书; ( 3 ) 传递性:若彳幽,b c _ c ,则a c _ c 。 因此,假,) 是偏序集。 定义2 3 t 3 6 】设么,b f ( u ) ,分别称运算设au b ,4 f q b 为彳与占的并集,交 集。称彳。为彳的补集,也称为余集。它们的隶属函数分别为 t a u s ( 甜) = p ( “) vp b ( ”) = m a x ( i _ t 一( 材) ,1 t b ( 材) ) ( 2 7 ) p 爿n 占( 材) = p 月( “) i t s ( “) = m i n ( p 月( “) ,肛占( 材) ) ( 2 8 ) p d 。( “) = 1 一h ( 材) ( 2 9 ) 为了说明上述运算的有效性,任给h ( z ,) = 口 0 ,1 】, ) = 6 e o ,l 】,由于 0 g vb 1 ,0 a a b 1 ,0 1 - - a 1 ,故对v a ,b f ( u ) ,有么ub ,4 n 曰, a f ( u ) 。 定义2 4 【3 6 】映射丁- o ,1 】2 一【o ,1 】,如果对v a ,b ,c 【0 ,1 】,满足条件: ( 1 ) 交换律:t ( a ,b ) = t ( b ,a ) ; ( 2 ) 结合律:t ( t ( a ,6 ) ,c ) = t ( a ,t ( b ,c ) ) ; ( 3 ) 单调性:若口l a 2 ,6 l 6 2 ,则r ( q ,2 j i ) 丁( 口2 ,6 2 ) ; ( 4 ) 边界条件:t o ,口) = a , 则称为产三角模,也称卜范数。 定义2 5 【蚓映射s :【0 ,1 】2 - - ) 0 ,1 】,如果对v a ,b ,ce o ,l 】,满足条件: 一种新的模糊规则权重方法的数据分类的研究 ( 1 ) 交换律:s ( a ,b ) = s ( b ,a ) : ( 2 ) 结合律:s ( s ( a ,6 ) ,c ) = s ( 口,s ( b ,c ) ) ; ( 3 ) 单调性:若a l a 2 ,6 1 6 2 ,则s ( c 6 ,6 】) s ( a 2 ,6 2 ) ; ( 4 ) 边界条件:s ( a ,0 ) = a , 则称为广三角模,也称p 范数( 弘余范) 。 最大隶属原则蚓设i t ,f ( u ) ( 江l ,2 ,靠) 为咒个标准模式,对u 是待识 别对象,若存在f ,使 p ,( “o ) = m a x i t l ( ) ,p 2 ( z ) ,u 。( ”o ) ) ( 2 1 0 ) 则认为相对地隶属于,判决归属所代表的那个模式。 2 2 模糊关系 2 2 1 模糊关系的定义 设笛卡儿积【3 6 i u x v = ( 甜,v ) i u e u ,v v ( 2 1 1 ) 如果对论域u 和y 中元素搭配施加某种限制,这种限制便体现了u 和矿之间的某 种特殊关系,称这种关系是u x v 的一个子集。 定义2 6 t 蚓设r 是u x v 的一个模糊子集,它的隶属函数 r :u x v 一【o ,1 】 ( 2 1 2 ) ( 材,v ) 专r ( u ,v ) ( 2 1 3 ) 确定了u 中元素“和矿中元素v 的关系程度,则称r 是从u 到y 的一个模糊关系, 记为u 山v 。 可见,模糊关系r 由隶属函数r :u x v 一 0 ,1 】所刻画,即u x v 上的模糊集确 定了u 到y 的一个模糊关系;反之,模糊关系也是u x v 上的一个模糊集。所以从 u 到y 的模糊关系集记为f ( u 矿) 。 2 2 2 模糊关系的运算 由于模糊关系是类特殊的模糊集,所以,模糊集的一些运算及性质对它一 第2 章模糊数学基础 样成立。 定理2 1 3 9 1 设r ,墨,恐e f ( u x v ) ,墨e f ( u x v ) ( t e t ) ,则有 ( 1 ) 墨冬是c ,v ( u ,1 ,) u xv ,墨( “,1 ,) 坞( “,1 ,) ; ( 2 ) r l = 恐v ( u ,v ) u x v ,墨( “,v ) = 恐( “,1 ,) ; ( 3 ) ( 墨u r 2 ) ,) = 墨 ,v ) v 坞 ,; ( 4 ) ( 墨n 足) ( 材,v ) = 墨( ”,v ) a 是 ,1 ,) ; ( 5 ) ( u 心墨) ( 甜,v ) = v 时r ( “,1 ,) ; ( 6 ) ( f 3 ,盯墨) ( “,v ) = 。盯墨 ,力; ( 7 ) r 。( “,) = 1 - r ( u ,1 ,) 。 当然我们还可以定义模糊关系的各种模运算。 定义2 7r 3 9 设r f ( u x v ) ,定义r 1 f ( u x v ) 的隶属函数为 尺一1 ( 1 ,“) = r ( u ,1 ,) ,v ( u ,v ) u x v , ( 2 1 4 ) 3 称r - 1 为r 的逆关系。当r 与r - 1 用模糊矩阵表示时,则它们的模糊矩阵互为转置。 2 3 模糊i f t h e n 规则 在模糊系统与模糊控制中,用模糊i f t h e n 规则 4 0 1 来表述人类知识。因此, 一条模糊i f t h e n 规则就是一个条件陈述句,可以表述为 i f ,t h e n ( 2 1 5 ) 由此可知,模糊命题是模糊i f t h e n 规则的前提。 2 3 1 模糊命题 模糊命题( f u z z yp r o p o s i t i o n s ) 有两种类型:子模糊命题和复合模糊命题。 ( 1 ) 子模糊命题:是一个单独的陈述句。 甜为彳 这里,x 是语言变量,么是语言变量“的值( 即彳是一个定义在“的论域上的 模糊集合) 。子模糊命题通过连接词“且、“或 、“非”连接起来而构成的命题叫 做复合模糊命题,这里“且”、“或”、“非 分别表示模糊交、模糊并、模糊补。 ( 2 ) 复合模糊命题:被理解为一种模糊关系。 一种新的模糊规则权重方法的数据分类的研究 用模糊交表示连接词“且 。具体地讲,令u 和1 ,分别为定义域u 和矿上的语 言变量,彳和b 分别为u 和矿上的模糊集合,则下面的复合模糊命题 “为彳且1 ,为曰 可以解释为u x v 中的模糊关系4 n b ,其隶属度函数为 1 t , 4 n b ( “,) = ,【p 爿( 甜) ,p b ( v ) 】 ( 2 1 6 ) 其中,r : 0 ,1 】 0 ,1 】一 o ,l 】是任意,一范数。 用模糊并表示连接词“或”。具体地讲,下面的复合模糊命题 “为彳或,为b 可以解释为u x v 中的模糊关系么u b ,其隶属度函数为 p _ u 占( “,v ) = s v 彳( 甜) ,p 占( v ) 】 ( 2 1 7 ) 其中,s :【0 ,1 i x 0 ,1 卜 o ,l 】是任意s 一范数。 用模糊补表示连接词“非。即,把非彳用j 来替代,下面的复合模糊命题 甜为非彳 可以解释为u 中的模糊关系c ( a ) ,其隶属度函数为 p j ( ”) = l p ( ”) = c ( p 4 ( ”) ) ( 2 1 8 ) 其中,c :【0 ,l 卜争【o ,1 是任意模糊补算子。 2 3 2 模糊规则库 模糊规则库h o 是由模糊i f t h e n 规则集合组成的。它是模糊系统的核心,从 这个意义上讲,模糊系统的其他组成成分都是以一种合理而有效的方式来执行这 些规则的。具体地讲,模糊规则库是由以下模糊i f t h e n 规则组成的: 趟,) 如果x i 为彳且且毛为“,则y 为b 7 ( 2 1 9 ) 其中, 纠和b 7 分别是vcr 和vcr 上的模糊集合,x = ( x l ,x 2 ,毛) r u 和 y v 分别是模糊系统的输入和输出( 语言) 变量。令m 为上式模糊规则库中的规 则数目,即,= 1 ,2 ,m 。将形如式( 2 1 9 ) 的规则叫标准模糊i f t h e n 规则,因为 正如下面的引理所表明的那样,它包含了许多其他类型的模糊规则及特殊的模糊 命题。 第2 章模糊数学基础 引理2 1 【删形如式( 2 1 9 ) 的标准模糊i f t h e n 规则包含了下列特例: “不完整规则 如果五为彳且且为以,则y 为b 7 其中,m 刀。 “或规则 如果五为4 且且为4 或+ 为以“且且为彰,则y 为b 7 单一模糊陈述 y 为盛 “逐级变化规则 x 越小,则y 越大 非模糊规则( 即传统的扩展规则) 在模糊系统体系中,人类知识是不得不以模糊i f t h e n 规则( 2 1 9 ) 的形式来 表达的,也就是说,只有用模糊i f t h e n 规则的形式来描述人类知识,才能利用 人类知识。幸运的是,引理2 1 确保了这些规则能够提供一个一般性的知识表达式。 2 4 模糊推理 在形式逻辑中,我们经常使用三段论式的演绎推理,即由大前提、小前提和 结论构成的推理。比如,平行四边形两对角线相互平分,矩形是平行四边形,则 矩形的两条对角线也相互平分。这种推理可以写成以下推理规则1 3 6 1 : 大前提:如果x 是a ,则】,是b 小前提:x 是a 结论:则j ,是口 在这种推理过程中,如果大前提中的“彳 与小前提的“彳 是完全一样的, 则结论必然是“b ,这即是二值逻辑的本质。在这种推理过程中,不管“彳 与“b 代表什么,推理是普遍适用的。目前的计算机就是基于这种形式逻辑推理进行设 计和工作的。如果大前提中的“彳 与小前提中的“彳 不一致,形式逻辑就无法 再进行推理。比如:健康的人长寿,孔子非常健康,则孔子非常长寿。在这一推 理中,大前提中的“彳 是“健康 ,小前提中的“彳 是“非常健康,大前提与 一种新的模糊规则权重方法的数据分类的研究 小前提不一致,无法使用形式逻辑进行推理。人可以得到“相当长寿 的结论, 是根据大前提中的“健康 与小前提中的“非常健康的“含义 的相似程度。 通常用模糊集方法模拟人脑,这样一个思维过程的推理成为模糊推理。 关于模糊推理可以概括成以下几个模型: ( 1 ) 单输入单输出模糊推理模型。 大前提:如果x 是么,则】,是b 小前提:x 是彳 结论:则堤曰 其中,彳和彳是x 上的模糊集,b 和b 是】,上的模糊集。 ( 2 ) 多规则、单输入单输出模糊推理模型。 大前提l :如果石是4 ,则】,是骂 大前提2 :如果x 是4 ,则】,是马 大前提聊:如果x 是4 ,则y 是玩 小前提:。x 是彳j 、日d 堤:是彳 结论:则y 是b 。 其中,4 f 和彳( f = 1 ,2 ,疗) 是x 上的模糊集,b 和b 是l ,上的模糊集。 ( 3 ) 多输入单输出模糊推理模型。 大前提:如果五是4 且墨是4 且且以是4 ,则睫b 小前提:x 1 是4 且五是4 且且e 是4 结论: 则】,是b 其中,4 和彳( f - l ,2 ,玎) 是x 上的模糊集,b 和b 是】,上的模糊集。 ( 4 ) 多规则、多输入单输出模糊推理模型。 大前提1 - 如果五是4 。且五是4 :且且k 是4 。,则】,是且 大前提2 :如果墨是4 ,且置是如且且e 是4 。,则】,是岛 大前提朋:如果五是4 ,且五是4 ,l :且且以是厶,则】,是吃 小前提: 五是4 且五是4 且且以是4 结论:则】,是b 其中,鸣和4 是x 上的模糊集,q 和b 是】,上的模糊集( f ;l ,2 ,n ;j = l , 第2 章模糊数学基础 2 ,m ) o ( 5 ) 多规则、多输入多输出模糊推理模型。 大前提1 :如果墨是4 。且且以是4 。,则k 是蜀。且是旦。 大前提2 - 如果墨是4 ,且且咒是4 。,则z 是垦。且是垦。 大前提脚:如果五是4 ,。且且以是厶,n r , 是玩。且是 小前提: 五是4 且且鼍是4 结论: 则i 是局且且是色 其中,鸣和4 是x 上的模糊集( 江1 ,2 ,m ;j = l ,2 ,船) ,色和q 是y 上的模糊 集( f = 1 ,2 ,聊;_ ,= 1 ,2 ,q ) 。 一种新的模糊规则权重方法的数据分类的研究 第3 章数据的预处理 3 1 数据标准化 由于数据集中属性的量纲和量级各不相同,难以直接使用。而通过数据标准 化1 4 1 1 可以得到分布在标准区间内的属性值,方便数据的使用。数据的标准化大致 有如下三种方式: 1 数据缩放 数据缩放就是把属性的值域扩大或者缩小到标准的区间内,如 1 ,1 或 o ,1 。 首先找出要缩放的属性值中的最大值圪。= m a xk , 一j = l ,2 。 , 儿等【1 ,l 】或 o ,l 】 ( 3 1 ) k 表示数量级,k 为正数时,为缩小;k 为负整数时,为放大。 2 最小一最大标准化 由于数据缩放容易受极值影响,而导致属性值在标准区间的偏态分布,使数 据在某一个小区域码密集,而在其他区域稀疏。为得到较为均匀的数据分布,可 以采用最小一最大标准化方法。通过变换 形:搀f _ 1 ,2 ,挖, ( 3 2 ) k 一 一一 可以得到最小一最大标准化的属性值向量 k ,砭,v 1 ) 。其中的最大值和最小值可 以由k ,k ,k 属性值域得到,也可以专家估算,不过专家估算可能会造成数据分 布的无意识集中。 3 标准差标准化 在统计观点中,描述随机变量的最重要的两个指标就是均值p 和标准差o ( 或者方差o2 ) 。而在数据挖掘中,数据集的属性一般可视作具有某种未知分布的 随机变量。因此统计学中的变量标准化方法就可以应用在属性标准化上。也就是 作变换,即 k ;业f :l ,2 ,刀, ( 3 3 ) 第3 章数据的预处理 虽然标准差标准化方法对于距离测量非常有效,但是经过转换的数据形式从 实际角度难以认可1 4 2 1 。 3 2 非平衡数据预处理 不同于平衡数据的分类,非平衡数据的分类问题求解相对较难,当对非平衡 数据进行学习时,少数类对分类精度的影响可能会远远小于多数类。而经典的机 器学习算法的分类精度往往会偏向于多数类,导致少数类样本的识别率较低1 4 3 。 针对这一问题,主要从以下两个方面进行解决:( 1 ) 数据层面:对数据进行重抽 样,包括过抽样和欠抽样【4 5 1 两种。其主要思想是通过合理地增加或者减少一些 样本去平衡化数据,进而降低数据不平衡对分类器带来的不良影响。( 2 ) 算法层 面:改进原有算法或者设计更有效的新算法,通过调节分类方法来降低每个类的 误分代价,或者是用学习一个类来代替学习两个类。 大量研究已经证明,通过预处理平衡类分布的方法能够有效地解决非平衡数 据分类问题。而且,这项技术的主要优点是它独立于分类器使用。下面主要介绍 三类预处理方法: ( 1 ) 欠抽样:通过减少多数类样本的来提高少数类的分类性能。具体方法如下: 压缩最近邻( c n n ) 1 4 6 1 :用于寻找样本的一致子集。子集应e 称为集e 中的一致子集。首先将所有少数类样本以及随机选取一个多数类样本加入重中进 行初始化,然后用宫中的样本用最近邻算法( i - n n ) 对e 中样本分类,将所

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论