




已阅读5页,还剩49页未读, 继续免费阅读
(计算机应用技术专业论文)基于改进的多级模糊模式识别的分类研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨理工大学丁学硕士学位论文 基于改进的多级模糊模式识别的分类研究 摘要 随着人类社会和计算机技术的飞速发展,电子数据的积累出现了爆炸式 的增长。这些海量的电子数据里面无疑隐藏着丰富的对人类深具价值的知识, 而传统的数据分析工具只能利用其中的很少一部分。近年来不断完善发展的 数据挖掘技术恰恰能帮助人们从数据中发现大量的隐藏知识,而数据分类正 是其中的极其重要的技术方法之一。准确率、速度、强壮性、可伸缩性、可 解释性是评估分类方法的五条标准,也是对方法进行改进的突破口。 本文针对传统的多级模糊模式识别的分类方法没有考虑属性之间关系, 导致分类具有片面性,且在处理高维数据时效率比较低的不足,提出了一种 新的应用于一般问题的改进多级模糊模式识别的方法。 该方法首先重点考虑对象属性间影响较大的因素,以此建立影响对象分 类的属性之间的简化关系,全面地反映了客观事实,很好地解决了多对象、 多因素问题;然后针对分类标准为对象属性分类的离散值,存在对象属性值 介于中间状态不便分类问题,通过取分类级别的中间值建立属性值所属级别 的矩阵,再结合样本属性相对隶属度矩阵综合确定属性权重,减少了人为主 观因素的影响;最后通过属性约简的分明矩阵方法,有效地删除高维数据中 的冗余属性,大大提高了数据潜在知识的清晰度,提高了分类的效率。最后 把改进的方法用于水质评价中,经实例证明该方法分类准确,效率高。 关键词数据挖掘;分类;多级模糊模式识别;属性约简;分明矩阵 哈尔滨理工大学工学硕十学位论文 c l a s s i f i c a t i o nr e s e a r c hb a s e do ni m p r o v e dm u l t i p l e f u z z yp a t t e r nr e c o g n i t i o n a b s t r a c t w i t ht h er a p i d l yd e v e l o p m e n to fh u m a n i t ys o c i e t ya n dc o m p u t e rt e c h n o l o g y , a c c u m u l a t i o n o fe l e c t r o n i cd a t ah a st a k e n p l a c e a t a l l e x p l o s i v e r a t e u n d o u b t e d l yt h e r em u s tb ea b u n d a n tl a t e n tk n o w l e d g ei nt h e s em a g n i t u d e e l e c t r o n i cd a t aw h i c ha r ev e r yi m p o r t a n tt op e o p l ea n dt r a d i t i o n a ld a t aa n a l y s i s t o o l so n l yu t i l i z e sf e wp r o p o r t i o no ft h e m r e c e n t l yc o n t i n u a l l y d e v e l o p i n g t e c h n o l o g yn a m e dd a t am i n i n gj u s tc a nh e l pp e o p l ef i n dl a t e n tk n o w l e d g ef r o m d a t a t h ec l a s s i f i c a t i o ni sv e r yi m p o r t a n tm e t h o do fd a t am i n i n g c l a s s i f i c a t i o n m e t h o dc a nb ec o m p a r e da n de v a l u a t e da c c o r d i n gt ot h ef o l l o w i n gc r i t e r i a : a c c u r a c y , s p e e d ,r o b u s t n e s s ,s c a l a b i l i t y , i n t e r p r e t a b i l i t y , a n dt h ef i v ec r i t e r i aa l s o i sb r e a k t h r o u g ht h a tt h em e t h o di si m p r o v e d a i m i n ga tt h es h o r t a g et h a tt h et r a d i t i o n a lm u l t i p l ef u z z yp a t t e r nr e c o g n i t i o n c l a s s i f i c a t i o nm e t h o di su n i l a t e r a lw h i c hc a u s e db yn o tt a k i n gt h er e l a t i o n s h i p a m o n ga t t r i b u t e si n t oa c c o u n ta n dt h ee f f i c i e n c y i sl o wi n d e a l i n gw i t ht h e h i g h d i m e n s i o n a ld a t a ,an e wc l a s s i f i c a t i o nm e t h o db a s e do ni m p r o v e dm u l t i p l e f u z z yp a t t e r nr e c o g n i t i o nw h i c hi sa p p l i e dt oc o m m o np r o b l e m si sp u tf o r w a r d f i r s t l y , t h em e t h o dm a i n l yt a k e st h ef a c t o r si n t oa c c o u n tw h i c hw e r eg r e a t l y a f f e c t e db yo b j e c ta t t r i b u t e ,s oa st of i n do u tt h ec o n c i s er e l a t i o na f f e c t i n go b j e c t c l a s s i f i c a t i o na m o n ga t t r i b u t e ,r o u n d l yr e f l e c t si m p e r s o n a lf a c t ,a n dr e s o l v et h e q u e s t i o no fm u l t i p l eo b j e c t sa n dr e l a t i o n ;s e c o n d l y , a sf o rt h eq u e s t i o nt h a ti ti s i n c o n v e n i e n tf o rc l a s s i f i c a t i o no w i n gt oi n t e r m e d i a t es t a t eb e c a u s ec l a s s i f i c a t i o n s t a n d a r dw a sd e s c r i b e db yd i s c r e t ev a l u eo fo b je c tc l a s s i f i c a t i o n ,t h i ss t u d yf i x e s o nam a t r i xo fa t t r i b u t ev a l u eb e l o n g i n gt oc l a s s i f i c a t i o nb yc h o o s i n gt h ea v e r a g e v a l u eo fc l a s s i f i c a t i o n ,a n dc o m b i n e sr e l a t i v em e m b e r s h i pg r a d em a t r i xo f a t t r i b u t ei nt h es t y l e b o o ki no r d e rt os y n t h e t i c a l l ye s t i m a t ea t t r i b u t ew e i g h t ,s oi t c a l ld e c r e a s ea r t i f i c i a la n ds u b je c t i v ee f f e c t ;f i n a l l y , t h er e d u n d a n ta t t r i b u t e so f i i 哈尔滨理t 大学工学硕士学位论文 t h eh i g h d i m e n s i o n a ld a t ac a nb ec a n c e l l e de f f e c t i v e l yb yt h ea l g o r i t h mo n d i s c e r n i b l em a t r i xo fa t t r i b u t er e d u c t i o n ,s ot h ed e f i n i t i o no ft h el a t e n tk n o w l e d g e b e l o n g i n gt ot h ed a t aa n dt h ee f f i c i e n c yo ft h ec l a s s i f i c a t i o nc a nb ei m p r o v e d l a r g e l y f i n a l l y ,u t i l i z i n gi m p r o v e dm e t h o di ne v a l u a t i o no fw a t e rq u a l i t y ,t h e e x p e d m e n ts h o w st h a tt h em e t h o dc a nm a k e t h ec l a s s i f i c a t i o nm o r ea c c u r a t ea n d m o r ee f f i c i e n t k e y w o r d s d a t am i n i n g ,c l a s s i f i c a t i o n ,m u l t i p l ef u z z yp a t t e r nr e c o g n i t i o n , a t t r i b u t er e d u c t i o n ,d i s c e r n i b l em a t r i x i i i 哈尔滨理工大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文基于改进的多级模糊模式识 别的分类研究,是本人在导师指导下,在哈尔滨理工大学攻读硕士学位期间独 立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他 人已发表或撰写过的研究成果。对本文研究工作做出贡献的个人和集体,均已 在文中以明确方式注明。本声明的法律结果将完全由本人承担。 作者签名:孔前 日期砷年岁月矽日 哈尔滨理工大学硕士学位论文使用授权书 作者签名:玩翦日期:冲年乡j 弓7 , o e t 导9 磁辄。诳卅誊醐渺乡”胁日 哈尔滨理工大学丁学硕上学位论文 1 1 数据挖掘概述 第1 章绪论 1 1 1 数据挖掘的产生背景 随着数据库技术的迅速发展和i n t e m e t 的迅速普及,还有人们认识和管理水 平的提高,对客观世界的描述越来越全面,所面对的数据量越来越大,无论商 业、企业、科研机构或者政府部门都积累了海量的,以不同形式存储的数据资 料。依靠传统的数据库技术对数据进行查询,检索等分析不能有效的帮助用户 从数据中提取带有结论性的有用信息,远远不能满足数据分析和处理的要求。 由于在拥有大量数据的同时人们对数据中所蕴涵的信息和知识缺乏充分发掘和 利用,从而造成了信息的浪费,由此也会产生大量的数据垃圾。因此,人们迫 切需要新的强有力的数据分析方法和技术以解决“数据丰富,但信息贫乏 这 一现象,帮助人们从繁杂的数据中挖掘出有用的信息,发现其中存在的关系和 规则,根据现有的数据来预测未来的发展趋势以辅助决策的智能化、自动化, 从而带来商业上巨大的信息价值。在这种情况下,数据库知识发现( k d d , k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 和数据挖掘( d m ,d a t am i n i n g ) 技术应运而 生并显示出强大的生命力。 从2 0 世纪8 0 年代末至今,k d d 和数据挖掘技术得到了很大的发展。k d d 这一术语首先出现在1 9 8 9 年在美国底特律召开的第1 1 届国际人工智能联合会 议的专题讨论会上,1 9 9 1 ,1 9 9 3 和1 9 9 4 年又接着继续举行k d d 专题讨论会。 1 9 9 5 年在加拿大召开了第一届知识发现和数据挖掘国际学术会议。从1 9 9 7 年开 始,k d d 已经拥有了专门的杂志 k n o w l e d g ed i s c o v e r ya n dd a t am i n i n g ) ) ,国 外在这方面发表了众多的研究成果和论文,并且开发了一大批数据挖掘软件, 建立了大量的相关网站,对k d d 和数据挖掘的研究已成为计算机领域的一个热 门课题。我国近几年也逐渐跟上国际步伐,许多计算机、数据库、人工智能、 机器学习领域的专家学者投入到k d d 和数据挖掘的研究中,并已取得了一定的 成果。 数据挖掘充分利用了机器学习,数理统计,人工智能,模糊逻辑,神经网 络,进化计算等理论和方法,它是应用需求推动下多种学科融合的结果。 哈尔滨理丁大学工学硕士学位论文 首先是数据库技术乜1 ,随着数据库技术的不断发展及数据库管理系统的广泛 应用,大型数据库系统已经在各行各业普及,数据库中存储的数据量急剧增大。 在大量的数据背后隐藏着许多重要信息,而这些重要信息可以很好地支持人们 的决策,可是目前用于对这些数据进行分析处理的工具却很少。目前人们用到 的主要是数据库的存储功能,而隐藏在这些数据之后的更重要的信息则没有充 分利用。这些信息是关于数据的整体特征的描述及对发展趋势的预测,在决策 生成的过程中具有重要的参考价值。数据库技术的日益成熟和数据仓库的发展 为数据挖掘提供了发挥的平台。 其次,在数据库技术飞速发展的同时人工智能领域的一个分支期器学习 的研究也取得很大进展。自2 0 世纪5 0 年代开始机器学习的研究以来,先后经 历了神经模型和决策理论,概念符号获取及知识加强和论域专用学习三个阶段。 根据人类学习的不同模式,人们提出了很多机器学习方法如实例学习观察和发 现学习,神经网络和遗传算法等等。其中某些常用且较成熟的算法已被人们运 用于实际的应用系统及智能计算机的设计和实现中。数据挖掘中的许多方法就 来源于机器学习。 最后是应用领域的推动。由于数据存储技术的日渐成熟,数据库和联机事 务处理( o l l p ) 已经被广泛应用于金融,证券,保险,销售以及天气预报,工 业生产,分子生物学,基因工程研究等各行各业。这些行业都积累了大量数据 而且在产生着更多的数据,对于这些数据人们已经不满足于传统的统计分析手 段而需要发现更深层次的规律提供更有效的决策支持。从技术的角度来看,专 家系统的研究虽然取得了一定的进展。但是,知识获取仍然是专家系统研究中 的瓶颈。知识工程师从领域专家处获取知识是非常复杂的个人到个人之间的交 互过程,具有很强的主观性,没有统一的方法。因此,有必要考虑从数据库中 自动发现新的知识。 归纳其产生的技术背景,下列相关技术的发展起到了决定性的作用。 1 数据库、数据仓库和i n t e m e t 等信息技术的发展; 2 计算机性能的提高和先进体系结构的发展; 3 统计学和人工智能等方法在数据分析的研究和应用。 1 1 2 数据挖掘的定义 数据挖掘 1 就是指从大量的、不完全的、有噪声的、模糊的、随机的数据 中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的 2 - 哈尔滨理t 大学工学硕 = 学位论文 过程。k d d 是识别出存在于数据库中有效的、新颖的、具有潜在效用的、最终 可理解的模式的非平凡过程,而数据挖掘则是该过程中的一个特定步骤。但是, 随着该领域的不断发展,研究者们目前趋向认为k d d 和数据挖掘具有相同的含 义,即认为数据挖掘就是从大型数据库中提取人们感兴趣的知识。“数据挖掘 主要流行于统计界、数据分析、数据库和管理信息系统( m i s ) 界;而k d d 主 要流行于人工智能和机器学习界。 数据挖掘是一门来自各种不同领域的研究者关注的交叉性学科,受多个学 科的影响,最主要的包括:数据库技术、统计学、人工智能、机器学习、模式 识别、高性能计算、可视化技术、信息科学等。它是人们长期对数据库技术研 究和开发的结果,同时,也是信息技术自然演化的结果。数据挖掘与传统分析 工具不同的是数据挖掘使用的是基于发现的方法,运用模式匹配和其它算法决 定数据之间的重要联系。数据挖掘算法的好坏将直接影响到所发现知识的好坏。 目前大多数的研究都集中在数据挖掘算法和应用上。 1 1 3 数据挖掘的过程和任务 1 1 3 1 数据挖掘的过程一般而言,广义的数据挖掘怕1 涉及到以下一些步骤,如 图1 - 1 所示。 图1 - 1 数据挖掘的基本过程 f i g 1 - it h ep r o g r e s so fd a t am i n i n g 下面简述各个步骤的基本内容: 1 数据选择分析应用领域,了解相关背景知识,根据需求从数据库中提 取相关的数据,k d d 将主要从这些数据中进行知识挖掘n 1 。 2 数据预处理数据预处理阳1 包括数据清洗、数据集成、数据转换和数据消 3 哈尔滨理t 大学工学硕i :学位论文 减。 数据清洗是指消除数据中所存在的噪声悖1 以及纠正其不一致的错误,清除与 挖掘主题明显无关的数据,对丢失的数据进行填充。 数据集成是指将多个数据源中的数据组合到一起。可能涉及到的问题包括实 体识别和消除描述相同的概念但在不同数据库中取不同名字的属性。 数据转换是将数据转换或统一成适合挖掘的形式,如通过汇总或聚集操作。 数据消减的目的是在不影响或基本不影响挖掘结果的条件下缩小所挖掘数 据的规模。使用技术包括离散化、属性约简以及概念层次生成等方法。 以上所提及的各种数据预处理方式是相互关联的,每个处理阶段都可以返回 到前面的阶段进行再处理。 3 数据挖掘数据挖掘是知识发现的一个基本步骤,其作用是选择合适算法 来挖掘数据模式或规律知识。 4 模式评估及表示对发现的模型进行兴趣度评估,识别表示知识的真正有 趣的模式。然后使用可视化和知识表示技术,将知识表示为用户可以理解的形 式。 1 1 3 2 数据挖掘的任务数据挖掘的两个高层目标是描述和预测。描述性挖掘 试图刻画数据库中数据的一般特性;而预测性挖掘则根据当前数据进行推导, 以进行预测。根据可以发现的模式类型,将数据挖掘任务归纳为以下几类: 1 概念描述数据库中通常存放大量的细节数据,然而用户往往希望以简 洁而精确的描述形式来观察汇总的数据。这种数据描述可以提供一类数据的概 貌,或可将它与其它类相区别。这种描述性数据挖掘就称为概念描述。 2 分类和回归分类是寻找描述数据或概念的模型或函数的过程,以便能 够使用这些模型来预测类标号未知的对象所属的类。这些模型基于对训练数据 集的分析而得到,可以用多种形式表示,如分类规则、判定树、数学公式或神 经网络等。回归则是通过具有己知值的变量来预测其它变量的值。和分类方法 不同的是,分类输出的是离散的类别值,而回归输出的则是连续数值。 3 聚类分析与分类回归不同,聚类在处理数据对象时不考虑标号,而是 根据最大化类间的相似性和最小化类间的相似性的原则对数据对象进行聚类或 分组的。聚类分析可以建立宏观的概念发现数据的分布模式,以及可能的数据 属性之间的相互关系。 4 关联分析关联分析用于发现大量数据中项集之间有意义的关联或相互 关系,寻找给定数据集中项之间的有趣联系。关联规则的支持度和置信度是两 个规则兴趣度度量,它们分别反映发现规则的有用性和确定性。 一4 - 哈尔滨理工大学工学硕士学位论文 5 孤立点分析和演变分析数据库中可能包含一些数据对象与大部分的一 般行为或模式不一致,称为孤立点。大部分数据挖掘方法将孤立点视为噪声或 例外丢掉,然而在一些应用如欺诈检测中,罕见的事件可能比正常出现的事件 更有趣。针对孤立点的数据分析称为孤立点挖掘。 数据演变分析描述行为随时间变化的对象的规律或趋势,它包括趋势分析、 相似性查找、序列模式挖掘、周期性模式分析等方面。 1 1 4 数据挖掘存在的问题与困难 现实的数据库本身固有的一些性质会对数据挖掘的发展产生不利影响。 1 动态数据大多数数据库的内容经常变化,在一个在线系统中,必须采 用预警机制来保证这些变化不会导致错误的发生。 2 噪声和不确定性错误的数据对于现实的数据库是难免的,不确定性可 能同时存在于时间和空间上,时间上的不确定性即是动态数据,空间上的不确 定性是指发现的模式可能只在一部分数据上有效,或指建造数据库时所采集的 数据本身的不确定性。 3 冗余数据重复的数据或多余的信息会给模式提取带来困难,也将导致 用户对抽取出来的知识不感兴趣。 4 稀疏数据导致抽取出来的模式不能反映整体情况,或者抽取模式如同 大海捞针,难度很大。 5 不完整数据也称不完全或不完备数据,即有些数据属性的值缺失的情 况。 6 大规模数据搜索空间的庞大是数据挖掘的一大难题,它会影响到算法 的效率甚至可行性。 当前,数据挖掘的研究方兴未艾,数据挖掘研究人员、系统应用开发人员 所面临的主要问题是高效而有效的数据挖掘方法和系统的开发,交互和集成的 数据挖掘环境的建立,以及如何应用挖掘技术解决大型应用问题。研究的焦点 可能会聚集在以下几方面: 1 数据挖掘语言的形式化描述即研究专门用于知识发现的数据挖掘语言, 也许会像s q l 语言一样走向形式化和标准化。 2 可视化数据挖掘是从大量数据中发现知识的有效途径,它使数据挖掘 的过程能够被用户理解,也便于在数据挖掘过程中进行人机交互,该技术将有 助于推进数据挖掘作为数据分析的基本工具。 5 哈尔滨理工人学工学硕十学位论文 3 多媒体数据挖掘是指从大量的文本数据、图形数据、视频图像数据、 音频数据乃至综合多媒体数据的开采中,通过分析语义和视听特征,发现其中 隐含的、有价值的模式。它和传统的数据挖掘方法中处理的数据不同,传统的 数据挖掘处理的数据是数据库中表格形式中的记录和条目,属于结构型数据, 而多媒体数据挖掘处理的是非结构化的数据。 4 w e b 数据挖掘主要是利用数据挖掘技术从w e b 文档及、e b 服务器中自动 发现并提取有用信息的过程。w e b 上有海量数据,这些数据最大特点是半结构化。 那么开发新的w e b 挖掘技术以及对w e b 文档进行预测处理以得到关于文档的特 征表示,就成为w e b 挖掘的重点。 5 数据挖掘中的隐私与信息安全随着数据挖掘工具和电信与计算机网络 的日益普及,数据挖掘要面对的一个重要问题就是隐私保护和信息安全。需要 进一步开发有关方法,以便在适当的信息访问和挖掘中确保隐私保护与安全。 在市场需求的牵引与推动下,数据挖掘将首先满足信息时代用户的急需, 大量的决策支持软件产品将会问世。只有从数据中提取有用的信息,才能为决 策和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源相媲美 的资源,信息时代才会真正到来。 1 2 目前研究的热点和难点 近几年来,模式识别取得了很大的进步,各种人工智能方法在模式识别的 应用也得到了广泛的研究。对模式识别的研究主要集中于以下几个方面: 1 神经网络模式识别研究人工神经网络( 砧州) 是模拟人脑工作机制的 一种模型,8 0 年代中期以来,在人工智能研究领域,人工神经网络引起了人们 很大的兴趣,特别是r u m e l h a r t 提出了多层感知机网络的b p 学习算法,改 变了人们认为m l p n 难以训练学习的悲观认识,也重新引起了人们对神经网络 研究的兴趣。1 9 8 2 年,h o p f i e l d 提出了用于联想记忆和优化计算的反馈网络 模型,更是推动了神经网络研究的发展。1 9 9 1 年,l x u 和e o j a 等人用并行 结构的神经元实现了学习子空间方法,使这项工作走向实用化。近几年来,神 经网络在模式识别中得到了广泛的应用,几乎每个神经网络模型都在模式识别 领域得到了成功的应用。由于神经网络具有高度并行性、容错性以及良好的非 线性映射能力。和传统模识别方法相比较,神经经网络模式识别不但能够在模 式空间内形成各种复杂的判决表面,同时还具有模式变换和模式特征提取的作 用。并且神经网络分类器对输入信息的不完备性或特征的缺损不太敏感。 6 - 哈尔滨理丁大学工学硕士学位论文 2 模糊模式识别研究自从1 9 6 5 年,扎德教授提出模糊集理论以来,有关 模糊信息处理的理论和应用均取得了重大的进展。在现实世界中存在着某些难 以精确描述的事物,而模糊数学就是用数学的方法研究和处理具有“模糊性 事物的数学。模糊性主要是指客观事物差异的中间过渡的不分明性。模糊数学 并不是把精确的数学变得模糊,而是使用精确的数学方法来处理模糊性事物。 它使得人们能够描述模式属于某类的程度。即有些模式既不绝对属于某类,也 不一定绝对不属于某类,只是在一定程度上与某类更相像。所以,传统的集合 理论解决这类问题时就遇到了困难。而这些正是模糊集合理论研究的内容,正 是这一优点,使模糊逻辑在模式识别中得到了很好的应用。 模糊逻辑在特征提取中的作用。r a m d a s ( 1 9 9 4 ) 利用模糊聚类从原始数 据中直接提取特征,还能对已经得到的特征进行优选和降维操作,以免造成维 数灾难。k w o k - p i n g 等提出采用模糊属性图来提取手写体的结构特征。马少 平等( 1 9 9 7 ) 在汉字方向象素特征的基础上,指出了其存在的网格划分固定、 特征提取对噪声敏感等不足,在其中加入模糊化描述,使特征变化趋于平滑, 从而更好的描述了汉字的特征,为汉字的识别打下了很好的基础。张德喜( 2 0 0 0 ) 把模糊方向线素特征与人工神经网络相结合用于手写体识别,该方法较好地解 决了手写体汉字识别中的变形问题,对非相似字大规模集合分类非常有效,提 高了汉字的识别率。 3 其他一些数学理论在模式识别中的应用研究在这方面,主要是以数学形 态学和小波变换为主要研究内容。数学形态学图像处理是以几何学为基础的, 它是分析几何形状和机构的数学方法,因此,它是分析图像几何特征的有效工 具。m i t c h e l l 等( 1 9 8 9 ) 用数学形态学的方法来提取邮政编码数字的空心特 征,作为无约束数字识别的特征输入。 小波分析是信号与图象处理等工程技术近十年来在数学方法上的重大突破, 从而被认为是应用数学在工程方面发展的新趋势,金连文( 1 9 9 8 ) 结合网格技 术,用小波变换来提取手写汉字的特征。把汉字按四个方向进行小波分解,然 后统计每个网格的像素,取得了比较明显的效果,宋红萍等把小波分解的函数 近似能力和人工神经网络的学习能力结合起来,形成了小波神经网络,使用小 波神经网络,可以很好的描述特征。 4 多种智能方法融合识别研究目前,计算智能正处于迅猛发展的阶段,模 糊技术、神经网络、进化计算等得到了迅速的发展,这些理论在模式识别的某 一领域得到了很好的应用,但是这些方法都只是在某一些方面做得比较好,如 g a 参数的寻优方面有较强的能力,而模糊逻辑在不确定信息的处理方面有其特 7 哈尔滨理丁大学工学硕士学位论文 定的优点,神经网络在于它的自学习和泛化能力。因此在近几年来,模糊逻辑 ( f u z z yl o g i c ,f l ) ,神经网络( n e u r a ln e t w o r k ,n n ) 以及遗传算法( g e n e r i c a l g o r i t h m ,o a ) 等的综合应用得至了广泛的研究,即所谓的混合智能系统( h y b r i d i n t e l l e c t u a ls y s t e m ) 。这一思想在9 0 年代初逐步形成,1 9 9 2 年,s c h a f f e r 提 出它们之间的相互补充可增强彼此的能力,从而获得更有力的表示和解决实际 问题的能力。1 9 9 3 年,模糊集论的创始人扎德教授在汉城召开的国际模糊系统 协会( i f s a ) 第五届世界会议首先明确提出,随后在许多有关的国际学术会议 上得到充分体现。在我国,研究学者对这一趋势的认识也较早,清华大学李衍 达院士领导的研究集体也开展了这一重要方向的研究。 神经网络与模糊逻辑的结合。从模糊信息处理的角度上来说,由于模糊逻辑 缺乏学习和自适应能力,作为模糊集合论核心的模糊规则的提取和隶属度函数 的构造一直是模糊信息处理技术进行实际应用中的难题。从神经网络的构造的 角度上来说,如何开发出合理的网络结构是提高神经网络学习效率的关键。一 方面,模糊技术的特长在于模糊推理能力,容易进行高阶的信息处理。将模糊 技术引入神经网络,可以大大拓宽神经网络处理信息的范围和能力,使其不仅 能处理精确信息,也能处理模糊信息或其它不精确信息;不仅能实现精确性联 想及映射,还可实现不精确性联想及映射,特别是模糊联想和模糊映射。另一 方面,神经网络在学习和自动模式识别方面有极强的优势,采取神经网络技术 进行模糊信息处理,则使得模糊规则的自动提取及隶属函数的全自动生成有可 能得以解决。1 9 8 7 年,b k o s k o 率先将模糊理论和神经网络有机结合进行了 系统的研究,随后,研究人员提出了大量的模糊神经网络模型k a s k o ( 1 9 9 2 ) 提出了描述模糊集之间关系的模糊联想记忆( f a m ) 理论,f a m 用模糊矩阵描 述模糊关系,并采用神经网络来学习这种关系。y a m a k a w a 和t o m a d a ( 1 9 8 9 ) 提出了一个简单的模糊神经元模型,并应用于字符识别的神经网络中。 之后,t a k a g i ( 1 9 9 4 ) 等对该模糊神经元作了进一步的研究和改进,并成功 用于识别问题,其研究的目的,就是把模糊系统的特性( 用模糊算法处理模糊 信息的能力) ,与神经网络的特性( 具有学习能力和高速并行结构) 相结合,使 之成为对环境具有学习能力的模糊神经网络,从而提高识别系统的适应能力。 神经网络和遗传算法相结合。描述一个a n n 模型结构的主要参数有:网络 层数、每层单元数、单元间的互连方式等。设计a n n 的结构,实际上就是根据 某个性能评价准则确定适合于解决某个问题或某类问题的参数的组合。当待解 决的问题比较复杂时,用人工的方法设计a n n 是比较困难的,a n n 需要高效 的自动设计方法。遗传算法则为其提供了一条很好的途径。另外一个方面,遗 8 - 哈尔滨理t 大学工学硕 :学位论文 传算法用于a n n 的是用遗传算法学习神经网络的权重,也就是用遗传算法来取 代一些传统的学习算法。目前广泛研究的前馈网络中采用的是r u m e l h a r t 等 人推广的误差反向传播( b p ) 算法,b p 算法具有简单和可塑的优点,但是b p 算法是基于梯度的方法,这种方法的收敛速度慢,且常受局部极小点的困扰。 采用遗传算法则可摆脱这种困境。当然,还可以使用遗传算法把神经网络的结 构优化和权值学习合并起来一起求解。李敏强等( 1 9 9 9 ) 提出了一种基于遗传 算法的前馈网络学习权值,比较起一般前馈网络,取得了更好的效果。 5 集成型模式识别系统研究对于多种智能方法的融合技术,这种综合应用 只是局限于在对某一分类器的改进,如在神经网络的设计中,利用遗传算法来 训练参数或是优化网络结构,虽然在某一定程度上改善了识别性能,但是在很 多情况下,单一分类器是不能解决问题的:很多输入模式在某一特征空间是不 可分的,对于不同的类别,由于存在噪声等的影响,其映射到特征空间上几乎 是重合的。对于模式识别问题,输入模式的特征信息有多样性和互补性,并且 由于不同分类器采用了不同的特征表示方法和分类算法,产生了不同的误差曲 面,从而使不同类型的分类器和特征在分类性能上达到互补作用,得到可靠高 效的识别性能。1 9 8 4 年,b u b n i c k iz 提出集成模式识别是整个智能识别的关 键,特别是近几年来随着人工智能领域的发展、多智能体( m u l t ia g e n t ) 等工作 的影响,对这一方面的研究越来越引起广大学者的注意。 1 3 本文研究的内容和意义 1 3 1 课题来源 本课题来源于国家自然科学基金( 6 0 6 7 3 1 3 1 ) 、黑龙江省自然科学基金 ( f 2 0 0 6 0 8 ) 、黑龙江省教育厅海外学人重点科研资助项目( n o 1 1 5 2 h q 0 8 ) 。 1 3 2 本文研究的内容 在信息化时代,各种事物通过数据表达它们之间的关系,但由于数据属性 和标量不一样,直接建立联系有困难。模糊数学的引入,解决了此问题,模式 识别就是其中应用非常广泛的方法。模式识别是指对表征事物或现象的各种形 式的( 数值的、文字的和逻辑关系的) 信息进行处理和分析,以对事物或现象进 行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。 9 哈尔滨理工大学t 学硕上学位论文 针对陈守煜教授等提出的模糊模式识别理论模型,该模型用模糊数学的理 论和方法解决了模式识别的问题,并在实际中得到了广泛的应用。模式识别一 般采用传统的隶属度和隶属函数,其定义过于绝对化,不能完整反映模糊集合 论最基本的特征。同时,由于最大隶属原则的不适用性,操作起来将导致不合 理的识别结果。多级模糊模式识别方法克服了上述缺点,它用相对隶属度代替 绝对隶属度,用相对状态特征值对样本进行识别。 但该模型只考虑了多对象的问题,并没有体现出各对象间的关系。而万物 之间必然存在一定的联系,或是相互依赖,或是相互制约,总之不可能不受影 响而孤立存在。仅依靠给定的指标标准机械地对事物进行评价,难免有片面性, 所求出的结果并没有完全反映事物的真实情况。特别是那些在不同的环境下有 明显变化的对象,一定要高度注意,否则会出现截然不同的结果。这里在利用 此方法的基础上,提出一种基于改进的模式识别方法。 该方法很好地解决了多对象、多因素问题,使分类结果更符合客观事实。 根据各样本集指标值与指标标准特征矩阵比较确定指标权重,对指标标准过度 状态进行了改善,减少了人为主观因素的影响。还结合粗糙集的属性约简理论, 降低了数据的维数,提高了分类效率。并在水质评价中应用,验证了方法的合 理性。 1 3 3 本文研究的意义 数据挖掘的目的是发现知识,知识要通过一定的模式给出。可用于数据挖 掘系统的知识表示模式是丰富的,通过对数据挖掘中知识表示模式及其所采用 方法的分析,能充分了解到分类是数据挖掘处理中的重要任务之一。 数据库中隐藏着许多可以为商业、科研等活动的决策提供所需要的知识。 分类可用来抽取能够描述重要数据集合的模型,或用于预测数据对象的离散类 别。人们在分类这个领域做了大量的工作,获得了很多行之有效的方法。分类 是找出一个类别的要领描述,它代表了这类数据的整体信息即该类的内涵描述, 一般用规则或决策树模式表示。分类规则的建立可以预测准确度、计算复杂度 及优化模式的简洁度。 在数据挖掘的分类过程中所常使用的一些方法有基于决策树的方法,贝叶 斯的方法,神经网络的方法,关联的方法,示例推理,遗传算法,模糊集合方 法,粗糙集方法等。这些方法就是在数据挖掘的分类过程中所常使用的一些方 法,它们各有自己的优点,同时也各有不足,没有一个分类算法在对所有数据 1 0 - 哈尔滨理工大学t 学硕上学位论文 集上进行分类均是最优的。如何克服这些方法内在的缺陷,提高这些方法的性 能,是当前数据分类问题中研究的热点。将各个方法相融合n 叭,取长补短,有 机高效地整合在一起,是当前探索的一个热点,再有一种趋势是将别的学科的 知识应用到当前的算法中,来改善当前的方法。 随着市场竞争的日益激烈和客户需求多元化的不断发展,数据挖掘,尤其 是数据分类在商业中得到了越来越多人的重视和广泛的应用。如今,数据分类 已经应用到社会生活的各个领域,对它的研究有十分重大的意义和价值。 1 4 论文结构 第1 章介绍了数据挖掘技术的基本概念,然后介绍了数据挖掘问题当前研 究的热点和难点,最后说明了论文主要研究内容及意义。 第2 章介绍了作为数据挖掘主要方法之一的数据分类的概念、分类方法、 方法评价、面临的主要问题以及下一步研究方向。 第3 章介绍了模式识别的基础理论,重点研究了多级模糊模式识别的方法 并提出改进的分类方法以及具体的算法步骤。 第4 章通过对高维数据的分析,运用基于粗糙集的属性约简方法进行降维 并用实例进行了验证。 第5 章把前面的方法应用于水质评价中,结果证明,该方法不仅提高了分 类精确度,还提高了分类效率。 最后对本文进行了总结。 哈尔滨理t 大学工学硕十学位论文 第2 章数据挖掘中的分类问题 2 1 数据分类 分类是数据挖掘领域的一种非常重要的方法。分类与聚类们不同,聚类是 对给定的一组观察值建立类别,分类是己知现存的类别,要建立类别的描述规 则,并对新例的观察值判别归类。聚类被称为无监督学习,而分类n 被称为监 督学习。本文中,提到的分类问题,为监督学习问题。 分类的概念是在已有数据的基础上建立一个分类函数或构造出一个分类模 型( 即通常所说的分类器( c l a s s i f i e r ) ) 。该函数或模型能够把数据库中的数据 纪录映射到给定类别中的某一个,从而可以应用于数据预测。要构造分类器, 需要有一个训练样本数据集作为输入。训练集( t r a i n i n gs e t ) 由一组数据库纪 录或元组构成,每个纪录是一个由有关字段值组成的特征向量,这些字段称做 属性( a t t d b u t e ) ,用于分类的属性叫做标签( l a b e l ) ,标签属性也就是训练集 的类别标记。一个具体的样本的形式可以表示为( v i m 也,嘞;c ) ,其中 ( i = 1 ,2 ,刀) 表示字段值,c 表示类别。 训练集是构造分类器的基础。训练集是包含一些属性的一个数据库表格, 其中的一个属性被指定为分类标签。标签属性的类型必须是离散的,且标签属 性的可能取值的数目越少越好( 最好是两个或三个值) 。标签值的数目越少,构 造出来的分类器的错误率越低。 从训练集中自动构造出分类器的算法叫做生成器。在生成分类器后,可以 利用它来对数据集中不包含标签属性的记录进行分类,标签属性的值也可以用 分类器来预测。 2 2 主要的分类方法 分类规则挖掘是数据挖掘中应用领域极其广泛的重要技术之一,至今已经提 出很多算法。对于分类规则挖掘通常有以下几种算法:决策树方法、贝叶斯方 法、人工神经网络方法、粗糙集方法、模糊集方法和云模型方法等。 1 2 哈尔滨理工大学工学硕十学位论文 2 2 1 决策树方法 决策树是一种以实例为基础的归纳学习方法“8 1 9 1 ,q u l n l a n 分别在1 9 8 6 , 1 9 9 2 和1 9 9 7 年成功的开发出了i d 3 分类器,及其改进版c 4 5 ,c 5 o 。决策树算法 对于相对小的数据集是很有效的。当这些算法用于非常大的、现实世界中的数 据库的挖掘时,有效性和可伸缩性就成了关注的问题。为了适应处理大规模数 据集的需要,后来又提出了若干改进的算法,其中比较有代表性的两个算法是 s l i q 和s p r i n t ,它们都使用了预排序技术,对非常大而不能放入内存的驻留磁 盘的数据集进行预排序。 决策树的优点是:与其他分类方法相比相对较快;容易转化为分类规则, 也容易转化为s q l 查询;近似的或者更好的准确度。缺点是:在构造树的过程 中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效;只适合 能够驻留于内存的数据集使用,当训练集大得无法在内存容纳时程序无法运行。 2 2 2 贝叶斯分类法 贝叶斯分类基于贝叶斯定理啪1 ,它是一类利用概率统计知识进行分类的算 法。分类算法的比较研究发现,朴素贝叶斯分类算法可以与决策树和神经网络 分类算法相媲美。 该算法优点是:方法简单容易实现、分类准确率高、速度快,且应用于大 型数据库中,也已表现出高准确率与高速度。缺点是:贝叶斯定理假定一个属 性值对给定类的影响独立于其他属性的值,预测未知样本的类别为后验概率最 大的那个类别,然而在实践中,由于变量之间的依赖可能存在,此假定经常是不 成立的,因而其分类准确性就会下降;该算法没有分类规则输出。 2 2 3 人工神经网络分类法 神经网络是大量的简单神经元按一定规则连接构成的网络系统。最流行的 神经网络分类算法主要有前向神经网络、后向神经网络和自组织网络。在数据 挖掘领域,神经网络主要用于提取分类规则幢。 此算法的缺点是:首先,该算法获取的模式隐含在网络结构中,而不是显 示地表达为规则,不容易被人们理解和解释;其次,该算法需要多次扫描训练 数据,网络的训练时间较长。因此,与其他数据挖掘方法不同,神经网络用于 数据挖掘要解决好两个关键问题;一是降低训练时间,二是挖掘结果的可理解 1 3 哈尔滨理t 大学工学硕十学位论文 性。优点是:噪声数据的承受能力高和错误率低。 2 2 4 粗糙集分类法 粗糙集理论是由波兰华沙理工大学的z p a w l a k 教授于1 9 8 2 年提出的一种 研究不完整、不确定知识和数据的表达、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025网络安全行业劳动合同模板
- 2025采购销售货物合同书
- 租赁园区大棚合同范本
- 2025携手共进合作开发土地合同模板
- 2025风电场EMC合同模板
- 民间抵押汽车合同范本
- 车辆采购合同范本
- 爷孙房屋购买合同范本
- 道闸租赁合同范本
- 定制车库维修合同范本
- 福建省福州市联盟校2023-2024学年高一下学期期末考试英语试题(解析版)
- 2025文化和旅游部直属事业单位招聘社会人员29人模拟试卷附答案详解
- 2024-2025学年重庆市万州区八年级(下)期末语文试卷
- 2025年乒乓球二级裁判考试题及答案
- 血标本采集考试试题附有答案
- 2025年公共安全生产试题及答案
- 员工工资及考勤管理制度
- 浙江省温州市龙湾区2024-2025学年七年级下学期学业水平期末检测数学试题
- 废料出售管理办法
- 企业干部退出管理办法
- 河南选调生管理暂行办法
评论
0/150
提交评论