(模式识别与智能系统专业论文)动态模式识别方法研究及应用.pdf_第1页
(模式识别与智能系统专业论文)动态模式识别方法研究及应用.pdf_第2页
(模式识别与智能系统专业论文)动态模式识别方法研究及应用.pdf_第3页
(模式识别与智能系统专业论文)动态模式识别方法研究及应用.pdf_第4页
(模式识别与智能系统专业论文)动态模式识别方法研究及应用.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(模式识别与智能系统专业论文)动态模式识别方法研究及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

五邑人学坝i :学位论义摘要旋转机械故障诊断技术不断吸取现代科学技术发展的新成果,从理论研究到实际应用都有了飞速的发展,已成为集数学、计算机技术、信号处理和人工智能等各种现代科学技术于一体的新兴交叉科学。滚动轴承作为各类旋转机械中最常用的通用零部件之一,对其进行故障检测和诊断是国内外工程技术领域研究的热点。传统的模式识别方法多是处理静态的问题,没有考虑物体可能出现的短暂变化。本文主要从静态样本和动态样本两方面对动态模式聚类方法进行了研究。一般的动态聚类算法都是针对静态样本数据的,其聚类效果不仅依赖初始分类、容易陷入局部极小,而且对于具有不明显分类界线的系统,分类效果也不是很理想。针对此种情况,本文改进了一种无监督最优模糊聚类算法,很好的解决了上述问题。然而,很多数据都是动态的,如一些机械故障、大型数据库和互联网信息处理等,其数据是一条沿时间轴变化的曲线。本文针对此问题,结合小波分析与无监督最优模糊聚类算法进行处理,达到了比较好的识别效果。全文的主要研究工作如下:( 1 ) 改进了无监督最优模糊聚类算法。通过修正其约束条件,从而降低了计算量:增加了判别局部最优和全局最优的步骤,避免其陷入局部极小。仿真结果证明,改进之后的算法确实更有效,具有更高的识别率。( 2 ) 系统地介绍了递归神经网络、动态时间归整法、隐马尔可夫模型算法、动态模糊模式识别算法等基于动态样本的动态模式识别方法,并就其各自的优缺点进行了总结。( 3 ) 将小波分析引入到旋转机械的故障诊断中,讨论了利用小波包分解提取能量特征向量的问题。提出了种将小波分析和本文改进的无监督最优模糊聚类算法相结合用于滚动轴承故障智能诊断的方法,此方法较准确地实现了轴承故障模式的识别。关键词:无监督最优模糊聚类;小波分析;滚动轴承;故障诊断:改进五邑人学f 哆! l :学位论义a b s t r a c t1 1 1 ef a u l td i a g n o s i st e c h n o l o g yf o rr o t a t i n gm a c h i n e r yi sd e v e l o p i n gr a p i d l yf r o mt h e o r yr e s e a r c ht op r a c t i c a la p p l i c a t i o ni np a r a l l e lw i t ht h en e wa c h i e v e m e n to fm o d e ms c i e n c ea n dt e c h n o l o g y , a n db e c o m e san e wi n t e r d i s c i p l i n ec o m p o s i n go fm a t h e m a t i c s , c o m p u t e r , s i g n a lp r o c e s s i n ga n da r t i f i c i a li n t e l l i g e n c e ,e t c r o u i n gb e a r i n gi sa nu n i v e r s a lp a r to fr o t a t i n gm a c h i n e r y t h e r e f o r e ,f a u l tm o n i t o r i n ga n dd i a g n o s i n go f r o u i n gb e a r i n gi sah o tr e s e a r c hi nt h ea d v a n c e dm e c h a n i c a lf i e l d m o s to ft h et r a d i t i o n a lp a t t e r nr e c o g n i t i o nm e t h o d sd e a lw i t ht h es t a t i cp r o b l e mw i t h o u tt h ec o n s i d e r a t i o nt h a to b j e c tm a yt a k es o m es h o r t - t e r mc h a n g e s i nt h i sp a p e r ,w es t u d yt h ed y n a m i cm o d e lo fc l a s sm e t h o d st h r o u g hs t a t i ca n dd y n a m i cs a m p l e s d y l l a m i cc l u s t e r i n ga l g o r i t h mi ng e n e r a la r ed i r e c t e da ts t a t i cs a m p l ed a t a , t h ec l u s t e r i n gr e s u l t sn o to n l yd e p e n do nt h ei n i t i a lc l a s s i f i c a t i o n , f a l li n t ol o c a lm i n i m u me a s i l y , b u ta l s on o tv e r ys a t i s f a c t o r yf o rt h er e s t t l t so ft h ec l a s s i f i c a t i o nf r o mac l a s s i f i c a t i o ns y s t e mw i t h o u tc l e a rb o u n d a r i e s i ns u c hc a s e s , t h i sp a p e ri m p r o v e sa l l 1 s i 删s e do p d m a lf u z z yc l u s t e r i n ga l g o r i t h mw h i c hi sav e r yg o o ds o l u t i o nt ot h ea b o v ep r o b l e m s h o w e v e rm a n yd a t aa r ed y n a m i c ,s u c ha ss o m em e c h a n i c a lp r o b l e m , l a r g ed a t a b a s e da n di n f o r m a t i o np r o c e s s i n go i lt h ei n t e m e ta n ds oo n , t h ed a t ai sac u r v et h a tc h a n g e sa l o n gt h ef i r n e l i n e i nt h i sp a p e r ,c o m b i n ew i t ht h ew a v e l e ta n a l y s i sa n dt h el m s u p e r v i s e do p t i m a lf u z z yc l u s t e r i n ga l g o r d 衄w eh a v eg o tab e t t e rr e c o g n i d o ne f f e c t t h em a i nr e s e a r c hw o r ko f f u l lt e x ta r ea sf o l l o w s :( 1 ) m 衄s u p e r , a s e do p t i m a lf u z z yc l u s t e r i n ga l g o r i t h mh a sb e e ni m p r o v e d , b ym o a i f y m gt h ec o n s u a i n tc o n d i t i o n s ,w h i c hh a sr e d u c e dt h ec o m p u t a t i o n a lc o m p l e x i t y ;b yi n c r e a s i n gas t e pw h i c hc a nd i s c r i m i n a t et h el o c a lo p t i m u ma n dg l o b a lo p t i m u m , t h e ni tc a na v o i df a l l i n gi n t ol o c a lm i n i m u m 1 1 1 es i m u l a t i o nr e s u l t sh a v ep r o v e dt h a tt h ei m p r o v e dm e t h o di sm o r ee f f e c t i v ea n dh a sah i g h e rr e c o g n i t i o nr a t e ( 2 ) 佻p a p e ri n t r o d u c e ss o m ed y n a m i cp a t t e r nr e c o g n i t i o na l g o r i t h m ss y s t e m a t i c a l l y , s u c ha sr e c u r r e n tm u r a ln e t w o r k s ,d y n a i n i ct i m ew a r p i n h i d d e nm a r k o vm o d e l , a n dd y n a m i cf u z z yp a t t e r nr e c o g n i t i o na l g o r i t h ma n ds oo n , w h i c hc a nd e a lw i t hd y n a m i cs a m p l e s t h e ni ts 1 m a m a f i z e st h ea d v a n t a g e sa n dd i s a d v a n t a g e so f e a c h ( 3 ) t h ew a v e l e ta n a l y s i sm e t h o di si n t r o d u c e di n t or o l l i n gb e a r i n g si n t e l l i g e n tf a u l td i a g n o s i s ,t h ei i i五邑人学坝l j 学位论文w a v e l e tp a c k e td e n o i s i n gi su s e dt ot h ee i g e n v e c t o re x t r a c t i n gi sp r e s e n t e d am e t h o dw h i c hc o m b i n e dw a v e l e ta n a l y s i sw i t hi m p r o v e du n s u p e r v i s e do p t i m a lf u z z yc l u s t e r i n ga l g o r i t h ma p p h n gt ot h er o l t i n gb e a r i n gf a u l td i a g n o s i si sp r e s e n t e d t h er e s u l t ss h o wt h a tt h ep r o p o s e dm e t h o dc a nr e c o g r 血et h ef a u l tp a t t e r na c c u r a t e l y k e yw o r d s :u n 双氍:删s e do p t i m a lf u z z yc l u s t e r i n ga l g o r i t h m ;w a v e l e ta n a l y s i s ;r o l l i n gb e a r i n g ;f a u l td i a g n o s i s ;i m p r o v e m e n ti v本人声明我声明,本论文及其研究工作由本人在导师指导下独立完成,完成论文所用的一切资料均已在参考文献中列出。作者:高永清签字:两禾喃2 0 0 9 年4 月2 0五邑人学坝i j 学位论文1 1 研究的背景和意义第一章绪论传统模式识别啪叨方法大都是处理静态模式分类问题,即认为物体是处于某一固定时刻或者物体本身的主要特征并不随时间的变化而变化、是固定不变的,甚至不具有明显分类界限的类别。模式识别的方法主要有统计模式识别、神经网络模式识别、模糊模式识别和支持向量机模式识别方法等。这些方法在参数不变的情形下得到了很好的应用。但很多实际问题中,系统的特征空间参数是沿着时间轴分布的,这类问题称为动态模式识别问题。所谓动态模式,是指描述系统的特征参数随时间的变化而变化。大多数的算法和技术中很大程度匕都忽略了实时应用的个重要方面二时间,因为实际的数据集合不是“静态的”,所以不能只用固定不变的参数集合来描述。更恰当的说,实测特征量是时变的,恰| 合是这些时变的特征本身构成了分类的依据。在这种情况下,要想j 下确地对物体进行分类,不仅需要考虑其在某个特定时刻的性质,还要分析描述其暂态变化的特性,如:病人的监测过程,例如在病人被麻醉或处于昏迷状态时,应该把病人的状况看成是变化的而不是静止不变的;图象识别,比如对运动着的模式进行识别;语音识别,不同时段语音特征都是不同的,它随时间的变化而变化;为确定交易量而对新车的买主或其它货物的数据进行分析;每个月失业率的分析:对股票价格变化的分析以及对股票市场特征的预测;为了把好坏顾客分开和发现欺诈行为,对银行顾客还贷隋况分析;。技术诊断和机器状态维护:化学制药过程中定性分析药品的成分。从上面这些例子可以看出,研究对象的参数是随时间变化的,用传统模式识别方法已经无法解决。五邑人学坝i j 学位论j =1 2 目前国内外研究现状目前国内的研究范围多限于对静态物体的识别,如图像识别、图形文字的识别、人脸识别等,特征对象都是不随时间变化的,采用统计模式识别以及人工神经网络、支持向量机等方法,可以达到满意的分类结果。对语音信号、机械振动波形、心电图、脑电图等维信号,转换到频域提取它们的短时特征或某些不变特征,再运用传统的识别方法加以识别。对于具有动态特性的对象,人们已经逐步地认识到在识别过程中考虑其动态变化的特征,可以更好地提高识别率。但对于动态问题地识别,还处在把动态问题首先进行预处理,然后转换到常规特征空间中再用传统的方法进行识别的阶段。通常的预处理方法包括快速傅立叶变换和离散小波变换,还有差值抵消法等,采用较多的识别方法是人工神经网络。还有一些是在动态背景下,构造层次化分类过程的方法,即分类器的结构是由低层模糊粗分类器和各种更高层的细分类器串并组成。粗分类器主要利用一些似稳态特征信息,通过积累判别,进一步消除客体特性瞬态变化所引起的判别结果的不确定性,若不能可靠判别,则继续获取特征信息作累计判别。累积判别的同时,变迁关系特征也同时被描述并送入分类器,利用变迁关系特征信息进一步提高各粗、细分类器的识别速度和识别准确率。通过这种对动态特性的处理方法以及结合模糊识别技术,平均识别率也达到了比较好的效果。从国内外文献资料可以看出郾1 ,镧,动态模式识别还是一个全新的领域,对很多问题的研究还不成熟,有的概念和观点在一些文献中都还是第一次出现或第一次加以定义。所以对动态模式识别来说,无论是从理论的角度还是从实践应用的角度都是具有很大挑战性的。当然,国外也有一些将动态模式识别成功应用于实践的一些例子,比如在基于消费者行为的银行消费者好坏的区分,计算机网络优化,旋转机械故障的检测等方面,都有成功的利用。虽然有这方面应用的例子,但到目前对于动态模式识别方法还没有一套完整的理论体系,需进一步探讨。1 3 故障模式识别技术的研究现状从本质上讲,故障诊断可视为一个故障模式识别过程,模式识别技术在机械故障诊断中有着广泛的应用。例如,浙江大学的冯长建等人把隐m a r k o v 模型引入到旋转机械升降速过程的故障诊断郴】;西安交通大学的高毅龙、哈尔滨工业大学的黄文涛等把相糙集理论用十旋转机械的故障诊断,取得了较好的效果;吉林大学的李萌成功地把分形理论应用到了旋转机械轴承故障诊断中【1 2 l 。设计合理的分类器来进行故障模式识别是故障诊断的又一关键步骤。目前用于故障监测和2五邑人学坝i :学位论义诊断的模式识别方法主要是统计模式识别方法和神经网络识别法,它们对应的分类器分别称为统计分类器和神经网络分类器。其中,传统统计模式识别方法常常采用贝叶斯判据、线性判别函数和非线性判别函数等来设计不同类型的分类器,但这些传统统计模式识别方法都有各自的局限性,如贝叶斯决策规则从理论上解决了最优分类器的设计问题,其实施却必须首先解决更为困难的概率密度估计问题。由于故障诊断的关键是实现从特征空间到故障空间的映射,从而实现对故障的识别和诊断,因此可考虑采用智能诊断原理【5 8 】。近年来发展起来的人工神经网络以其全新的信息表达方式、高度平行分布处理、联想、i i学习及自组织等能力和极强的非线性映射能力渗透到了科学技术的各个领域,为人工智能系统的研究开辟了一条新的途径。作为一种较新的模式识别技术,神经网络已在设备故障诊断领域里显示出了极大的应用潜力。因此有必要考察和研究人工神经网络分类器在旋转机械故障诊断中的应用。但另方面,神经网络中有很多重要的问题尚没有从理论上得到解决,因此实际应用中仍有许多因素需要凭经验确定,比如如何选择网络节点数、初始权值和学习步长等;局部极小点、过学习与欠学习等也是在神经网络分类器中普遍存在的问题。这些问题的存在,已经在很大程度e 制约了人工神经网络的发展。此外,人工神经网络分类器有着和传统模式识别方法样的问题,即要求学习样本足够多,而在多数实际应用中,很难获得足够多的典型故障样本,因此有必要寻求更严密、适合于小样本的分类器。在统计学习理论基础匕发展起来的通用学习方法支持向量机用于模式分类的原理和算法,支持向量机分类器已成功用于模式识别等领域,并表现出优良的性能,特别是对解决因缺少大量故障数据样本而制约故障智能诊断发展的瓶颈问题提供了一条新的途径。1 4 论文的主要内容和结构全文共分为五章第一章绪论。本章主要介绍了课题研究的背景和意义,故障模式识别技术的研究现状以及本论文的结构安排。第二章聚类基本理论介绍。本章主要讲述聚类的一些聚类分析的相关知识和概念,包括数据预处理、特征提取的相关知识以及最常用的几种特征提取方法和几种相似性尺度衡量标准。通过本章可以对模式聚类有了初步的了解。第三章基于静态样本的动态聚类方法。本章主要介绍了基于静态样本的动态聚类算法的基本思想,然后介绍了几种常用的基于静态样本的动态聚类算法,以及对其中些方法进行了改进。并用实验结果证明改进后的方法更加有效。3五邑人学侦i j 学位论文第四章基于动态样本的动态聚类方法。本章首先介绍了几种基于动态样本的动态聚类方法,再针对传统傅旱叶变换,短时傅里叶变换存在的问题,将小波分析引入滚动轴承的故障诊断中,应用小波包分解技术提取能量特征向量,最后用无监督最优模糊聚类算法用于轴承故障诊断。第五章总结与展望4五邑人学侦i j 学位论文第二章聚类基本理论聚类m 1 就是把性质相同或者相近的对象聚成一类,并按照这些对象的定性或定量特征数值将其分组归类。在聚类过程中通常把被聚的对象称为样本,把他们的基本属性称为特征。聚类过程主要分为以下几个步聚:1 、数据采集;2 、数据预处理;3 、特征提取;4 、模式聚类。2 1 数据预处理设聚类问题中有1 1 个样本:葺( i = l ,2 ,n ) ,对每个样本选择了p 个变量,用间隔尺度测定后,第i 个样品的第j 个变量的观测值记为嘞,则1 1 个样本所有p 个变量的观测值可排成矩阵:毛l而2x 2 t岛2x n lx n 2而p屯p:常称此为样本矩阵。其中每一行向量表示第i 个样本p 个变量的观测值:五= i t l ,2 ,x i p 而每一列向量表示第j 个变量在n 个样本的观测值:= 而,而,勤)由于各变量表示样本的各种性质,往往使用不同的度量单位,观测值也可能相差十分悬殊。这样,绝对值大的变量其影响可能会盖住绝对值小的变量,使后者应有的作用得不到反映。为了确保各变量在分析中的地位相同,需要对观测数据进行预处理。预处理的对象可以是x 中的每个列向量,即对每个变量做变换;也可以是x 中的每一行向量,即对每一个样品做变换。对每个变量的变换有中心化、标准化和归一化等方法【。2 1 1 中心化中心化即去均值处理,就是在观测值上减去相应变量的平均值,记第j 个变量的平均值为:弓= 丢喜,川,2 ,。p( 2 _ 1 )对第j 个变量的n 个样本做中心化变化:五邑人学坝l :学位论文毛= 毛一弓i = 1 ,2 ,行经此变换后各个变量的均值都为0 。2 1 2 标准化( 2 - 2 )标准化是在中心化的基础上再作变换,它使各变量的变化范围相等。当用不同的方法衡量变化范围时,就有不同的标准化变换方法。常用的有:( 1 ) 标准差标准化记第j 个变量的标准差为:厂了i 一7勺2 击善( 嘞吲2川,2 ,- - ,p( 2 门)对第j 个变量的1 1 个样本做标准化为:兰d5 j经此变换后各变量的均值都为0 ,标准差都为1 。( 2 ) 极差标准化记第j 个变量的极差为:r j2 吧替( 嘞) 一恐受( 而)对第j 个变量的n 个数据做极差标准化为:i = l ,2 ,刀( 2 - 4 )嘭2 孚川,2 ,门,= 1 ,2 ,p( 2 - 5 )( 2 删经此变换后各变量的均值都为0 ,极差都为l 。( 3 ) 极差正规化对第j 个标量的n 个数据做极差正规化为:弓:孚- r a i n ( x , ),2 ,刀( 2 _ 7 )经此变换都各样本的最小值都为0 ,极差都为1 。经标准化后,各样本基点相同,变化范围也相同了。6五邑人学坝i :学位论j c :2 1 3 归一化每个样本可以视为p 维空间中的一个向量,也可以看作p 维空间中的一个样本点。这些样本点到原点的距离可能各不相同,亦即每个向量的长度各不相同。有时候为了便于分析问题,要将这些样本点变换到同一个单位圆或者高维球面上,也就是使各向量的长度( 模) 相等。这就需要对样本数据进行归一化处理,通常对向量进行归一化就是使它们的模变为1 。向量葺的模为:i ix , i i = 6 再= i( 2 8 )对向量t 进行归化如下:土( 2 - 9 )i i i i经此变换后各向量的模都为1 ,各样本点均位于同球面上。2 2 特征提取在模式识别中,特征提取与特征选择是最关键的问题之一,同时也是最困难的问题之一。对于不同的具体问题应用,需要采取不同的特征选择和提取方法。特征提取是通过映射或者变换的方法把高维的特征向量变为低维的特征向量。从组特征中挑选出一些最有效的特征以降低特征空间维数的过程叫特征选择。2 2 1 特征评判标准特征评判标准主要是衡量各个类别间的可分性,使分类器错误概率最小的那组特征当然是最好的一组特征。从理论上讲,这完全是准确的,而且是可能的,但在实际应用中却存在很大的困难,因此还需构造一些更实用的、更具有操作性的评判标准,下面介绍几种常见的特征评价标准【1 明:,( 1 )基于分类误差的可分性判据建立个识别系统,要此系统能以最低的误识率分类未知模式,既然分类是整个识别系统的设计准则,它自然也是设计特征选择与特征提取子系统的理想目标函数。在一个特征候选集髻= 瞩,考:,考:】所定义的d 维特征空间中,贝叶斯最小错误率决策的类概率误差e 由下式给出:五邑人学坝l j 学位论文p = 且1 一m ,沪( - 考) p ( 考) d 考( 2 一1 0 )其中p ( w 考) 是第i 类后验概率,而p ( 考) 表示s t - # 口概率密度函数,显然,能使e 最小的特征是好的特征。由于一般情况下误差不容易计算,因此直接用上式评价特征很难在实际中进行应用。( 2 )基于概率距离度量的可分性判据在两类的情况下,分类误差可由下式表示:p = 告【1 一j ip ( 考q ) 尸( 。) 一p ( 考吐) 尸( 吐) id 考】( 2 - 1 1 )当积分为0 时,即密度函数完全重合时,误差最大。而当密度函数p ( 善q ) 不交叠时,误差为0 ,可以认为上式中的积分把两个密度函数间的“概率距离”定量化了。这个距离愈大,误差愈小,反之误差愈大。( 3 ) 基于概率依赖度量的可分性判据模式识别过程涉及两个随机变量:模式向量毒和类别。前者结果的观察值能作一个关于后者的决策。这两个变量的依赖性体现在条件概率密度函数p ( 善q ) ( f - l ,2 ,聊) 中,如果说考和国是独立的,则p ( 考q ) = p ( 考) ,也就是说第i 类条件概率密度函数等同于联合密度。在这种场合,不能面出i 见察模式向量考获知它们的类别。( 4 )基币嘀度量的概率可分| 生判据与概率依赖性类似,熵度量也能用来估计模式向量考和类别q 之间的依赖性:观察考并计算其后验概率p ( q 考) 以确定从此试验中获得多少信息,如果所有类有相同的概率,则获得的信息最少或不确定性最大,即熵最大。熵的一般性定义如下式:以= ( 2 h 1 ) 。1 【尸4 ( q 考) 一1 】p ( 考) 呓( 2 - 1 2 )a 取不同的值可得到不同的熵定义,如果a 趋向于l 时为熵:以= 一压p ( q 考) h l 【p ( q 考) 】p ( 考) d 眚( 2 - 1 3 )口- - 2 时得到熵:= p 2 ( q 眚) p ( 考) 砧( 2 - 1 4 )( 5 )基于距离的可分性判据基于距离的可分性判据直接依靠样本计算,直观简洁,物理概念清晰,是目前应用比较广8五邑人学坝l j 学位论文泛的一种方法。基于距离的可分性判掘的出发点是:各类样本之间的距离越大、类内散度越小,则类别的可分性越好。给定一组表示联合分布的模式集,假定每类的模式向量在观察空间中占据不同的区域是合理的,类别模式间的距离或平均距离是模式空间中类别可分离性的度量,用6 ( 考加 ,) 表示第i 类中的第k 个模式和第j 类中的第一个模式间距离的度量值,平均距离可定义为:c1n?n?li ,以2 j 善否p ( q ) p ( q ) 瓦荟善6 ( 焉,( 2 - 1 5 )上式中的距离度量6 可采用欧几里得距离:d6 e ( 考,。, ,) = 【( 髻”腈一毒”) 2 】2( 2 1 6 )考虑到上式计算比较复杂,可将其转化为相应的矩阵来度量和处理。第i 类类内散布矩阵:_ = e ( x - m ) ( x m y ) = ,总体类内散布矩阵:( 2 - 1 7 )凡= 尸( q ) s = p ( o a , ) e ( x - m ,) ( x - m ,) 7 )扛1扛1( 2 1 8 )= 尸( q ) ,= l总体类内间散布矩阵:= p ( t o , ) ( x - m ,) ( x m ) 7 ( 2 - 1 9 )上面的各式中,m = 古荟x 为第i 类均值向量:m = 专喜墨= 专喜p ( q ) m 为样本集总的均值向量;,2 南互( x 叫肛叫厂为第i 类协方差;= 万与磊( x m ) ( x m 厂为样本总的协方差。构造准则有迹和行列式两种方法:( 1 ) 迹准则,如:j = t r s = p ( q ) ,一9( 2 - 2 0 )五邑人学坝i j 学位论义( 2 ) 行列式标准,= l & | _ p ( q ) i2 2 2 特征提取方法评述( 2 - 2 1 )现有的特征提取方法,主要有独立分量分析( i n d e p e n d e n tc o m p o n e n ta n a l y s i s ,i c a ) 、主分量分析( p r i n c i p a lc o m p o n e n t a n a l y s i s ,p c a ) 、投影寻踪方法( p 喇e 甜o np l l 阎l i t ,p p ) 、小波包分解、遗传算法、神经网络、信息熵模型等方法【5 0 1 。下面主要介绍本文需要用到的两种特征提取方法。2 2 2 1p c a 方法主分量分析脚1 ( p r i n c i p a lc o m p o n e n ta n a l y s i s ,简称p c a ) ,又称为主成分分析,是一种基于目标统计特征的最佳正交变换,被广泛地应用于数据压缩、特征降维等方面,也称作( 离散) k a r h u n e n - l o v e 变换,或h o t e l l i n g 变换。特征提取是分类问题的数据前处理过程,适当的特征提取方法使得后续的分类器设计工作变得容易。为了诊断准确可靠,在测试信号的预处理过程中希望得到尽可能多的特征参数,但过多的特征量之间往往有一定的相关性,不仅使计算量加大,还可能影响分类器的收敛性。主分量分析是一类常见的特征提取方法,它通过提取众多特征量的主元,综合反映了原特征量的信息,使彼此之间不相关,在少丢失信息的前提下减少特征向量的维数【6 l 】。p c a 方法l 变换) 如下:设x 是个胛维的随机变量,则它可以用下式无误差地展开:x = a t p j = a( 2 2 2 )j = l式中,柏胎”川满足吨= :) 薯驰t 中- i 表明为正交矩阵。可得a = t x ,。其中a 为向量x 在由张成的空间中的坐标,即口,为x 在仍上的投影。从甩个特征向量中取出朋个组成变换矩阵彳,f l o a = ( 仍,仍,) 。,m 0( 2 3 2 )k = l明氏距离适用于一般的欧式空间当q = l 时为绝对值距离:pd o ( 1 ) = i 靠- x y kk = l当q = 2 时为欧式距离:p吒( 2 ) = ( i 靠- - x j ki ) l ,2k = l当q = 时y 弛) j l l 雪夫距离:吨f ) - m a ;x ,i 一i1 4五邑人学f 吹i j 学位论文( 2 ) 马氏距离考虑到各样本的观测值往往为随机变量,因此第i 个样本的p 个变量的观测值= ( 薯。,薯:,) 7 应该是p 维的随机向量。由于随机向量有一定的分布规律,各个分量之间又有可能相关,因此两个样本作为两个随机向量的个体,用马氏距离更为合适:d u ( m ) = ( 葺- x j ) 7 一( 一一x j )( 2 3 3 )其中是随机向量的协方差矩阵。( 3 ) 兰氏距离舭,= 吉喜掣浯3 4 ,2 3 2 相似系数对于p 维空间中的两个向量,可以用相似系数来衡量它们之间的相似度。设q ,表示第i 个和第j 个向量之间的相似系数,贝j ja , ,应该满足下面条件:( 1 ) 绝对值不大于1 ,同时当且仅当两个向量存在线性关系,即玉= a ,其中c 为任意不等于零的常数时,旧,| - 1 菜成立;( 2 )对称性,即对所有的i 、j 恒有口,= 口,o两个对象间的相似系数也有多种定义形式,常见的有以下几种:( 1 ) 夹角余弦夹角余弦是经常使用的一种相似系数,其取值范围为 一1 ,l 】。样本间的相似系数可用两个向量之间的夹角余弦表示,样本i 和样本j 的夹角余弦可记为:g = c o s ( o , 【,) =px 一位k = 1以向量点积的形式可以表示为:旷需端“乩2 ,刀锄2 丽丽南l 产l ,2 ,川( 2 ) 相关系数第i 个变量和第j 个变量之间的相关系数可表示为:( 2 - 3 5 )( 2 - 3 6 )五邑人学倾i :学位论文( 靠一i ) ( 一弓)勺= 1 生亍一、( 一i ) 2 ( 一弓) 2其中写,弓为均值,i = 去喜靠,弓= 吉喜。”百。刀百。2 4 本章小结( 2 3 7 )聚类分析的应用范围非常广泛,尤其是在数据挖掘和模式识别中经常需要对试验样品进行聚类研究。要进行聚类分析,首先对数据样本进行预处理,对变量的中心化、标准化和归化。距离、相似系数和关联是度量两个样品间相似度的统计量。距离有明氏距离、马氏距离和兰氏距离;相似系数有夹角余弦、相关系数以及其他一些表示方法。总之,本章介绍了聚类的一些基本理论,为进行后面章节的工作打下了坚实基础。1 6五邑人学坝i j 学位论文第三章基于静态样本的动态聚类方法动态聚类法利用迭代法进行聚类,原理如下图所示:先给定一个粗糙的初始分类,并定义个体之间的距离,然后用某种原则进行修改,直到分类比较合理为止,采用这种思想的分法叫做动态聚类方法。而基于静态样本的动态聚类方法即样本是静态的,聚类的方法是动态的,图3 1 是该算法的基本思捌1 1 1 。下面介绍几种常用的基于静态样本的动态聚类方法。图3 1 基于静态样本的动态聚类算法流程图3 1 模糊c 均值聚类方法f c m 是b e z k e k 于1 9 8 1 年提出的,它是目前广泛采用的种聚类算法之一h 目。模糊c - 均值聚类是模糊聚类算法中非常有效的一种,它能给出每个样本隶属于某个聚类的隶属度,即使对于很难明显分类的变量,模糊c - 均值聚类也能得到较为满意的效果。f c m 算法使用了最小化整个权重的均方差的思想,是对普通c 均值算法的改进,普通c _ 均值法是硬性的,而模糊c 一均值算法是一种柔性的模糊划分。首先,我们引入隶属度函数甜它表示第j 个样本对于第i 类的隶属度。这样就可以对聚类的准则函数重新定义,用隶属度函数定义的准则函数可以写为“1 :m i n j = ( _ ,) ”i i x ( j ) - w ( i ) 1 1 2 ( 3 1 )其中x ( ) ,j = l ,r l 为第j 个样本,w ( i ) ,i = l ,c 为第i 个聚类中心,此外,为了加强x ( j ) 属于各类的隶属程度的对比度,在准则函数中添上参数m ,聊 1 ,m 越大,对比度越大。而且必须满足下面三个条件:( 1 ) u 0 ,1 】( f - l ,2 ,c ;j = 1 ,2 ,刀)( 2 ) = l ( j - 1 2 ,玎)f l( 3 - 2 )五邑人学坝i j 学位论文( 3 ) 0 yu 。 珂_ j |,_ l为求得最小值,令厶分别对和w ( f ) 求导,并令它们的导数等于0 ,再代入条件( 3 2 ) ,可得如下必要条件:上:邀韭骘( ,2 ,c ;川,2 ,卅) ( 3 - 3 )( 1 1 1x ( j ) - w ( 1 ) 1 1 2 1 而( ) ”x ( )w ( f ) = 型了一( 甜一) ”j = l反复迭代求得式( 3 - 3 ) 和式( 3 4 ) 。具体计算步骤如下:步骤1 :给定参数类别c 、参勤n 、容许误差e ( m a x ) 的值,令k = 1 :步骤2 :初始化聚类中心:w ( 1 )( f _ 1 ,2 ,c ) ;步骤3 :按式( 3 - 3 ) 计算隶属度;材,( 七)( f _ 1 ,2 ,c ;j = 1 ,2 ,)步骤4 :按式( 3 4 ) 修j 下所有的聚类中心w ( 七+ 1 )( f = 1 ,2 ,c ) ;步骤5 :计算误差p = i t w , ( k + 1 ) - w , ( k ) 1 1 2j = 1若e u j l ( 1 = 1 ,2 ,c ;,f ) ,则将x ( ) 归入第f 类;3 2 迭代自组织数据分析算法( i s o d 觚算法)( 3 - 4 )( 3 - 5 )与c 均值算法相似,i s o d a t a 算法的聚类中心也是通过样本的均值的迭代运算来决定的。但i s o d a t a 算法还加入了一些试探步骤,能自动地进行类的合并和分类,即能在迭代中调整类别的数目,从而得到类数较合理的聚类结梨“。i s o d a t a 算法的基本思想可用下图表示。图3 2 中迭代次数分奇偶的目的是为了避免完全相同的分类一合并一分裂等重复的循环。五邑人学倾i j 学位论j c =图3 - 2is o d a t a 算法流程图下面给出i s o d a t a 的具体算法:已知样本集为 x 1 , x 2 ,x ) 。步骤1 :规定下列控制参数:k 期望得到的聚类数;a 个聚类中的最少样本数,若少于此数,则不能单独成一类:醵标准偏差参数,若大于此数,则相应的聚类就要分裂;良两聚类中心的最小距离,若小于此数,则相应的两个聚类进行合并;l 每次迭代允许合并的最大聚类数;i 允许迭代的次数设初始的聚类数为c 和初始的聚类中心为聊,( f 1 ,2 ,c ) 。步骤2 :按下述关系:若l | x - m ,i i 1 ix - m ,l | ( j = l ,2 ,c ;j f ) ,贝t j x o j , 。将所有样本分到各个聚类中去,其1 9五邑人学硕i j 学位论文中哆是第i 个聚类,其中心为聊,。步骤3 :若有任何一个q ,其基数m 良,并且有d d 且 2 ( 0 + 1 ) 或c k 2 ,则把够分裂成两个聚类,其中心相应为m + 和m 一,把原来的聊,取消,且令c = c + 1 。m + 和m 一的计算如下:给定个a 值,o a 1 ,令n = a 仃,一,则研? = q + n ,所_ _ = q y ,2 0五邑人学坝i j 学位论义式中的a 值应选得使c o , 中的样本到脚+ 和朋一的距离不同,但又应使c o , 中的样本仍然在这两个新的集合中。步骤1 l :对于所有的聚类中心,计算两两之间的距离:d ,= i i 聊,一所川( i = l ,2 ,c 一1 ;j = i + 1 ,i + 2 ,c ) 。步骤12 :l l 较o , ,和艮的大小,将口, o c 的值按上升删 列:d i a d b h d t | j l ,lslo步骤1 3 :从最小的d j 开始,将距离为b 的两个聚类中心脚。和所 合并,得新的聚类中心:m l2 斋i n i 。m l l + n j l mjtl(a-s)并冷c = c l 。步骤1 4 :若这是最后一次迭代,则算法终止。否则,若根据经验需要改变参数,则转到步聚1 ;若不需要改变参数,则转到;多骤2 ,将迭代计数器加l 。3 3 无监督最优模糊聚类算法( 一种改进的模糊c 均值聚类方法)迭代自组织数据分析方法即i s o d a t a 算法是无监督聚类算法中的_ 种旧,应用比较广泛,它的聚类中心是通过样本均值的迭代运算来决定的。但它是硬限幅分类,不能表达现实中存在的“亦此亦彼”的模糊现象。为了解决这一问题,本文改进了种无监督最优模糊聚类算法。它是以模糊c 一均值算法为基础的一种聚类算法,其优点是无监督初始化聚类模型,在未知聚类数为多少,而且不论聚类的具体形状( 球形或椭球形) 、密度、大小尺寸如何,应用模糊超体积和分离密度函数来评估聚类的有效性,能自动得到最优的聚类数c 以及聚类中心。本方法的基本思想是,逐渐增加聚类数量( 小于预定最大数目) ,反复迭代,在每一次迭代的过程中应用有效性标准来评价聚类的有效性,以便得到最佳的聚类数和聚类中心n 印。它的具体算法如下:步骤l :选择初始聚类中心,设定对比度系数m ,容许最大误差e ( m a x ) 和最大聚类数c ( m a x ) 。步骤2 :应用模糊c 均值算法进行聚类,得到一个初始聚类模型。其中选用的距离度量类型为欧式距离d 2 ( x ,1 ,f ) = ( x 一,i ) r ( x 一v i ) ( 3 - 9 )式中工,为第j 个m 维特征向量,j = l ,n ,u 为第i 个聚类中心,i - - 1 ,c 。得到初始化聚类模型。步骤3 :再次应用模糊c 均值算法,其中的距离函数改为指数距离函数,如下:2 l五邑人学颂i 学位论文d 2 ( x 1 ,v i ) = 万1 丽e x p 【三( 一一v ,) f 。1 ( _ 一v ,) 】( 3 - 1 0 )其中只为所有样本相对与第i 类的成员隶属度之和,即: ,甜少( x j - v i ) 7 ( x ,一v )f = 卫可一材,l = l步骤4 :计算聚类的有效性,有下面一些参数:( 1 ) 模糊超体积标准:矿( c ) = 吩i = l其中第i 类的超体积露= 0 矗两( 2 ) 分离密度:s ,v j p d ( c ) = h ,- l其中第i 类中所有好的样本即成员隶属度高的样本的成员隶属度之和:= ti ( 一v ) 7 f 。1 ( x j - v j ) j = l通常情况下,为了避免复杂的计算,一般选用掰霉删= 0 5 ,所以上式可以变为:( 3 ) 平均分离密度: ,i = “一 o 5j = l1肋( c ) = 二c( 3 1 1 )( 3 1 2 )( 3 - 1 3 )( 3 - 1 4 )( 3 - 1 5 )步骤5 :如果当前聚类数小于预定的最大聚类数,则聚类数加1 再转到第二步重新计算,否则停止计算并应用有效性标准选择平均分离密度最大的聚类数作为最佳的聚类模型。“,且川噼上韵一舫只糊模的类第为五邑人学倾i j 学位论j 【:3 4 实验仿真与结果分析为了验证本文改进的基于f c m 无监督最优模糊聚类算法的可行性,本文应用了i r i s 数据集进行了仿真实验嘲。i r i s 数据集嘲一共有三种类别,即三类,每类样本个数为5 0 ,每个样本有四个属性。首先选定参数,对比度系数m - - 2 ,容许最大误差e ( m a x ) = 0 0 0 1 ,最大聚类数c ( m a x ) = 6 。从c - - 1 开始聚,一直到c - - 6 ,得到六组有效性衡量数据,结果如表3 - 1 所示。从表l 可以看出,c = 3 时,平均分离密度是最大的,因此c = 3 是最优分类数,刚好符合i r i s 数据的特征。从表还可以看出,当c 3 后,随着聚类数的增加,分离密度也随着增加,可以推出,当c - - n 即聚类数等于样本数时,分离密度是最大的,但它的平均分类密度会很小。当c = 3 时,应用模糊c 均值算法与无监督最优模糊聚类算法聚类i r i s 数据的一个比较,结果如表3 - 2 和表3 3 所示。表3 - - 1由无监督最优聚类算法得出的有效性尺度分离密度v ( p d )平均分离密度v 类数目c = i3 4 7 63 4 7 6d 乏8 2 8 14 1 4 0 5c = 31 3 4 6 74 4 8 9 1c = 48 9 5 2 22 2 3 8 ic - - 51 0 2 4 72 0 4 9 4c = 61 3 6 3 02 2 7 1 7表3 2f c m 算法聚类结果12315 024 55394 1五邑人学帧i j 学位论文表3 3u o f c 算法的聚类结果淤乏12315 024 7335 0从表3 2 和表3 3 可以看出,用模糊r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论