(计算机应用技术专业论文)基于模糊偏最小二乘的特征抽取方法研究.pdf_第1页
(计算机应用技术专业论文)基于模糊偏最小二乘的特征抽取方法研究.pdf_第2页
(计算机应用技术专业论文)基于模糊偏最小二乘的特征抽取方法研究.pdf_第3页
(计算机应用技术专业论文)基于模糊偏最小二乘的特征抽取方法研究.pdf_第4页
(计算机应用技术专业论文)基于模糊偏最小二乘的特征抽取方法研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)基于模糊偏最小二乘的特征抽取方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士论文基于模糊偏最小二乘的特征抽取方法研究 摘要 特征抽取在模式识别中占据着至关重要的地位,其方法有很多。本文基于偏最小二 乘( p l s ) 的建模思想,深入探讨了将p l s 方法和模糊p l s ( f p l s ) 方法用于特征抽取 的理论和方法。 本文主要研究和创新性工作如下: ( 1 ) 详细探讨了p l s 方法的基本思想及其线性和非线性的建模过程,综合比较p l s 各种方法的优缺点,说明了p l s 方法的应用范围,并结合模糊数学相关理论,探讨了其 应用在p l s 方法处理非线性问题的理论可行性,讨论了p l s 方法与c c a 等线性抽取方 法之间的区别与联系,研究了基于线性p l s 和基于核p l s 的特征抽取技术,深入探讨 了其理论和算法,并与其他经典的线性子空间特征抽取方法作了对比实验和分析。 ( 2 ) 利用模糊数学具有较强的数据结构表征能力,来处理非线性问题以期其具有良 好表现,探讨了将模糊技术应用到p l s 方法中,即将t s k 模糊模型嵌入到p l s 回归方 法的框架中,利用t s k 模型的解释性克服经典非线性p l s 算法的一些不足。本文研究 的f p l s 算法在将高维数据向低维空间投影的同时消除共线性的问题,t s k 模糊模型能 够较好地捕捉被投影数据的非线性结构,并且加入相关模糊规则,从而提高了模型的适 用范围。 ( 3 ) 研究基于奇异值分解的f p l s 算法。经典的n i p a l s 算法虽然能使得p l s 的变 换过程比较清楚,但是该方法由于在迭代过程中得分向量u 选取的任意性【8 1 ,使得算法 不稳定,从而将可能导致结果的不确定性,基于奇异值分解的f p l s 算法通过将奇异值 分解法应用到f p l s 算法中,有效的解决了这个问题。实验证明了基于奇异值的f p l s 算法比传统的f p l s 算法更稳定。 ( 4 ) 提出了基于样本标号的f p l s 算法。传统的类标号不能反映数据的分布特点, 其认为类中心区和类交界区的样本在分类中的作用相同,本文设计了一种样本编码方式 基于样本标号的f p l s 算法,为每个样本赋予得一个标号该样本附近的样本分布情 况决定,这样每类样本不使用一个统一的类标号,从而得到了更理想的识别效果。最后 在人脸和掌纹数据库上的实验验证了这两个算法的有效性。 关键词:特征抽取,偏最小二乘分析,t s k 模糊模型,模糊数学,模糊偏最小二乘 硕士论文 基于模糊偏最d , - - 乘的特征抽取方法研究 a b s t r a c t t h ef e a t u r ee x t r a c t i o ni so c c u p y i n gav e r yi m p o r t a n ts t a t u si nt h ep a t t e r nr e c o g n i t i o n ,i t h a sm a n ym e t h o d s i nt h i sp a p e r , b a s e do nt h ei d e ao fp a r t i a ll e a s ts q u a r e s ( p l s ) m o d e l i n g , w ed e e p l ya n a l y s e dt h et h e o r yo fp l sa n dr e s e a r c h e di t ,e x p l o r e di n t ot h ep l sm e t h o da n d f u z z yp l s ( f p l s ) m e t h o d ,t h e nt h e yh a db e e na p p l i e dt ot h ef e a t u r ee x t r a c t i o ni nt h e o r ya n d m e t h o d s t h i sp a p e rm a i n l yd i s c u s s e dt h ef o l l o w i n gq u e s t i o n s : ( 1 ) w ed i s c u s s e dt h eb a s i ci d e ao fp l sa n di t sl i n e a ra n dn o n l i n e a rm o d e l i n gp r o c e s s , c o m p a r e dt h ea d v a n t a g e sa n dd i s a d v a n t a g e so fv a r i o u sm e t h o d s ,a n dt h e ns h o w e dt h es c o p e o fa p p l i c a t i o n w ec o m b i n e df u z z yt h e o r yt oe x p l o r et h ea p p l i c a t i o no ft h ep l s a p p r o a c ha n d r e s e a r c h e di t st h e o r yf e a s i b i l i t y , d i s c u s s e dt h ed i f f e r e n c ea n dc o n t a c ta m o n gp l sa n do t h e r l i n e a rm e t h o d s ,s u c ha sc c a ,r e s e a r c h e dt h et e c h n o l o g yo ff e a t u r ee x t r a c t i o nb a s e do nt h e l i n e a rp l sa n a l y s i sa n dt h ek e r n e l - b a s e dp l st e c h n o l o g yi nd e t a i la n dt h r o u g h l y ,t h e nw e c o m p a r e dw i t ht h ec l a s s i c ss u b s p a c ef e a t u r ee x t r a c t i o nm e t h o d si ne x p e r i r n e n t a la n da n a l y s i s ( 2 ) s i n c et h ef u z z yi n f e r e n c es y s t e mh a dt h ep r o p e r t i e so fas t r u c t u r e dk n o w l e d g e r e p r e s e n t a t i o ni nt h ef o r mo fi f - t h e nr u l e s ,w ea p p l i e di ti n t op l sm e t h o d s ,t s kf u z z y m o d e lw a se m b e d d e di n t ot h ef r a m e w o r ko fp l sr e g r e s s i o nm e t h o dt oo v e r c o m et h e d i s a d v a n t a g e so fan u m b e ro fc l a s s i cn o n l i n e a rp l sa l g o r i t h m sw i t hi t sr e p r e s e n t i v ep o w e r , a n dt h ep l so u t e rp r o j e c t i o nw a su s e da sad i m e n s i o nr e d u c t i o nt o o lt or e m o v ee o l l i n e a r i t y , t h et s kf u z z yi n n e rm o d e lw a su s e dt oc a p t u r et h en o n l i n e a r i t yi nt h ep r o j e c t e dl a t e n ts p a c e , t h e s ec a p a b i l i t i e sm a d ef p l sap r o m i s i n gm o d e l i n ga n dm o n i t o r i n gm e t h o d ( 3 ) s t u d yan e wf p l sa l g o r i t h mb a s e do ns i n g u l a rv a l u ed e c o m p o s i t i o n ( s v d ) a l t h o u g h t h ec l a s s i cn i p a l sa l g o r i t h mc o u l dg a v eu sac l e a rp i c t u r eo fp l so u t e rp r o j e c t i o n ,i th a da m a j o rp r o b l e mt h a ti tw a sn o tc e r t a i n l y , s i n c et h er a n d o ms e l e c t i o no fs c o r eui ni t e r a t i v e p r o c e s s t h es v d b a s e df p l sa l g o r i t h mu s e dt h es v dt of p l s ,c o u l de f f e c t i v e l ya v o i dt h e p r o b l e m ( 4 ) p r o p o s e dan e wf p l sa l g o r i t h mb a s e do ns a m p l el a b e l i n g t h et r a d i t i o n a lt y p eo f l a b e l i n gd i dn o tr e f l e c tt h ed i s t r i b u t i o no fd a t a , l o c a t e di nt h ec e n t r a la r e aa n dt h et y p e so f c a t e g o r i e sa tt h ej u n c t i o nz o n ec o n t r i b u t i o nt ot h ec l a s s i f i c a t i o no fs a m p l e sw a sc o n s i d e r e d e q u i v a l e n t ,i nt h i sp a p e r , w ep r o p o s e das a m p l ee n c o d i n gm e t h o d t h ef p l sa l g o r i t h mb a s e d o ns a m p l el a b e l d i f f e r e n tf r o me a c hs a m p l et o g i v eag r a d ei nt r a d i t i o n a la l g o r i t h m ,t h e s a m p l el a b e ld e p e n d e do nt h ed i s t r i b u t i o n ,e a c ht y p eo fs a m p l ew a sn ol o n g e rs h a r eas i n g l e c a t e g o r yl a b e l ,t or e p l a c et h eo r i g i n a le n c o d i n g ,w h i c hh a db e e np r o v e do fb e t t e ri d e n t i f i c a t i o n m a b s t r a c t硕士论文 k e yw o r d :f e a t u r ee x t r a c t i o n ,p a r t i a ll e a s ts q u a r e s ,t s kf u z z yi n f e r e n c es y s t e m ,f u z z y m a t h e m a t i c s ,f u z z yp a r t i a ll e a s ts q u a r e s i v 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 研究生签名:学 切7 年占月朔 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名:型阻 叼年6 叩 硕士论文基于模糊偏最d , - - 乘的特征抽取方法研究 1 绪论 1 1 课题背景和选题意义 模式识别 1 捌中,计算机通过对观察现象的数字化表达而取得模式信息。随着信息化 的到来,获得的信息越来越丰富,但信息丰富的同时也给存储和处理带来很大的不便。 特征选择和特征抽取 3 - 1 0 是模式识别中最基本问题之一,其本质是通过映射( 或变 换) 将原始的高维空间变换到低维空间来表示样本,基本任务是如何从许多特征中找出 那些最有效的特征。在样本数不是很多的情况下,用很多特征进行分类器设计,无论从 计算的复杂程度还是分类器性能考虑都是不适宜的,因此研究如何把高维特征空间压缩 到低维特征空间以便有效地设计分类器成为一个重要的课题。 在模式识别领域,特别是在图像识别( 人脸识别、掌纹识别等) 中,有关特征抽取 ( f e a t u r ee x t r a c t i o n ) 和维数压缩( d i m e n s i o n a l i t yr e d u c t i o n ) 的理论和方法一直是研究的热点 和关键问题。本文将特征抽取技术用于人脸识别和掌纹识别等生物认证技术中。 如同人的指纹、虹膜等特征一样,人脸具有唯一性,从而可用来鉴别一个人的身份。 同其他的生物特征识别技术,如指纹识别、虹膜识别、d n a 识别等相比,人脸识别的自 然性、不易被被测个体察觉等特点使其具有广泛的应用。如公安刑侦破案( 通过查询目 标人像数据寻找数据库中是否存在重点人口基本信息,例如在机场或车站安装系统以抓 捕在逃案j e ) 、门禁系统( 受安全保护的地区可以通过人脸识别辨识试图进入者的身份) 、 摄像监视系统( 例如在机场、体育场、超级市场等公共场所对人群进行监视,以达到身 份识别的目的) 。 掌纹识别【5 6 】是利用人的掌部纹理作为生物特征进行身份的自动确认,是生物认证 领域的又一新兴技术。与常见的指纹识别等相比,掌纹识别具有以下优点:面积较大, 涵括的信息量丰富,从而具有更好的区分性;主要特征稳定且明显,提取特征时不易受 到噪声的干扰;在低分辨率图像下提取的特征便足以提供身份确认所需的信息;不容易 因受伤或者磨损而影响到采集图像的质量,被窃取的可能性比指纹小得多;采集设备简 单易行,且成本远低于虹膜识别的采集设备等优点,掌纹同其他应用于身份识别的生物 特征相比,将具有更广阔的应用前景。 本课题来源于研究生阶段参与的国家自然科学基金项目:相关投影分析在特征抽取 中的理论和算法研究( 6 0 7 7 3 1 7 2 ,时间:2 0 0 8 1 2 0 1 0 1 2 ) 。该项目对基于相关投影分析( 包 括典型相关分析、偏最小二乘分析等) 的特征抽取的理论和算法进行了深入的研究和探 讨,并将所提出的理论和算法应用于生物特征识别、姿态估计、图像融合和遥感图像处 理等领域。 1 绪论硕士论文 1 2 研究现状 在目标分类和识别过程中,首先根据被研究的对象产生一组基本特征,这些基本特 征既可以通过计算得到,也可以通过仪表或传感器测量而得到,这样产生的特征叫做原 始特础1 | 。在模式识别过程中,特征的确定比较复杂,研究领域不同,选择的特征也有 所不同,一般来说选择的特征【2 】应具有以下条件: ( 1 ) 可获取性。因为模式识别系统的主要处理设备是计算机,所以观察对象应该可 以通过数据采集设备输入到计算机中。作为特征,既可以是数字化的表达结果,也可以 是在数字化表达基础上形成的参数性质的值,如图像分割后的子目标特性表达。 ( 2 ) 类内稳定。选择的特征对同一类应具有稳定性。由于模式类是由具有相似特性 的若干个模式构成的,因此它们同属一类模式,其首要前提是特性相似,反映在取值上, 应具有较好的稳定性。 ( 3 ) 类间差异。选择的特征对不同的类应该有所差异。一般来说,特征的类间差异 应该大于类内差异。 1 2 1 特征的分类 一般来说,图像特征的分类有很多种,如按特征在图像上的表现形式分为点特征、 线特征和面特征,按提取的区域大小可以分为图像的局部特征以及全局特征。文献 1 1 】 将用于目标图像识别的特征归纳为如下四种: 视觉特征:如图像的边缘、形状、轮廓、纹理等,这类特征提取较容易。 变换系数特征:对图像进行各种数学变换,如离散余弦变换、小波变换、傅立叶变 换等,可将变换后的系数作为图像的一种特征。 代数特征:代数特征反映的是图像的某种属性,由于图像可以表示为矩阵形式,因 此可以对其进行各种代数变换,或者作各种矩阵分解。 统计特征:例如,灰度直方图特征、矩特征,其中矩特征包括均值、方差、峰度及 熵特征等,目前,熵特征作为图像的特征得到了广泛的应用。 一般地,将能够通过线性映射得到的特征称为线性特征,经过非线性映射得到的特 征称为非线性特征,对应的映射分别称为线性特征抽取方法和非线性特征抽取方法。 1 2 2 经典的子空间特征抽取方法研究与发展 到目前为止,多元统计分析中的大部分方法均已很好地应用到了特征抽取这一领 域,主成分分析( p c a ,或称为k l 变换) 【1 2 】、f i s h e r 线性鉴别分析( f d a ) 2 ,1 2 1 以及典型相 关分析( c a n o n i c a lc o r r e l a t i o na n a l y s i s ,简称c c a ) 1 3 】等是其最典型的方法。 文献 1 4 】最早将p c a 在生物学理论研究中引入,1 9 3 3 年文献 1 5 】将此想法应用于心 理学研究,使该方法得到了进一步的发展,1 9 4 7 年k a r h u n e n 用概率论形式将其表示出 2 硕士论文基于模糊偏最d , - - 乘的特征抽取方法研究 来,随后l o e v e 将该理论进一步扩充和完善,故p c a 理论也称为k - l 变换 1 6 】。k f u k u n a g a 在著作”i n t r o d u c t i o nt os t a t i s t i c a lp a t t e r nr e c o g n i t i o n 中对p c a 的理论和方法做了系统的 阐述,p c a 的目的是通过线性变换找一组最优的单位正交矢量基( 即主分量) ,用它的 线性组合来重建样本,并使重建后的样本和原样本的误差最小。使用p c a 进行模式的 特征抽取,主要有两大优势:( 1 ) 消除了模式样本之间的相关性:( 2 ) 实现了模式样本 的维数压缩,它能将高维的模式样本压缩为更易于处理的低维样本。由于这两个优点, p c a 被广泛的应用于模式识别、数据压缩等领域。 f d a 1 , 1 7 , 1 8 是基于样本类别进行整体特征抽取的有效方法,它在降维的同时考虑到 训练样本的类间信息,即f d a 在最大化类间距离的同时最小化类内距离。f d a 基本原 理是找到一个最合适的投影轴,使各类样本在该轴上投影之间的距离尽可能远,而每一 类内的样本的投影尽可能紧凑,从而使分类效果达到最佳,它是进行图像整体特征提取 的有效方法【1 9 】,有着广泛的应用。 由于图像用向量表示,是一个高维的样本,小样本问题在识别过程中必然出现,也 就是说每个类别可得到的样本数远小于样本特征维数,从而可能导致准则中类内散度阵 和类间散度阵均为奇异阵,因此对于传统的线性鉴别方法,最优投影方向的求解存在病 态问题。文献 2 0 】中提出的二维鉴别方法,在一定程度上避免了小样本问题的影响。 c c a 是一种经典的多元统计分析方法,由h h o t e l l i n g _ 1 3 】于1 9 3 6 年首先提出。c c a 在许多领域都有着重要的应用。它的应用价值和理论意义均得到许多研究者的青睐。从 一定程度上说,判别分析、多元回归分析等许多数据分析方法,都可以称为典型相关分 析的一种特例。在19 3 8 年,m s b a r t l e t t 2 l 】给出了c c a 与f i s h e r 线性鉴别分析( f l d a ) 的联系,有关线性鉴别分析问题通过对数据样本的类标号编码,可划归为c c a ,我们 称之为典型相关鉴别分析( c c d a ) 。最近几年,基于核的理论,线性的c c a 也被成功地 推广到非线性【2 z - 2 4 。 早在2 0 世纪6 0 年代末,偏最小二乘( p a r t i a ll e a s ts q u a r e s ,简称p l s ) 的思想就由 欧洲经济计量学家提出,但当时并没有形成系统、完整的理论与算法。直到2 0 世纪7 0 年代,瑞典经济计量学家h e r m a n w o l d 创建了非线性迭代偏最d - - 乘( n o n l i n e a r i t e r a t i v ep a r t i a ll e a s ts q u a r e s ,简写n i p a l s ) 算法,才比较完整地解决了p l s 算法问题 2 5 2 6 。但那时偏最小二乘回归的统计思想和原理还没有得到完全的解决,在应用领域也 没有取得大的进展,因此统计学界和应用领域研究人员并没有对其给予充分的关注,到 了2 0 世纪8 0 年代,s w o l d 等人首先将偏最小二乘回归成功地运用于计量化学【2 7 1 ,之 后在工业设计中也成功的应用,各方面才对其给予极大的关注【2 卜3 1 】,偏最小二乘回归的 统计理论和算法研究从此得到极大的发展,其应用也迅速地扩展到其它领域。 p l s 模型的鲁棒性使其成为回归分析、维数压缩和分类技术最常用的方法之一, 近年来也被应用到了诸如程序控制、图像处理等相关领域。p l s 回归提供了单因变量或 3 l 绪论硕士论文 多因变量对多自变量的回归建模方法,在回归建模的同时,不仅实现了原始数据的压缩, 也排除了对系统无解释意义的干扰信息( 噪声) 。p l s 同时具备p c a 、c c a 和一般 最小二乘三者的众多特点【2 9 1 ,它具有与p c a 相类似的变量空间主成分分解能力,也具 有与c c a 相类似的对解释变量空间与反应变量空间之间简明回归关系的建模能力。并 且,p l s 能克服解释变量违背假设的情况,如解释变量多,存在严重的多重共线性等。 且与一般最小二乘或其他建模方法( 如神经网络) 相比,其具有计算量小,简单稳健, 预测精度较高,所构造的潜变量较确定,易于定性解释等优点,在处理高维小样本问题 ( 图像识别等) 时有一定的优势。p l s 可以将建模类型的预测分析方法与非模型式的数 据内涵分析方法有机结合起来。在一个算法下,可以同时实现回归建模、数据结构简化 和相关分析。正因为如此,p l s 方法已引起人们越来越多的关注,有关p l s 建模方法的 专题国际研讨会,至今已举办了三届。 1 2 3 非线性偏最小二乘回归的研究与进展 上一节介绍的是关于线性的p l s 方法,近年来,非线性p l s 方法【27 】也得到了极大的 发展,比较经典的有基于核的p l s 建模方法【3 2 一t l ,此外,p l s 方法也可和模糊模型结合 起来处理非线性问题【3 8 , 3 9 】。 线性偏最d , - 乘回归( l i n e a rp a r t i a ll e a s ts q u a r e s ,l p l s ) 方法在因变量之间呈相关 性和有限的观察样本的情况下,相比较于其他线性算法,具有一定的优势。但其仍然有 一定的缺点,耳i j l p l s 仅能从数据中抽取出线性成分。由于实际的数据往往内在呈非线 性,我们希望能够找到一个有效的方法使其能对任何的非线性关系建模。为了解决p l s 非线性建模问题 2 9 。3 5 】,人们首先尝试将非线性问题转化成线性问题,然后利用线性技术 进行求解。之后,又出现了一些可适用于更一般函数形式的偏最小二乘回归方法。如1 9 8 9 年w o l d 首次提出了二次多项式偏最小二乘,为偏最小二乘回归方法的非线性化做了开创 性的工作;1 9 9 2 年他又提出了样条偏最小二乘回归。1 9 9 7 年,d u r a n d 币l j 用样条基函数, 将自变量与因变量之间的未知非线性关系按照各维自变量对因变量的拟线性关系相加 展开,再进行偏最 b - 乘回归求参,从而得到自变量对因变量的整体函数解析式。但是 这种转化为拟线性关系的建模方法中,其非线性特性非常局限。为了使p l s 方法能够应 用于更广阔的非线性关系,人们又提出了许多的非线性p l s ( n l p l s ) 方法,如样条 p l s ( s p l s ) 法 2 9 ,3 1 1 、神经网络p l s l s ) 法 4 0 4 1 1 、局部保持p l s ( l w r p l s ) 法等。从这 些方法的名字即可以看到,s p l s 内嵌样条模型,n n p l s 内嵌神经网络模型,l w r p l s 则是对样本分段使用l p l s 方法。一般说来,n l p l s 算法以获取最小的回归误差作为判 断标准来选择内嵌的模型,但是我们获得的结果模型往往会受到过拟合问题或局部最小 化问题的困扰。许多情况下,建模者可以用p l s 得分向量来判断模型的结果好坏,但是 通过修改模型参数来修正非线性p l s 模型并不是一件简单的事情,这是因为模型参数和 4 硕士论文基于模糊偏最小二乘的特征抽取方法研究 模型大小之间的关系并不明确,并且在构造模型时也往往没考虑到这方面的需求。 n l p l s 的一个重要的发展,是将核方法引入至u l p l s 中。核p l s 方法【3 2 3 7 】采用非线性 变换( 核技巧) ,将低维矢量空间的随机矢量映射到高维特征空间,在这个高维空间设 计的线性p l s 在原空间中就是一种非线性p l s 算法。核p l s 在作为一种强大的模型、回归、 分类工具的同时,同时保持了线性p l s 的计算和执行的简明性。和其它非线性p l s 方法 相比,该方法处理样本中的非线性关系显得更为高明。同样,在其它基于核的回归和分 类方法中,核p l s 也被证明出更具有竞争力。 近年来,人们将模糊数学应用到模式识别中,利用其模糊性处理非线性问题,取得 了很大的进展,i 由t a k a g i ,s u r g e o n 和k a n g 仓d 建的模糊推论系统( 即我们熟知的t s k 模型) , 已经成为应对复杂的非线性系统建模 3 8 。3 9 ,4 2 舶】的一个强大的工具。前面所述的n p l s 方法 中,虽然已有不少成功实现非线性建模的先例,但是往往有着这样那样的不足,如会受 到过拟合以及模型参数含义不明确的困扰。若我们尝试将( t s k ) 模糊模型嵌入至u p l s 回 归方法的框架中 3 8 1 ,贝j j t s k 模型的解释性将能克服之前非线性p l s 算法的一些不足。如 果我们用模型中的p l s 方法来处理高维数据和共线性的问题,t s k 模糊模型用来提取数 据中的非线性成分,并且加入专家意见,这样,该模型能够提高模型的适用范围,并且 专家意见很容易被采纳。这将在建模中得到极大的应用。 1 3 论文的主要研究内容和内容安排 特征抽取方法有很多,本文基于p l s 建模的思想,在对p l s 理论进行深入分析和 研究的基础上,研究将p l s 方法和基于模糊数学的p l s 方法用于特征抽取理论和方法。 全文包括5 章内容: 第l 章,绪论:分别介绍了经典的特征抽取方法和非线性偏最小二乘的研究现状, 及其在人脸、掌纹等图像识别领域中的应用概况,陈述了本文的主要工作与研究成果。 第2 章,相关背景介绍:首先介绍了模糊模式识别的理论知识及将模糊模型应用在 p l s 方法处理非线性问题的理论可行性,其次介绍了p l s 方法的基本思想及其线性和非 线性的建模过程,综合比较p l s 方法的优缺点,总结了p l s 方法的应用范围。 第3 章,基于偏最小二乘分析的特征抽取技术:从有利于模式分类的角度,介绍了 一些经典的子空间特征抽取方法,研究了基于线性p l s 和基于核p l s 的特征抽取技术, 深入探讨了其理论和算法,并将其与经典的子空间特征抽取方法组作了对比实验和分 析。 第4 章,基于模糊数学的偏最小二乘分析的特征抽取技术:基于模糊数学的基本思 想,探讨了将模糊模型加入p l s 方法的可能性,并将该方法用于特征抽取,给出了其详 细的建模方法,提出了基于奇异值分解的f p l s 算法和基于样本标号的f p l s 算法,最 5 l 绪论硕士论文 后在不同的数据库上分别进行了实验和分析。 第5 章,结束语:对本文所做的主要工作进行了总结,提出了值得深入研究的几个 主要问题。 1 4 本文工作的创新点 本文主要研究和创新性工作如下: ( 1 ) 详细探讨了p l s 方法的基本思想及其线性和非线性的建模过程,综合比较p l s 各种方法的优缺点,说明了p l s 方法的应用范围。并结合模糊数学相关理论,探讨了其 应用在p l s 方法处理非线性问题的理论可行性。讨论了p l s 方法与c c a 等线性抽取方 法之间的区别与联系。研究了基于线性p l s 和基于核p l s 的特征抽取技术,深入探讨 了其理论和算法,并与其他经典的线性子空间特征抽取方法作了对比实验和分析。 ( 2 ) 利用模糊数学具有较强的数据结构表征能力,来处理非线性问题以期其具有良 好表现,探讨了将模糊技术应用到p l s 方法中,即将t s k 模糊模型嵌入到p l s 回归方 法的框架中,利用t s k 模型的解释性克服了经典非线性p l s 算法的一些不足。本文研 究的f p l s 算法在将高维数据向低维空间投影的同时消除共线性的问题,t s k 模糊模型 能够较好地捕捉被投影数据的非线性结构,并且加入相关模糊规则,从而提高了模型的 适用范围。 ( 3 ) 研究基于奇异值分解的f p l s 算法。经典的n i p a l s 算法虽然能使得p l s 的变 换过程比较清楚,但是该方法由于在迭代方法中得分向量u 选取的任意性【8 】,使得算法 不稳定,从而将可能导致结果的不确定。基于奇异值分解的f p l s 算法通过将奇异值分 解法应用到f p l s 算法中,解决传统的f p l s 算法在迭代过程中的结果不确定。实验证 明了基于奇异值的f p l s 算法比传统的f p l s 算法更稳定。 ( 4 ) 提出了基于样本标号的f p l s 算法。传统的类标号不能反映数据的分布特点, 其认为类中心区和类交界区的样本在分类中的作用相同,本文设计了一种样本编码方式 基于样本标号的f p l s 算法,为每个样本赋予得一个标号该样本附近的样本分布情 况决定,这样每类样本不使用一个统一的类标号,从而得到了更理想的识别效果。最后 在人脸和掌纹数据库上的实验验证了这两个算法的有效性。 6 硕士论文基于模糊偏晟小二乘的特征抽取方法研究 2 相关背景介绍 上一章介绍了经典的特征抽取方法和非线性偏最d - - 乘的研究现状,以及其在人 脸、掌纹等图像识别领域中的应用概况,本章在此基础上介绍相关的知识背景,为接下 来的工作作理论准备。本章首先介绍模糊数学的基本理论,在此基础上说明隶属度函数 的求解方法,探讨模糊化特征和模糊分类的好处,并进一步阐述模糊模型理论,特别是 t s k 模型的结构、求取方法,说明其处理非线性问题的可行性;其次阐述p l s 的基本 建模思想,介绍p l s 线性方法以及基于核的非线性方法( 1 ( p l s ) ,说明p l s 的应用范 围。 2 1 模糊模式识别方法 2 1 1 模糊数学基本理论 1 9 6 5 年,z a d e h 提出了模糊集理论,创建了模糊数学这一新的学科 1 1 。假设在论域 e = 彤( 讨论的区间) 中模糊集彳由隶属函数u ( x ) 描述,“( x ) 自变量范围是所有可能 属于集合彳的对象( 集合彳所在空间中的所有点) ,取值范围是 o ,1 】,即0 u a ( 工) 1 , 用以反映z 对模糊集的隶属程度。 “( x ) = o 表示工完全不属于集合彳,相当于传统集合概念上的x 萑a ,u a ( x ) = 1 表示 x 完全属于集合彳,相当于传统集合概念上的z a 。对于有限个对象x 。,x :,z 。,模糊 集合4 表示为: a = ( ”_ ( x i ) ,z f ) ) , ( 2 1 1 ) 或写作: a = v u f x f( 2 1 2 ) 若模糊集中的元素用一个标量x 来表征,则隶属度函数“。( x ) 即是x 的一个单变量 函数。一些常见的单变量隶属度函数的形式包括斜台阶形、三角形、梯形、高斯函数型 等,如图2 1 所示。 o 图2 1 一些常见的隶属度函数形式 o 7 2 相关背景介绍硕士论文 d 个变量x = “,x 2 ,x d ) 上的多变量隶属度函数通常定义为d 个单变量隶属度函数 的张量积,即 “一( 工) = u x ( i ) ( x 1 ) “( 2 ) ( x 2 ) u a ( d ) ( x d ) ( 2 1 3 ) 其中彳( 1 ) ,4 ( 2 ) ,4 ( a t ) 分别对应于各个变量的模糊集,u x ( i ) ( ) 是各自相应的单变 量隶属度函数。 2 1 2 模糊特征和模糊分类 模糊特征【1 】指根据一定的模糊化规则( 一般依据具体应用领域的专门知识人为确定 或经过试算确定) ,把原来的一个或几个特征变量分成多个模糊变量,使得每个模糊变 量表达原特征的某一局部特性,用这些新的模糊特征代替原来的特征进行模式识别。如 在某问题中人的身高原作为一个特征使用,现根据需要将身高分为“偏高”、“中等”和 “偏矮三个模糊特征,每个模糊特征的取值事实上是一个新的连续标量,它们不再表 示身高的数值,而是关于这个人身高状况的描述,即分别属于偏高、中等、偏矮的程度, 如图2 2 所示。这种做法通常被称为1 - o f - n 编码( n 分之一编码) ,在模糊神经网络系 统中经常应用。 1 隶 属 度 01 4 01 5 0 1 6 0 1 7 0 1 8 01 9 0 身高( c m ) 图2 2 身高的1 - o f - n 编码 将特征进行模糊化使得新特征更好地反映问题的本质。在很多情况下,用一个特征 参与分类,正确分类结果与这个特征之间可能是复杂的非线性关系;而若根据有关知识 适当的提取模糊特征,即便特征数增多了,却可能使分类结果与特征之间的关系线性化, 从而大大简化后面分类器的设计和提高分类器性能。若对所提取的特征与要研究的分类 问题之间的关系有一定的先验知识,则采用这种方法往往能取得很好的效果。 模式识别中的分类即是把样本集( 或样本空间) 分成若干个子集,用模糊子集的概 念代替确定子集,从而得到模糊的分类结果,这样在模糊化的分类结果中,一个样本不 再属于每个确定的类别,而是以不同的程度属于各个类别。如果训练样本中已知的类别 标号就是以模糊类的隶属度函数的形式给出的,那么就需要对原有的模式识别方法进行 r 硕士论文 基于模糊偏晟小二乘的特征抽取方法研究 改变,以适应这种模糊类别的划分( 如模糊k 近邻法) 。 2 1 3 模糊模型理论 模糊系统已被广泛的应用于模式识别、自动控制、决策分析等方面,模糊系统的基 本架构如图2 3 所示。 图2 3 模糊系统的基本架构 图2 3 中,模糊化机构将明确的外界输入资料转成适当的语意式模糊资讯,即将明 确的资料模糊化成为模糊资讯。 模糊规则库由一组i f - t h e n 的模糊规则所组成,这组模糊规则用以描述系统的输入 输出关系,从而可以将多输入多输出的系统分解成为数个多输入单输出的系统。对 多输入单输出的系统而言,本文采用其函数式模糊规则形式( s u r g e o nf u z z yr u l e ) 。 函数式模糊规则又称为s u r g e o n 模糊规则或t s k 模糊规则,典型的函数式模糊规则 表示如下: r f :矿而括彳f 1口蒯口以x , i s a 打,砌绷y 7 ( 2 1 5 ) = b i o + 6 f l x l + + b x r t o ,f = 1 , 2 ,l 、 其中l 是模糊规则数,x j ,_ ,= l ,2 ,是输入变量,y i 是局部输出变量,a 是由成员函 数鸟( 勺) 描述的模糊集,是实数参数。 t s k 模型的总输出变量通过下式计算得出: f ;y f 丁胞o + b i l x i + + k ) y = 号- = 旦_ 广一 q乃 i = 1i = l 其中f 。是规则r ;的聚类中心,定义如下: f f = a f l ( 工1 ) a f 2 ( 工2 ) a 驴( x r ) ( 2 1 6 ) ( 2 1 7 ) 9 2 相关背景介绍 硕士论文 冗瞳套l 图2 4 t s k 模糊模型结构 图2 4 所示为一个典型的t s k 模糊模型的示意结构图,符号 x = 【1 ,五,蔗2 ,t r ,魏= 【,6 n ,】r 。其对应的隶属度函数一般丽言可以设定成如前文 所述的高斯型、三焦形、梯形等。蠢于高舞型隶漏度函数其趣面较为平滑,敌后文实验 中选用的即是高斯型隶属度函数,其定义为: 以以) :e x p | 一粤善上bl ,2 ,l ( 2 1 - 8 ) z 万i夕 其中c 扣是第,个输入变量x ,的第i 个高斯成员函数的中心,吼是成员函数的宽度。 前文所述的t s k 模型有时也称为一阶t s k 模型,因为它的模糊规则是通过一阶多 项式形成的。事实上,饪何爱数都可以用来生成模糊规则,在模糊域内只要其能恰当的 表示模型的输出即可,其中模糊域是由先行的规则定义的。例如函数是常数则称为0 阶 t s k 模型。更进一步地,0 阶t s k 模型功能等价于径向基函数网络。为避免过于复杂, 我们一般所说的t s k 模型特指一阶模型。 t s k 模糊模型最大的优点在于其具有很好的代表性,源予其麓够爰很小的规则来摧 述复杂的非线性系统。此外,输出模式有一个明确的形式( 式( 2 1 6 ) ) ,并且一个个的小 规则深入地解释了模型的局部特性。由于模糊模型较强的数据结构表征能力,其可以和 偏最 b - - 乘( p l s ) 方法相结合,用于盥觉数据分析。 2 2 偏最t j 、- - 乘回归技术 2 。2 。1 偏最4 - 乘回归技术的原理 设有两个工= ( t ,也,x p ) 唧露r p 和y = ( y i ,j ,2 ,y q ) 哪r 譬,且均已中心化。 l o 硕士论文基于模糊偏最小二乘的特征抽取方法研究 p l s 回归【2 9 ,3 1 1 分别在x 与y 中提取出成分t 。和“,满足以下两个条件: ( 1 ) t ,“。应尽可能多地携带各自变量的的变异信息,即 f a r & 1 ) - - - hm a x ;v a r ( u 1 ) 专m a x ( 2 2 1 ) ( 2 ) f 。,“。之间的相关程度达到最大,用记号,( ,) 表示相关关系,即 r ( t 1 ,u 1 ) 专m a x ( 2 2 2 ) 因此,综合起来即是在p l s 中要求t 。,甜,间协方差达到最大,用记号c o y ( ) 表示两 个变量间协方差,即 c o v ( t l ,u 1 ) = x v a r ( t 1 ) 宰v a r ( u i ) r ( t 1 ,u 1 ) 一m a x ( 2 2 3 ) 若满足上述条件,则t 。和“。就最大可能地包含了变量的信息,同时自变量的成分t ,对 因变量的成分“。又具有最强的解释能力。在第一个成分t ,和“。被提取后,分别实施x 对 t 。的回归以及y 对“,的回归。若回归方程满足精度要求,则算法停止;否则,将利用x 被t ,解释后的残余信息以及y 被g ,解释后的残余信息进行第二轮的成分提取,如此反复 直到精度满足要求为止。若最终对x 提取所个成分f 。,t 2 , - - t m ,p l s 将通过实施 y t ( 七= 1 , 2 ,q ) 对t l ,f 2 ,t 。的回归,然后表达成y 关于原变量_ ,x 2 ,x 口的回归方程, 这样就完成了偏最d x - 乘回归建模。 2 2 2 偏最小二乘回归的线性模型 对变量瓜y 进行标准化处理后分别为: e o = ( e 0 1 ,p ) 唧,f o = ( f 0 1 ,f o :,f o g ) 删 偏最小二乘的求解算法【2 9 , 3 1 如下所述: 第1 步: 记f 。是岛的第1 个成分,t l = e o w t ,w l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论