免费预览已结束,剩余8页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于GHA的核主成分分析及其应用第l6卷第l0期 2006年l0月 计算机技术与发展 COMPL厂rERTECHNOLOGYANDDEVELOPMENT V()1.16No.10 Oct.2006 基于GHA的核主成分分析及其应用 潘石柱,殳伟群,王令群 (同济大学控制理论与控制工程学院,上海200092) 摘要:文中提出了一种将GHA(GeneralizedHebbianAlg.t一)学习规则应用到核主成分分析的新方法,它结合了核主成 分分析和GHA学习规则的优点,既能利用核主成分分析的方法方便地提取数据的非线性特征,又能避免在大样本数据的 情况下运算复杂和存储空间大的问题.实验证明了该方法的可行性和高效性. 关键词:GHA;核主成分分析;特征提取 中图分类号:TP18文献标识码:A文章编号:1673629X(2006)10002303 ResearchandApplicationofKernelPrincipalComponentAnalysis BasedonGeneralizedHebbianAlgorithm PANShi.zhu,SHUWeiqun,WANGLing?qun (DepartmentofControlTheoryandControlEngineering,TongjiUniversity,Shanghai200092,China) Abstract:PresentsanewmethodthatcombinesthealgorithmofGHAwithkemelprincipalo0mp.n锄tanalysiswhichcanmakegooduse ofrespectiveadvantageoftwoalgorithms.First,thismethodusesthealgorithmofkemelprincipalcomponentanalysistoextlltctthelion linearfeamreofdata.Second.itcanalsoavoidthecomputationalcomplexityandhighdimensionalityof$p&ge.TheexperimentshadproVed thismethodisfeasibleandefficient. Keywords:GHA;kemelprincipalcomponentanalysis;featureextraction 在图像处理和模式识别领域,主成分分析被广泛地应 用于特征提取,大大地简化了问题处理的难度和提高了识 别的性能.但是,主成分分析是一种线性映射算法,在处 理非线性问题时,往往不能表现出好的性能.Scholkopf 将主成分分析推广到非线性领域,通过核函数使非线性问 题转化为普通的特征值问题_1.2J,这样可以利用已有的线 性算法求解原本复杂的非线性特征空间.但是在样本数 目很大时,计算求解的核矩阵维数太高,增添了计算的复 杂度和保存整个矩阵的难度. 文中提出了一种基于GHA的核主成分分析的新方 法,该方法结合了GHA和核主成分分析的优点,既能获 取数据的非线性特征,又解决了运算量和存储空间大的问 题,实验证明了该方法的可行性和高效性. l基于GHA的主成分分析 对数据进行主成分分析时,高维矩阵的特征值分解是 一 个难题,Oia提出了一种稳定的学习规则_3J,学习的结 收稿日期:20060110 作者简介:潘石柱(1976一),男,河南信阳人,博士研究生,研究方向 为图像处理.模式识别,多媒体信息处理,数字视频处理等;殳伟群, 博士,教授,博士生导师,主要的研究方向为测量理论,信号处理,流 量测量,多媒体技术等. 果是网络的权矢量自适应地学习输入矢量的最大主特征 向量.由于在实际应用中往往需要提取多个主成分,利用 Sanger的GIlA算将这个单线性神经元模型扩展到 单层线性神经元的前馈网络,可以对输入进行任意大小的 主成分分析,其结构如图1所示. y 图l主成分分析的网络结构图 设训练样本集为X=l,2,M,其中R 是一个列矢量,M为训练样本总数,训为连接输入层和 输出层的权值. 第个神经元的输出为: ()=(),=1,2,(1) 根据Hebb学习的广义形式,权值修改为: ,()=()()一 ()z)()(2) ? 24计算机技术与发展第l6卷 i=1,2,;J.二1.2,7” 其中u,()是在时刻对,()的修改,是学习率. 这样便求得了最大特征值对应的特征向量(即权值). 为了求得多个分量,因此修改规则为: u,()=r/y)()(“)一u,()Ys()(3) 其中t,(,)为输入向量(“)的第个分量的修改形式: =L z()=z()一三u,()Yk(n)(4)=J 分析式(4)可知,当=1时,z(r/)=z(r/)相当于 单个神经元模型,即求取其中最大的主成分.当>1时, 相当于将z()的前一1个主分量去除,所以训,将会趋 于余下的最大特征对应的特征向量.因此,该网络中所有 神经元的权向量都将按照特征值由大到小的顺序收敛于 对应的特征向量,这就使该网络具有提取多个主分量的能 力. 2基于GHA的核主成分分析 2.1核主成分分析(1【lA) KPCA是一种非线性信号处理方法,在分类前对输人 数据进行预处理,可以有效地提取输入数据集的非线性信 息,L.J.Ca0实验结果表明:经过特征提取后的SVM算 法具有更好的分类精度和分类速度,并且利用KPCA进 行特征提取后的效果明显优于ICA(IndependentCompo. nentAnalysis)和FCA(PrincipalComponentAnalysis). 设训练样本集为X=zl,aT.2,aT.M,其中RN 是一个列矢量,M为训练样本总数,设jI是一个非线性映 M 射,且满足jI()=0,对应的空间记为F,则对应的协=l 方差矩阵为: M C=1/MjI(z)jI(z(5)J=1 对C进行特征分解得: l,=C(6) 对所有特牲值0.特征向量是由(z1), (z2),(zM)张成的空间.由此可得式(6)等价于 <(),r>=<(),C>,是=1,2,M (7) 考虑到r是(z)的线性组合,即 =c(z)(8) i:1 将式(5),(8)代人式(7),并令K=<(z),() >,=1,2,M,得 MA%=Kf(9) 同理可知Ma和是对应于K的特征值和特征向量, 假设对应于特征值大于0的特征向量分别为, CM ,将12归一化可得;via<c,C>=1,此时样本 (z)在上的投影为: g,(aT.)=<,(aT.)>= c<(),(,)>(10) J:l r=p,p+1,M 称g()为对应于()非线性主元分量,将所有投 影值形成一个矢量g(32)=gI(),g2(),() 作为样本的新特征. 在计算g()时,涉及到求解非线性映射的点积运算 问题,若空间的维数很高甚至无限维时,直接计算点积困 难,为解决这一问题,同时也为避免寻找映射,根据 Mercerl1j定理,用核函数Kl(,):<(),(32)> 代替空间的点积运算,式(10)可写成: g(aT.)=<r,(aT.)>=crKI(,aT.) 当(32)的均值不等于0时,空间样本首先要变为: (z,)=(aT.)一1/M(z) J=l 其它的算法相似,此时式(9)中的K用下式代替: K=K1MKK1M+1MK1M 式中1M是系数为1/M的MM阶单位阵. 实验证明|5j5,KPCA方法在空间内具有与线性P( 相同的数学和统计特性,如各主元分量互不相关;主元分 量能够表示样本数据的最大方差;用主元分量进行样本数 据重构其均方误差最小;此外,它比线性PCA能提取更多 的样本信息,在达到同样分类性能的前提下,KPCA所需 的主元个数要少于PCA,同时与其它非线性特征提取方 法相比,它不需要解决非线性优化问题而只涉及矩阵的特 征值分解计算. 2.2核主成分分析的GItA求解 由上述分析可得,利用KPCA分析需要先计算核矩 阵K,然后求解矩阵得到特征值和特征向量.然而训练 数据样本较大时,计算过程中不可能一次性存储整个矩 阵,并且特征值和特征向量的求解也非常难,根据GHA 学习规则无需直接计算和存储协方差矩阵的特点,文中将 GHA引入到KPCA的求解中. 首先将核引入到式(3)中可得: W(t+1)=W(t)+叩(t)(y(t)(d(t)一 LTy(t)y(f)W(t)(11) 其中W(t)为网络权值的矩阵形式,Y(t)= W(t)(d(t).LT将矩阵转化为下三角矩阵. (d(t)为t时刻从映射数据点(d1),(d2), (d)随机选择的样例. 因为W(t)相当于核分量分析中的特征微量,即根据 式(8),它可表示为映射数据点的展开式: W(t)=A(t)(t)(12) 其中A(t)=(口l(t-r,a2(f),口(f) 由此新的规则为: A(t+1)=A(t)+叩(t)(f)(t)一 LT【Y(t)Y(t)A(t)(13) 引入,z维列向量6(t)=(0,l,0), 第10期潘石柱等:基于GHA的核主成分分析及其应用?25? 则(t)口J表不为: (d(t)=(t) 将式(14)代人式(13),得: A(t+1)=A(t)+77(t)(Y(t)b(t) LTy(t)(t)A(t) 由式(14)经过分解可得: f.(t)+(t)Yi(t)一(t)Yl(t)? l(f)(f),bj=1 .(f+1)=. , Iaij(f)一(f)(f)?】:1 l(t),6,l 其中(f)=(f)(,)(f)r1 I .(t)k(d,(f)r1 存储空间并可在线学习,尤其在使用大样本的应用实例 (14)时,更能显示此方法的优势. (15) 袁1实验数据 SVM 识别率(%)训练速度(1TI) 无特征89.92.52 KPCA94.3531 KHA93.86.35 (16)4总结 文中提出了一种基于GHA的核成分分析的方法,它 是利用核函数的方式求取数据空间中的非线性特征,在计 算过程中,利用GHA求解KPCA问题,使KPCA特征提 取的方式在大样本分类问题中成为可能,实验结果表明了 此算法的可行性.但是在实际应用中,还存在着训练速度 慢和选取特征数固定的问题,下一步的研究中将着力解决 这些问题. 3实验结果及分析 在实验室里,利用了车牌牌照识别系统的前期工作得 到大量的像素的字符图像,为了使算法具有较强的泛化性 和实用性,图像都是在现场不同环境中获取的.文中只对 车牌中的字母进行训练和识别.分别在各类中选取30个 样本作为训练样本,再分别选取10个样本作为测试样本. 实验的目的是为了论证基于GHA的KH2A特征提 取在SVM字符识别中的作用,以及此算法与KH2A特征 提取在性能上的不同.分别采用无特征提取,I<I)cA特征 提取以及基于GHA的KH2A特征提取进行实验,获得各 自的识别率和训练速度,其中软件的编写使用VC+, SVM程序部分改写了LIBSVM工具箱中的函数,表1给 出了统一提取前50个特征的实验结果. 从实验结果可以看出,KHA虽然消耗更长的时间来 进行学习,但它利用自适应迭代的学习方法无需直接计算 核矩阵,无需寻求矩阵的特征值和特征向量,需要更少的 (上接第22页) 的类. 由于每个方法都有其优缺点和不同的适用领域,在数 据挖掘中,用户应该根据实际需要选择恰当的聚类算法. 参考文献: 1HanJiawei.KamberM.DataMiningConceptsandTech niquesM.北京:高等教育出版社.2001.223262. 2ZhangT.BIRCH:Anefficientdataclusteringmethodforvery largedatabasesA.Proc.oftheACMSIGMODInt1Co onManagementofDataC.Montreal:ACMpress,1996.73 84. 3EnterM.Adensitybasedalgorithmfordiscoveringclusters inlargespatialdatabaseswithnoiseA.InProcof2ndInt1 ,nfonKnowledgeDiscoveringinDatabasesandDataMining 参考文献: 1ScholkopfB,SmolaA,MullerK.Nonlinearcomponentanalysis aSakerneleigenvalueproblemJ.NeuralComputation,1999. 10(5):12991319. 2KimKI,FranzMO.ScholkopfB.Kernelhebbianalgorithm foriterativekernelprincipalcomponentanalysisR.S.1.: PlanekInstituteforBiologicalCyDemeties,2003. 3OjaE.Asimplifiedneuronmodelasaprincipalcomponentan alyzerJ.JournalofMathematicalBiology,1982,15:267 273. 【4JgangerTD.Optimalunsuw.msedlearninginasinglelayer linearfeedforwardneuralnetworkJ.Neuralnetworks,1989 (2):459473. 【5JCaoLJ,ChuaKS,ChongWK,eta1.Aamparison
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年安顺职业技术学院单招职业倾向性考试必刷测试卷及答案1套
- 2026国家管网集团高校毕业生招聘笔试备考题库(浓缩500题)及答案详解(真题汇编)
- 武警医院招聘笔试题目及答案
- 2025年防雷防静电培训考试试题及答案
- 2025-2030民办学校教育市场在线教育融合与创新发展报告
- 2025-2030民办基础教育市场供需状况与盈利模式研究报告
- 2025-2030民办国际学校行业发展现状及未来趋势分析报告
- 2025-2030民办国学教育行业竞争分析及市场机会与投资价值研究
- 2025-2030民办中小学教育行业技术赋能与教育信息化报告
- 2025年海南化学状元试卷及答案
- 《都市园艺》课程教学大纲
- 并网光伏发电系统的建模和仿真实现
- 空调水系统施工方案
- GB/T 17350-2024专用汽车和专用挂车分类、名称及型号编制方法
- 奢侈品鉴定知识培训课件
- 2024年03月福建中国工商银行福建分行春季校园招考笔试历年参考题库附带答案详解
- 商务星球版地理八年级下册全册教案
- 青岛市及下辖各区市经济财政实力与债务研究(2024) -新世纪
- iso28000-2022供应链安全管理手册程序文件表单一整套
- 奥尔夫音乐教育知到智慧树章节测试课后答案2024年秋白城师范学院
- 金匮要略知到智慧树章节测试课后答案2024年秋浙江中医药大学
评论
0/150
提交评论