(应用数学专业论文)基于主成分分析的支持向量机划分地震相.pdf_第1页
(应用数学专业论文)基于主成分分析的支持向量机划分地震相.pdf_第2页
(应用数学专业论文)基于主成分分析的支持向量机划分地震相.pdf_第3页
(应用数学专业论文)基于主成分分析的支持向量机划分地震相.pdf_第4页
(应用数学专业论文)基于主成分分析的支持向量机划分地震相.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(应用数学专业论文)基于主成分分析的支持向量机划分地震相.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文题目:基于主成分分析的支持向量机划分地震相 专业:应用数学 硕士生:朱艳伟 ( 签名) 生盔丝垄 指导老师:刘叶玲( 签名)盘: 堡坠 摘要 本文首次用基于主成分分析的支持向量机划分地震相。基于主成分分析的支持向量 机划分地震相的方法可以提高支持向量机分类的训练速度和预测速度,而且不会改变样 本的分布特性,还会保持样本的分类信息,从而可以提高对地震相的划分精度。地震相 划分的准确性直接影响油气勘探预测结果的可靠性,可以减少勘探风险,带来巨大的经 济和社会效益。 文中介绍了近年来得到广泛关注和研究的支持向量机( s u p p o r tv e c t o rm a c h i n es v m ) 的相关知识,讨论了实现支持向量分类机的算法,尤其深入地分析和研究了序贯最小优 化算法,总结出了该优化算法与常用的选块算法和分解算法相比较的优势和特点。 对于支持向量机多类分类算法,本文首先总结了常用的“一对一”和“一对多”算 法的优点和缺点,然后提出了基于主成分分析的支持向量机编码的多类分类算法。文中 给出了该编码算法的详细步骤,举例说明了该算法的训练和预测过程。通过地震数据的 试验,证明了本文提出的多类分类方算法比现有的“一对多”和“对一”算法降低了 运算的复杂度、节省了运算时间、提高了预测的精度。运用基于主成分分析的支持向量 机编码的多类分类的算法划分地震相,不但分类的速度快而且预测的精度高。此外,在 划分地震相的过程中,对庞大的地震数据采取了将数据分块后再划分的方法。 最后,本文对所选取的多项式核函数,还通过试验归纳出了对于地震数据多项式的 阶数d 与惩罚参数c 的最佳匹配。 关键词:主成分分析;支持向量机;分类:地震相 研究类型:应用研究 本课题获国家科技部基金项目的资助。项目号:0 4 c 2 2 6 1 1 0 8 9 3 s u b j e c t :s e i s m i cf a c i e sc l a s s i f i c a t i o nb ys u p p o r tv e c t o rm a c h i n e b a s e do np r i n c i p a lc o m p o n e n ta n a l y s i s s p e c i a l t y:a p p l i e dm a t h e m a t i c s n a m e:z h uy a n w e i i n s t r u c t o r :l i uy e l i n g a b s t r a c t ( s i g n a t u r e ) 星丛i 血丝 ( s i g n a t u r e ) i nt h i st h e s i s ,s e i s m i cf a c i e sw a sc l a s s e db ys u p p o r tv e c t o rm a c h i n eb a s e do np r i n c i p a l c o m p o n e n ta n a l y s i s s v mb a s e do np r i n c i p a lc o m p o n e n ta n a l y s i sc l a s s e ds e i s m i cf a c i e s , w h i c hs p e e d e dv e l o c i t yo f 仃m m n ga n df o r e c a s tu p ,m a i n t a i n e dt h ec l a s s i f i e di n f o r m a t i o no f s a m p l e sa n dn o tc h a n g e dd i s t r i b u t i o no fs a m p l e s ,a n ds oe n h a n c et h es e i s m i cf a c i e sc l a s s p r e c i s i o n a c c u r a c yo fc l a s s i f i c a t i o ns e i s m i cf a c i e sa f f e c t e dd i r e c t l yr e s u l t sr e l i a b i l i t yo ft h e o i lg a se x p l o r a t i o na n df o r e c a s t ,h e l p e dt or e d u c ee x p l o r a t i o n sr i s k ,a n db r o u g h tt h eg r e a t e f f i c i e n c yo fe c o n o m ya n dt h es o c i e t y i nt h ep a p e r ,t h er e l a t e dk n o w l e d g eo fs u p p o r tv e c t o rm a c h i n ew a si n t r o d u c e d ,t h e a l g o r i t h mo fr e a l i z a t i o ns u p p o r tv e c m rm a c h i n ew a sd i s c u s s e d ,e s p e c i a l l ys e q u e n t i a lm i n i m a l o p t i m i z a t i o na l g o r i t h mw a sa n a l y z e d ,a n dt h ea d v a n t a g ea n dc h a r a c t e r i s t i co ft h i so p t i m i z e d a l g o r i t h mw a ss u m m a r i z e dc o m p a r i n gc h u n k i n ga l g o r i t h ma n dt h ed e c o m p o s i n ga l g o r i t h m r e g a r d i n ga l g o r i t h mo fs v mf o rm u l t i c l a s sc l a s s i f i c a t i o n ,t h ea d v a n t a g ea n dt h e d i s a d v a n t a g eo fo n e a g a i n s t o n ea n do n e a g a i n s t t h e r e s tw e r es u m m a r i z e d ,a n dc o d i n g m u l t i - c l a s sc l a s s i f i c a t i o n sa l g o r i t h mb a s e do np c as u p p o r tv e c t o rm a c h i n ew a sp r o p o s e d t h es t e pa n df o r e c a s tp r o c e s so ft h ea l g o r i t h mw e l t ee x p l a i n e d t h r o u g ht h et r i a lo fs e i s m i c d a t a , i tw a sp r o v e dt h a tt h ep r o p o s e da l g o r i t h mi nt h ep a p e rr e d u c e dt h ec o m p l i c a t i o no f c a l c u l a t i o n ,s a v e dt h et i m eo fc a l c u l a t i o n ,a n di n c r e a s e dc l a s s i f i c a t i o na c c u r a c nu s i n gt h i s a l g o r i t h mt oc l a s ss e i s m i cf a c i e s ,n o to n l yt h ec l a s s i f i c a t i o ns p e e di sf a s tb u ta l s of o r e c a s t p r e c i s i o no b v i o u s l yi sh i g h i na d d i t i o n ,d u r i n gc l a s s i f i c a t i o no fs e i s m i cf a c i e s ,t h em e t h o do f d a m p a r t i t i o nw a sa d o p t e dt h ep r o b l e mo fe n o r m o u ss e i s m i cd a t a a t l a s t ,t h r o u 曲t r a i l ,r e g a r d i n gt h e s e l e c t e d p o l y n o m i a lk e m e lf u n c t i o n s ,t h e o p t i m i z a t i o nm a t c ho f p u n i s hp a r a m e t e rca n dd e g r e eo f p o l y n o m i a lw e r es m m a r i z e da b o u t s e i s m i cd a t a k e yw o r d s :p r i n c i p a lc o m p o n e n ta n a l y s i s s u p p o r tv e c t o rm a c h i n ec l a s s i f i c a t i o n s e i s m i cd a t a s e i s m i cf a c i e s t h e s i s :a p p l i e dr e s e a r c h t h ep r o j e c tw a ss u p p o r t e db yt h e m i n i s t r yo fs c i e n c ea n dt e c h n o l o g yf o u n d a t i o no f c h i n a ( n o 0 4 c 2 2 6 110 8 9 3 ) 要料技太学 学位论文独创性说明 y9 2 3 1 13 本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及 其取得研究成果。尽我所知,除了文中加以标注和致谢的地方外,论文中不包含 其他人或集体己经公开发表或撰写过的研究成果,也不包含为获得西安科技大学 或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中做了明确的说明并表示了谢意。 学位论文作者签名:懒 日期:矿口z 、幺矽 学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期间 论文工作的知识产权单位属于西安科技大学。学校有权保留并向国家有关部门或 机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。学校可以将本学 位论文的全部或部分内容编入有关数据库进行检索。可以采用影印、缩印或扫描 等复制手段保存和汇编本学位论文。同时本人保证,毕业后结合学位论文研究课 题再撰写的文章一律注明作者单位为西安科技大学。 保密论文待解密后适用本声明。 学位论文作者签名:备掘茹 指导教师签名:办f + 吟 2 o o 二年4 月2 0 日 1 绪论 1 1 支持向量机的发展现状 l 绪论 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是a t & tb e l l 实验室的v v a p h i k 等人 提出的一种针对分类和回归问题的新型机器学习方法。vv a p h i k 等人从6 0 年代开始就 致力于有限样本统计理论的研究,并将其称为统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y , s l t ) 。到9 0 年代中期,这一理论已经逐步发展成形,开始受到越来越广泛的关注。s v m 方法就是在统计学习理论的基础上发展起来的一种通用学习方法,它从最优分类面的思 想出发,基于结构风险最小化( s t r u c t u r a lr i s km i n i m i z a t i o n ,s g m ) 归纳原则和v c 维f v c d i m e n s i o n ) 理论,根据有限的样本信息在模型的复杂性( 即对特定训练样本的学习精度) 和学习能力( 即无错误地识别任意样本的能力) 之间寻求最佳折衷,以期获得最好的推 广能力。它能很好的解决有限数量样本的高维模型的构造问题,而且所构造的模型具有 很好的预测性能”j 。 支持向量机较好地解决了以往困扰很多学习方法的小样本、非线性、过学习、高维 数、局部极小点等实际问题,具有很强的泛化能力。目前,统计学习理论和支持向量机 作为小样本学习的最佳理论,开始受到越来越广泛的重视,正在成为人工智能和机器学 习领域新的研究热点。实践结果表明它是现有学习机器最具优势的实用学习机器。在模 式识别( 字符识别、文本自动分类、人脸检测、头的姿态识别) 、函数逼近、函数拟合、 回归估计、密度估计、数据挖掘、三维物体识别、遥感图像分析和非线性系统控制中均 有很好的应用i 刮1 ”j 。 1 2 主成分分析与支持向量机结合的意义 在实际的模式分类应用中,通常会有这样一些问题: ( 1 ) 样本采集现场干扰多,数据易被噪声污染; ( 2 ) 现场采集来的数据集中,各类别对应的样本数目严重不平衡; ( 3 ) 由于技术或经济条件的限制,无法很快获得建模对象的大量测量数据,只能在 小数据集的基础上进行模式分类,并要求有较高的预测分类精度。 对于具有以上特点的模式分类问题,为了减少支持向量机算法处理的数据量,降低 支持向量机算法需要处理的样本维数,本文运用了主成分分析法与支持向量机相结合的 分类方法去划分地震相。主成分分析法可以提取样本集的主元,从而降低样本的维数, 甚至可以实现样本的最优压缩。在v a p n i k 的统计学习理论的基础上发展起来的支持向 量机( s u p p o r t v e c t o rm a c h i n e ,s v m ) 是目前模式识别领域中撮先进的机器学习算法。 西安科技大学硕士学位论文 具有较好的效果,在一定程度上提高了支持向量机处理大规模数据的能力,提高计算速 度,可以大大的简化计算和节约资源空间,提高了预测分类精度。 综上所述,把主成分分析与支持向量机相接合起来有以下意义: ( 1 ) 减低特征空间的维数 如果应用传统的支持向量机方法划分地震相,往往其特征空间维数很高,增大了计 算复杂度,影响了分类器的分类性能。而基于主成分分析的支持向量机不但减低了特征 空间的维数,同时由于支持向量机本身的优点:它在空间变换时仅考虑输入向量的内积 值,而不管该变换的具体形式是什么。这样就可以降低支持向量机分类时的运算量,提 高运算速度。 ( 2 ) 提高特征集合活力,加强其分类能力 提取的各种特征其分类能力不同,各种特征组合的分类能力也不同。而且不同的特 征对区分不同的类别其有效性也不同。如果单独使用支持向量机作为分类器,也就是要 把所有特征都作为输入,或者仅把那些区分所有类别有效的特征输入,前一种情况可能 会严重的影响分类器的识别性能,而后一种情况又造成某些特征没有被充分利用。将支 持向量机与主成分分析结合起来,能充分利用各种特征区分不同类别时的有效性。正是 利用了这一点,来提高特征集合的活力,加强分类器的分类能力。 ( 3 ) 增加经验知识,加强对识别分类过程的控制 对支持向量机来说,从特征向量的输入到支持向量的输出这一过程是完全在支持向 量机的内部完成的,人为无法干预,而且一旦确定了支持向量与核函数,那么分类器也 就相应建立了。在地震相的模式识别中,有大量的先验知识,它们的作用互不相同。基 于主成分分析的支持向量机在一定程度上将这些先验知识增加到分类器中来,细化了识 别分类过程,并可以对整个识别分类过程在一定程度上加以控制。 1 3 地震相划分的意义及现状 1 3 1 地震相 随着科学技术水平和对资料研究的不断深入,在二十世纪七十年代末期石油地震勘 探领域中地震地层学的出现,地震相 2 0 1 - 2 2 】概念逐渐被认识并被广泛应用。地震相这一 名词出自石油地震勘探技术。“相”是一定岩层生成时的古地理环境及其物质表现的总 和( s l o s s ,1 9 6 2 ) 。地震相可以理解为沉积相在该地震剖面上表现的总和。地震相是指有 一定分布范围的三维地震反射单元,代表产生反射的沉积物的一定岩性组合、层理和沉 积特征。对目标层段的地震道形状进行分类,也就是划分地震相。地震道形状的变化可 以定量表示为从一个采样点到另一个采样点的采样值的变化【2 3 1 1 2 5 】。 l 绪论 1 3 2 地震相划分的意义 随着油气勘探开发对象复杂程度的增加和地震技术的日趋成熟,地震油气预测技术 正朝着精细和实用的方向发展。目前所有的预测油气的方法都是根据少量井的资料与井 周围地震道属性建立学习样本,然后根据地震资料来预测无井地区的含油气性。人们已 逐渐意识到,学习样本越少,作为预测依据的相关值的不确定性越大【2 ”,即在样本相对 较少而属性参数繁多的情况下,属性参数与含油气性之间伪相关的概率增大,从而用地 震属性预测含油气性时的错误率增加,据此作出的决策会带来巨大的经济损失。所以, 现在人们提出了将油气预测的总体目标划分三个层次来实现:( 1 ) 进行地震相划分;( 2 ) 在此基础上进行储层物性预测;( 3 ) 依据储层物性预测的结果,进行含油气性预测。为了 提高油气预测的准确率,地震相的划分是尤为重要的一步。因为对地震相划分的准确性 将直接影响对油气勘探结果的可靠性,从而减少勘探风险,带来巨大的经济和社会效益。 地震相的划分在生产实践中可以解决以下问题: ( 1 ) 利用地震资料划分地质相及地质微相。 利用地震道现状即波形特征对某一层间内的实际地震数据道进行逐道对比,细致刻 画地震信号的横向变化,从而得到地震异常平面分布规律即地震相图。将实际的地震相 分层曲线或井中的地震道取代或增加仅来自地震信息的地震相模型道。在地质及井的约 束下进一步细分地震相,从而使地震相具备更加明确的地质含义,得出有关岩性、地层、 地质相、油藏变化的定性结论。 ( 2 ) 将地震相平面分析结果投影到剖面上,逐条对比剖面的反射特征,解释地震相 变化的位置及形状,确定地质体的三维形状。 将层间的地震相划分结果投影到每一条剖面,为地震相的变化确定其具体反射特 征。利用反射中断识别技术和包络解释技术,解释出地震相变化的位置,如地震相变化 所反映的上超,下超,不整合等地层现象的位置和现状,为准确确定地质体的三维形状 提供手段。 ( 3 ) 提取地震属性,通过综合对比分析,为岩性、地层、油藏解释提供帮助【2 “。 1 3 3 地震相划分的现状 随着地震勘探技术的提高,地震相描述手段越来越多,应用范围也越来越广,在最 初划分地震相是手工操作,费时费工。特别当地震剖面上反射属性异常不突出时,此项 工作更是困难。传统的地震相划分方法是相对于近几年发展起来的定量地震相分析而言 的。它是通过肉眼观测来描述的,俗称“相面法”1 2 0 】,【2 7 1 。“相面法”地震相分析类似 于观察和描述岩心或露头的沉积相分析,但它是通过对地震剖面上反射特征的观察和描 述来进行的。随着地震资料采集技术的不断提高,使得地震剖面上包含的地震信息更加 西安科技大学硕士学位论文 丰富,而其中的许多信息光靠肉眼在地震剖面上观察是检测不出来的,必须借助地震数 据处理技术和计算机技术加以提取、分析,并通过一定的数学方法,对这些地震信息的 地质特征加以解释。后来发展了用统计模式识别与模糊聚类为工具自动划分地震相的方 法。由于统计模式识别对属性提取与选择要求高,模糊聚类方法又难以建立准确合理的 隶属度函数,且当数据量大时,运算时间长,有时几乎不能实现【2 7 j 。神经网络的地震相 识别方法具有的适应能力、容错能力、大规模并行处理能力,在一定程度上提高了识别 的精度,但是,人工神经网络中如果不对输入特征进行选择,容易造成维数灾难,严重 影响识别率,并且如果直接把原始测井数据作为网络输入,增加了网络的复杂性,使得 计算量大、资源浪费、网络收敛也困难 2 2 1 ,【2 5 h 2 7 0 。最近邻法是有n 个模扳,则对任意 未知类别的样本,其所属类别由和该样本在特征空间上距离最近的点决定。最近邻方法 对特征的使用不好控制,只有那些对区分各类别均有贡献的特征才可使用。否则,会影 响识别精度,起到干扰作用。近年来提出的支持向量机( s u p p o r t v e c t o r m a c h i n e ,s v m ) 的方法,是一种基于结构风险最小化原则的模式识别方法,有完备的理论基础,引起越 来越多的关注,在分类、回归估计和密度估计等方面有很好的应用结果郴卜】。 1 4 本文的研究内容及安排 支持向量机是一种新型的机器学习方法,本文结合主成分分析和支持向量机各自的 优点提出了基于主成分分析的支持向量机划分地震相的方法。并且对于多类分类提出了 种基于主成分分析的支持向量机编码的多类分类的算法,这种算法是从分两类的基础 之上扩展出来的一种对于多值分类的简便方法,实践证明这种方法有易于编程、节省时 间和内存空间、精度高等特点。 全文共6 章: 第1 章绪论主要介绍支持向量机和地震相划分的发展与现状和地震相划分的意 义,以及主成分分析与支持向量机相结合的意义。 第2 章主要介绍主成分分析的理论,详细地介绍了主成分分析的原理和进行主成 分分析的步骤。 第3 章主要介绍支持向量机理论,对于指示函数集的v c 维、结构风险最小化原 则、最优超平面以及支持向量分类机作了详细的介绍和总结。 第4 章本章提出了基于主成分分析的支持向量机编码的多类分类算法,详细的给 出了该编码方法的步骤,并举例说明了这种方法的运算过程。并且对于地震数据比较了 本章提出的基于p c a 的s v m 编码的多类分类算法比现有的“一对一”算法和“一对多” 算法具有优势。此外,对于实现支持向量即的算法主要介绍s m o 优化算法,对该算法 做了详细的研究,并总结出了s m o 算法的特点和优势。 第5 章用基于主成分分析的支持向量机划分地震相,给出了基于主成分分析的支 4 1 绪论 i ;i i ;i ;i ;i i ;i i i i i i ;i ;i i ;i i ;i i ; ;i ; l ; 持向量机划分地震相的详细步骤,以及在数据的获取、转化、分类过程中遇到的困难和 解决的方法,并且画出试验的结果图。 第6 章结论。 西安科技大学硕士学位论文 2 主成分分析法概述 2 1 主成分分析法原理 在作数据分析处理时,涉及的样本往往包含有多个变量,较多的变量会带来分析问 题的复杂性。然而,这些变量彼此之间常常存在着一定程度的、有时甚至是相当高的相 关性,这就使在观测数据中的信息在一定程度上有所重叠。正是这种变量间信息的重叠, 使得变量的降维成为可能,从而使问题的分析得以简化。例如从总体( 总体 x = ( 一,x 。) ,一是一个p 维随机向量,每个t 是要考察的数量指标,f 1 ,p ) 中获 得了n 个秤昂五,互,五,共有n p 个数据,如何从这些数据中抓住主要规律,从而 分析样本或总体的主要性质呢? 如果多个指标是相互独立的,则可以把问题化为p 个单 指标来处理,这是简单而罕见的情况。人们自然希望用较少的综合变量来代替原来较多 的变量,而这几个综合变量又能够尽可能多地反映原来变量的信息,并且彼此之间互不 相关。利用这种降维的思想,由皮尔逊1 3 1 1 ( p e a r s o n ,1 9 0 1 ) 提出了主成分分析( p r i n c i p a l c o m p o n e n t a n a l y s i s ) 的方法,后来霍特林【3 1 1 ( h o t e l l i n g ,1 9 3 3 ) 发展了这种方法。主成分分 析是一种通过降维技术把多个变量化为少数几个主成分( 即综合变量) 的统计分析方法。 这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组 合。为了使这些主成分所含的信息互不重叠,应要求它们之间互不相关。主成分分析的 主要目的就是对变量降维。 主成分分析的机理可以简单的陈述如下:借助一个正交变换r ,将其分量相关的原 随机向量x = ( t ,) 7 ,转化成其分量不相关的新随机向量u = ( ,“:,“,) 7 ,在代数 上表现为将x 的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交 坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理, 使之能以一个较高的精度转换成低维变量系统 3 1 h 3 引。 协方差阵e 与相关系数阵r ,是对随机变量x 各个分量之间相关程度的一种测度, 包含着丰富的信息。鉴于e 与r 是实对称阵,人们从提炼信息的角度出发,自然希望通 过一个正交变换,把它们转化成对角形阵,而由此生成的新随机向量,其各个分量也就 成为不相关的了。 设待求的正交阵为 7 1 = f 2 , ,。, ( 2 1 ) 6 2 主成分分析法概述 其c p t j = t u , t 2 j - , o 7 ,_ ,= 1 ,2 ,p 。记“= ,“:, 7 为新随机向量,则有下式成 立 “= r 7 x 即虬= 7 xi = l ,2 ,p( 2 2 ) 定义2 1 设z = ( _ ,x p ) 7 为p 维随机向量,它的第i 主成分分量可表示成q = 7 工 i = 1 ,2 ,p ,其中是正交阵,的第i 列向量,并满足如下条件: ( 1 ) “。是式( 2 2 ) 中方差最大的随机变量; ( 2 ) 心是式( 2 2 ) 中与u 。不相关的其余变量中,方差最大的随机变量; ( 3 ) 是式( 2 2 ) 中与,“:,屿,h k 一。都不相关的其余变量中,方差最大的随机变量, j = 3 ,4 ,p 。 定理2 1 设z 是p 维随机向量,其协方差阵为e 。将e 的p 个特征值从大到小排列 如2 五。0 则工的第i 主成分分量的系数向量,i = 1 ,2 ,p ,是第i 大特征值五所对应的单位特 征向量。 定义2 2 称五( 杰i = 1 五) 为第七主成分分量的方差贡献率,称( 粪丑) ( 妻i = l 丑) - l 为前 定义 称五i 五f 为第七主成分分量的方差贡献率,称i 丑l i 丑l 为前 i = l k 个主成分分l 1 ,“:,蚝,的累计方差贡献率。 2 2 主成分分析法的算法 主成分分析的算法步骤可归纳如下: ( 1 ) 采集p 维随机向量x = ( 而,x 2 ,x p ) 7 的n 个样品= ( 葺l ,t 2 ,) 7 i = 1 ,2 ,即,h p ,构造样本阵 z = 而7 x : x l l 五2 p x 2 ix 2 2 t 口 x n lx 2 洲样本阵x 中元进行如下变换趵= 慧m 糊矿 ( 3 ) 对y 阵中元进行如下标准化变换 气:垃型扣1 如埘;_ ,_ 1 ,2 ,p 。 s 7 一 西安科技大学硕士学位论文 5 。i ;i ;i ;i 音;三;i ;i i ii ;i i ;i ;i n 一只) 2 = 型_ ,得标准化阵 n 一1 一 z = 毛i z 1 2 z 2 1z 2 2 z 1 靠2 ( 4 ) 对标准化阵z 求样本相关系数阵 肚 r , j ,- z r z 其中名,f ,j = 1 ,2 ,p 。 ( 5 ) 解样本相关系数阵r 的特征方程 r 一五= o 得p 个特征值 如丸 - 0 。 解方程组胄6 = t 6 ,得单位特征向量劈 8 5 以上a 对每个乃,j = l ,2 , ( 7 ) 求出刁= ( ,:,z ,) 7 的m 个主成分分量,i :l ,2 ,h 得主成分决策阵 u = = 彳够,_ ,= 1 ,2 ,m “l i m 2 坞l“2 2 u n l 2 勃一行 i i 一乃 中其 、i,一 一 k i 。丛 达率胃 利的息信使 直 m 定确 踮 一 孰 酗 按 生 = 帅蛳 蜘 2 主成分分析法概述 i ;高i ;i i ;i ;i i ;暑i ;i ;i 宣;i i 互眚;i i ;宣 i i 其中虬为第f 个样品的主成分向量,i = l ,2 ,n ,它的第,个分量是向量弓在单位特 征向量矽上的投影,y = 1 ,2 ,小。这样就将珂维向量降成了扰维向量。 总之,多元统计分析中的主成分分析的方法,以其理论的简洁性,赋权的客观性等 特点,广泛应用于经济、社会、科教、环保等领域中。这一方法的基本特征,是应用数 理统计和线性代数知识,通过寻找样本点散布最开的p 个正交方向,对样本阵中的信息 进行提炼和降维处理。 9 西安科技大学硕士学位论文 3 1 指示函数集的v c 维 3 支持向量机理论 函数集的v c 维是统计学习理论的一个核心概念,由v a p n i k 和c h e r v o n e n k i s 提出, 并取两人名字首字母而得名【i 】【2 8 3 0 】。v c 维反映了函数集的容量。在模式识别问题中, 我们研究指示函数集的v c 维。一个指示函数集q ( z ,口) ,口a 的v c 维,是能够被集合 中的函数以所有可能的2 “种方式分成两类的向量五,毛的最大数目h ( 也就是能够被 这个函数集打散的向量的最大数目) 。如果对任意的h ,总存在一个珂个向量的集合可以 被函数集q ( z ,口) ,口人打散,那么函数集的v c 维是无穷大。 对实函数集来说,其v c 维的定义如下:设a q ( z ,口) b ,t 2 a 是一个以常数4 和 b 为界的实函数集合( a 可以是m ,b 可以是+ 。o ) 。其指示器集合为 l ( z ,口,) = 目 q ( z ,a ) - , a ) ,口a ,卢( 4 ,b ) ( 3 1 ) 其中口( z ) 是阶跃函数 ,= f o 鬟 则实函数集a q ( z ,口) b ,7 9 a 的v c 维定义为相应的指示器集合的v c 维。其中常数 口人,卢( ,口) 。 图3 ia 平面中直线的v c 维等于3 b 椭圆包围的两个向量不能用直线与另外两个向量分开 v c 维反映了函数集的学习能力,v c 维越大则学习机器越复杂( 容量越大) 。对于线 性函数来说,v c 维与自由参数的数目不同,它可以大于自由参数的数目也可以小于自 由参数的数目。统计学习理论指出,是函数集的v c 维( 而不是其自由参数个数) 影响了 学习机的推广性能。这样,我们可以通过控制函数集的v c 维来控制学习机的推广性能, 即:用一个包含很多参数但却有较小v c 维的函数集为基础实现较好的推广性。 l 0 o 一 俺拶一谰 0 z 一 耸 柏 一 一 、 3图 , 一 醍 一_, 一 3 支持向量机理论 3 2 推广能力的界 3 2 1 学习问题的一般表示 学习问题可以一般地表示如下:设有定义在空间z 上的概率测度f ( z ) ,特定的损失 函数集合o ( z ,d ) ,口a 。学习的目标是最小化实际风险泛函 置( 口) = i q ( z ,a ) a f ( z ) ,口a( 3 2 ) 其中概率测度f ( z ) 未知,但给定了一定的独立同分布样本 ( 鼍,m ) ,( 而,y 3 这种一般问题就是在经验数据“,m ) ,( _ ,* ) 基础上最小化实际风险泛函r ( a ) 。 为了在未知分布函数f ( z ) 下最小化式( 3 2 ) 的实际风险泛函,可以采用下面的归纳原则: ( 1 ) 把实际风险泛函胄 ) 替换为经验风险泛函k 位) ,它是由训练集瓴,舅1 ,g ,m ) 得到的。 1i t 。( 口) = q ( 暑,口) ( 3 3 ) i l l ( 2 ) 用使经验风险( 3 3 ) 式最小的函数q ( z ,q ) 逼近使实际风险胄 ) 最小的函数 o ( z ,a o ) 。这一原则称作经验风险最小q l ( e m p i r i c a lr i s km i i l i m i z a t i o n ) 归纳原则,简称e r m 原则”。 3 2 2 推广能力的界 对于指示函数集o ( z ,口) ,如果损失函数的取值为o 或1 ,对所有函数,则经验风险 和实际风险之间至少以概率l r l 满足如下关系: 其中 r ( 口) 蔓r 肿( 口) + ( 3 4 ) 代表置信区间,r ) 为实际风险,位) 为经验风险,h 为 v c 维,为训练集样本数,1 一r 为置信度。式( 3 4 ) 告诉我们,经验风险最小化原则下学 习机器的实际风险是由两部分组成的( 式( 3 4 ) 简写成胄 ) e , m p ( 口) + ( 孚,旦孚) ) ,其中 第一部分为训练样本的经验风险,第二部分称作置信区间。从界的表达式可以看出,置 西安科技大学硕士学位论文 信区间不但受置信水平1 一r 的影响。而且更是函数集的v c 维和训练样本数目的函数, 并且随着它的增加而单调减少。式( 3 4 ) 给出的是关于经验风险和真实风险之间差距的上 界,它们反映了根据经验风险最小化原则得到的学习机器的推广能力,被称为推广能力 的别1 1 ,【2 8 】【30 1 。 对于数目为珀q 样本,如果比值l h ( 训练模式数目与学习机器函数的v c 维的比值) 较小,比如l h 0 求其最大值。 在鞍点上,解w 0 ,b o 和必须满足以下条件: o l ( w o , b o , c t 。) :n 丝亟:鱼:盟:n 以显式重写这些方程,我们得到最优超平面的下列特性: 西簧科技大学硕士学位论天 ( 1 ) 对最优超平面,系数口? 必须满足约束 , 印咒= o 群o ,i = 1 ,( 3 1 2 ) j = l ( 2 ) 最优超平面( 向量w o ) 是训练集中的向量的线性组合: f w o = 咒群硝o ,i = 1 ,z( 3 1 3 ) l = 1 ( 3 ) 进一步,只有所谓的支持向量可以在w o 的展开中具有非零的系数钟。支持向量 就是使得不等式( 3 1 0 ) 中的等号成立的向量。因此我们得到 w o = y , a o j x j ,掣o 支持向量 ( 3 1 4 ) 这一点是从传统的k a r u s h k u h n - - t u c h e r 条件【l 】,口8 】,咖( 简称k k t 条件) 得到的。根 据k k t 条件可知,最优超平面的充分必要条件是分类超平面满足条件: 钟 ( w o ) 一b o y , 一1 ) = o ,i = 1 , - - - , , ( 3 1 5 ) 把w o 的表达式代入拉格朗日函数中,并考虑到k k t 条件,我们得到下面的泛函: ,1, ) = q 一寺q 吁咒乃( 一x j ) ( 3 1 6 ) i = l 一1 j = l 问题变为在非负象限 口。o ,i = 1 , ( 3 1 7 ) 中最大化式( 3 1 6 ) 这一泛函,并服从约束条件 - l q 咒= 0( 3 1 8 ) i = 1 根据( 3 1 4 ) 式,拉格朗日乘子和支持向量决定了最优超平面,因此要构造最优超平面, 我们需要解决的是一个简单的二次规划问题:在约束条件( 3 1 7 ) ,( 3 1 8 ) 式下最大化( 3 1 6 ) 式的二次型。 设= ? ,钟) 为这个二次优化问题的解,那么与最优超平面对应的向量w n 的模 等于: 1 1 w d 2 = 2 矿( ) = q 0 ,0 、x 。_ ) 只乃 夏搿同置 基于最优超平面的分类规则就是下面的指示函数: f ( x ) = s g n ( 儿掣( x ) 一b o )( 3 1 9 ) 夏待回量 其中耳是支持向量,a ? 是对应的拉格朗日系数,6 n 是常数, 1 b o = t ( w o - x ( 1 ) ) + ( w b z ( 一1 ) ) 3 支持向量机理论 其中,我们用x + ( 1 ) 表示属于第一类的某个支持向量,用x ( 一1 ) 表示属于第二类的一个支 持向量。 3 5 支持向量机的基本原理 3 5 1 支持向量机的基本原理 s r m 原则具备算法构造性,s v m 就较好的实现了s i t m 原则。在众多分类器当中, 线性分类器具有最简单的结构,人们便考虑用类似线性判别函数的方法来实现s r m 原 则,s v m 便是从模式类线性可分情况下的最优分类面( o p t i m a lh y p e rp l a n e ) 提出的, 它的基本思想是:若在原始特征空间中实现的分类器结构十分复杂,则通过定义适当的 核函数诱导出某个非线性变换,用此变换将原始特征空间中的输入向量x 映射到一个高 维的特征空间z 中,然后在这个新的特征空间中构造最优分类超平面,以降低分类器的 复杂度。其基本思想如图3 4 所示。 空间 f 【 囊 图3 4 输入空j 司与特征空间之间的映射关系 当选定的核函数满足一定条件时,由该核函数导出的高维特征空间中两特征向量间 的点积可由核函数在低维特征空间中对应两特征向量上定义的计算而得到。这样,我们 便可在低维特征空间中处理对应高维特征空间中的数据。由于求解s v m 只涉及到向量 问的点积运算,故我们可不必担心由于引入核函数而引起计算上的维数灾难,而可将注 意力集中到如何选取恰当的核函数上,以改善特征向量在高维特征空间中的分布,从而 使分类器结构更简单。 这样,求解s v m 的过程即为在高维特征空间中求解模式类样本数据之间最优分类 面的过程,此处的最优分类面是在控制样本错分率的前提下使两类样本数据间的分类间 隔( 高维特征空间中) 最大的分类面。 空 , 砧 斗 + 输璺 西安科技大学硕士学位论文 r o l l 图3 5 二维空间中s v m 原理 图3 5 中两条虚线中间的红线即为s v m ,它对应于最优解所对应的分类器,图中与 两条虚线相切的点即为支持向量( s u p p o r tv e c t o r ) 。它们对应于最优解中口具有非零值 的样本。两条虚线间的距离对应于两倍一间隔。图中实线问的间隔显然较最优间隔要 小,它们间的中线对应的分类器虽然也能将样本数据无错误的分开,但该分类器的推广 能力却不如s v m 。 总结起来,s v m 主要体现了以下思想: ( 1 ) 分类器容量控制的思想。也即控制分类器集合函数的v c 维,该思想直接来源 于统计学习理论,s v m 通过同时控制经验风险和学习机的容量来提高推广能力。 ( 2 ) 通过引入核的思想来控制分类器容量。若在原始特征空间中实现的分类器结构 十分复杂( 对应分类器函数集的v c 维比较高) ,则通过定义适当的核函数诱导出某个非 线性变换,用此变换将原始特征空间映射到一个高维空间,然后在这个新的特征空间中 求得最优线性分类面,以降低分类器的复杂度( 即降低分类器函数集的v c 维) 。 ( 3 ) 通过求解s v m 二次规:e o ( q u a d r a t i cp r o g r a m m i n g ,q p ) 问题来实现容量控制的思 想与核的思想。 3 5 2 构造s v m 构造在输入空间中非线性的决策函数 厂( 砷= s g n ( y , c t j k ( x j x ) - b ) 支持向量 它们等价于在高维特征空间中的中,( 砷,中。( x ) 中的线性决策函数。 要求得系数a ,只要寻求泛函 f 1, ( 口) = 晖一 ;z,)aiaffiyjk(xi 1 8 ( 3 2 0 ) f 3 2 1 ) 3 支持向量机理论 的最大值,约束条件为 f q 咒= o ,磁- 0 ,f _ 1 , i = l 构造( 3 2 0 ) 式类型的决策函数的学习机器叫做支持向量机( s v m ) a 图3 6 是s v m 的图解。 图3 6 两层的s v m 是在高维特征空间z 中最优超平面的一个紧凑的实现 3 6 支持向量分类机 3 6 1 分类问题的描述 的非线性交 一般地,考虑”维空间的分类问题,它包含 个指标( 即x r ”) 和f 个样本点。记 j 个样本点的集合为:t = ( x l ,y 1 ) ,( x 2 ,儿) ,( _ ,乃) ) ( x 】,) ,其中x = 是输入 指标向量,或称输入,其分量称为特征或属性;y i 1 , - l ,i = 1 ,是输出指标,或称 输出。这,个样本点组成的集合称为训练集。于是问题转换成:对任意给定的一个新的 输入z ,根据训练集,推断它所对应的y 是1 还是一1 。即根据给定的训练集 t = ( 五,h ) ,( x 2 ,y :) ,( 一,m ) ) ( x x y ) 。,其中一z = r ”,m 1 ,一1 ) ,i =

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论