机器学习大作业.doc

上传人：精*** IP属地：广东上传时间：2020-03-20 格式：DOC 页数：27 大小：1.20MB 积分：28 举报 版权申诉

已阅读5页，还剩22页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

精品文档机器学习大作业题目机器学习大报告学院电子工程学院专业学生姓名学号目录第一章机器学习的基本理论及算法31.1机器学习的基本理论31.1.1 机器学习的概念31.1.2 机器学习的发展历程31.1.3 机器学习的模型41.2机器学习主要算法51.2.1 决策树算法51.2.2 人工神经网络61.2.3贝叶斯学习算法71.2.4 遗传算法81.2.5 支持向量机9第二章支持向量机（SVM）原理112.1 SVM的产生与发展112.2 统计学习理论基础122.3 SVM原理122.3.1最优分类面和广义最优分类面132.3.2 SVM的非线性映射162.3.3核函数17第三章支持向量机的应用研究现状193.1 应用概述193.2支持向量机的应用193.2.1 人脸检测、验证和识别193.2.2说话人/语音识别203.2.3 文字手写体识别203.2.4 图像处理203.2.5 其他应用研究21第四章基于SVM的实例及仿真结果234.1 16棋盘格数据分类234.2 UCI中iris数据分类25第一章机器学习的基本理论及算法1.1机器学习的基本理论1.1.1 机器学习的概念机器学习是人工智能的一个分支，是现代计算机技术研究一个重点也是热点问题。顾名思义，机器学习就是计算机模仿人类获取知识的模式，通过建立相应的模型，对外界输入通过记忆归纳推理等等方式，获得有效的信息和经验总结，进而不断的自我完善，提高系统的功能。目前，机器学习的定义尚不统一，不同专业背景的学者出于不同的立场，对于机器学习的看法是不同的。下面主要介绍两位机器学习专业研究者赋予机器学习的定义。兰利（P.Langley）认为：“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。米切尔（T.M.Mitchell）在其著作机器学习中谈到“机器学习”关注的问题是“计算机程序如何随着经验积累自动提高自身的性能”，也就是主要指的是归纳学习，另外“分析学习和增强学习也是学习的一个不可或缺组成部分”。两位学者的观点类似，都把机器学习看成是计算机或人工智能的一个分支学科，都强调的是归纳学习算法。机器学习在人工智能领域中是一个相对比较活跃的研究领域,其研究目的就是要促进机器像人样可以源源不断获取外界的知识,建立相关学习的理论,构建学习系统,并将这些发明应用于各个领域。1.1.2 机器学习的发展历程机器学习(machine learning)是继专家系统之后人工智能应用的又一重要研究领域，也是人工智能和神经计算的核心研究课题之一。作为人工智能研究的一个新崛起的分支，机器学习的发展历程大至可分为如下几个时期：（1）热烈时期：20 世纪 50 年代的神经模拟和决策理论技术,学习系统在运行时很少具有结构或知识。主要是建造神经网络和自组织学习系统, 学习表现为阈值逻辑单元传送信号的反馈调整。（2）冷静时期：20 世纪 60 年代早期开始研究面向概念的学习, 即符号学习。使用的工具是语义网络或谓词逻辑, 不再是数值或者统计方法。在概念获取中, 学习系统通过分析相关概念的大量正例和反例来构造概念的符号表示。在这一阶段, 人们认识到学习是个复杂而循序渐进的过程; 如果不要任何初始知识,则学习系统无法学到高层次的概念。（3）复兴时期：20 世纪 70 年代中期, 研究活动日趋兴旺, 各种学习方法不断推出, 实验系统大量涌现, 1980 年在卡内基梅隆大学( CMU) 召开的第一届机器学习专题研讨会, 标志着机器学习正式成为人工智能的一个独立研究领域。（4）蓬勃发展时期：从 20 世纪 80 年代中后期到现在, 可以认为机器学习研究进入一个新阶段, 已经趋向成熟。神经网络的复苏, 带动着各种非符号学习方法与符号学习并驾齐驱, 并且已超越研究范围, 进入到自动化及模式识别等领域, 掀起一场联结主义的热潮,各种学习方法开始继承, 多策略学习已经使学习系统愈具有应用价值, 开始从实验室走向应用领域。1.1.3 机器学习的模型机器学习系统主要由三个部分构成：环境、知识库和执行部分，如图1.1所示。环境是信息的提供者，它向智能系统的学习部分提供所需信息，学习部分利用所得信息对知识库进行修改，不断地完善知识库，从而促使执行部分更加有效地完成任务，同时执行部分再把信息反馈给学习部分。图1.1影响学习系统设计的最重要的因素是环境向系统提供的信息。知识库里存放的是指导执行部分动作的一般原则，但环境向学习系统提供的信息却是各种各样的。如果信息的质量较高，与一般原则的差别较小，则学习部分比较容易处理。如果向学习系统提供的是杂乱无章的指导执行具体动作的具体信息，则学习系统需要在获得足够数据之后，删除不必要的细节，进行总结推广，形成指导动作的一般原则，放入知识库。这样，学习部分的任务就比较繁重，设计起来也较为困难。影响学习系统设计的第二个因素是知识库。知识的表示有多种形式，比如特征向量、一阶逻辑语句、产生式规则、语义网络和框架等。这些表示方式各有特点，在选择时要兼顾 4 个方面：表达能力强；易于推理；容易修改知识库；知识表示易于扩展。学习系统在没有任何先验知识的前提下不能凭空获取知识，它需要环境为其提供一定的知识作为基础，然后对其进行扩展和完善，从而完成学习。整个学习系统的关键在于执行，从而确定了执行部分的核心地位。学习部分进行学习的目标就是改进和完善执行部分的动作。1.2机器学习主要算法1.2.1 决策树算法决策树可看作一个树状预测模型，它通过把实例从根节点排列到某个叶子节点来分类实例，叶子节点即为实例所属的分类。决策树的核心问题是选择分裂属性和决策树的剪枝。决策树的算法有很多，有ID3、C4.5、CART等等。这些算法均采用自顶向下的贪婪算法，每个节点选择分类效果最好的属性将节点分裂为2个或多个子结点，继续这一过程直到这棵树能准确地分类训练集，或所有属性都已被使用过。下面简单介绍最常用的决策树算法分类回归树(CART)。分类回归树(CART)是机器学习中的一种分类和回归算法。设训练样本集L=x1,x2,xn,Y。其中，xi(i=1,2,n)称为属性向量；Y称为标签向量或类别向量。当Y是有序的数量值时，称为回归树；当Y是离散值时，称为分类树。在树的根节点t1处，搜索问题集(数据集合空间)，找到使得下一代子节点中数据集的非纯度下降最大的最优分裂变量和相应的分裂阈值。在这里非纯度指标用Gini指数来衡量，它定义为:其中，i(t)是节点t的Gini指数，p(i/t)表示在节点t中属于i类的样本所占的比例，p(j/t)是节点t中属于j类的样本所占的比例。用该分裂变量和分裂阈值把根节点t1分裂成t2和t3，如果在某个节点ti处，不可能再有进一步非纯度的显著降低，则该节点ti成为叶结点，否则继续寻找它的最优分裂变量和分裂阈值进行分裂。对于分类问题，当叶节点中只有一个类，那么这个类就作为叶节点所属的类，若节点中有多个类中的样本存在，根据叶节点中样本最多的那个类来确定节点所属的类别；对于回归问题，则取其数量值的平均值。很明显，一棵很大的树可能过分拟合数据，但较小的树又可能无法捕获重要的结构。树的最佳大小是控制模型复杂性的调整参数，它应该由数据自适应的选择。一种可取的策略是增长一棵较大的树T0，仅当达到最小节点大小(比如5)时才停止分裂过程。然后利用剪枝策略和5折或10折交叉验证相结合的方法来修剪这棵树，从而将一些噪声和干扰数据排除，获得最优树。1.2.2 人工神经网络人工神经网络提供了一种普遍而且实用的方法，来从样例中学习值为实数、离散或向量的函数。ANN学习对于训练数据中的拟合效果很好，且已经成功地涉及到医学、生理学、哲学、信息学、计算机科学等众多学科领域，这些领域互相结合、相互渗透并相互推动。不同领域的科学家从各自学科的特点出发，提出问题并进行了研究。ANN的研究始于1943年，心理学家W.Mcculloch和数理逻辑学家W.Pitts首先提出了神经元的数学模型。此模型直接影响着这一领域研究的进展。1948年，冯诺依曼在研究中提出了以简单神经元构成的再生自动机网络结构；20世纪50年代末，F.Rosenblatt设计制作了“感知机”，它是一种多层的神经网络，这项工作首次把人工神经网络的研究从理论探讨付诸工程实践；60年代初期，Widrow提出了自适应线性元件网络，这是一种连续取值的线性加权求和阈值网络，在此基础上发展了非线性多层自适应网络。这些实际上就是一种ANN模型；80年代初期，美国物理学家Hopfield发表了两篇关于ANN研究的论文，引起了巨大的反响。人们重新认识到神经网络的威力以及付诸应用的现实性。随即，研究人员围绕着Hop-field提出的方法展开了进一步的研究工作，形成了80年代中期以来ANN的研究热潮。人工神经网络的研究在一定程度上受到了生物学的启发，因为生物的学习系统是由相互连接的神经元(Neuron)组成的异常复杂的网络。而人工神经网络与此大体相似，它是由一系列简单单元相互密集连接构成，其中每一个单元有一定数量的实值输入(可能是其他单元的输出)，并产生单一的实数值输出(可能成为其他很多单元的输入)。在ANN的研究中提出了很多模型，它们之间的差异主要表现在研究途径、网络结构、运行方式、学习算法及其应用上。常见的ANN模型有：多层前向神经网络MLFN、自组织神经网络SOM和ART、Hopfield神经网络、模糊神经网络FNN等。人工神经网络算法的重点是构造阈值逻辑单元，一个值逻辑单元是一个对象，它可以输入一组加权系数的量，对它们进行求和，如果这个和达到或者超过了某个阈值，输出一个量。如有输入值X1,X2,Xn和它们的权系数：W1,W2,Wn，求和计算出的XiWi，产生了激发层a=(X1W1)+(X2W2)+ +(XiWi)+ +(XnWn)，其中Xi是各条记录出现频率或其他参数，Wi是实时特征评估模型中得到的权系数。神经网络是基于经验风险最小化原则的学习算法，有一些固有的缺陷，比如层数和神经元个数难以确定，容易陷入局部极小，还有过学习现象，这些本身的缺陷在SVM算法中可以得到很好的解决。1.2.3贝叶斯学习算法Bayes法是一种在已知先验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。设训练样本集分为M类，记为C=c1,ci,cM，每类的先验概率为P(ci)，i=1,2,M。当样本集非常大时，可以认为P(ci)=ci类样本数/总样本数。对于一个待分样本X，其归于ci类的类条件概率是P(X/ci)，则根据Bayes定理，可得到ci类的后验概率P(ci/X): （5）若，则有Xci。（6）式(6)是最大后验概率判决准则，将式(5)代入式(6)，则有：若; ;j=1,2,M,则Xci。这就是最大后验概率判决准则，这就是常用到的Bayes分类判决准则。经过长期的研究，Bayes分类方法在理论上论证得比较充分，在应用上也是非常广泛的。Bayes方法的薄弱环节在于实际情况下，类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们，就要求样本足够大。此外，当用于文本分类时，Bayes法要求表达文本的主题词相互独立，这样的条件在实际文本中一般很难满足，因此该方法往往在效果上难以达到理论上的最大值。1.2.4 遗传算法遗传算法(Genetic Algorithm, GA)最早由 Holland 于 1975 年首次提出。它是一种模拟达尔文进化论的自然选择和遗传机制的随机优化搜索方法。其主要性质可以描述如下： 1. 直接对结构性对象进行操作，不存在求导和函数连续性限定。 2. 具有隐并行性和全局搜索能力。 3. 采用概率化的寻优方法，能够自动获取和指导优化的搜索空间，自适应调整搜索方向，不需要确定的规则。由于遗传算法具有这些性质，它已经被广泛地应用于组合优化、信号处理、自适应控制和人工生命等领域。在用遗传算法求解问题时，问题的每一个候选解都被编码成一个“染色体”，即个体。若干个体构成了群体。遗传算法初始时，随机产生一些个体。并根据目标函数对每个个体进行评估，计算出适应度值。根据适应度值，选择个体来通过交叉、变异等遗传操作来生成下一代群体。遗传算法可以看做是有若干可行解组成的群体逐步进化的过程。图1.2 描述了遗传算法的基本流程。该图给出了遗传算法求解优化问题的基本框架，大多数遗传算法均可包含于此框架内。图1.21.2.5 支持向量机支持向量机是Vapnik 等人于1995年根据统计学习理论提出的一种学习方法。它是建立在统计学习理论的 VC 维理论和结构风险最小原理基础上，根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷，以获得最好的推广能力。其基本思想是：首先选择一个非线性映射，将输入空间映射到一个高维特征空间，在此高维空间中，利用结构风险最小化原则，构造最优决策函数，寻找输入变量和输出变量之间的非线性关系。非线性支持向量分类机的数学模型可以描述如下：设给定训练集为(x1,y1),(x2,y2),(xl,yl)，xi Rn为输入向量，yi 1,1，(1 i l)为样本类别标志，l 为样本总数。用非线性映射()将样本从原空间Rn映射到高维特征空间，在此高维空间中构造最优线性决策函数y(x) = sgnw (x) + b。其中 w 为权向量，b为常数。求解支持向量机决策函数的参数可以通过求解对偶问题得到，即：最大化公式得到解参数，对非支持向量数据点对应的i，取值为 0。以上算法是为二值分类问题设计的，当处理多类问题时，就需要构造多类分类器。构造支持向量机多类分类器的方法有两大类：一类方法是直接法，直接在目标函数上进行修改，将多个分类面的参数求解合并到一个最优化问题中，通过求解该最优化问题实现多分类。这类方法看似简单，但其计算复杂度比较高，实现起来就比较困难。另一类方法是间接法，主要是通过组合多个二分类器来实现多分类器的构造，常见的方法有一对多法和一对一法两种： 1. 一对多法(one against all)。训练时一次把某个类别的样本归为一类，其它剩余的样本归为另一类。这样k个类别的样本构造出k个支持向量机。分类时将未知样本分类为具有最大分类函数值的那一类。 2. 一对一法(one against one)。其做法是在任意两类样本之间设计一个支持向量机，k 类样本需要设计k(k 1)/2个支持向量机。当对一个未知样本进行分类时，得到k(k 1)/2个分类结果，分类时采用一种投票策略，最后得票最多的类别即为该样本的类别。第二章支持向量机（SVM）原理2.1 SVM的产生与发展支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力（或称泛化能力）。自1995年Vapnik在统计学习理论的基础上提出SVM作为模式识别的新方法之后，SVM一直倍受关注。同年，Vapnik和Cortes提出软间隔(soft margin)SVM，通过引进松弛变量度量数据的误分类(分类出现错误时大于0)，同时在目标函数中增加一个分量用来惩罚非零松弛变量(即代价函数)，SVM的寻优过程即是大的分隔间距和小的误差补偿之间的平衡过程；1996年，Vapnik等人又提出支持向量回归 (Support Vector Regression，SVR)的方法用于解决拟合问题。SVR同SVM的出发点都是寻找最优超平面，但SVR的目的不是找到两种数据的分割平面，而是找到能准确预测数据分布的平面，两者最终都转换为最优化问题的求解；1998年，Weston等人根据SVM原理提出了用于解决多类分类的SVM方法(Multi-Class Support Vector Machines，Multi-SVM)，通过将多类分类转化成二类分类，将SVM应用于多分类问题的判断：此外，在SVM算法的基本框架下，研究者针对不同的方面提出了很多相关的改进算法。例如，Suykens提出的最小二乘支持向量机 (Least Square Support Vector Machine，LSSVM)算法，Joachims等人提出的SVM-1ight，张学工提出的中心支持向量机 (Central Support Vector Machine，CSVM)，Scholkoph和Smola基于二次规划提出的v-SVM等。此后，台湾大学林智仁(Lin Chih-Jen)教授等对SVM的典型应用进行总结，并设计开发出较为完善的SVM工具包，也就是LIBSVM(A Library for Support Vector Machines)。上述改进模型中，v-SVM是一种软间隔分类器模型，其原理是通过引进参数v，来调整支持向量数占输入数据比例的下限，以及参数来度量超平面偏差，代替通常依靠经验选取的软间隔分类惩罚参数，改善分类效果；LS-SVM则是用等式约束代替传统SVM中的不等式约束，将求解QP问题变成解一组等式方程来提高算法效率；LIBSVM是一个通用的SVM软件包，可以解决分类、回归以及分布估计等问题，它提供常用的几种核函数可由用户选择，并且具有不平衡样本加权和多类分类等功能，此外，交叉验证(cross validation)方法也是LIBSVM对核函数参数选取问题所做的一个突出贡献；SVM-1ight的特点则是通过引进缩水(shrinking)逐步简化QP问题，以及缓存(caching)技术降低迭代运算的计算代价来解决大规模样本条件下SVM学习的复杂性问题。2.2 统计学习理论基础与传统统计学理论相比，统计学习理论(Statistical learning theory或SLT)是一种专门研究小样本条件下机器学习规律的理论。该理论是针对小样本统计问题建立起的一套新型理论体系，在该体系下的统计推理规则不仅考虑了对渐近性能的要求，而且追求在有限信息条件下得到最优结果。Vapnik等人从上世纪六、七十年代开始致力于该领域研究，直到九十年代中期，有限样本条件下的机器学习理论才逐渐成熟起来，形成了比较完善的理论体系统计学习理论。统计学习理论的主要核心内容包括：(1)经验风险最小化准则下统计学习一致性条件；(2)这些条件下关于统计学习方法推广性的界的结论；(3)这些界的基础上建立的小样本归纳推理准则；(4)发现新的准则的实际方法(算法)2.3 SVM原理SVM方法是20世纪90年代初Vapnik等人根据统计学习理论提出的一种新的机器学习方法，它以结构风险最小化原则为理论基础，通过适当地选择函数子集及该子集中的判别函数，使学习机器的实际风险达到最小，保证了通过有限训练样本得到的小误差分类器，对独立测试集的测试误差仍然较小。支持向量机的基本思想是：首先，在线性可分情况下，在原空间寻找两类样本的最优分类超平面。在线性不可分的情况下，加入了松弛变量进行分析，通过使用非线性映射将低维输入空间的样本映射到高维属性空间使其变为线性情况，从而使得在高维属性空间采用线性算法对样本的非线性进行分析成为可能，并在该特征空间中寻找最优分类超平面。其次，它通过使用结构风险最小化原理在属性空间构建最优分类超平面，使得分类器得到全局最优，并在整个样本空间的期望风险以某个概率满足一定上界。其突出的优点表现在：(1)基于统计学习理论中结构风险最小化原则和VC维理论，具有良好的泛化能力，即由有限的训练样本得到的小的误差能够保证使独立的测试集仍保持小的误差。(2)支持向量机的求解问题对应的是一个凸优化问题，因此局部最优解一定是全局最优解。(3)核函数的成功应用，将非线性问题转化为线性问题求解。(4)分类间隔的最大化，使得支持向量机算法具有较好的鲁棒性。由于SVM自身的突出优势，因此被越来越多的研究人员作为强有力的学习工具，以解决模式识别、回归估计等领域的难题。2.3.1最优分类面和广义最优分类面SVM是从线性可分情况下的最优分类面发展而来的，基本思想可用图1来说明。对于一维空间中的点，二维空间中的直线，三维空间中的平面，以及高维空间中的超平面，图中实心点和空心点代表两类样本，H为它们之间的分类超平面，H1，H2分别为过各类中离分类面最近的样本且平行于分类面的超平面，它们之间的距离叫做分类间隔(margin)。图2.1 最优分类面示意图所谓最优分类面要求分类面不但能将两类正确分开，而且使分类间隔最大。将两类正确分开是为了保证训练错误率为0，也就是经验风险最小(为O)。使分类空隙最大实际上就是使推广性的界中的置信范围最小，从而使真实风险最小。推广到高维空间，最优分类线就成为最优分类面。设线性可分样本集为是类别符号。d维空间中线性判别函数的一般形式为是类别符号。d维空间中线性判别函数的一般形式为，分类线方程为。将判别函数进行归一化，使两类所有样本都满足，也就是使离分类面最近的样本的，此时分类间隔等于，因此使间隔最大等价于使 (或)最小。要求分类线对所有样本正确分类，就是要求它满足（2-1）满足上述条件(2-1)，并且使最小的分类面就叫做最优分类面，过两类样本中离分类面最近的点且平行于最优分类面的超平面H1，H2上的训练样本点就称作支持向量(support vector)，因为它们“支持”了最优分类面。利用Lagrange优化方法可以把上述最优分类面问题转化为如下这种较简单的对偶问题，即：在约束条件，（2-2a） (2-2b)下面对求解下列函数的最大值：（2-3）若为最优解，则（2-4）即最优分类面的权系数向量是训练样本向量的线性组合。这是一个不等式约束下的二次函数极值问题，存在唯一解。根据khn-Tucker条件，解中将只有一部分(通常是很少一部分)不为零，这些不为0解所对应的样本就是支持向量。求解上述问题后得到的最优分类函数是： (2-5)根据前面的分析，非支持向量对应的均为0，因此上式中的求和实际上只对支持向量进行。是分类阈值，可以由任意一个支持向量通过式(2-1)求得(只有支持向量才满足其中的等号条件)，或通过两类中任意一对支持向量取中值求得。从前面的分析可以看出，最优分类面是在线性可分的前提下讨论的，在线性不可分的情况下，就是某些训练样本不能满足式(2-1)的条件，因此可以在条件中增加一个松弛项参数，变成： (2-6)对于足够小的s0，只要使 (2-7)最小就可以使错分样本数最小。对应线性可分情况下的使分类间隔最大，在线性不可分情况下可引入约束：（2-8）在约束条件(2-6)幂1(2-8)下对式(2-7)求极小，就得到了线性不可分情况下的最优分类面，称作广义最优分类面。为方便计算，取s=1。为使计算进一步简化，广义最优分类面问题可以迸一步演化成在条件(2-6)的约束条件下求下列函数的极小值： (2-9)其中C为某个指定的常数，它实际上起控制对锩分样本惩罚的程度的作用，实现在错分样本的比例与算法复杂度之间的折衷。求解这一优化问题的方法与求解最优分类面时的方法相同，都是转化为一个二次函数极值问题，其结果与可分情况下得到的(1-2)到(1-5)几乎完全相同，但是条件(1-2b)变为： (2-10)2.3.2 SVM的非线性映射对于非线性问题，可以通过非线性交换转化为某个高维空间中的线性问题，在变换空间求最优分类超平面。这种变换可能比较复杂，因此这种思路在一般情况下不易实现。但是我们可以看到，在上面对偶问题中，不论是寻优目标函数（1-3）还是分类函数(1-5)都只涉及训练样本之间的内积运算。设有非线性映射将输入空间的样本映射到高维(可能是无穷维)的特征空间H中，当在特征空间H中构造最优超平面时，训练算法仅使用空间中的点积，即，而没有单独的出现。因此，如果能够找到一个函数K使得 (2-11)这样在高维空间实际上只需进行内积运算，而这种内积运算是可以用原空间中的函数实现的，我们甚至没有必要知道变换中的形式。根据泛函的有关理论，只要一种核函数满足Mercer条件，它就对应某一变换空间中的内积。因此，在最优超平面中采用适当的内积函数就可以实现某一非线性变换后的线性分类，而计算复杂度却没有增加。此时目标函数(2-3)变为： (2-12)而相应的分类函数也变为 (2-13)算法的其他条件不变，这就是SVM。概括地说SVM就是通过某种事先选择的非线性映射将输入向量映射到一个高维特征空间，在这个特征空间中构造最优分类超平面。在形式上SVM分类函数类似于一个神经网络，输出是中间节点的线性组合，每个中间节点对应于一个支持向量，如图2.3所示图2.3 SVM示意图其中,输出(决策规则)：，权值，为基于s个支持向量的非线性变换(内积)，为输入向量。2.3.3核函数选择满足Mercer条件的不同内积核丞数，就构造了不同的SVM，这样也就形成了不同的算法。目前研究最多的核函数主要有三类：(1)多顼式核函数（2-14)其中q是多项式的阶次，所得到的是q阶多项式分类器。(2)径向基函数(RBF) (2-15)所得的SVM是一种径向基分类器，它与传统径向基函数方法的基本区别是，这里每一个基函数的中心对应于一个支持向量，它们以及输出权值都是由算法自动确定的。径向基形式的内积函数类似人的视觉特性，在实际应用中经常用到，但是需要注意的是，选择不同的S参数值，相应的分类面会有很大差别。(3)S形核函数（2-16)这时的SVM算法中包含了一个隐层的多层感知器网络，不但网络的权值、而且网络的隐层结点数也是由算法自动确定的，而不像传统的感知器网络那样由人凭借经验确定。此外，该算法不存在困扰神经网络的局部极小点的问题。在上述几种常用的核函数中，最为常用的是多项式核函数和径向基核函数。除了上面提到的三种核函数外，还有指数径向基核函数、小波核函数等其它一些核函数，应用相对较少。事实上，需要进行训练的样本集有各式各样，核函数也各有优劣。B.Bacsens和S.Viaene等人曾利用LS-SVM分类器，采用UCI数据库，对线性核函数、多项式核函数和径向基核函数进行了实验比较，从实验结果来看，对不同的数据库，不同的核函数各有优劣，而径向基核函数在多数数据库上得到略为优良的性能。第三章支持向量机的应用研究现状3.1 应用概述SVM方法在理论上具有突出的优势，贝尔实验室率先对美国邮政手写数字库识别研究方面应用了SVM方法，取得了较大的成功。在随后的近几年内，有关SVM的应用研究得到了很多领域的学者的重视，在人脸检测、验证和识别、说话人/语音识别、文字/手写体识别、图像处理、及其他应用研究等方面取得了大量的研究成果，从最初的简单模式输入的直接的SVM方法研究，进入到多种方法取长补短的联合应用研究，对SVM方法也有了很多改进。3.2支持向量机的应用3.2.1 人脸检测、验证和识别Osuna最早将SVM应用于人脸检测并取得了较好的效果。其方法是汽接训练非线性SVM分类器完成人脸与非人脸的分类。由于SVM的训练需要大量的存储空间，并且非线性SVM分类器需要较多的支持向量，速度很慢。为此，马勇等提出了一种层次型结构的SVM分类器，它由一个线性SVM组合和一个非线性SVM组成。检测时，由前者快速排除掉图像中绝大部分背景窗口，而后者只需对少量的候选区域做出确认；训练时，在线性SVM组台的限定下，与“自举(bootstrapping)”方法相结合可收集到训练非线性SVM的更有效的非人脸样本，简化SVM训练的难度，大量实验结果表明这种方法不仅具有较高的检测率和较低的误检率，而且具有较快的速度。人脸检测研究中更复杂的情况是姿态的变化。叶航军等提出了利用支持向量机方法进行人脸姿态的判定，将人脸姿态划分成6个类别，从一个多姿态人脸库中手工标定训练样本集和测试样本集，训练基于支持向量机姿态分类器，分类错误率降低到1.67。明显优于在传统方法中效果最好的人工神经元网络方法。在人脸识别中，面部特征的提取和识别可看作是对3D物体的2D投影图像进行匹配的问题。由于许多不确定性因素的影响，特征的选取与识别就成为一个难点。凌旭峰等及张燕昆等分别提出基于PCA与SVM相结合的人脸识别算法，充分利用了PCA在特征提取方面的有效性以及SVM在处理小样本问题和泛化能力强等方面的优势，通过SVM与最近邻距离分类器相结合，使得所提出的算法具有比传统最近邻分类器和BP网络分类器更高的识别率。王宏漫等在PCA基础上进一步做ICA，提取更加有利于分类的面部特征的主要独立成分；然后采用分阶段淘汰的支持向量机分类机制进行识别。对两组人脸图像库的测试结果表明，基于SVM的方法在识别率和识别时间等方面都取得了较好的效果。3.2.2说话人/语音识别说话人识别属于连续输入信号的分类问题，SVM是一个很好的分类器，但不适合处理连续输入样本。为此，忻栋等引入隐式马尔可夫模型HMM，建立了SVM和HMM的混合模型。HMM适合处理连续信号，而SVM适台于分类问题；HMM的结果反映了同类样本的相似度，而SVM的输出结果则体现了异类样本间的差异。为了方便与HMM组成混合模型，首先将SVM的输出形式改为概率输出。实验中使用YOHO数据库，特征提取采用12阶的线性预测系数分析及其微分，组成24维的特征向量。实验表明HMM和SVM的结合达到了很好的效果。3.2.3 文字手写体识别贝尔实验室对美国邮政手写数字库进行的实验，人工识别平均错误率是2.5，专门针对该特定问题设计的5层神经网络错误率为5.1(其中利用了大量先验知识)，而用3种SVM方法(采用3种核函数)得到的错误率分别为4.0、4.1和4.2%，且是直接采用1616的字符点阵作为输入，表明了SVM的优越性能。手写体数字O9的特征可以分为结构特征、统计特征等。柳回春等在心理测试自动分析系统中组合SVM和其他方法成功地进行了手写数字的识别实验。另外，在手写汉字识别方面，高学等提出了一种基于SVM的手写汉字的识别方法，表明了SVM对手写汉字识别的有效性。3.2.4 图像处理(1)图像过滤。一般的互联网色情网图像过滤软件主要采用网址库的形式来封锁色情网址或采用入工智能方法对接收到的中、英文信息进行分析甄别。段立娟等提出一种多层次特定类型图像过滤法，即以综合肤色模型检验，支持向量机分类和最近邻方法校验的多层次图像处理框架，达到85以上的准确率。(2)视频字幕提取。揽频字幕蕴含了丰富语义，可用于对相应视频流进行高级语义标注。庄越挺等提出并实践了基于SVM的视频字幕自动定位和提取的方法。该方法首先将原始图像帧分割为N*N的子块，提取每个子块的灰度特征；然后使用预先训练好的SVM分类机进行字幕子块和非字幕子块的分类；最后结合金字塔模型和后期处理过程，实现视频图像字幕区域的自动定位提取。实验表明该方法取得了良好的效果。(3)图像分类和检索。由于计算机自动抽取的图像特征和人所理解的语义间存在巨大的差距，图像检索结果难以令人满意。近年来出现了相关反馈方法，张磊等以SVM为分类器，在每次反馈中对用户标记的正例和反例样本进行学习，并根据学习所得的模型进行检索，使用由幅图像组成的图像库进行实验，结果表明，在有限训练样本情况下具有良好的泛化能力。目前3D虚拟物体图像应用越来越广泛，肖俊等提出了一种基于SVM对相似3D物体识别与检索的算法。该算法首先使用细节层次模型对3D物体进行三角面片数量的约减，然后提取3D物体的特征，由于所提取的特征维数很大，因此先用独立成分分析进行特征约减，然后使用SVM进行识别与检索。将该算法用于3D丘陵与山地的地形识别中，取得了良好效果。3.2.5 其他应用研究(1)由于SVM的优越性，其应用研究目前开展已经相当广泛。陈光英等设计并实现了一种基于SVM分类机的网络入侵检测系统。它收集并计算除服务器端口之外TCPIP的流量特征使用SVM算法进行分类，从而识别出该连接的服务类型，通过与该连接服务器端口所表明服务类型的比较，检测出异常的TCP连接。实验结果表明，系统能够有效地检测出异常TCP连接。(2)口令认证简便易实现，但容易被盗用。刘学军等提出利用SVM进行键入特性的验真，并通过实验

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器学习大作业.doc

文档简介

温馨提示

最新文档

评论

机器学习大作业.doc

文档简介

温馨提示

最新文档

评论

相关文档