(信号与信息处理专业论文)分布式脊波核函数模型及其在火场建模中的应用.pdf_第1页
(信号与信息处理专业论文)分布式脊波核函数模型及其在火场建模中的应用.pdf_第2页
(信号与信息处理专业论文)分布式脊波核函数模型及其在火场建模中的应用.pdf_第3页
(信号与信息处理专业论文)分布式脊波核函数模型及其在火场建模中的应用.pdf_第4页
(信号与信息处理专业论文)分布式脊波核函数模型及其在火场建模中的应用.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(信号与信息处理专业论文)分布式脊波核函数模型及其在火场建模中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘 要 i 摘要 火源信号是燃烧状态和燃烧环境的综合反映,是一种相当复杂的信号。研究火源信号 为人们认识燃烧规律提供帮助,也为防灾减害提供有效途径。在燃烧现场不同位置布设多 种类型的传感器,采集到的是高维非线性信号,能够反映实际燃烧状态的真实情况。使用 先进的方法研究火源信号可以让我们从不同的角度去了解和认识燃烧,从而挖掘出更多燃 烧的本质规律,为人类驾驭火提供帮助。 采用构造非线性系统模型的方法来预测一些未知点的火场信息,比如火场各点的温度 分布,火源点的强度、位置等,来进一步了解燃烧状态。利用机器学习方法构造复杂高维 非线性系统回归模型已经成为了研究热点。本文提出了一种有效的高维非线性系统的建模 方法分布式脊波核函数模型。从核函数的构造出发,根据多分辨分析的思想,分析了 采用具有良好高维性能的脊波作为核函数的可行性和优越性;应用统计学习理论中的结构 风险最小化原理进行训练,减小预测误差,提高泛化能力;结合分类或聚类方法将训练和 预测目标矢量先进行划分,使每类都对应自己的模型,进一步提高了预测能力和算法的自 动化程度。利用本文方法进行实际火场温度分布的预测及火源强度和位置的估计等应用, 丰富了整个火场的信息。 本文综合了模糊自适应共振理论、多分辨分析思想和结构风险最小化原则,构造出了 分布式脊波核函数回归模型,更适合于高维非线性系统建模。理论和实验结果表明,该模 型能够很好的拟合复杂的高维非线性系统,适合于实际的工程应用。 关键词:高维系统;奇异信号;火源信号;机器学习;脊波核;分布式 abstract ii abstract fire signal is rather complicated one, which is a comprehensive reflection of combustion state and circumstances. the study of fire source single offers people an access to know the combustion rules, and also provides some effective approaches to prevent disaster and decrease loss. we can get multi-dimensional non-linear signal through the various types of detectors installed at different places of fire scene, which could reflect the real status of the combustion state. the advanced methods is used to research fire, which is able to make us to know and understand fire from different points, to dig out essential rules of combustion, to manage fire. by constructing non-linear system models, we forecast information of unknown points, for example, the temperature distribution of the fire scene, the intensity and location of the fire source etc., which is helpful to further understand the combustion state. there is a heated study on constructing complicated regression model of multi-dimensional non-linear system with machine learning method. in this paper, we propose an effective method of construct a multi-dimensional non-linear system the distributed rkm. starting from construction of kernel function and according to multi-resolution analysis, we analyze the feasibility and advantage of using ridgelet transform that has a good high-dimensional character as kernel function; introducing the structural risk minimization principle from statistical learning theory to the method of training is to lessen the prediction error and improve the generalization; combining the method of classification and cluster, the target vectors is divided into several parts, each which has its own corresponding models, in order to improve forecasting ability and robotization of theory. the method proposed in this paper is used to predicate the temperature in real fire scene, the intensity and the location of fire source and etc., which richens the information of the whole fire scene. based on fuzzy adaptive resonance theory, multi-resolution analysis thought and structural risk minimization principles, we construct the model of distributed ridgelet kernel function regression, which is more suitable for multi-dimensional non-linear systems modeling. both theory and practice prove that this model can accomplish multi-dimensional non-linear systems approximation and performs well. it is more appropriate for use in engineering context. abstract iii keywords: multi-dimensional systems; singular signal; fire signal; machine learning; ridgelet kernel; distribution 学位论文原创性声明 本论文是我个人在导师指导下进行的工作研究及取得的研究成 果。论文中除了特别加以标注和致谢的地方外,不包含其他人或其它 机构已经发表或撰写过的研究成果。 对本文的研究做出贡献的个人和 集体,均已在论文中以明确方式标明。本人完全意识到本声明的法律 责任由本人承担。 作者签名: 日期: 年 月 日 学位论文使用授权声明 本人授权汕头大学保存本学位论文的电子和纸质文档,允许论文 被查阅和借阅; 学校可将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或其它复制手段保存和汇编论文; 学校可以向国家有关部门或机构送交论文并授权其保存、 借阅或上网 公布本学位论文的全部或部分内容。对于保密的论文,按照保密的有 关规定和程序处理。 作者签名: 导师签名: 日期: 年 月 日 日期: 年 月 日 汕头大学工学院 2010 届硕士学位论文 1 第一章 绪论 1.1 引言 火灾和人们的生命财产安全息息相关,建筑火灾是火灾中引人注目的一类,也是目前 研究的主要内容。火灾科学的研究就是要通过对火灾的发生、发展及其危害的有效分析, 从而为建立有效的火灾安全防护系统提供科学依据。火灾过程是可燃物在热作用下发生的 复杂的物理和化学过程。同时,还与周围环境有着密切的相互作用。火灾作为一种燃烧现 象,其规律具有确定性的一面,可通过模拟研究逐步加以认识,而火灾作为一种灾害现象, 其规律又同时具有随机性的一面,因为“灾害”必然覆盖一定的范围和持续一定的时间, 在这个时空范围内,众多的影响因素都不可避免地带有随机性,火灾的发生、发展如此, 众多的影响因素都不可避免地带有随机性,火灾的损失亦如此。火灾规律的随机性是火灾 的固有特性,不会随着研究的深入而消失。 火灾信号是一种特殊类型的信号 1,由传感器采集的火灾参数一方面具有不确定性, 另一方面其不仅随火灾特征而变化,也可能随环境等因素的变化而有所变化,而且这种变 化往往与火灾参数变化特征基本相似。因此,火灾探测是一种非结构性问题,很难用精确 的数学模型来描述,这无疑给火灾信号的检测大大增加了难度。模拟研究是指在某种近似 的条件下进行的研究,包括计算机模拟和实验模拟。火灾过程遵循一定的规律,这个规律 既可以在模拟实验中再现,也可以抽象为控制火灾过程的数学方程,这就是火灾过程模拟 研究的科学依据。实验模拟是指研究火灾现象时在几何、物理或化学条件等方面引入近似 的一类实验。计算机模拟是指利用计算机的计算、数据库、图形和图像等功能来进行火灾 理论的定量研究。 近几年,计算机火场模型的开发和应用倍受人们的关注。工程师和建筑师用它设计建 筑物;建筑官员用它审核计划;消防部门用它来制订灭火作战计划;火场探测人员用它做 火因分析;有关部门用它来编写防火规范;它还被材料制造厂商、消防研究人员以及教育 工作者所使用。计算机模拟的实施是通过计算机程序来完成的。由于适用范围和解决的具 体问题各不相同,计算机程序也千差万别、繁简不一。 第一章 绪论 2 1.2 火场模型的研究现状 火灾过程的计算机模拟是火灾科学研究中的重要内容。鉴于实际火灾过程的复杂性, 目前的计算机模拟是多层次、多种类的,有经验模拟、半物理模拟和物理模拟等不同层次, 还有不同层次相互结合产生的新的模拟方式。经验模拟是现有经验公式与现代计算机技术 的结合,目前经验模拟的形式是专家系统。但由于专家系统所采用的理论基础本身有很大 的相似性,加上对火灾的基础研究不很充分,归纳成公式时,往往忽略了一些影响因素, 因此应用防火专家系统所得出的结果常常精确性欠佳。半物理模拟即区域模拟是在引入一 些假设和利用了一些经验数据及经验公式之后,通过对控制火灾过程的常微分方程进行求 解来获得火灾过程参数。火源房间内,由于羽流导致室内气体的混合比较强烈,气体分层 现象不十分明显;强通风房间内,烟气状态受到通风作用很大影响。在这些情况下,区域 模拟遇到很大困难。物理模拟即场模拟通过对控制火灾过程的偏微分方程组,其中包括连 续方程、动量方程、能量方程和组份方程,进行数值求解得到火灾过程中典型参数的空间 分布及其随时间的变化。场模拟为了能从整体上求解火灾过程,必须建立火灾各主要分过 程的理论模型。 火场模型是对气相流动和燃烧过程尤其是湍流流动和湍流燃烧过程、辐射传热过程、 凝聚相可燃烧物的热分解及燃烧过程、碳黑生成等各个分过程,以及各分过程相互作用的 理论模拟。针对火灾这样一个复杂过程的计算机模拟研究的内容是十分丰富的,目前可以 利用的既有专家系统形式的实用软件,又有区域模拟的aset程序和fast程序等,还有以 化学流体力学的基本理论为基础的场模拟软件如:flow3d 、fds等。这些程序提供了一 条认识火灾过程参数的分布及其变化的途径,但研究不仅有赖于基础理论的发展和完善, 而且对计算机能力有较高要求。 火场模型中有一类重要的应用就是火灾源点定位 2。源点定位研究为自动灭火和扑救 工作提供准确的位置信息,也为人员疏散提供可行路径。目前,火源点的定位方法主要是: 基于图像处理 3和基于温度场4的火源点定位56。其中,图像型火源点定位系统多用于 开放性的大空间,易受遮蔽的影响,且价格高昂,因此该方法的推广受到很大限制;基于 温度传感器阵列的火源点定位方法是根据实际火源源点位置就在屋顶平面起火点的正下 方,这样三维的火源源点定位问题就转化成了二维的定位问题,进一步结合顶棚匀速或者 非匀速扩散模型实现早期火灾源点定位。但是实际上热气流的扩散并不是匀速的,改进的 非匀速模型虽然能够一定程度上提高定位精度,但是它是建立在一定假设条件基础上的, 汕头大学工学院 2010 届硕士学位论文 3 适用范围仍然有限,应用这些模型进行定位存在较大误差,并且无法胜任火源点的三维定 位。火场模型是与火源强度、火源点位置、热气层空气温度、环境空气温度等因素相关的 复杂的高维非线性系统,目前可以利用根据空气动力学原理实现的fds等软件进行模拟。 但其运行时间长、占用资源多,更重要的是火灾源点定位是火灾反模型的应用,因此需要 探索其它的解决途径。 显然,针对火灾这样一个复杂过程的计算机模拟研究的内容是十分丰富的。它不仅有 深厚的理论,而且有广泛的应用对象。 1.3 机器学习研究现状 机器学习就是利用给定的有限数量的训练样本对某系统输入输出之间依赖关系进行 估计,使它能够对未知输出做出尽可能准确的预测、分类、决策或控制。目前,神经学习 和统计学习是机器学习策略的研究热点。 神经网络是基于对人脑组织结构、活动机制的初步认识而提出的一种信息处理体系。 它具有良好的自学习、自适应、自组织能力,以及大规模并行、分布式信息存储和处理等 特点,这使得它非常适合于那些需要同时考虑多个因素的、不完整的、不确定的信息处理 问题。它是具有高度的非线性、能够进行复杂的逻辑操作和实现非线性关系的系统,因此 广泛应用于非线性信号的预测中。已研究开发出的几十种神经网络模型,从不同的角度进 行划分,可以得到不同的分类结果。例如,若按网络的性能划分,可分为连续型神经网络 和离散型神经网络,又可分为确定型神经网络和随机型神经网络;若按网络的拓扑结构划 分,则可分为反馈神经网络和前馈神经网络;若按网络的学习方法划分,则可分为有监督 学习神经网络和无监督学习神经网络;若按连接突触的性质划分,则可分为一阶线性关联 神经网络和高阶非线性关联神经网络。纵观神经网络的研究方向,向更复杂的神经网络系 统方向发展。表现在神经网络与模糊、进化算法的结合,神经网络与认知科学的结合,神 经网络与生物医学的结合,以及各种混合神经网络的出现。加强神经网络结构的研究,算 法上与模糊系统、遗传算法、进化机制等结合,形成计算智能,成为人工智能的一个重要 方向。 基于样本的机器学习问题是现代智能技术的一个重要领域。研究从观测数据(样本)中 挖掘出目前尚不能通过原理分析得到的规律,并利用这些规律对产生这些数据(样本)的系 统进行建模,利用重构模型对数据进行分析或对未知数据或无法观测的新现象进行预测和 判断。统计学在解决这类机器学习中起着基础性作用,但是,传统统计学研究的是样本趋 第一章 绪论 4 于无穷大时的渐近理论。然而,在实际问题中,样本数目往往是有限的。与传统统计学相 比, 建立在坚实理论基础上的统计学习理论(statistical learning theory, slt)是一门专门研 究小样本情况下机器学习规律的理论。同时在这一理论基础上发展出了一种新的机器学习 方法支持向量机(support vector machine,svm)7。支持向量机(svm)与传统机器学习 理论最大的不同在于它服从结构风险最小化原理而非经验风险最小化原理。其在解决小样 本、非线性及高维模式识别及回归估计问题中表现出许多特有的优势,并且能够推广到函 数逼近和概率密度估计等其他机器学习问题中。同时,也存在一些困难和问题,其中核函 数及参数的选取缺乏理论的指导,是进一步研究的重点。而且对于大规模数据集而言,训 练集的规模和训练速度是一对矛盾,如何进行快速的训练和测试也是有待研究的重要问 题。 由于火灾现场探测器的安装位置以及环境等因素的影响事先无法确定,因此,要求信 号处理算法能够根据现场环境情况的变化,自动调整以适应复杂多变的火灾信号,现有的 算法由于自身的一些缺陷不能满足要求。如:神经网络擅长从输入输出样本中获得知识并 自动调整连接权值, 从而实现系统的自学习和自适应功能, 但它不能处理和描述模糊信息; 高斯核svm的大宽度高斯核函数能平滑掉噪声的影响但易丢失火灾信息,小宽度能保证不 丢失火灾信息但易受噪声干扰;小波核svm对信号的变化量敏感,但对信号的阶跃变化并 不敏感而出现描述错误。 1.4 论文的框架及主要工作 1.4.1 论文的框架 围绕本文的研究目标,本文分五章展开: 第一章:通过介绍火灾信号以及机器学习的研究现状,导出本文研究的课题及研究意 义; 第二章:对统计学习理论、核函数理论和优化算法进行了全面的介绍,重点阐述了支 持向量机相关理论、脊波核函数理论、微粒群优化算法并分析了性能; 第三章:给出分布式脊波核函数模型的理论推导及实现框图,并通过分别对包含直线 型奇异和曲线型奇异的高维函数进行逼近,来验证算法的性能; 汕头大学工学院 2010 届硕士学位论文 5 第四章:将本文提出的分布式脊波核函数模型应用到火场模型预测中,分别进行了热 界面高度预测,讨论不同门宽对下层空气温度和热界面高度的影响,在未知情况下预测热 界面高度,预测火源点的强度和位置,对建筑物的安全性进行评估等应用; 第五章:总结了全文的工作,并且对本来未尽的研究作了进一步的分析和展望。 1.4.2 论文的主要工作 (1) 从高维非线性系统的角度来研究火灾信号,把分布式脊波核函数模型应用于火场 模型的预测; (2) 根据聚类和分治的思想,结合火灾信号中存在畸变等特点,提出了分布式脊波核 函数模型; (3) 从核函数的构造出发,分析了脊波核函数在理论和实践中的可行性,对比了本文 方法与其它常用模型在回归问题中的优越性。 本文从待解决的问题出发,研究构造解决方案,构造了一个高效的回归模型,提高了 高维非线性系统的建模精度,并将该模型应用于火场模型的构造。 第二章 机器学习相关理论 6 第二章 机器学习相关理论 2.1 统计学习 在燃烧现场布设的探测器的个数非常有限,获得的信息相对于整个火场信息来说是小 样本数据。为了得到理想的预测效果,引入统计学习理论。统计学习理论是在有限样本情 况下建立起来的统计学理论体系,为人们系统地研究小样本情况下机器学习问题提供了有 力的理论基础。支持向量机是在统计学习理论基础上发展起来的一种非常有效的机器学习 方法。它较好地解决了以往困扰很多学习方法的小样本、非线性、过学习、维数灾难、局 部最小等实际问题,具有很强的推广能力。 2.1.1 统计学习理论 1. 经验风险最小化原则经验风险最小化原则 机器学习就是根据n个独立同分布的预测样本() 11 ( ,),(,)x y n nn sx yxy=? ,变 量x和y之间遵循某一未知的联合概率(x, )py(x和y之间的确定性关系可以看作是其特 例),在一组函数集(x,w)sf=,w(其中是参数集合)当中选择一个函数 0 (x,w )f, 使预测的期望风险(w)r最小: ()(w),(x,w)(x,w)rl y fdp= (2-1) 其中,(x,w)sf=为预测函数集,(),(x,w)l y f为损失函数。 (1) 对于函数拟和问题,y是连续变量,其二次(平方)损失函数可以定义为: ()() 2 ,(x,w)(x,w)l y fyf= (2-2) 这是在正态加性噪声下以erm原则对一个回归函数的最佳无偏估计,如图2-1(a)。 (2) huber损失函数: () 2 2 (x,w)(x,w) 2 ,(x,w) 1 (x,w)(x,w) 2 c c yfif yfc l y f yfif yfc = (2-3) 汕头大学工学院 2010 届硕士学位论文 7 这是当噪声是某种固定的噪声与另一个对称连续密度函数的任意噪声的混合时,提出 的一种鲁棒回归函数。该损失函数依最大最小(max-min)策略具有最佳回归特性,如图 2-1(b)。 (3) 不敏感损失函数 ()() 0(x,w) ,(x,w)(x,w) (x,w) if yf l y fl yf yfothers = (2-4) 这是huber损失函数的一种近似形式。该函数之所以广为使用,是因其特有的稀疏性, 通常对不敏感损失函数得到的解的展开式使用最少的支持向量,如图2-1(c)。 图 2-1 损失函数 fig. 2-1 loss functions 显然,要最小化期望风险(w)r,必须知道联合概率(x, )fy的先验知识。但在实际问 题中,联合分布是未知的,因此期望风险(w)r无法直接计算和最小化。因为训练样本(即 经验数据)已知,所以可以根据概率论中大数定理,用算术平均代替式(2-1)中的数学期望: () 1 1 (w),(x ,w) n empii i rl yf n = = (2-5) 来逼近式(2-1)定义的期望风险。由于式(2-5)中(w) emp r是用已知的训练样本(即经验数 据)定义的,因此称作经验风险。 经验风险最小化(empirical risk minimization,erm)原则:用对参数w最小化经验风 险(w) emp r来代替求期望风险(w)r的最小值。所有经典的模式识别分类器都是基于经验最 小化原则的。 然而,对比研究可以发现用经验风险最小化代替期望风险最小化存在问题。经验风险 最小化是一个经验方法,即运用经验风险(w) emp r代替期望风险(w)r并没有经过严格的证 明和充分的论证,概率论中的大数定理只说明了当样本趋于无穷大时,(w) emp r将在概率 第二章 机器学习相关理论 8 意义上趋于(w)r,并不能保证使(w) emp r最小的 w 与使(w)r最小的 w是同一点,更不能 保证(w) emp r能够趋向于(w)r,只有样本无穷大的条件下(w) emp r与(w)r才收敛到一个 点。 2. vc维维 为了研究学习过程中的收敛速度和推广性,统计学习理论定义了一系列有关函数学习 性能的指标,其中最重要的是vc维(vapnik-chervonenkis dimension)。vc维的直观定义如 下:假如存在一个有h个样本的样本集能够被一个函数集中的函数按照所有可能2h种形式 分为两类,则称函数集能够把样本数为h的样本集打散(shattering)。指示函数集的vc维就 是用这个函数集中的函数所能够打散的最大样本集的样本数目。即如果存在h个样本的样 本集能够被函数集打散,而不存在有(1)h+个样本的样本集能被函数集打散,则函数集的 vc维就是h。若对任意数目的样本都有函数能将它们打散,则函数集的vc维就是无穷大。 在指示函数集的vc维的基础上,可以定义一般实值函数集的vc维,其基本思想是通过一 个阈值把实值函数转化为指示函数。 vc维反映了函数集的学习能力,vc维越大则学习机器越复杂。目前尚没有通用的关 于任意函数集vc维计算的理论,只知道一些特殊函数集的vc维。对于一些比较复杂的学 习机器(如神经网络),其vc维除了与函数集(神经网结构)有关外,还受学习算法等的影响, 其确定更加困难。对于给定的学习函数集,如何(用理论或实验的方法)计算其vc维是当前 统计学习理论中有待研究的一个问题。 3. 结构风险最小化原则结构风险最小化原则 经验风险最小化原则下学习机器的实际风险是由两部分组成的,可以写作: (w)(w) emp rr+ (2-6) 其中第一部分为训练样本的经验风险,另一部分称作置信范围(confidence interval),或 叫vc信任(vc confidence)。置信范围不但受置信水平的影响,而且也是训练样本数目n和 函数集的vc维h的函数,且随着它们比值的增加而单调减小,这样将式(2-4)改写为: (w)(w) emp n rr h + (2-7) 上式给出的是关于经验风险和真实风险之间差距的上界,它们反映了根据经验风险最 小化原则得到的学习机器的推广能力,因此称作推广性的界。 汕头大学工学院 2010 届硕士学位论文 9 分析可知,当函数集的vc维h固定时,如果样本数n较少,则/n h较小,置信范围 较大,用经验风险代替真实风险就会产生较大的误差,用经验风险最小化获得的最优解的 推广性可能比较差;如果样本数n较多,则/n h较大,置信范围就较小,经验风险最小 化的最优解就接近实际的最优解。 对于一个特定的问题,其样本数n是固定的,此时学习机器(分类器)的vc维越高(即复 杂性越高),则置信范围越大,导致真实风险与经验风险之间的差就越大。因此,在设计分 类器时,不但要使经验风险最小化,还要使vc维尽量小,以缩小置信范围,才能使期望风 险最小,即对未来样本有较好的推广能力。 由推广性的界的讨论可以知道,传统机器学习方法中普遍采用的经验风险最小化原则 在样本数目有限时是不合理的,因为需要同时最小化经验风险和置信范围。以式(2-5)为理 论依据,把函数集: ( , ),sf x w w=分解为一个函数子集序列(或叫子集结构): 12k ssss? (2-8) 使各个子集能够按照的大小排列,也就是按vc维的大小排列,即 12k hhh? (2-9) 同一个子集的置信范围相同;在每一个子集中寻找最小经验风险,通常它随着子集复 杂度的增加而减小。选择置信范围与最小经验风险之和最小的子集,就可以实现期望风险 的最小化,这个子集中使经验风险最小的函数就是要求的最优函数。这种思想就称作有序 风险最小化或结构风险最小化(structural risk minimization,srm),简称srm原则。 实现结构风险最小化原则有两种思路 8,一是在函数集分解成的所有子集中求最小经 验风险,然后选择使最小经验风险和置信范围之和最小的子集。显然这种方法比较费时, 当子集数目很大甚至是无穷时该方法不可行。因此有第二种思路,即设计函数集的某种结 构使每个子集中都能取得最小的经验风险(如使训练误差为0), 然后只需选择适当的子集使 置信范围最小,则这个子集中使经验风险最小的函数就是最优函数。支持向量机实际上就 是这种思想的具体实现。 2.1.2 支持向量机 支持向量机是结构风险最小化原则的具体实现方法,是从线性可分问题的最优分类机 (使分类间隔最大控制推广能力)发展而来的一种通用的机器学习方法 9,其基本思想是: 基于mercer核展开定理,通过非线性映射把样本空间映射到一个高维乃至于无穷维的特征 第二章 机器学习相关理论 10 空间,使在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类与回 归问题 10。支持向量机是建立在坚实的统计学习理论基础之上的,通过固定经验风险而最 小化置信范围实现的,它为解决有限样本学习问题提供了统一的框架。 支持向量机在模式识别领域的应用,实际上是对指示函数进行估计,如果推广到估计 实函数,就成为回归问题。通过引入损失函数,运用支持向量机学习方法可以实现具有较 强鲁棒性的回归,而且回归估计是稀疏的。解的稀疏性对在高维空间中用大量资料估计依 赖性关系是非常重要的。 1. 回归支持向量机的基本原理回归支持向量机的基本原理 支持向量的方法应用到回归问题中,仍然保留最大间隔算法的主要特征。非线性函数 可以通过核特征空间中的线性学习器得到,同时系统的容量由与特征空间维数不相关的参 数控制,同分类算法一样,学习算法要最小化一个凸函数,并且它的解是稀疏的。 支持向量回归(support vector regression, svr)和支持向量分类的原理并不完全相同。 假 定 根 据 某 种 概 率 分 布( , )p x y(r ,) n xyr生 成 的 相 互 独 立 的 样 本 : () 11 ( ,),(,) nn x yxyxr?, 支 持 向 量 回 归 目 的 就 是 希 望 找 到 适 当 的 实 值 函 数 ( )() i f xwxb=+来拟合这些训练点(即使期望风险式(2-5)最小),同时保证能得到良好的 泛化能力。这里()是指由输入空间到特征空间的非线性映射,在特征空间中表示为一个 线性函数。 (), ,( , )r fl x y fdp x y= (2-10) 其中,l为损失函数。为了增加回归的鲁棒性,观测值y与函数预测值( )f x之间的误 差,用不敏感损失函数来度量,式(2-4)的等价表示: ( , )max 0,( ) iii yf x xyf x = (2-11) 其中,为一正数,需要事先设定,主要是用来控制算法希望达到精度。当x点的观 测值y与预测值( )f x之间的误差不超过事先给定的小正数时,认为该函数对这些样本点 的拟合是无差错的,即忽略小于的拟合误差。在图2-2中,当样本点位于两条虚线之间 的带子里时, 则认为在该点没有损失, 称两条虚线构成的带子为带。 在图2-2中的( , )x y 上的损失对应于图2.1(c)中所示的( )yf x=。 汕头大学工学院 2010 届硕士学位论文 11 + + + + + + + + + + + + + + ( , )x y + + 图 2-2 回归问题的不敏感带 fig. 2-2 regression of insensitive rand 模式识别中,如果样本x被正确划分并且在间隔外时,该样本点不提供任何损失值。 相应地,回归估计中,也应该存在不为目标函数提供任何损失的区域,即带,因此选 择带是合理的。 类似svc,由于( , )p x y未知,不能直接最小化 r f,因此考虑最小化 () 2 11 1111 ( )( )( ) 22 nn iiii ii e wwcyf xw wcyf x nn = =+=+ (2-12) 其中,|( )| ii yf x 为不敏感损失函数。式中右边前一项()w w表示函数( )f x的复 杂性(平滑度),后一项则表示训练集上的平均损失误差。这里常数c(0)c 表示函数复杂 性和训练集上的平均损失误差之间的平衡关系,主要是在提高泛化能力和减小误差之间起 调控作用。目前惩罚因子c一般是通过经验选取的。 最小化式(2-12)等价于最小化问题: () * , , 1 min 2 . .( ) ( ) wb ii ii w w stwxby ywxb + + (2-13) 其中, 为确保上述优化问题有解, 引入松弛变量 * , , 则优化问题转化为求函数式(2-13) 的最小值的问题。 第二章 机器学习相关理论 12 ()() * * , , 1 * * 1 min 2 . .( ) ( ) ,01,2,., n ii wb i iii iii ii w wc stwxby ywxb in = + + + = (2-14) 根据式(2-13)的目标函数和约束条件,建立lagrange函数式(2-15),将原优化问题转化 成其对偶形式,以求其最优解。 ()()() * 11 * 11 1 , ,() 2 () nn iiiiiiii li nn iiiiiiii ii w bw wcwby ywbvv = = =+ + x x l (2-15) 其中, * , , ii w b 为原变量; * , iiii 为对偶变量,且满足 * ,0 iiii 。根据 kkt(karush-kuhn-tucker)条件 11对lagrange函数式(2-15)中的原变量* , , ii w b 求偏导,并 令其偏导数为0,可得: () () * 1 * 1 * * 0( ) 00 0 0 n iii i n ii i ii ii i wx w b c c = = = = = = l l l l (2-16) 此模型对于输入向量x的预测为: () * 1 (x)(x)( ) (x) n iii i fwbxb = =+=+ (2-17) 式(2-17)中与( ) * 0 ii 对应的数据点 i x即为支持向量(support vector, sv)。 支持向量 机就是在数据集中挑选具有代表性的特征向量子集(即支持向量)进行回归估计,因此利用 支持向量进行函数估计的计算复杂度和输入空间的维数是不相关的,而仅依赖于支持向量 的数目。 把式(2-16)代入优化问题的目标函数式(2-14)中,根据对偶原理和核函数技术,可得对 偶优化问题: 汕头大学工学院 2010 届硕士学位论文 13 ()() () * * , 111 * 1 1 max()()( ,) 2 . .0,/ ,1, nnn iiiiiijjij iij n iiii i yyk x x stc nin = = + = ? , 0 (2-18) 引进核函数( )()( ,) ijij k x xxx=代替点积,核函数是满足mercer条件的任意对称函 数。假设式(2-18)得到的最优解为( ) * , ,此模型对于输入向量x的预测为: () () * ( )( ), i sv f xwxbk x xb=+=+ (2-19) 偏值b的计算式为: ()() ()() * * * ( ,)0, ( ,)0, i iij j i iij j c byk x x n c byk x x n = =+ (2-20) 损失函数有许多合理的选择,它们的解以函数的最小化为特征。探讨不敏感损失函 数的另一个原因是它可以保证对偶变量的稀疏性,使用训练点的一个小的子集来表示解有 很大的计算优势,同时确保全局最小解的存在和可靠泛化界的优化。选择其它损失函数的 回归函数估计的推导过程基本相同,不再赘述。 2. 核函数的选择核函数的选择 利用支持向量机解决非线性函数的回归问题,采用与解决非线性数据分类问题相似的 思路,即将输入向量经过某个函数映射到某个高维空间中,非线性函数回归问题就转化成 了高维特征空间中的线性函数回归问题,就可以利用线性方法处理原输入向量的映射。这 些高维空间都可以认为是一个再生核希尔伯特空间(rkhs, reproducing kernel hilbert space)。rkhs中的向量是一个泛函,而此映射函数通常是一个非线性函数,同时rkhs又 是一个线性空间。所以如果将输入向量映射到rkhs,就能够利用线性空间中的方法解决 非线性的问题。 为了避免高维特征空间中的“维数灾难问题”,采用hilbert空间中内积的回旋形式, 用输入空间的一个核函数等效高维特征空间的内积形式。当svm的核函数是半正定时,那 么训练一个svm就等价于解决一个线性约束条件下的凸二次规划问题, 从而使svm得到的 解为全局最优解。 第二章 机器学习相关理论 14 mercer条件 7:对于任意的对称函数 (),k x x,它是某个特征空间中的内积运算的充 分必要条件是,对于任意的( )0 x且 2( ) x dx (2-21) 该条件保证了mercer核函数具有半正定性,提供了判断和构建svm核函数的简单方 法。选择满足mercer条件的不同核函数作为内积的回旋,就构造了输入空间中不同类型的 非线性回归学习机器。 不同的实值函数估计问题需要不同的逼近函数集,对于回归问题,构造反映逼近函数 特性的函数是十分重要的。目前研究较多的核函数主要有 78:线性核函数、多项式核函 数、径向基核函数、sigmoid核函数和小波核函数等。 (1) 线性核函数: ( ,) ii k x xx x= (2-22) (2) 多项式核函数: ()( ,),(0,) d ii k x xx xccdn=+ (2-23) 其中d是多项式的阶次,c为偏移项。d越大,则多项式核函数越复杂。多项式是一 类 比 较 特 别 的 函 数 , 因 为 高 阶 多 项 式 包 含 了 其 所 有 低 阶 多 项 式 , 即 ()() 12 12 ,() dd ii x xcx xcdd+ (2-24) 2 为高斯核的宽度, 2 越小,则径向基核的宽度越窄,核函数越复杂;同时径向基 核函数具有平移不变性,即满足( ,)()k x xk xx=,其构造的核函数属于平移不变核。得 到的支持向量机是一种径向基函数分类器。它与径向基网络的基本区别是,这里每一个基 函数的中心对应于一个支持向量,它们以及输出权值都是由算法自动确定的。 (4) sigmoid函数作为核函数: ()( ,)tanh() ii k x xx xc=+ (2-25) 汕头大学工学院 2010 届硕士学位论文 15 则支持向量机实现的是一个两层的多层感知器神经网络,只是在这里不但网络的权 值,而且网络的隐层节点数目也是由算法自动确定的。 (5) 生成1阶b样条函数的核 () 3 2 ()1 ( ,)1()()min( ,) 23 i iiiiii xx k x xxxxxxxxxx x = +=, (2-26) (6) 小波核函数 墨西哥草帽小波(mexican hat wavelet)核函数 22 22 1 ( ,)1exp 2 d iiii i xxxx k x x aa = = (2-27) morlet小波核函数 () 2 2 1 ( ,)cos 1.75exp 2 d iiii i xxxx k x x aa = = (2-28) 利用mercer核函数的性质构造新的核函数,即利用核函数集合在某些运算下封闭性, 组合现有的一些核函数而构造出新的核函数。如果 1( , ) k x y, 2( , ) kx y是两个mercer核函数, 则下面这些核函数也是mercer核函数: (1) 312 ( , )( , )( , ),rk x yak x ybkx ya b + =+ ; (2) 412 ( , )( , )( , )kx yk x ykx y=; (3) () 51 ( , )( ), ( )kx ykxy=,即先进行初步的特征变换,再用核函数作用; (4) () 61 ( , )( , )kx ypolynomial k x y=; (5) () 71 ( , )exp( , )kx yk x y=。 3. 支持向量机的训练方法支持向量机的训练方法 支持向量机使用二次函数寻优的方式来进行求解,经典的解法有积极方集法、对偶方 法、内点算法等。当训练样本增多时,这些算法面临着维数灾难,或者由于内存的限制导 致无法训练。svm训练的运算速度是限制其应用的主要方面,近年来人们针对方法本身的 特点提出了许多算法来解决对偶寻优问题。 (1) 将大规模二次规划问题分解为一系列小规模的二次规划子问题,然后通过循环迭 代反复求解子问题,最终使结果收敛到原问题的最优解。典型方法有:块算法(chunking 第二章 机器学习相关理论 16 algorithm,ca)12、分解算法(decomposition algorithm,da) 13和序贯最小优化算法 (sequential minimal optimization,smo)。 块算法(ca)的出发点是删除矩阵中对应lagrange乘数为零的行和列将不会影响最终的 结果。具体作法是选择一部分样本构成工作样本集,在工作集上使用通用的优化算法训练 数据。 算法保持了支持向量而剔除其中的非支持向量, 并用训练结果对剩余样本进行检验, 将不符合训练结果(一般是指违反kkt条件)的样本(或其中的一部分)与本次结果的支持向 量合并成为一个新的工作样本集,然后重新训练,如此重复下去直到获得最优结果。块算 法将矩阵的规模从训练样本数的平方减少到具有非零lagrange乘数的样本数的平方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论