(计算机软件与理论专业论文)基于支持向量机的时间序列预测研究.pdf_第1页
(计算机软件与理论专业论文)基于支持向量机的时间序列预测研究.pdf_第2页
(计算机软件与理论专业论文)基于支持向量机的时间序列预测研究.pdf_第3页
(计算机软件与理论专业论文)基于支持向量机的时间序列预测研究.pdf_第4页
(计算机软件与理论专业论文)基于支持向量机的时间序列预测研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机软件与理论专业论文)基于支持向量机的时间序列预测研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文 摘要 作为一种新的机器学习方法,支持向量机算法建立在严谨的统计学理论 基础上,在模式识别和函数回归方面都有不俗的表现。支持向量机算法从上 个世纪9 0 年代初提出到现在短短十多年的时间得到了长足的发展,并继续得 到国内外学者的广泛关注。 支持向量回归是建立在结构风险最小化原则的基础上,它既考虑了训练 样本的拟合性又考虑了训练样本的复杂性,具有较好的拟合效果。但模型中 的参数选择是很重要的,它将直接影响到它的泛化效果。目前还没有通用的 参数选择方法,本文在对现有的支持向量机参数选择方法进行研究的基础上, 提出基于蚁群算法的支持向量回归算法的参数选择方法,蚁群算法作为一种 全局式概率选择算法,通过创建一个有限规模的人工蚁群体,蚂蚁间相互协 作搜寻问题的最优解。然后,将优选参数后的支持向量回归算法应用于时间 序列预测中,以国家粮食产量预测为例建立预测模型,并进行模型的学习训 练与预测。最后,对预测结果做相应分析与比较表明,应用了基于蚁群算法 的支持向量回归算法的参数选择方法后,模型预测精度有所提高。蚁群算法 强劲的全局搜索能力,对提高基于支持向量机的时间序列预测模型的预测准 确率有一定的贡献。 关键词:机器学习;支持向量机;蚁群算法;参数选择;时间序列预测 哈尔滨t 程大学硕士学位论文 i i a b s t r a c t a san e wk i n d o fm a c h i n el e a r n i n gm e t h o d ,s u p p o r tv e c t o rm a c h i n e s a l g o r i t h mi sb a s e do nr i g o r o u ss t a t i s t i c a lt h e o r y a n di td o e sw e l li nb o mp a t t e r n r e c o g n i t i o na n dr e g r e s s i o nf u n c t i o n f r o mt h ee a r l y19 9 0 so ft h el a s tc e n t u r yt o n o w , t h ea l g o r i t h mh a sd e v e l o p e dg r e a t l yd u r i n gj u s tm o r et h a n10y e a r s ,a n d c o n t i n u e st or e c e i v ew i d e s p r e a da t t e n t i o no fs c h o l a r sb o t ha th o m ea n da b r o a d s u p p o r t v e c t o rr e g r e s s i o ni sb a s e do nt h ep r i n c i p l eo fs t r u c t u r a lr i s k m i n i m i z a t i o n ,b o t ht h ef i t t i n ga n dt h ec o m p l e x i t yo ft r a i n i n gs a m p l e sa r e c o n s i d e r e d ,a n di th a sb e t t e rf i t t i n ge f f e c t h o w e v e r , t h ep a r a m e t e r ss e l e c ti nt h e m o d e li sv e r yi m p o r t a n t ,a n di tw i l ld i r e c t l ya f f e c tt h eg e n e r a l i z a t i o ne f f e c t a t p r e s e n t ,t h e r ei sr i og e n e r i cp a r a m e t e r ss e l e c t i o nm e t h o d i nv i e wo f t h i sp r o b l e m , t h ee x i s t i n gm e t h o do fs u p p o r t v e c t o rm a c h i n ep a r a m e t e r ss e l e c t i o nw a ss t u d i e d , a n dt h ep a r a m e t e r ss e l e c t i o nm e t h o do fs u p p o r tv e c t o rr e g r e s s i o na l g o r i t h mb a s e d o nt h ea n tc o l o n ya l g o r i t h mw a sp r e s e n t e d a sag l o b a lp r o b a b i l i s t i cs e l e c t i o n a l g o r i t h m ,a n tc o l o n ya l g o r i t h mc r e a t e sal i m i t e ds i z eo fw o r k e rg r o u p s ,a n di t s e a r c h e st h eo p t i m a ls o l u t i o nb ym u t u a lc o o p e r a t i o nb e t w e e nt h ea n t s t h e nt h e i m p r o v e ds u p p o r t v e c t o rr e g r e s s i o na l g o r i t h mw a sa d a p t e df o rt i m es e r i e s p r e d i c t i o nm o d e l t a k i n gt h eg r a i np r o d u c t i o no ft h ec o u n t r yf o re x a m p l e ,t h e p r e d i c t i o nm o d e lw a se s t a b l i s h e d ,t r a i n e da n df o r e c a s t e d f i n a l l y , t h ep r e d i c t e d r e s u l t sw a sa n a l y z e da n dc o m p a r e d ,a n di tc e r t i f i c a t e dt h a tt h ep a r a m e t e r s s e l e c t i o nm e t h o db a s e do nt h ea n tc o l o n ya l g o r i t h mi se f f e c t i v e t h es e a r c h i n g c a p a b i l i t i e so fo v e r a l l s i t u a t i o nr o b u s to fa n tc o l o n ya l g o r i t h mm a k es o m e c o n t r i b u t i o nt oi m p r o v ep r e d i c t i o n ,a c c u r a c yr a t eo ft i m es e r i e sp r e d i c t i o nm o d e l b a s e do ns u p p o r tv e c t o rm a c h i n e s k e y w o r d s :m a c h i n el e a r n i n g ;s u p p o r tv e c t o rm a c h i n e s ;a n tc o l o n ya l g o r i t h m ; p a r a m e t e r ss e l e c t i o n ;t i m es e r i e sp r e d i c t i o n 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) : 分谚揖 日期:棚年f 月f 。日 哈尔滨工程大学硕士学位论文 1 1 引言 第1 章绪论 预测问题是动态数据分析处理的一个重要方面。在科学、经济、工程等 许多应用中,常应用于在历史数据的基础上预测未来的问题。 预测分析是根据过去和现在的已知去推测和预料将来的未知,是对被预 测事件发展过程中可能发生的一些不确定性因素和未知事件做出定性和定量 描述。预测分析的过程是从过去和现在己知的情况出发,利用一定的方法或 技术去探索或模拟不可知的、未出现的或复杂的中间过程,再推断出未来的 结果,预测过程如图1 1 所示。 图1 1 预测分析示意图 时间序列预测就是对历史数据进行学习得到一个非线性映射,逼近数据 中隐含的非线性机制,从而可以利用该映射进行时间序列预测。 近年来,时间序列建模及预测一直是学术研究和实际应用领域的研究热 点。如自然领域的河水来水量预测、流域降水量预测、太阳黑子数预测等, 社会领域中城市交通量预测、某一地区人日增长量预测、医院门诊量预测等, 经济领域中的股市价格预测、国民收入预测、产品价格预测等。根据对许多 有关时间序列预测方面的资料的分析和研究,人们逐渐掌握了一些建模及预 测的基本规律。 v a p n i k 等人根据统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y , s l t ) 提出的 支持向量机( s u p p o r tv e c t o rm a c h i n e s ,s v m ) 学习方法,近年来受到了国际 哈尔滨工程大学硕士学位论文 学术界的广泛重视,并且已经广泛用于解决分类和回归问题,将s v m 用于 解决回归问题即支持向量回归( s u p p o r t v e c t o rr e g r e s s i o n ,s v r ) 。s v m 的最 大特点是针对结构风险最小化原则提出的,改变了传统的经验风险最小化原 则,因此具有很好的泛化能力。另外,s v m 在处理非线性问题时,首先将非 线性问题转化为高维空间中的线性问题,然后用一个核函数来代替高维空间 中的内积运算,从而巧妙地解决了复杂计算问题,降低了算法的复杂度,并 且有效地克服了维数灾难及局部极小问题。s v m 的预测能力比神经网络等其 它机器学习算法要优越得多,因此掀起了机器学习的热潮。分类和回归是机 器学习中很重要的两类预测方法。根据观察值是否连续,可以将s v m 在预 测方面的应用分为分类问题和回归问题“1 。本课题的主要内容就是对支持向 量回归算法及其在时间序列预测中的应用进行研究。 1 2 国内外研究现状 1 2 1 时间序列预测模型研究现状 自从1 9 7 0 年b o x 和j e n k i n s 的著作时间序列分析、预测和控制问世 以来,逐渐形成了一整套时间序列模拟、估计、建模、预测和控制的理论和 方法,在动态数据的处理分析、复杂信息的加工提取、预测未来和在线控制 等方面显示出传统的数理统计静态处理手段无可比拟的优越性。这本著作奠 定了时间序列分析方法在科研、经济、社会等各领域中旺盛的生命力。 按系统本身的性质划分有线性系统和非线性系统。相应的有线性模型和 非线性模型。线性模型如自回归模型( a r ) 、滑动平均模型( m a ) 、自回归 滑动平均模型( a r m a ) 等,线性模型概念清晰、发展已比较成熟,国内外 已有许多用线性模型进行预测的实例。然而,实际的系统线性是相对的,非 线性是绝对的。当非线性因素的影响较小或在某一范围内影响较小时,可以 用线性模型来描述,但当这种描述或逼近得不到令人满意的结果时,就要应 用非线性时序模型,或其它的任何非线性方法。非线性预测方法主要指两个 方面,一是对非线性物理系统进行背景分析和研究,针对不同的非线性特征 采用相应的非线性模型;二是采用一些非线性的迭代、学习模型来拟合比较 2 哈尔滨工程大学硕士学位论文 复杂的时间序列数据。显然,非线性现象最好用非线性方法来描述。非线性 模型与线性模型比较,其使用范围要广泛得多。因此,目前对预测的研究热 点就集中在非线性模型和方法上面曙3 。 随着人工智能技术的发展,人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k s , 触州) 已得到了日益广泛的研究和应用,基于神经网络的时间序列预测方法 是神经网络近几年形成的一个分支。9 0 年代中期,美国f r o n t i e rf i n a n c i a l 公 司利用神经网络来对股票市场进行预测,再由专家给出相应的建议等。国内 也有神经网络在预测分析领域中实际应用的一些探讨“1 。吴微和陈维强将反向 传播神经网络应用于沪市综合指数涨跌的预测,表明a n n 应用于股票市场 的预测是可行的佛,。在神经网络趋势预测的研究与应用方面,施式亮等指出传 统的预测方法存在的缺陷,应用神经网络建立了时间序列的矿井安全性预测 模型,提高了安全预测的精度哺1 。 但是,神经网络的结构需要事先指定或应用启发式算法在训练过程中修 正,同时神经网络得到的解是局部最优而非全局最优,这些不足极大地限制 了这些方法在实际中的应用。 s v m 则能很好地解决了上述的一些问题,由于其具有完备的统计学习理 论基础和出色的学习性能,故在时间序列预测领域也得到了广泛的应用,并 在实际应用中取得了很好的效果。 1 2 2 支持向量机研究现状 s v m 是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习问 题的新工具。它最初于2 0 世纪9 0 年代由v a p n i k 提出,近些年来在其理论研 究和算法实现方面都取得了突破性进展,并开始成为克服“维数灾难 和“过 学习”等传统困难的有利办法,虽然它还处在飞速发展的阶段,但它的理论 基础和实现途径的基本框架已经形成。 基于数据的机器学习问题是现代智能技术的重要方面,研究从观测数据 出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测,包括 模式识别、神经网络等在内口。1 们,现有机器学习方法共同的重要理论基础之一 是统计学。传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学 3 哈尔滨工程大学硕十学位论文 习方法也多是基于此假设,但在实际问题中,样本数目往往是有限的,因此 一些理论上很优秀的学习方法实际中表现却可能不尽人意。 1 9 6 3 年,v a p n i k 等人提出s v m 原型;1 9 7 1 年,v a p n i k 和c h e r b o n e n k i s 在“t h en e c e s s a r ya n ds u f f i c i e n tc o n d i t i o n sf o rt h eu n i f o r m sc o n v e r g e n c eo f a v e r a g e st oe x p e c t e dv a l u e ”文中,提出了s v m 的重要理论基础v c 维理 论,k i m e l d o r f 用s v 的核空间解决非线性问题;1 9 8 2 年,在“e s t i m m i o n so f d e p e n d e n c e sb a s e do ne m p i r i c a ld a t a 一书中,v a p n i k 进一步提出了具有划 时代意义的结构风险最小化原理,堪称s v m 算法的基石;1 9 9 7 年,v a p n i k 、 a s m o l a 等在文献中详细介绍了基于s v m 方法的回归算法和信号处理方法; 2 0 0 2 年,基于正则化思想在标准s v m 的基础上提出了最小二乘支持向量机 ( l e a s ts q u a r es u p p o r tv e c t o rm a c h i n e s ,l s s v m ) 。另外,许多学者在研究一 些新型的s v m ,如加权s v m 及模糊、粗糙集s v m 等。在美国科学杂志上, s v m 以及核学习方法被认为是“机器学习领域非常流行的方法和成功例子, 并是一个十分令人瞩目的发展方向“。 目前s v m 的研究在国内外正处在热潮,v a p i n k 对统计学习理论及s v m 的研究做了开拓性的工作,b s c h o l k o p f 、j s h a w e t a y l o r 、d m c a l l e s t e r 、 r h e r b r i c h 等人在s v m 及相关理论研究方面作了大量的工作,t j o a c h i m s 、 j c p l a t t 、s k e e r t h i 等人在s v m 的实现算法方面作了很多研究,国内研究 也取得了长足的进展,清华大学在s v m 领域的研究取得了众多的成果;台 湾大学的林智仁博士在s v m 实现算法的收敛性研究方面作了大量的研究; 清华大学张学工博士将v a p n i k 的经典著作“t h en a t u r eo fs t a t i s t i c a ll e a r n i n g t h e o r y 译成中文,并在2 0 0 0 年出版,这极大地推动了国内统计学习理论及 s v m 的研究。 s v m 理论研究取得了很大进展,其应用研究也正在兴起,它在模式识别、 时间序列预测、概率密度估计等领域得到了广泛的应用。如人脸检测“、手 写数字识别、文本自动分类等,在函数回归、逼近、密度估计及在金融时间 序列预测方面的运用”3 ”1 ,在化学统计学方面的应用等,m u k h e r j e e 等人研究 了s v m 在混沌时间序列预测方面的应用n ,。此外,在解决数据挖掘,计算 机入侵检测等应用问题中,s v m 都显示出了良好的性能。g e s t e l 等将l s s v m 和贝叶斯推论结合在一起以预测非线性时间序列,并将其应用至金融时间序 4 哈尔滨工程大学硕十学何论文 列的预测,。s v m 是机器学习领域若干标准技术的集大成者,它集成了最大 间隔超平面、m e r c e r 核、凸二次规划、稀疏解和松弛变量等多项技术,在若 干挑战性的应用中,获得了目前为止最好的性能。 近几年来,关于s v m 的研究主要集中在训练算法本身的改进和算法的 实际应用方面。s v m 的最终求解问题归结为一个有约束的二次型规划问题, 可以用标准二次型优化技术来求解这个优化问题,如牛顿法、内点法等。为 了降低计算资源,提高算法效率,提出了许多针对大规模样本集的训练算法, 典型的有分块算法( c h u n k i n g ) ,子集选择算法( s u b s e ts e l e c t i o na l g o r i t h m s ) 、 序列最小化算法( s e q u e n t i a lm i n i m a lo p t i m i z a t i o n ,s m o ) 及增量式算法等”“。 1 3 研究的热点及难点 目前对预测的研究热点就集中在非线性模型和方法上面,关于s v m 的 研究主要集中在训练算法本身的改进和算法的实际应用方面。 s v m 在存在全局优化、训练时间短、泛化性能好、算法复杂度低与特征 空间维数无关等优点的同时,存在一些困难和问题,目前研究的难点有: ( 1 ) 支持向量回归需要解决二次规划问题,其存储需求随着训练样本大 小的平方增长,因此当数据量大时训练速度很慢。大规模数据集,训练集的 规模和训练速度是一对矛盾,如何进行快速的训练和测试是亟待研究的重要 问题。 ( 2 ) 基于结构风险最小化的支持向量回归预测方法,既考虑了训练样本 的拟合性,又考虑了训练样本的复杂性,具有较好的外推预测能力,但是, 模型参数的选择是令人头痛的事情,实际操作时往往靠经验或测试给定,这 些参数包括惩罚因子c 、损失函数参数占、核函数参数等。s v m 参数的选取 一直是提高s v m 学习和泛化能力的主要研究问题之一。 1 4 研究内容及论文结构 s v m 算法虽然在诸多领域得到了广泛应用,并取得好的应用效果,但仍 然存在一些问题尚待解决,比如,对于某一问题,如何选择核函数的形式还 5 。 哈尔滨t 程大学硕十学位论文 i 没有一个指导原则。核函数作为s v m 算法中的一个核心技术,选定核函数 的形式后,s v m 算法中的几个参数如何确定是另一个需要解决的问题,这其 中包含了核函数中的参数以及控制结构风险的参数等。本文就是在对s v m 和蚁群算法进行研究与分析的基础上,提出一种基于蚁群算法的s v m 参数 选择方法,通过选择适当的参数来提高s v m 的推广能力,并用实验验证其 可行性与有效性。 本论文内容组织如下: 第1 章分析课题的研究背景以及国内外研究现状,阐述该课题研究的热 点与难点,并介绍论文的主要内容。 第2 章介绍统计理论的相关基础概念以及s v m 的基本思想、回归算法、 核函数和几种常见的参数选择方法。 第3 章首先介绍时间序列的基本概念及其种类,然后对几种传统的时间 序列模型进行了简要说明,将时间序列模型与回归模型进行了比较,并阐述 了时间序列预测的新方法一神经网络和支持向量机。 第4 章深入研究蚁群算法的基本原理和用于解决连续优化问题的蚁群算 法,并在此基础上提出了一种基于蚁群算法的s v m 参数选择方法。 第5 章通过实验验证蚁群算法优化参数后的s v m 在时间序列预测方面 的优越性。 6 哈尔滨工程大学硕士学位论文 第2 章统计学习理论与支持向量机 本章讨论统计学习基础理论,它能将很多现有方法纳入其中,解决许多 原来难以解决的问题,比如神经网络结构选择问题、局部极小点问题等。s v m 是2 0 世纪9 0 年代中期,v a p n i k 等人在对统计学习理论、v c 维理论、结构 风险最小化理论、核函数理论等进行研究的基础上提出的一种新的机器学习 算法,它是一种通用学习方法,已经在很多领域都表现出优于现有学习算法 的性能。 2 1 统计学习理论基础r 统计学习理论是在2 0 世纪7 0 年代就已经建立基本体系的一门理论,它 系统地研究了机器学习的问题,尤其是有限样本情况下的统计和预测问题。 该理论针对小样本情况下的统计问题建立了一套新的理论体系,在这种体系 下的统计推理规则不仅考虑了对渐近性能的要求,而且追求在现有有限信息 的条件下得到最优结果。v a p n i k 等人从六、七十年代开始致力于此方面研究, 到九十年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方 法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视。统 计学习理论的主要内容包括四个方面: ( 1 ) 经验风险最小化准则下统计学习过程一致性的条件: ( 2 ) 在这些条件下关于统计学习方法推广性的界的结论; ( 3 ) 在这些界的基础上建立的小样本归纳推理准则; ( 4 ) 实现新的准则的实际方法( 算法) 。 其中,最有指导性的理论结果是推广性的界,与此相关的一个核心概念是v c 维( v a p n i k c h e r v o n e n k i sd i m e n s i o n ) m j 。 7 哈尔滨t 程大学硕士学位论文 2 1 1v c 维 为了研究学习过程已知收敛的速度和推广性,统计学习理论定义了一系 列有关函数学习性能的指标,其中最重要的是v c 维。v c 维是由v a p n i k 和 c h c r v o n c n k i s 提出,它描述了学习机器的容量,反映了学习机器的分类能力。 模式识别方法中v c 维的直观定义是:对一个指示函数集,如果存在h 个样 本能够被函数集中的函数按所有可能的2 种形式分开,则称函数集能够把j 1 个样本打散;函数集的v c 维就是它能打散的最大样本数目h 。若对任意数 目的样本都有函数能将它们打散,则函数集的v c 维是无穷大。 例如,二维平面上的线性集合,其v c 维等于3 。这是因为平面中的直 线可以将三个任意给定的点按照所有可能的方式划分,如图2 1 所示。 图2 1 平面中的直线可以将三个任意的点打散 有界实函数的v c 维可以通过用一定的阈值将它转化成指示函数来定 义。v c 维反映了函数集的学习能力,v c 维越大则学习机器越复杂,容量越 大。遗憾的是,目前尚没有通用的关于任意函数集v c 维计算的理论,只对 一些特殊的函数集知道其v c 维。对于一些比较复杂的学习机器,其v c 维 除了与函数集有关外,还受学习算法等的影响,其确定更加困难。对于给定 的学习函数集,如何计算其v c 维是当前统计学习理论中有待研究的一个问 题旧1 。 8 , 哈尔滨工程大学硕士学位论文 2 1 2 模型说明 在经典统计学的建模过程中,分析者必须事先指定数据的模型。而在统 计学习理论中,不是定义一个单一的参数模型,而是指定一系列竞争性模型, 其中有一个模型在学习数据的基础上被选定。而且,必须指定模型的偏好顺 序,偏好顺序被用来表达有关过拟合的问题。实际上,因为带有较少参数或 者自由度的模型发生过拟合现象的可能性小,所以更受到欢迎。应用统计学 习理论时,目标是寻找最好解释数据的最受偏爱的模型。 r j 2 1 3 模型估计 估计在经典统计学和统计学习理论中都发挥着核心作用:然而,它们的 估计对象完全不同。在经典方法中,模型形式是已知的,因而重点放在参数 的估计上。而在统计学习理论中,正确模型是未知的,重点在于估计竞争性 模型的相对性能以利于选择最好的模型。 竞争模型的相对性能用损失函数来测定的。在经典统计学中,当比较概 率分布时用负的l o g 似然函数作为损失函数,然而其它的损失函数也被用于 不同种类的建模问题中。 一般来说,统计学习理论认为在数据向量z 和具体模型口之间的损失函 数为l ( z ,口) 。 。 对数据的联合概率密度建模时,选择合适的损失函数: l ( z ,口) = - l o g p ( z ,口) ( 2 1 ) 若z = i x ,纠,则 l ( z ,口) = - l o g p ( yx ,口) ( 2 - 2 ) 另一方面,如果对它的实际分布并不感兴趣,而只对构造y 的预测函数 f ( x ,口) 来最小化对y 作错误预测的概率感兴趣,那么用0 1 损失函数表示为: 地= 譬激暑i 多 协3 , 总之,l ( z ,口) 可根据模型问题性质来选择。统计学习理论的必要条件是 哈尔滨t 程大学硕士学位论文 薯i 暑i ;宣宣宣昌i 宣j ;i i 高i 暑肓暑暑眚暑i 宣暑宣i i ;i ;i i i ;i i i i i i i ;i 1 | 叠葺| 宣e i i | 蛋昌i 宣 按照惯例,较小的损失意味着较好的模型。 选择了损失函数后,如果知道数据的统计性质,那么识别最好的模型就 相对容易得多了。如果数据向量z 按照概率测度f ( z ) 随机产生,那么最好模 型口就是根据f ( z ) 来最小化期望损失的那一个。 r ( a ) = i l ( z ,a ) d f ( z ) ( 2 - 4 ) 从决策理论观点看,最小化r ( a ) 的模型是最优的。在决策理论术语中, 口是决策向量,z 是结果,1 4 z ,口) 是给定决策口后结果z 的( 负的) 效用测 度。效用测度提供了数字编码:哪些结果优于其它结果,同时也提供了不确 定程度的定量测度:一个人愿意用较大利润较大风险的冒险策论而不愿意采 用中等利润可能性更大的保守策略。选择具有最好的期望( 负的) 效用r ( 口) 的决策向量o t 产生了同用效用测度界定的风险偏好相一致的最优决策,也就 是说,给定损失函数的最好的模型。 在实际中,因为界定数据统计特性的概率测度f ( z ) 未知,所以期望损失 r ( a ) 不能直接计算,必须在观察数据集z i ,汪l ,2 ,的基础上选择最合适 的模型。假定观察数据是独立同分布的,则可以引入经验损失函数如。( 口,z ) 作 为期望损失的经验估计: 1 上 r 叩( 口,) = ( 互,口) ( 2 _ 5 ) t = l 统计学习理论假定模型通过最小化经验损失函数如。( d ,) 来选取。统计 学习理论的根本问题在于:既然追求咫。( 口,) 的最小化,那么在什么条件下 经验风险损失最小化能导出期望损失最小化的模型,这个问题通过考查经验 损失估计的精确性来回答。在经典统计学中,精确性用置信区间来表达,然 而置信区间是针对期望损失建立的而不是针对参数。 既然定义数据向量的统计性质的概率测度f ( z ) 是固定且未知的,那么 r e r n p ( 口,) 也被认为是固定且未知的。另一方面,既然如。( 口,) 的值依赖于观 察数据向量z ,江1 ,2 ,z ,那么疋。,( a ,z ) 就是能够用来取样的随机量。因 此统计学 - j n 论在界定给定如,( 口,) 后的如,( 口,) 时,引入了置信区间。为 了建立置信区间,在考虑通过经验损失最小化来选择模型时,需要考虑期望 损失和经验损失之间差的概率分布,而这正是区别统计学习理论和经典统计 1 0 哈尔滨工程大学硕士学位论文 学的关键问题所在。统计学习理论的基本定理表明:为了解释最小化经验损 失来选择模型的事实,必须考虑期望损失和经验损失的最大差值。置信区间 的控制是通过最大化期望损失和经验损失的差值来实现的。 v a p n i k 和c h e r v o n e n k i s 的重大贡献是在给定经验损失情况下构造小样本 的期望损失置信区间的一系列概率界定。作为结论的置信区间在三方面不同 于经典统计学: ( 1 ) 不事先假定所选模型是正确的,然后估计参数: ( 2 ) 基于小样本统计理论而不是经典的渐进近似理论; ( 3 ) 用一致的方法( 统一的衡量标准) 来考虑独立于模型形式的所选择 的模型集的自由度,这个方法是基于v c 维的测度。 v c 维在概念上被认为是完全保证发现一个完全拟合的模型所需数据向 量的最大数量。例如,因为刀个线性项能够完全拟合n 个点,那么线性回归 或判别式模型的v c 维就等于模型中的项数( 也就是传统意义上的自由度) 。 v c 维的实际界定更为一般化,通常不需要完全拟合;然而,关于v c 维,考 虑完全拟合结果的直觉理解是有效的。例如,为了规避过拟合,数据样本个 数应该远远大于所选模型集的v c 维;否则只能得到对随机数据的完全拟合 ( 即泛化能力差) 。 因为v c 维是用模型能够拟合的数据点个数来界定的,所以对于线性、 非线性、非参数模型和不同类型模型族的组合都是适用的。这些模型包括神 经网络、分类和回归树、分类和回归准则、径向基函数、贝叶斯网络等等。 而且v c 维是用来衡量拟合随机数据模型能力的更好的指示器,比用模型的 参数个数表示更好。v c 维提供了一个比经典统计学更为全面的自由度概念。 在v a p n i k 和c h e r v o n e n k i s 所得的概率界限中,置信区间的大小在很大程 度上取决于v c 维与数据向量个数之比。例如,若l ( z ,口) 是0 l 损失函数, 以至少1 n 的概率满足如下: 也叩( 口,1 ) 一;2 爿i 芒+ c 1 l 一 , b ,f ,p 2 t 一”“m | 哈尔滨工程大学硕士学位论文 约束条件为: 1 只- c 0 7 ( 薯) + 6 占+ 考 c o r ( 薯) + 6 卜y i g + 善f ( 2 1 4 ) l 考,占o ,i = 1 ,2 , 其中,考和等为松弛变量,分别表示在误差占约束下( 1 只一 c o7 1 ( 薯) + 6 】f 0 为拉格明日乘子,根据k k t 条件,如下等式和约束条 件成立: , ( 口f - a ;+ ) = o ,= l 0 a i ,c ,i = l ,z ( 2 1 6 ) , 缈= ( q - a , ) ( 薯) ,= l 因此,非线性的回归问题可以通过解式( 2 1 2 ) 所示的对偶问题来求解: 1t| 孵职q ,q ) = 一专( q q x a j 一哆煅,x j ) 一匹 + q ) + d ( q q ) ( 2 1 7 ) ” _ t , d = l t = l t - - - i 其中,核函数k ( x ,x ,) = ( 誓) r ( x ,) 描述了高维特征空间的内积。 求解后得到够和q 代入式( 2 1 5 ) ,并由式( 2 1 1 ) 得到回归函数: , 厂( x ) = ( 一q ) k ,薯) + 6 ( 2 - 1 8 ) t = l 从约束条件( 2 1 3 ) 可看出,希望将所有的数据点x 。都放入 i 咒一【( 薯) + 6 l 0 时,称它为非齐次多项式核函数,当c = 0 时,称它为齐次多项式核函数。 ( 2 ) 高斯径向基核函数 高斯径向基核函数定义为: m ,y ) :唧( 土# ) 盯 ( 3 ) 全子集核函数 全子集核的映射可以定义为: :x h ( 九( x ) ) 月c 其中,九( x ) = 兀x j 。 _ ( 4 ) 傅立叶核函数 傅立叶核函数有两种形式,第一种形式如下: 哈尔瘊工程大学硕士学何论文 m y ) 2 面百面l _ q 丽2 其中,x ,y r ,0 q 0 ,1 , 0 。 事实上,满足m e r c e r 定理的任何对称的函数,都可以作为核函数”。还 有很多常用的核函数,比如集合核、随机核、最大最小核等。由于不同的核 函数各有特点,针对具体问题选择合适的核函数是很重要的,有时还需要根 据核函数的运算规则构造符合实际问题的核函数。这就要根据每个核函数的 特点、应用范围和实际情况选择合适的核函数,达到既能简化运算,又可以 达到有效解决问题的目的”“。 以上介绍的这几种核函数中,应用最广泛的是高斯径向基核函数,它具 有较宽的收敛域,无论是低维、高维、小样本、大样本等情况,高斯径向基 核函数均适用。 2 2 4s v m 参数选择方法 由2 2 2 节支持向量回归算法中可以看出,核函数的类型、核函数的参数 以及惩罚系数都是很重要的参数( 核函数的选取决定了输入空间到特征空间 映射的方式,惩罚系数c 用于平衡训练误差和模型复杂度) 。实验中也发现, s v m 的性能在很大程度上依赖于相关模型,特别是模型参数的选取,为获得 更好的推广能力,有必要对这些参数进行调整。 核函数参数的改变实际上是隐含地改变映射函数,从而改变样本空间的 1 9 哈尔滨t 程大学硕士学位论文 维数。只有首先选择合适的核函数将数据投影到合适的特征空间,才能得到 推广能力良好的s v m 分类器和预测器。 试凑法( 穷举法) 是在模型选择以后,首先为常数c 和核函数固有的参 数赋初始值,然后开始实验测试,根据测试精度重复调整参数值,直至得到 满意的测试精度为止。通过实验比较认为,c 参数的值对训练结果有很大影 响,但它的最佳取值与具体问题有很大的关系,一般来说,用于训练的数据 量越大,训练结果对c 的变化越敏感;如果训练数据很少,c 的较大取值很 容易使模型过拟合训练数据”“。 试凑法是目前比较常用且非常行之有效的方法,但基本是凭经验调整, 缺乏足够的理论依据,对不同的核函数和不同的样本,其调整方法可能不同, 因此,在参数调整过程中带有一定的盲目性,并且当需要调整幅度较大时, 调整次数较多,实验比较复杂,这种方法比较费时,得到的参数也不一定是 最优的。 文献 3 6 中c h a p e l l e 提出用梯度下降( g r a d i e n td e s c e n d ,g d ) 的方法来 完成s v m 参数选择,虽然在计算时间上得到了明显的改善,但是g d 对初 始点要求较高,而且是一种线性搜索法,因此极易陷入局部最优。 文献 3 7 】和 3 8 】中,c h e n 和z h e n g 采用不同的推广能力估计作为遗传算 法( g e n e t i ca l g o r i t h m ,g a ) 的适应度函数,提出了两种基于g a 的s v m 参 数选择方法,结果表明利用g a 对s v m 参数进行优选不仅缩小了计算时间, 而且还降低了对初始值选取的依赖度,但是g a 操作往往比较复杂,对不同 的优化问题都需要设计不同的交叉或变异方式。 针对s v m 的参数选择问题,文献 3 9 】中杨绍全等人提出了一种最小最大 化参数选择方法来选择s v m 参数,最优化选择方法分析支持向量个数与留 一法的关系以及s v m 参数的几何含义和对推广能力的影响,利用支持向量 比例来衡量选择不同参数时推广能力的变化,使用不同的规则更新核参数和 惩罚因子,简化了参数选择的难度。 参数选择的本质是一个优化搜索过程,考虑到进化算法在求解优化问题 上的有效性,文献 4 0 】中邵信光等人提出了以最小化肛f o l d 交叉验证 ( c r o s s v a l i d a t i o n ,c v ) 误差为目标,粒子群优化( p a r t i c l es w a r mo p t i m i z a t i o n , p s o ) 算法为寻优技巧的s v m 参数调整方法,利用p s o 的搜索能力实现模 2 0 哈尔滨工程大学硕十学位论文 型的优化。 总之,目前参数选择的方法主要有以下两种: ( 1 ) 经验法。经验法根据核函数参数与数据集中样本分布之间的一些经 验公式,近似确定核函数参数的取值。在构造s v m 时,首先根据经验,预 先确定核函数参数值。参数一旦确定,在以后的s v m 构造过程中便不再修 改。 ( 2 ) 实验法。实验法是,对于标定好的数据集,先大致确定核函数的参 数,然后将训练数据集分为两部分,使用其中一部分进行训练,另一部分用 于测试,以检验该参数的效果;之后改变该参数,重新进行训练和测试。最 后根据历次实验结果,选取合理的参数”“。 2 3 本章小结 本章首先介绍统计学习的一些基本理论,包括v c 维、期望风险和经验风 险以及结构最小化原则等。随后,说明s v m 的基本思想、支持向量回归算法 和核函数,并主要介绍几种现有的s v m 参数选择方法,为后面的进一步研究 提供了理论依据。 哈尔滨t 程大学硕士学位论文 第3 章一,时间序列预测 时间序列预测是动态数据分析处理的一个重要方面,时间序列数据库存 在于社会的各个领域,在科学、经济、工程等许多应用中都存在着在历史数 据的基础上预测未来的问题。时间序列可以表明很多社会现象的发展变化过 程及其趋势,通过对时间序列的资料进行对比分析,可以揭示某种共同的规 律,并预测现象的发展方向及前景。时间序列的研究对金融市场的分析、医 疗诊断分析、科学与工程数据库分析等都有重要意义。 3 1 时间序列概述 。r j 时间序列是某种统计指标的数值按照时间先后顺序排列起来的数列。在 时间序列中,每个时期数据的大小,都受许多不同因素的影响。时间序列预 测是一种分析历史数据随时间的变化趋势,构造时间序列模型,再把模型外 推来预测目标的未来值的一种方法。 3 1 1 时间序列的概念 时间序列是指同一种现象在不同时间上的相继观察值排列而成的一组数 字序列。时间序列是随时间变化的序列值或事件,时间序列数据库是指由随 时间变化的序列值或事件组成的数据库,这些值或事件通常是在等时间间隔 测得的“。 , 时间序列由两个基本要素组成:一个是现象所属的时间,另一个是现象 在各个不同的时期内所达到的水平。 3 1 2 时间序列的种类 按照组成时间序列的两个基本要素对时间序列进行分类,可以进行两种 2 2 哈尔滨t 程大学硕士学位论文 方式的分类。 首先,把时间序列按照指标的性质不同进行分类,可以分为绝对数时间 序列、相对数时间序列和平均数时间序列。其中,绝对数时间序列是基础序 列或者称为原始序列,相对数时间序列和平均数时间序列是在绝对数时间序 列的基础上加工计算得到的“。 1 绝对数时间序列 将一系列同类的绝对数指标,按时间先后顺序排列而形成的时间序列叫 做绝对数时间序列。绝对数时间序列反映现象在各个不同发展时期所达到的 绝对水平及其发展变化的过程和趋势。例如各个年度或季度的社会商品零售 额、工业产品产量等构成的时间序列。 绝对数时间序列按其指标性质的不同又分为时期序列和时点序列。 时期序列是指每一指标所反映的是某种现象在一段时期内发展过程的总 量。例如产品产量等。 时期序列的特点是: ( 1 ) 序列中各个指标的数值相加具有一定的经济意义。 ( 2 ) 序列中某个指标值的大小与指标所属的时期长短有关。 ( 3 ) 时期序列中各个指标的数值,通常是通过连续不断地登记取得的。 时点序列是指每一指标所反映的是某种现象在某一时点( 瞬间) 上的总 量或发展水平。例如人口数、某种商品的库存量等。 时点序列的特点是: ( 1 ) 序列中各个指标的数值相加不具有经济意义。 ( 2 ) 序列中每个指标数值的大小与指标所属的时间长短无关。 ( 3 ) 时点序列中各个指标的数值,通常是通过定期登记取得的。 2 相对数时间序列 将一系列同类的相对数指标,按时间先后顺序排列而形成的时间序列叫 做相对数时间序列。例如工业企业的产值利润率等指标构成的时间序列。相 对数时间序列反映现象在各个不同时间内的内部比例、相互联系的状况。相 对数时间序列由绝对数时间序列对比计算产生,它既可以是由时期序列所派 生的,也可以是由时点序列所派生的或者是由时期序列和时点序列的指标对 比计算所产

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论