




已阅读5页,还剩49页未读, 继续免费阅读
(计算机应用技术专业论文)基于支持向量机的金融时间序列研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 金融市场是国家经济运行的核心,金融时间序列是经济与金融领域中最重要 的数据类型,对这类数据进行分析、预测和控制是整个经济和金融活动的重要工 作。金融时间序列由于它的非线性和小样本特征,成为现代时间序列研究中最具 有挑战的课题。 统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,s l t ) 是针对小样本情况下的机 器学习理论,其核心思想是通过控制学习机器的复杂度实现对学习机器推广能力 的控制。在这一理论中发展起来的支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是一种新的通用学习方法,它较以往方法表现出一些理论和实践上的优势,已经 在模式识别、回归估计、时间序列预测等多方面得到成功应用。支持向量回归 ( s u p p o r tv e c t o rr e g r e s s i o n ,s v r ) 是支持向量机用于解决回归问题时的推广形 式。 决策树由于算法简单和分类精度高,成为一种广泛应用的归纳推理方法,它 能完成复杂性降维和自动特征抽取。论文中,我们建立了一个基于金融时间序列 决策树特征抽取的s v r 回归模型。实验表明基于决策树和支持向量机的整合方法 可以有效地提高性能。 s v m 通过核函数对特征空间的映射函数实现非线性情况下的推广。选择或者 构造与特定问题相适合的核函数是提高s v r 性能的一种重要途径。在m e r c e r 核 函数构造理论的指导下,本文构造了基于多项式核和高斯径向基( g a u s s i a nr a d i a l b a s i s f u n c i t o n ,r b f ) 核的新的混合核支持向量机模型。在金融时间序列预测中, 结果表明基于混合核的支持向量机比单个核的支持向量机具有更好的性能。 关键词:核函数:决策树;金融时间序列;支持向量回归 董三圭堡窒兰堡塑耋壁些墼星:! 竺彗 a b s t r a c t f i n a n c i a lm a r k e ti st h ee s s e n t i a le c o n o m i cs y s t e mo fac o u n t r y a n df i n a n c i a l t i m es e r i e si sap r i m a r yd a t at y p ei nt h ea p p l i c a t i o no ff i n a n c i a la r e a a n a l y z i n g , p r e d i c t i n ga n dc o n t r o l l i n go fs u c hk i n do fd a t ai st h eb a s i cw o r ko ft h ee c o n o m i ca n d f i n a n c i a la c t i v i t y f i n a n c i a lt i m es e r i e sf o r e c a s t i n gi sr e g a r d e da so n eo ft h em o s t c h a l l e n g i n ga p p l i c a t i o n s o fm o d e r nt i m es e r i e sf o r e c a s t i n gb e c a u s eo fi t s c h a r a c t e r i s t i c so fn o n l i n e a ra n dt h es m a l ls a m p l e s t a t i s t i c a ll e a r n i n gt h e o r y ( s l t ) f o c u s e so nt h el e a r n i n gt h e o r yo fs m a l ls a m p l e s t h ec o r eo ft h et h e o r yi st oc o n t r o lt h eg e n e r a l i z a t i o no fl e a r n i n gm a c h i n eb y c o n t r o l l i n gt h ec o m p l e x i t yo fm o d e l s s u p p o r tv e c t o rm a c h i n e ( s v m ) i sag e n e r a l l e a r n i n ga l g o r i t h md e v e l o p e df r o ms l t i th a sb e e ns u c c e s s f u l l yu s e di np a t t e r n r e c o g n i t i o n ,r e g r e s s i o na n dt i m es e r i e sp r e d i c t i o n s u p p o r tv e c t o rr e g f e s s i o n ( s v r ) i s t h ee x p a n s i o no fs v mt or e g r e s s i o np r o b l e m s d e c i s i o nt r e e ,i so n eo ft h em o s tw i d e l yu s e da n dp r a c t i c a lm e t h o d sf o ri n d u c t i v e i n f e r e n c eb e c a u s eo fe a s i l yu n d e r s t a n d a b l ea n dh i g hc l a s s i f i c a t i o na c c u r a c y i tc a n p e r f o r ma u t o m a t i cf e a t u r es e l e c t i o na n dc o m p l e x i t yr e d u c t i o n i nt h i sp a p e r ,w eh a v e c o n s t r u c t e das v rm o d e lw h i c hi sb a s e do nd e c i s i o nt r e ea l g o r i t h mf o rf e a t u r e s e l e c t i o nt a s ko ff i n a n c i a lt i m es e r i e s o u re x p e r i m e n tr e s u l t ss h o wt h a tt h e c o m b i n a t i o no ft h ed e c i s i o nt r e ea n ds v rl e a d st oab e t t e rp e r f o r m a n c e s v mu s e sk e r n e l f u n c t i o nt oe x t e n dt on o n l i n e a rp r o b l e m sb yu s i n gi t st h e s p e c i a ln o n l i n e a rm a p p i n gf o rf e a t u r es p a c e t oc h o o s eo rc o n s t r u c ta p p r o p r i a t ek e r n e l f o rag i v e np r o b l e mi si m p o r t a n tt oi m p r o v et h ep e r f o r m a n c eo fs v m i nt h i sp a p e r , w eh a v ec o n s t r u c t e das v mw i t ham i x t u r ek e r n e lu s i n gp o l y n o m i a lk e r n e la n dr a d i a l b a s i sf u n c t i o n ( r b f ) k e r n e lu n d e rt h ei n s t r u c t i o no fm e r c e rt h e o r yt h e nw eh a v e a p p l i e dt h em i x t u r ek e r n e ls v mi nf i n a n c i a lt i m es e r i e sf o r e c a s t i n g e x p e r i m e n t s s h o wt h a ts v rw i t hm i x t u r ek e r n e lh a sb e t t e rp e r f o r m a n c et h a nw h i c hw i t ht h e i n d i v j d u a 】k e r n e 】 k e yw o r d s :k e r n e lf u n c t i o n ;d e c i s i o nt r e e ;f i n a n c i a lt i m es e r i e s ; s u p p o r tv e c t o rr e g r e s s i o n 1 1 i 董兰圭丝窒量垫箜全墼坠皇星型些塞 插图索引 图2 1 前馈神经网络结构图一1 3 图2 2 反馈神经网络结构图一1 3 图3 1 结构风险示意图一2 1 图3 2 最优分类超平面2 2 图4 1 决策树结构示意图2 9 图4 2 决策树属性处理模型图3 0 图4 3 基于决策树信息增益的特征抽取框图3 3 图5 1 上证指数混合核s v m 预测结果比较4 0 图5 2 上证1 8 0 混合核s v m 预测结果比较4 0 图5 3 深圳成份指数混合核s v m 预测结果比较4 1 硕上学位论文 附表索引 表4 1 输入向量中各属性的信息增益3 2 表4 2 基于决策树特征抽取的样本数据表3 3 表4 3 基于决策树和r b f 核支持向量机的预测结果3 4 表4 4 基于决策树和p o l y 核支持向量机的预测结果3 5 表5 1 基于混合核函数支持向量机回归的样本数据3 9 表5 2 基于混合核s v m 的预测结果比较4 1 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名: 日期:w 年f 月哆日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密回。 ( 请在以上相应方框内打“v ,”) 作者签名: 导师签名: 1 枷哮 钰稻 日期:撕g 年 日期:知年 朔- 3 日 f 月日 1 1 前言 第1 章绪论 金融时间序列预测是一个极具挑战性的课题,它为投资者带来回报,也为自 然科学研究人员拓展新的研究应用领域。证券指数作为一种典型的金融时间序列, 是金融时间序列研究的一个重点。借助证券指数的研究,人们可以观察分析股票 市场的发展动态,研究有关国家和地区的政治、经济发展趋势,拟定投资策略。 金融市场数据的非线性、非平稳性和高信嗓比,使传统的模型受到了各种挑 战。本研究感兴趣的对象是证券指数中的价格数据与交易数据,研究的任务就是 要从这些数据中提取出有用信息,并将信息转化为知识或规律,这些知识和规律 应最终有利于人们当前和未来的生产和生活实践。 当前的时代是个信息和知识时代,信息技术的进步和高性能的计算机使得我 们收集、储存、传输数据和进行科学计算更加便捷之时,也为我们积累了越来越 多的巨量数据等待着我们去分析和研究。可以说现实给我们提出了这样一种挑战, 即怎样去有效地收集和分析数据以提取信息和获得知识? 先来看看这些感兴趣的数据有什么特点? 这些数据都是维数很高( 数十、数 百乃至上千维) 、结构十分复杂的数据,许多数据还是前后相依( 不独立) 的;而 且在实际闯题中,往往同时遇到多种情况。我们所关心的股价运动从根本上来说 还具有非线性的、有噪声的和不平稳的特点。 通常人们习惯性的认为将问题从高维降到低维是在使问题变简单,例如,消 元法求解多元方程组就是通过降低求解问题的维数来简化问题的。注意到增加问 题中的变量也可以降低求解的难度的人却不多。事实上,增加新的参数或变量, 扩大参数空间或相空间,往往可使事情简化。某些非线性问题可以嵌入更高维的 空间,成为线性问题。某些非马尔科夫过程可以靠增加新的随机变量,成为马尔 科夫过程。本文要研究的支持向量机( s u p p o r tv e c t o r m a c h i n e s ,s v m ) 算法就采 用了扩大参数空间的办法。s v m 将一个在原始空问不能线性可分的集合先映射到 一个高维的特征空间,在高维的特征空间进行线性分离,接下来将结果再反映射 到原来的空间。支持向量机,其与传统学习理论最大不同在于它服从结构风险最 小而非经验风险最小,是目前针对小样本估计和预测学习的最佳理论之一。 本文的研究目标为结合我们证券市场金融数据小样本、非线性特征和支持向 量机的优势,将支持向量机运用于以证券指数为代表的金融时间序列分析。 茎圭兰丝皇呈竺塑尘墼坠望窒型丝至 1 2 研究背景及意义 数据收集和数据存储技术的快速进步使得各组织机构积累了海量数据,然而, 提取有用的信息已经成为巨大的挑战。数据挖掘( d a t am i n i n g ) 技术在这一背 景下应运而生,它是从大量数据中获取有效的、新颖的、潜在有用的、最终可理 解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知 识i i 】。支持向量机是一种建立在统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,s l t ) 基础上的机器学习方法,是数据挖掘的一种新技术,它基于有限样本和结构风险 最小化的原则,将线性不可分的原始空间映射到高维空间通过构造最优超平面进 行线性分划,借助于最优化方法来解决机器学习问题。能非常成功地处理回归闯 题( 时间序列分析) 和分类问题( 模式识别) 【2 1 。 金融市场是国家经济运行的核心,而金融时间序列是经济与金融领域中最重 要的数据类型,对这类数据进行分析、预测和控制无疑对金融投融资预测、决策 与风险管理活动具有特别重要的意义。 传统的金融时间序列分析方法主要包括基本分析、技术分析以及各种数理统 计学方法等。基本分析主要通过对影响证券市场供求关系的基本因素进行分析, 从而判断股票价格的走势。技术分析则通过对历史数据进行一些简单的计算,得 到相关的技术指标和图表,从而判断序列未来的变化趋势。数理统计方法基于大 量的随机试验中各种结果的出现必然呈现它的规律性理论,这些方法主要包括各 种统计特征的检验分析、相关分析、线性z t l ;线性回归分析、自回归移动平均分析 以、多元分析及分形分析等【3 】。基本分析与技术分析方法虽然计算简单并且易于 使用,但无法用于进一步分析数据中隐藏的其他规律和各种复杂的统计特征。数 理统计方法是目前金融时间序列分析中重要的方法,但实际中所允许的观察是有 限的,甚至是少量的,对于金融领域中的有限样本数据在分析能力面存在一定的 缺陷。金融市场数据的非线性、非平稳性、高信噪比和有限样本,使传统的模型 受到了各种挑战【4 】。 支持向量机主要思想基础是针对两类分类闯题,多类问题可通过“一类对余 类”或“成对分类法”等方式转化为两类问题求解。回归问题则可对应为相应分类问 题高一维的硬- 超平面线性分划问题【2 1 。本文主要研究支持向量回归,结合支持 向量机核学习和支持向量机与其他数据挖掘技术的整合进行研究,并进行实证分 析,为金融机构与投资者深入认识金融市场规律提供新的数量技术支撑,对金融 时间序列研究具有重要的理论与现实意义。 1 ,3 国内外文献综述 支持向量机在理论上具有很突出的优势,但与其理论研究相比,应用研究相 2 硕i :学位论文 对比较滞后。随着理论的不断完善,s v m 的应用逐渐成为各国研究者的研究重点。 目前,s v m 在模式识别、回归估计、概率密度函数估计等方面己都有应用。s v m 最早在模式识别中应用。在模式识别方面最突出的应用研究是贝尔实验室对美国 邮政手写数字库进行的实验,人工识别平均错误率是2 5 ,用决策树方法识别错 误率是1 6 2 ,两层神经网络中错误率晟小的是5 9 ,专门针对该特定问题设计 的五层神经网络错误率为5 1 ,而用三种s v m 方法得到的错误率分别为4 0 、 4 1 和4 2 【5 1 。 针对金融时间序列的特殊性,众多研究学者对s v m 不断探索新的技术手段 并将其应用在对金融时间序列的分析和预测。从国内外文献来看,s v m 在金融时 间序列的分析和预测手段主要有以下一些发展方向: 1 3 1 基于s v m 的金融时间序列分析基本应用 文献【6 】阐述了支持向量回归机的原理及其方法的发展,指出了在金融方面的 应用方向和前景。文献 7 】在分析神经网络收敛速度慢、结构参数确定无理论依据、 存在局部极小值等缺点的基础上,分析了s v m 最关键的优势结构风险最小 化原则,并将s v m 应用于股票价格的短期预测。文献8 1 介绍了支持向量回归的 建模原理及常用损失函数版本,对金融时间序列进行单步预测和多步预测的建模。 其中分别采用标准的不敏感函数的s v r 和采用二次损失函数的最小二乘支持 向量回归( l e a s ts q u a r es u p p o r tv e c t o rr e g r e s s i o n ,l s s v r ) 对金融时问序列 进行预测,说明了l s s v r 用等式约束代替传统支持向量机中不等式约束,使求 解过程从解q p 问题变成解一组等式方程,加快了学习速度,并具有更好的预测 效果。文献9 ,1 0 1 通过对b p 反向神经网络算法和支持向量机在金融时间序列的 预测,从正则均方误差( n m s e ,n o r m a l i z e dm e a ns q u a r ee r r o r ) 、平均绝对误差 ( m a e ,m e a n a b s o l u t e e r r o r ) 、方向对称( d s ,d i r e c t i o n a ls y m m e t r y ) 和加权方 向对称( w d s ,w e i g h t e dd i r e c t i o n a ls y m m e t r y ) 指标四个方面进行比较,说明了 支持向量机在金融时间序列预测这一领域的优越性,并详细地阐述了核函数及其 各参数对支持向量机性能的影响。 1 3 2 改进的s v m 金融时间序列分析方法 鉴于单个支持向量机收敛速度不快和时间序列海量数据,文献 1 1 1 提出用支 持向量机专家系统实现预测,使预测性能得到显著提高。文献f 1 2 1 鉴于标准支持 向量机预测海量金融时间序列数据会出现训练速度慢、内存开销大的问题,提出 一种分解合作加权的回归支持向量机,将大样本集分解成若干工作子集,分段提 炼出支持向量机,同时根据支持向量的重要性给出不同的错误惩罚度,构建新的 加权型支持向量机并将其应用于证券指数预测。文献1 3 1 将支持向量机回归动态 建模理论应用于非线性、时变、大时延温室环境温度变化的建模和预测,突破了 3 基于支持向量机的金融时间序列研究 静态模型的局限,实现自学习能力。文献【1 4 】针对晟小二乘支持向量机参数选择 问题,提出了一种基于三步搜索技术的参数选择方法,可以优化选择最小二乘支 持向量机参数。然后把该方法用于钢材淬透性建模中的参数选择( 核函数采用r b f 核) ,仿真结果表明,这种方法可以得到优化的参数,从而获得精确的建模效果。 1 3 3 基于核学习的改进型支持向量机 文献 1 5 】中,l j c a o 本着最近的历史数据比更早期的数据更有价值的原则, 对文献【9 1 这一支持向量机进行改进,分别利用线性函数、指数函数构造 c a s c e n d i n g 支持向量机。文献 1 6 1 本着更近数据比更远数据更重要的原则,分别 对惩罚系数c 和不敏感系数采用自适应的参数方法,使更近的数据有更大的权 值面对惩罚和分类精度,实证显示具有更好的泛化能力和更少的支持向量。文献 f 1 7 ,1 8 1 分析和讨论了核函数的选择、核参数的作用以及核函数方法中参数选择 ( 参数选择方法,如k 折检验法等) 和核函数构造等核函数方法研究中的热点问 题。文献【1 9 】提出一种新的应用支持向量机回归原理的混沌时间序列非线性预测 方法,同时利用自适应的方法对支持向量机的参数进行优化。文献 2 0 1 结合混沌 优化算法这一全局优化算法的计算复杂度较低、搜索速度快特点,和支持向量机 对于参数的选择敏感的特点,提出用混沌优化算法来优化支持向量机的参数,不 仅提高了支持向量机的性能,而且解决了传统的选取参数方法计算量大、参数多 时难以奏效的问题。 1 3 4 基于智能融合的支持向量机 文献【2 1 】则基于小波分解的a rs v r 一类非平稳时间序列预测,先用小波方 法将金融时间序列分别成高频信号和低频信号,高频采用自回归模型,低频采用 支持向量机回归机模型,再对两种模型结果进行又叠加,这种方法可在保证长期 趋势的拟合的情况下,防止短期趋势的过拟合。文献 2 2 1 在小波去噪的基础上, 在t a k e n s 理论光滑映射指导下用支持向量机对上证指数进行预测。文献f 2 3 1 在分 析参数对时间序列预测精度的影响基础上,提出用遗传算法建立支持向量机预测 模型的参数自适应优化算法,并用太阳黑子数据和航空发动机油样光谱数据进行 了预测分析。文献1 2 4 深入分析了各种证券价格的动力学行为和统计性质的自适 应行为,利用混沌动力学理论分析证券市场中股价波动。文献以2 0 0 2 年上海证 券市场l o 秒间隔的上证指数高频数据,分析了价格波动的非线性特征,通过 重构相空间方法重构了2 0 0 2 年上证指数时间序列的奇怪吸引子,计算其关联维 数,并求出其l y a p u n o v 指数为正,从而确认了上证指数时间序列的混沌行为, 论证了金融时间序列的非线性、非平稳及高噪特征。 近年来金融时间序列分析领域出现一种新的趋势,即将各种时间序列挖掘技 术与传统分析方法和模型相结合,我们将这些方法称为混合挖掘方法。与第三节 4 硕+ 学位论文 中的时间序列挖掘方法不同,这类方法大多针对于金融领域某个特定的分析任务, 或者基于金融时间序列的某些特征,因此更具有针对性。文献f 2 5 1 提出结合k p c a 分析和支持向量机的结合的方法,并对股市进行预测。而文献【2 6 】研究一种基于 遗传算法和支持向量机结合的整合模型,模型中遗传算法被用来进行特征抽取降 低支持向量机模型复杂度,提高支持向量机速度,然后采用支持向量机对特征抽 取后的数据进行股市趋势预测。实证表明比传统模型有更好的预测能力。 1 4 本文的主要创新 s v m 模型选择是提高s v m 方法性能的重要途径,本文从核学习和模型整合 两个方面进行研究,有以下两个主要创新: 1 、本文在m e r c e r 定理的指导下,分析了r b f 核函数和多项式核函数两种典 型核函数的特点,发挥各自作为局部核和全局核的优势,构造基于多项式和r b f 的混合核函数,并将其应用于金融时间序列的证券指数预测中。实证表明r b f 核 函数s v m 表现出较强的学习能力,但泛化能力不强;多项式核函数s v m 则泛化 能力较强,而学习能力不强;混合核函数s v m 具有更好的性能。 2 、基于决策树算法简单、预测精度高的特点,和决策树中信息增益是构建决 策树的重要理论,本文研究出基于决策树信息增益特征抽取的s v m 预测模型。 实证表明,此模型可有效地降低预测模型复杂度,同时提高预测能力和泛化性能。 1 5 本文的主要工作 本文分六个部分对课题进行论述: 第一章,深入分析了课题的研究背景及意义,然后对支持向量机金融时间序 列分析在国内外研究现状、方向和研究热点进行综述,接着就本文的创新点进行 总结。 第二章,从时间序列定义入手,研究时间序列的三个主要研究领域及研究手 段,接着深入分析金融时间序列本质特征非平稳、非线性、信噪比低特性, 分析这一领域最热点非线性时间序列分析方法的优势,说明了神经网络、混沌动 力学、分形分布、小波方法及支持向量机这些现代模型在金融时间序列分析上的 深远影响。本章的最后介绍了金融时间序列实验数据的选择依据。 第三章,首先介绍统计学习理论的核心思想以及一些基本理论成果,引入统 计学习理论中的v c 维思想,然后简要介绍结构风险最小化原则下,用于解决回 归问题的s v m 方法。本章是后面章节研究的理论基础。 第四章,本章首先介绍了决策树方法及常用的i d 3 算法,然后尝试用i d 3 算 法计算上证指数六个特征属性的信息增益,进而根据信息增益进行特征抽取。最 5 单于支持向量机的金融时间序列研究 后对特征抽取前后进行支持向理机回归比较。 第五章,核函数决定了支持向量机模型的性能,核函数的选择或构造是s v m 模型选择的重要内容。本章从核函数构造理论和方法出发,构建一个多项式和r b f 的混合核函数支持向理机,并用其进行金融时间序列分析比较。 最后,在第六章中,我们总结了已有的工作内容,并对未来的研究方向进行 展望。 1 6 小结 怎样从身边大量出现的金融数据中提取有用信息并得到知识? 这是当前的一 个重要而有大量应用背景的问题,许多的研究者都投入到这一领域。由于目前计 算机的速度越来越快,各种算法也越来越快。但计算机还缺乏智能,在感知,识 别、学习和判断能力上还不及人类。因此研究者自然而然希望能通过计算机来进 行学习和判断。人的智慧中一个很重要的方面是从实例学习的能力,通过对已知 事实的分析总结出规律,预测不能直接观测的事实。并且在这种学习中,重要的 是要能够举一反三,即利用学习得到的规律,不但可以较好地解释已知的实例, 而且能够对未来的现象或无法观测的现象做出正确的预测和判断。我们把这种能 力叫做推广能力。 计算机有很强的计算和数据处理能力,但没有人的智慧,学习以及推广能力 不如人。现在需要将人和计算机的优点结合起来,让机器也能通过数据来学习, 找到数据内在的相互依赖关系,从而对未知数据进行预测或对其性质进行判断。 同样,在这里,我们最关心的仍然是推广能力问题。这些研究内容被称为基于数 据的机器学习,简称机器学习。统计学在解决机器学习问题中起着基础性的作用。 传统的统计学所研究的主要是渐近理论,即当样本趋于无穷多时的统计性质。但 是在现实的问题中,我们所面对的样本数目通常是有限的,有时还十分有限,这 就使得所用理论与实际的数据不匹配。虽然人们实际上一直知道这一点,但传统 上仍以样本数目无穷多为假设来推导各种算法,这样得到的结果常常是差强人意。 统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,s l t ) 及其基础上发展的支持向 量机算法成为研究机器学习问题,尤其是小样本情况下的机器学习问题的热点理 论和工具。本文将运用s v m 算法来研究以证券指数为代表的金融时间序列。 6 硕士学位论文 2 1 前言 第2 章金融时间序列研究 时间序列分析是概率统计学中的应用较强的一个分支,在工业自动化、水文、 地质和气象等自然领域中,以及军事科学、经济学和某些社会科学领域中都有广 泛的应用1 2 7 1 。在金融领域,时间序列是一种重要的数据类型,对时间序列的分析 是金融数据分析的一个重要内容。 本章从时间序列定义入手,介绍时间序列的三个主要研究领域,模式挖掘、 预测技术和异常处理,并介绍了每一领域下的具体分析方法。并在基于金融时问 序列本质上的非平稳、非线性、信噪比低特性,介绍了当今针对金融时间序列分 析中最热点的五种非线性时间序列分析方法的优势和不足神经网络、混沌动 力学模型、分形分布、小波方法和支持向量机方法。 2 2 时间序列的定义 对生产和科学研究等过程中某一变量或一组变量“f ) 进行观察测量,在一系 列时刻,乞,( f 为自变量且c 乞( t k ) 得到的离散有序集合“,毪,h 称为离 散时间序列,简称为时间序列( t i m es e r i e s ) 。简而言之,时间序列是指按照时问 先后顺序排列的各个观测记录的有序集合。时间序列在商业、经济以及科学观测 等各个社会领域中都广泛存在。在现实生活中,时间序列随处可见,如:实验设 各的测试数据、产品销售记录、股市每日( 或每月) 指数、地区降雨量等。 时间序列分析的目的是根据系统的时序较精确地找出相应系统的内在统计特 性的发展规律,尽可能多地从中提取出我们所需要的准确信息。其基本思想是根 据系统有银长度的运行记录( 观察数据) 建立能够比较精确地反映时间序列中所 包含的动态依存关系的数学模型,并借以对系统的未来行为进行预报【2 8 3 0 1 。 2 3 时间序列的主要研究领域 现实中的时间序列的变化受许多因素的影响,有些起着长期的、决定性的作 用,使时间序列的变化呈现出某种趋势和一定的规律性,有些则起着短期的、非 决定性的作用,使时间序列的变化呈现出某种不规则性。时间序列的变化大体可 分为以下四种: ( 1 ) 趋势变化,指现象随时间变化朝着一定方向呈现出持续稳定地上升、下 降或平稳的趋势。 ( 2 ) 周期变化( 季节变化) ,指现象受季节性影响,按一固定周期呈现出的 7 摹于支持向量机的金融时间序列研究 周期波动变化。 ( 3 ) 循环变动,指现象按不固定的周期呈现出的波动变化。 ( 4 ) 随机变动,指现象受偶然因素的影响而呈现出的不规则波动。 实际生产生活和科学研究中的时间序列一般是以下几种变化形式的叠加或组 合。目前,关于时间序列的主要研究根据应用的不同,可以化分为模式挖掘、预 测技术和异常处理3 个方面。 2 3 1 模式挖掘 所谓模式挖掘,是指从单一或者多个时间序列序列中寻找类似的、频繁的或 重复的模式。而模式的定义取决于挖掘者对于时间序列的挖掘目标。一般来说, 模式往往定义成具有某些特征的子序列。相应的,模式挖掘主要包括相似性搜索、 序列模式挖掘和周期模式挖掘3 个研究方向。 2 3 1 1 相似性搜索 一般的数据库查询的目的是搜索满足查询条件的精确数据,与此不同的是, 相似性搜索则是找出与查询序列最为接近的数据序列。时序分析中的相似性搜索 可以分为全序列匹配( w h o l es e q u e n c em a t c h i n g ) 和子序列匹配( s u b s e q u e n c e m a t c h i n g ) 两类。全序列匹配是指所查找的时间序列与目标时间序列具有相同的 长度;而子序列匹配则是指在较长的序列中寻找与目标序列相似的所有子序列。 在相似程度的度量上,有欧式距离、动态时间扭曲距离d t w ( d y n a m i c t i m e w a r p i n g ) 等方法。由于时间序列跨度较大,在抽取其特征进行相似度量时,有可 能涉及多维数据空问。因此,大多数相似性查找算法都进行了降维处理。为了进 一步提高查找效率,大部分算法都采用了一些空间索引结构。 2 3 1 2 序列模式挖掘 序列模式挖掘是指相对时间或其他模式出现频率较高的模式。因为数值曲线模式 通常属于时间序列统计分析中的趋势分析和预测,所以大部分有关序列模式挖掘 的研究主要是针对符号模式。关联分析一般用于发现同一时间段的各种联系,而 序列分析则时用于发现时间上有先后关系的各种联系。最常用的关联规则挖掘有 a p r i o r i 算法和p r e f i x s p a n 算法及其变种。 2 3 1 3 周期模式挖掘 周期模式挖掘就是在时序数据库中寻找重复出现的模式。周期模式挖掘可视 为以一组分片序列为连续时间的序列模式挖掘。周期模式挖掘的问题可以分为全 周期模式、局部周期模式。全周期分析在信号分析和统计领域得到了较多的研究, 其主要方法是采用快速傅立叶f 丌和小波变换等频域分析方法;由于局部周期模 8 硕上学位论文 式在同一周期内包含了周期和非周期时间,所以全周期模式挖掘的大部分方法无 法用于局部周期模式挖掘。局部周期模式和周期关联规则的挖掘的大部分研究都 应用了类似a p r i o r i 的启发式算法或者是a p r i o r i 的改进挖掘方法。o z d e n 将序列 以二进制整数进行离散化,提出了一种挖掘周期关联规则的方法【2 7 1 。 2 3 2 预测技术 时间序列预测是一种定量分析方法,它是在时间序列变量分析的基础上,运 用一定的数学方法建立预测模型,使时问趋势向外延伸,从而预测未来市场的发 展变化趋势,确定变量预测值。 2 3 2 1 线性时间序列分析 1 、移动平均法。 对一组给定的历史数据,计算其平均值,并将这一平均值作为下一时期的预 测值。移动平均分为移动算术平均、移动几何平均以及移动加权平均。这种方法 非常简单但其预测精度是比较低的。 2 、分解方法。将预测数据分解为季节因子、趋势因子、循环因子和误差或随 机因子。这种方法单独使用效果并不好,但是它作为识别数据特性的一种方法, 仍然有其深刻的影响力。 3 、指数平滑方法。这种方法是一种较为实用的方法,分为一次指数平滑、二 次指数平滑与多次指数平滑。平滑方法是一种低费用、简单和不精致的方法,但 其预测精度却可以与许多精致的、更具统计基础的方法相比拟。 4 、季节系数法。周期性演变的活动是常见的事情,随着季节变化而发生的周 期性的需求变化就是代表。例如水果、蔬菜、四季服装、啤酒、冷饮的销售量、 火车乘客、旅游观光的人数等。反映在时间序列资料上,统计数据呈现明显的有 规律的季节变动。季节系数法就是根据这一规律进行预测的方法。在实际预测时, 要用季节系数修正没有考虑季节影响的预测值 5 、自回归移动平均( a r i m a ) 模型、a r 、a r m a 模型,这些方法大都侧重 于理论研究,追求理论上的完善,以至于许多方法很不实用,真正能够用它解决 实际问题的很少。结构的复杂性给实际应用上带来了很多困难,在预测效果上也 未有一致性的进展。 2 3 2 2 非线性时间序列分析 从2 0 世纪8 0 年代开始,在知识处理、机器人控制、模式分类、计算机视觉 和计算机工程等应用领域遇到了用传统的符号处理方法求解困难的问题。传统模 型的理论研究和实证分析大多都与线性方法和模型有关,如a r i m a 模型和指数 平滑方法。然而,许多时间序列展现出来的特征表明不能通过线性关系来解释其 9 基于支持向量帆的金融时间序列研究 变化趋势,人们越来越关注非线性模型。非线性时间序列模型有许多不同的类型, 一类为以历史数据构建预测模型的方法如线型回归、非线型回归等,另一类包括 基本的时间序列模型、灰色系统模型、神经网络与支持向量机等。时间序列研究 的热点主要有神经网络、支持向量机和非线性动力学模型。 1 、神经网络 神经网络其本质上是大规模并行处理的自适应非线型动力系统,其优点在于 具有数学逼近非线性的映射能力、学习经验能力强、采用分布式的存储结构、具 有泛化功能以及良好的容错能力、自适应能力强并具有动态特性。目前神经网络 模型方法主要分为前向型神经网络、反馈式神经网络和自组织映射网络3 大类, 其中b p 反馈式神经网络现在已经成为应用最为应用最为广泛的神经网络模型之 一。然而,神经网络需要很长的训练时间和大量的参数,人们很难解释包含在学 习权之中的符号含义,其仅注重数学模式的拟合以及预测结果,因而其知识表示 和快速学习的不足使得难以从网络种提取知识。 2 、支持向量机 支持向量机方法其本质上也是一种前向型神经网络,主要用于分类以及非线 性回归。支持向量机方法的基本思想是通过对输入空间的非线性问题,高维映射 到特征空间进行线性分划,从而解决学习问题的分类和回归。支持向量机实现了 结构风险最小化和全局最优,目前已经成为数据挖掘领域研究的热点之一。 3 、基于非线性动力学技术的分析和预测方法。 在这类模型中对非线性系统进行背景分析和研究,针对不同的非线性特征采 用相应的非线性预测模型。其中比较有代表性的技术是混沌时间序列预测技术, 它已经在天气预报、经济预测、电路负荷预测和股市预测等方面得到成功的应用。 混沌运动是确定性系统所表现出来的内在随机运动,它的行为极其敏感地依赖于 初始条件。由于混沌系统具有“蝴蝶效应”,因此对混沌运动不能作出长期的精确 预测。然而,混沌吸引予的确定性动力学机制,又使得对混沌时间序列进行较准 确的短期预测成为可能。混沌时间预测的基本原理就是依据吸引子的运动趋势来 进行预测。处于吸引子外的状态点的运动轨迹与其临界点的运动轨迹具有相同的 运动趋势,而吸引子内的状态点的运动轨迹与其临界点的运动轨迹也有驻留在吸 引子内并保持其分形特征的趋势。因此根据这个趋势,状态点的临界状态与其后 续状态点之问的函数关系就可以作为预测函数的模型,从而实现对混沌时间序列 的短期预测【”。 2 3 3 异常检测 异常指那些与数据集中其他大部分数据的共性存在较大偏离或差异的小部分 数据,有时也被称为孤立点( o u t l i e r ) 、例外、离群点等等。异常具有与数据库中 颈+ 学位论文 的数据的一般行为或模型不一致的数据对象的特性。异常是关于类比差异的描述, 如标准类中的特例,各类边缘外的孤立点,时序关系上单属性值和集合取值的不 同,实际观测值和系统预测值间的显著差别等。异常是在数据集中与众不同的数 据,但这些数据并非随机偏差,而是产生于完全不同的机制。 1 、异常检测算法的分类 异常既不属于聚类也不属于背景噪声的点,只是它们的行为与大部分数据的 行为有很大的不同。目前,已有的异常检测算法很多,大体上可以分为基于统计 的算法、基于偏离的算法、基于距离的算法、基于密度的算法,以及面向高维数 据的算法等。 2 、序列异常挖掘 时间序列的异常检测的研究按照其对异常的定义形式的差别,大体上上可以 分为点异常和模式异常两种。点异常是指在一条时间序列上与其它序列点存在显 著差异的、具有异常特征的序列点。将时间序列上那些与相邻点具有显著差异的 偏离点除去极大地降低了拟合误差。模式异常则是指在时间序列数据集中与其它 模式显著不同的、来源于不同产生机制的模式。点异常仅仅关注时间序列上变化 显著的单个点,却忽视了导致异常的因素。时间序列的异常往往是由一些系列的 点的变化所引起的,而导致异常点出现之前的这种变化结构就是时问序列的异常 模式。模式的定义方式直接影响时间序列异常检测的方法。奇异模式的定义受限 与时间序列的有序性,无法抽取异常集对模型进行训练以实现对异常的识别和预 测。如何从中抽取时间序列动态系统的演化模式,把握系统结构的本质特征,是 进行时间序列异常检测需要解决的关键问题【2 7 】。 2 4 金融时间序列特征 金融时间序列特指各种不同金融产品的时间序列,比如汇率、基金、股票价 格等。金融时间序列是一种特殊的时间序列,它与金融市场和人类的各种经济活 动紧密相关,与其它的时间序列相比,金融时间序列具有以下特征: 1 、信噪比低、信噪难以有效分离 “噪声”的存在一方面会淡化原非线性动力系统的各种周期特性,即降低确定 性的显著性,另一方面又可能提供一些“虚假周期”,从而严重影响预测的效果。 因此在对金融时间序列进行分析和预测之前,有必要先对其进行去噪处理。然而 金融时间序列本质上具有非平稳、非线性、信噪比低的特点,采用传统的去噪方 法存在很多不足。小波变换是近年来崛起的联合时频分析中应用最为成功的一种 方法,可以有效减低和抑止外部噪声,特别是测量噪声;但对于内部噪声则存在 诸多问题。因此金融时间序列中的噪声检测和去除问题仍然有待解决。 2 、具有显著的非平稳特性 1 1 基于支持向量机的会融时问序列研究 金融市场是一个由自然、社会、心理、政治、经济等很多因素作用的复杂系 统。因而非平稳性是金融时间序列最为显著的特征之一。如上证指数1 9 9 1 年1 月1 1 日的1 3 4 6 点已经上升至2 0 0 8 年3 月3 1 日的3 4 7 2 7 1 ,升幅为2 5 8 倍,具 有非常明显的不平稳性。 3 、丰富的潜在周期特性 金融时间序列是人类在金融市场活动的结果,与人类活动的各种周期紧密相 关。因此在金融时间序列中隐含着多种多样的可见或者不可见的金融周期,如“周 末效应”或者“日历效应”等。这些周期特性在很大程度上会影响金融时间序列的分 析和预测。 4 、样本数据少且维数高 金融时间序列的长度受到人类收集数据手段的限制,通常数据量较少,如对 我国的证券市场而言,平均每年可以产生以日为单位的抽样点2 2 5 个,1 0 年累计 产生的抽样点也只有2 2 5 0 个。但是由于金融市场这个复杂的系统在多个方面影响 着人类的生活,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广发银行长沙市浏阳市2025秋招笔试综合模拟题库及答案
- 平安银行台州市椒江区2025秋招笔试价值观测评题专练及答案
- 2025年纺织检验考试试题及答案
- 华夏银行徐州市鼓楼区2025秋招结构化面试经典题及参考答案
- 招商银行南通市如皋市2025秋招无领导小组面试案例库
- 兴业银行绵阳市江油市2025秋招笔试综合模拟题库及答案
- 广发银行宁波市象山县2025秋招笔试英语题专练及答案
- 中信银行唐山市迁安市2025秋招面试典型题目及参考答案
- 快件处理员技能比武考核试卷及答案
- 光大银行台州市临海市2025秋招笔试性格测试题专练及答案
- 肝癌超声课件教学课件
- 合规岗位季度工作计划
- 制造业生产管理:Excel2024版高效培训教程
- 通信工程建设标准强制性条文汇编(2023版)-定额质监中心
- 漫展嘉宾合同模板
- 药物分析考试题及答案(新版)
- 第一单元 单元检测试卷(一)(解析版)高中思想政治 统编版 必修四
- 小餐饮保证食品安全的规章制度
- +初+中数学有理数的加减混合运算(教学课件)++七年级数学上册(华东师大版)
- 2024年高考英语复习:阅读理解(应用文专攻20篇解析版)
- 2024年山东省潍坊市中考历史试卷(含答案逐题解析)
评论
0/150
提交评论