




已阅读5页,还剩54页未读, 继续免费阅读
(计算机应用技术专业论文)基于支持向量机的股市预测问题研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 股票市场是一个复杂的非线性动态系统,为了保证股票投资者的利益需要 通过预测股市波动的情况来把握股票市场的发展规律,以降低股票的投资风险, 但由于传统的预测技术并没有准确的揭示股票市场的内在规律,导致最终的预 测结果并不十分理想。本文采用了支持向量机的方法对股市进行预测。支持向 量机是- - i 新兴的边缘学科,可以用来解决许多其他技术无法解决的问题,且 具有良好的拟合精度和泛化能力。可以相信,将支持向量机的方法用于股市预 测会具有良好的应用前景。 首先介绍了股市的相关背景知识,然后对传统的股市预测的方法进行的了 介绍,特别详细介绍了基于神经网络的预测方法。接着全面介绍了统计学习理 论和建立在其上的支持向量机方法,详细描述了支持向量机方法的基本原理。 其次,对将支持向量机方法用于股市预测问题进行了尝试。提出了使用支 持向量机的方法进行股市预测的基本流程,然后通过使用实际的股市交易数据 进行预测,并对具体的预测结果进行分析,预测结果显示使用支持向量机的方 法进行股市预测具有良好的预测精度,在具体股价的预测和股票走势预测方面 都表现出很好的效果。 接着为了提高算法的运行效率,提出了使用主成分分析对输入向量进行优 化的方法,通过将多维输入向量转换为维数较低且互不相关的输入向量,有效 的实现了降维的目的,减小了运行程序所需的空间代价,从而提高了算法的运 行效率。 最后,针对核函数的选择问题,对各种核函数的实际预测效果进行了比较 分析,并对结果进行了分析,从中选择出了最适合股市预测问题的核函数。通 过对具体实验结果的比较分析,可以认为,由于支持向量机方法本身所具有的 优势,使其在股市预测问题上具有广阔的应用前景,随着研究的不断深入,其 必将成为解决股市预测问题的一个重要方法。 关键词:股市预测统计学习理论支持向量机核函数 a b s t r a n a b s t r a c t s t o c km a r k e ti sac o m p l e xn o n l i n e a rs y s t e m ,a n di sa f f e c t e db ym a n yf a c t o r s t h et r a d i t i o n a lp r e d i c t i o nt e c h n o l o g i e sc a n n o td i s c l o s et h ei n h e r e n tr u l eo fs t o c k m a r k e t i nt h i sp a p e r , an e wp r e d i c t i o nt e c h n o l o g yb a s e do ns u p p o r tv e c t o rm a c h i n e ( s v m ) h a sb e e np r o p o s e d s v mc a n b eu s e dt os o l v em a n yp r o b l e m st h a tt r a d i t i o n a l t e c h n o l o g i e sc a n n o ts o l v ee f f e c t i v e l y f i r s t ,t h i sp a p e ri n t r o d u c et h eb a c k g r o u n dk n o w l e d g eo fs t o c km a r k e t ,t h e n t r a d i t i o n a lp r e d i c t i o nt e c h n o l o g i e sa r ei n t r o d u c e di nd e t a i l ,e s p e c i a l l yt h et e c h n o l o g y b a s e do l ln e u r a ln e t w o r k ,a n dt h e nt h eb a s i cp r i n c i p l e so fs v ma r ed i s c u s s e d s e c o n d ,t h i sp a p e ru s e ss v mt op r e d i c tt h ep r i c eo fs t o c k ,a n dp r o p o s ea c o m m o nf r a m e w o r kt os o l v es t o c km a r k e tp r e d i c t i o np r o b l e m su s i n gs v m d a t a f r o mr e a ls t o c km a r k e ti su s e dt oe v a l u a t et h ee x a c t n e s so ft h ea l g o r i t h m r e s u l t s h o w st h a ts v mi sa ne f f e c t i v em e t h o d ,a n dg e tp r e c i s er e s u l t t h i r d ,i no r d e rt oi m p r o v et h ee f f i c i e n c yo ft h ea l g o r i t h m ,t h i sp a p e rp r e s e n t s m a j o rf a c t o re x t r a c t i o nm e t h o dt oo p t i m i z et h ei n p u tv e c t o ro fs v m r e s u l ts h o w s t h a tt h i sm e t h o dc a ng e ts i m i l a rr e s u l tw h i l eu s i n gl e s sc o m p u t a t i o nt i m ea n dl e s s s t o r a g ec o n s u m p t i o n a tl a s t ,t h i sp a p e rr e s e a r c h e dt h ep r o b l e mo fk e r n e lf u n c t i o ns e l e c t i o n ,a n d c o m p a r e df o u rt y p e so fk e r n e lf u n c t i o n s s u i t a b l ek e r n e lf u n c t i o n sa r ec h o s e n t h i s r e s e a r c hw i l li m p r o v et h ep r e c i s i o no fp r e d i c t i o n t h er e s e a r c hs h o w ss v mi sv e r y s u i t a b l et os o l v et h i sp r o b l e m i ti sb e l i e v e dt h a ts v mw i l lb ea ni m p o r t a n tm e t h o d i nt h ep r o b l e mo f p r e d i c t i n gs t o c km a r k e t k e yw o r d s :p r e d i c t i o no f s t o c km a r k e t ;s t a t i s t i c a ll e a m i n gt h e o r y ;s u p p o r tv e c t o r m a c h i n e ;k e r n e if u n c t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工:作和取得 的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含为获得垂鲞盘茎或其他教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谫 意。 学位论文作者签名:乃订;签字日期:矽年月矽日 学位论文版权使用授权书 本学位论文作者完全了解、盛盘鲎有关保留、使用学位论文的规定。 特授权吞鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学 校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 乃7 匆 签字日期:加年,月如日 翩始强谚 签字日期:土叼易年莎月j 口日 第一章前言 1 1 研究背景 第一章前言 股票是市场经济的产物,股票的发行和交易促进了市场经济的方展。自从 股票1 7 7 3 年在英国率先发行以来,已有二百多年的历史。我国自1 9 8 5 年发行 第一支股票,目前已拥有沪、深两大证券交易所,上百家证券交易公司。9 0 年 代以来,计算机技术,特别是数据库和网络技术在股票市场中得到了广泛的应 用,使得股票市场更加繁荣,显示了强大的生命力。随着股票市场的不断规范 壮大和计算机技术的发展,越来越多的人进入到股票交易市场,也相应产生了 很多股票分析和预测系统。由于股市行情受经济政治等因素的影响,其内部规 律非常复杂,变化周期无序,同时我国资本市场投资者结构具有特殊性,个人 投资者的比例很高,投资者的心里状态不同,对股票交易的行为会产生直接的 影响,导致股价波动。 股市预测是指以准确的调查统计资料和股市信息为依据,从股票的历史、 现状和规律出发,运用科学的方法,对股市未来发展前景的测定。 股市预测一般基于以下三点假设: ( 1 )有效市场假设:指股票市场会对每一条有可能影响股价的信息做出反映, 而各种价格的变动正是这种反映的结果。 ( 2 )供求决定假设:指一切信息都会对股票市场的供求双方力量对比产生影 响,供求决定交易量和交易价格。 ( 3 )历史相似原则:指由历史资料所概括出来的规律已经包含了未来股票市场 的一切变动趋势。 按不同的标准可以将股市预测分为不同的种类。根据涉及范围的不同可以 分为:指数预测和个股预测;根据预测时间长短可以分为:长期预测,中期预 测和短期预测;根据预测方法不同可以分为:定性预测和定量预测等等。 由于股市行情受到政治、经济等多方面因素的影响,内部规律非常复杂, 某些规律的周期可能是一年甚至是几年,所以需要通过大量的数据分析才能得 到,巨大的数据量处理使传统的预测技术效果并不理想。 在信息爆炸的今天,迫切需要一种方法能从大量的数据信息中提取出有用 的信息,数据挖掘技术在这种情况f 诞生了。确切的说,数据挖掘( d a mm i n i n g ) 是指从大型数据仓库中提取出隐含的、未知的、非平凡的及有潜在的应用价值 第一章前言 的信息或者模式,它是数据库研究中一个很有应用价值的新领域,融合了数据 库、人工智能、机器学习、统计学等多个领域的理论和技术。在最近十几年间, 成熟的技术和高性能的关系数据库引擎以及广泛的数据集成,使数据挖掘技术 的研究工作取得了很大的发展,各种数据挖掘技术的应用极大的提高了分析、 处理大量数据信息的能力,并为人们的生产生活带来了很大的经济效益,数据 挖掘技术在股市预测中也具有很强的应用价值。 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 的概念是前苏联学者v a p n i k 等人在1 9 7 4 年提出的,直到最近几年才受到重视,并开始成为人工智能界的研 究热点。该项研究属于机器学习,模式识别和人工神经网络等多个学科,它与 这些学科现有的理论和方法相比,有明显的优越性,因此有重大的潜在应用价 值。支持向量机的理论基础是统计学习理论( s t a t i s t i c a ll e a r n i n g t h e o r y ,s l t ) , 它为解决有限样本学习问题提供了一个统一的框架,能将很多现有的方法纳入 其中,解决了许多原来难以解决的问题,成为进行股市预测的一种新方法。 1 2 股票的相关知识 股票是一种由股份有限公司签发的,用以证明股东所持股份的凭证,它表 明股票的持有者对股份公司的部分资本拥有所有权。由于股票包含有经济利益, 且可以上市流通转让,股票也是一种有价证券。 1 2 1 股票常用术语 开盘价:开盘价是根据开市前集中竞价形成的。 收盘价:指每天成交中最后一笔股票的价格,也就是收盘价格 最高价:指当日所成交的价格中的最高价位。 最低价:指当日所成交的价格中的最低价位。 成交量:股票成交的数量。手是股票成交的最小单位,一手为l o o 股。 成交金额:指用货币表示的股票的成交总量,等于成交价格乘以成交量。 涨跌:以每天的收盘价与前一天的收盘价相比较。来决定股票是涨还是跌。 压力点、压力线:股票在涨升过程中,到达某一高点( 或线) 后停止涨升, 此点称为压力点( 或压力线) 。 支撑点、支撑线:股价在下跌过程中,到达某一点( 或线) 后停止下跌, 甚至回升,此点称为支撑点( 或支撑线) 。 m圆柳 第一章前言 1 2 2 股票价值和股票指数 从本质上讲,股票仅仅是一种凭证,其作用是用来证明持有人的财产权利, 而不像普通商品一样包含有使用价值,所以股票自身并没有价值,也不可能有 价格。所以股票是一种虚拟资本,它可以作为一种特殊的商品进入市场流通转 让。而股票的价值,就是用货币的形式来衡量股票作为获利手段的价值。所谓 获利手段,即凭借着股票,持有人可取得的经济利益。利益愈大,股票的价值 就愈高。在股市中股票可根据一定的价格进行交易,单支股票的交易价格是一 个随机变量,同时也受到整个市场行情的影响,逆流而行的股票总是少数,而 且其走势也难以维持长久。 股票价格指数是用以表示多种股票平均价格水平及其变动并衡量股市行情 的指标,例如:道琼斯股票价格指数,日经指数,香港恒生指数等等。在股票 市场上,成百上千种股票同时进行交易,各种股票价格各异、价格种类多种多 样,因此,需要有一个总的尺度标准,来衡量股市价格的涨落,观察股票市场 的变化。用股票价格平均数指标,来衡量整个股票市场总的价格变化,能够比 较正确地反映股票行情的变化和发展趋势。股票价格指数一般是由一些有影响 的金融机构或金融研究组织编制的,并且定期及时公布。世界各大金融市场都 编制或参考制造股票价格指数,将一定时间点上成千上万种此起彼落的股票价 格表现为一个综合指标,以代表该股票市场的一定价格水平和变动情况。股票 价格指数及其变动不但集中反映了股市的投资容量、资金增量、平均股价、股 市升跌等信息,还基本剔除了市场中的投机因素,真实的反映了市场的本来面 目。股市综合指数包含了所有上市公司的股票,将每支股票的价格及其上市的 股数作为权数加权平均。而成分指数只选取了股市中各个行业股票里最有代表 性的股票,而非全部。 1 1 2 3 股价( 股指) 预测存在的问题 目前,股价及股指预测存在以下问题: ( 1 )股价及股指的非线性特征 股价及股指自身以及影响股价及股指的各个变量之间呈现非线性特征,因 此要求有强大的处理非线性问题的能力。已有的较成熟的技术大多是解决线性 问题和单变量非线性问题的。而股价及股指系统是一个多变量非线性问题。 ( 2 )股价数据的高噪声 股价指数编制存在的不合理性、机构大户的造市行为,以及诸多外在冈素 第一章前言 的冲击影响都可能造成股市的强烈波动,使得股价和股指出现高噪声,并出现 很多“奇异点”。这会大大影响系统性能,导致求解过程振荡,甚至不收敛。在 线性条件下,可以设计滤波器将其过滤,但在非线性条件下却不能轻率处理, 因为这些“奇异点”可能代表一类模式或者是结构变化的先兆。数据的这种特 性要求系统具有较强的鲁棒性。 ( 3 )股价系统的主体是具有主观能动性的投资者 投资者商业行为的复杂性和对未来事件的影响能力使预测误差相当大,并 且会随着时间的增加而急剧升高,与其他物理系统不同,在股价系统中,对样 本数据最好的匹配经常并不能保证最好的预测,建模数据的最小误差准则并不 是提高预测精度的最好准则,一种预测方法过去和现在的表现通常不能说明未 来的预测结果。 1 3 论文工作与组织 股票市场受很多因素影响,变化规律很难把握。本文采用统计学习理论的 支持向量机方法进行了股市预测问题的研究。主要完成了以下工作: ( 1 )介绍了股市的相关背景知识,并对传统的股市预测问题的研究方法进行了 总结,指出了它们的优缺点。 ( 2 ) 介绍了统计学习理论与支持向量机,然后在此基础上提出了通过支持向量 机进行股市预测的具体流程,并使用实际股票交易数据检验了基于支持向 量机的预测方法的实际效果。实验结果表明,应用支持向量机的方法进行 股市预测具有良好的预测精度。 ( 3 )使用主成分分析法优化输入向量,将多维输入向量转化为维数较低且互不 相关的输入向量,实现了降维的目的,减小了运行程序所需要的空间代价, 提高算法的运行效率。 ( 4 )针对核函数的选择问题,对多种核函数进行了比较分析,并选择出了适应 于股市预测问题的核函数。 各章节组织如下: 第二章介绍了股市预测中所使用的传统方法( 包括投资分析法,时间序列 法,非线性系统分析法) ,简单概括了这些方法的基本思想,优缺点,以及应用 情况。 第三章介绍了统计学习理论与支持向量机的相关内容,主要介绍了支持向 量机的概念、结构和学习思想,并针对股市预测问题介绍了有关支持向量机的 回归j 题。 第一章前言 第四章提出采用支持向量机的方法进行股市预测的流程,并使用实际的股 票交易数据,使用l i b s v m 作为数据分析与预测工具,对股票价格和股价走势进 行了预测。 第五章介绍了采用主成分分析方法对输入向量进行优化的方法,通过降低 输入向量的维数来提高预测模型的效率;最后通过实际的预测比较分析,选择 出适合股市预测的核函数。 第六章对本文进行总结,指出了本文的研究成果以及将来可以进行研究的 方向。 第二章股市预测问题研究方法 2 1 引言 第二章股市预测问题研究方法 在进行股票投资时,投资者会获得与其承担的风险相对应的回报,预期回 报率与风险之间是一种正向的互动关系。因此,对股市和个股进行认真的分析 才能降低投资风险,获得投资效益。但是,影响股票分析的因素很多,作用机 制也很复杂。只有通过认真的、有效的和科学的专业分析,才能客观的把握住 这些影响因素及其作用机制,做出尽可能准确的预测,并以此作为股票投资的 重要参考,争取尽可能大的受益,并将可能的风险降到最低限度。由于股票预 测问题具有重要的实际意义,因而一直受到国内外学术界的广泛关注,提出了 很多股市预测的方法。这些方法主要分为三类:投资分析法、时间序列分析法 和非线性系统分析法。 2 2 投资分析法 投资分析方法是分析和预测股价变动方向和趋势的方法,可分为:技术分 析法、基本分析法和组合分析法三大类。 技术分析法是通过对过去股票的价格、时间、成交量的分析来推算未来的 行情,主要是研究市场行为,是市场行为的经验总结。技术分析同市场比较接 近,考虑问题比较直接,用技术分析指导股票买卖见效快,获得利益的周期短。 因为它对市场价格变化的反应较直接,分析的结果比较接近市场的局部价格运 动规律。常用的技术指标有: ( 1 )移动平均线指标( m a ) :利用统计学中的移动平均原理,将一段时期内的 股票价格相加并加以平均。 ( 2 )相对强弱指标( r s i ) :计算某一段时间内买卖双方的力量,用来衡量股票内 部的走势状况。 ( 3 )随机指标( k d ) :具有平滑性质,可以平滑的从超买状态转入到超卖状态, 适应于中短期投资的技术分析。 ( 4 )威廉指标( w r ) :利用股市的摆动点来衡量超买超卖现象,可以度量某周 期内的高点或低点。 ( 5 ) d i s p a r i t y 。:用来度量当日收盘价与 日平均价的差异。 第二章股市预测问题研究方法 ( 6 )心理线指标( p s y ) :研究某段时期内投资者趋向买方或卖方的心理,以此 作为股票买卖的依据。 ( 7 )偏离率( b i a s ) :应用股价指数与移动平均值的比值关系,观测股价偏离移 动平均线的程度,以此决定投资者的买卖行为。 ( 8 )累积派发指标( a do s c i l l a t o r ) :反映价格变化的振荡指标。 ( 9 )价格指标( o s c p ) :展示两个时期移动平均数的差异。 技术分析能够根据那些图表上的变化轨迹了解基本面的变化,它在预测股价的 短期趋势,特别是从旧趋势向新趋势变化的方面具有优势。但是由于技术分析 法难以事先预测市场总的结构变化,经常会出现不够准确的问题。 基本分析方法以经济学、财政金融学、财务管理学、投资学为理论基础, 研究的是影响股市走势的基本要素,它根据各种环境因素来决定股票的买卖时 机。基本分析方法能够比较全面的把握价格的基本走势,而且应用起来比较简 单。但是它对市场的反应迟钝,预测的时间跨度相对较长,因此对市场短线操 作缺乏指导意义,在对市场预测的精确度上不如技术分析,特别是对于中国这 样不成熟的股票市场,用基本分析方法指导日常操作是很困难的。 组合分析法是将技术分析法和基本分析法二者结合起来的一种方法。在股 票市场上进行股票投资时,运用技术分析指导市场,同时对基本因素进行分析。 目前,一般投资者和股票市场预测专家运用的大多是这三种分析工具。但 这些方法并不是学术范围内研究的方法。 2 3 时间序列法 在金融经济学的发展上,人们对金融预测做了大量的探索,取得了丰硕的 成果,典型的金融预测是时间序列预测。时间序列分析法是指在研究对象的一 组实测时间序列的基础上,通过各种数学手段对其进行处理,寻找出序列变化 特征、发展规律与趋势,从而对未来某时刻的状态进行估计。时间序列的典型 特征是相邻观测之间的依赖性,为了研究这种依赖性,提出了很多时间序列模 型。 传统的金融时间序列大致上有两种研究方法,一种是从基本的经济原理出 发建立金融时间序列服从的数学模型,如:资本资产定价模型( c a p m ) 、套利 定价模型( a p t ) 、期权定价模型等。而实际上,这些理论的成功都是建立在很 理想的假设上的,假设与市场的实际差距很大,因此这些理论的实际应用效果 并不理想。另一种方法是从统计角度对金融时间序列进行研究。这种方法从实 际数据出发,应用概率统计推断出市场的变化规律。虽然这种方法从经济学角 第二章股市预测问题研究方法 度来看缺乏理论性,但是在实际应用中效果较好。同时,统计方法还可以对经 济模型进行检验和评价。主要模型有:自回归模型( a r ) 、移动平均模型( m a ) 、 自回归一移动平均模型( a r m a ) 和齐次非平稳模型( a r i m a ) 。其中齐次非 平稳模型是较成熟的模型,常用来对股价( 最高价、最低价、开盘价、收盘价) 及综合指数进行预测,通过选择模型的参数和辨识模型的系数实现对时问序列 的拟合。进而用拟合好的模型对未来进行预测。 2 3 1 自回归模型( a r ) 自回归过程是一个变量在时间的某一点的变化,相对于前期的变化是线性 的。一般来说相关性随着时间呈指数下降,且在比较短的周期内消失。如二阶 的自回归过程a r ( 2 ) 表现形式如下: c n = e 。+ 口g l + b x c ,2公式( 2 - 1 ) g 为c 在时间胛的变化,0 c s l ,吼b 为常数,且h l ,例l :e 是具有零平 均值和方差的噪声序列。 公式( 2 1 ) 中,时问 的变化涉及最后两个周期的变化,所以称为二阶自回 归过程a r ( 2 ) ,当c 在时间y 的变化依赖以前g 个周期时,即存在a r ( q ) 过程。 当在时间”的变化依赖变量g ,且在前g 个周期的变化是作为独立变量使用时, 可以看成一个回归的运行。一般,在均值或者方差方面,没有向上或者向下的 长期趋势。 在高频的金融时间序列中( 如日交易) ,因为数据是最基本的交易数据,而 且交易者相互影响,所以通常显示明显的自回归倾向。但是,如果周期为月, 即当时间区间加长时,来自交易的相关作用降低,此过程就会减少到一个a r ( i ) 或者a r ( 2 ) 的过程。 2 3 2 移动平均模型( m a ) 在平均移动模型( m a ) 中,时间序列是一种未观测到的时间序列的平均移 动的结果,如下: c 。= c i + 公式( 2 - 2 ) 第二章股市预测问题研究方法 p 为一个独立同分布的随即变量,c 为常数,且h l 。 在平均移动参数c 上的限制保证了过程是可以转换的。表明未来事件不太 可能影响现在的事件,而且此过程是稳定的;对于e 的限制,如同a r 过程中 的e ,是一个具有零均值和方差为,的独立同分布随机变量。 已观测到的时间序列c 是未来观测到随机时间序列平均移动的结果。由于 平均移动过程,所有过去和短期记忆的结果存在一个线性的依赖。可是,与a r 不同,m a 只有一个周期的记忆。 2 3 3 自回归一移动平均模型( a r m a ) 在自回归一移动平均模型中,既存在自回归项,又有平均移动项: g = a x c + 8 广6 。 公式( 2 - 3 ) 此模型属于混合模型。称为a r m a ( p ,碍) 。p 为自回归项的个数,g 为平 均移动项的个数。也就是,对于一个a r m a ( 2 ,o ) 过程,和a r ( 2 ) 一样,而一 个a r m a ( 0 ,2 ) 过程又和m a ( 2 ) 一样,但是a r m a 还是一个无记忆的过程。 2 3 4 齐次非平稳模型( a r i m a ) a r 和a r m a 两个模型合并为一个更一般的过程,即齐次非平稳模型,也 称为自回归集中移动平均模型。a r i m a 模型专门用于不稳定的时间序列,这些 不稳定的过程在它们的均值和方差里,有一个不稳定的倾向,但是由于采用数 据的累次差分,所以其结果是平稳的。 例如,因为有了长期增长因素,价格序列就是不稳定的了,它可以任意无 边界的增长,以至于使价格自身不再倾向平均值。但是有效市场假说能接受的 是价格或者收入的变化是稳定的。而且,一般价格的变化是用百分比表示的。 在这种情况下,可以用对数差分表示,这是一阶差分的情况,在一些序列里, 高阶差分可以让数据稳定。 假定形是一个a r m a ( p ,q ) 过程,那么e 被认为是( p ,d ,q ) 阶的整合 a r i m a ,其中,p 是自回归项的个数,口是平均移动项的个数,d 是所需差分 化运算的次数。如果c t 是一个a r i m a ( 弘d ,0 ) 过程,那么彬是一个a r ( p ) 过 程,同样,如果c ,是一个a r i m a ( 0 ,d ,q ) 过程,则彬是一个m a ( 0 ,g ) 。典型的 a r o m a ( p ,d ,q ) 模型考虑整数差分。 第二章股市预测问题研究方法 2 4 非线性系统分析法 投资分析方法和时间序列方法或强调内在价值,或依赖股价间的线性关系, 因此具有很大的局限性,很难分离出噪声信号,因而导致预测效果并不理想。 股价与影响股价的各因素之间呈现明显的非线性特性,因而需要通过适当的方 法逼近系统内的复杂非线性特性,神经网络预测法是这种方法的典型代表,它 主要包括前向神经网络预测法,时间延迟神经网络预测法和自回归神经网络预 测法。 2 4 1 神经网络的基本结构 神经网络是用大量简单的处理单元广泛连接组成的复杂网络,初步模拟了 人脑的神经结构和行为,具备如分布存储、并行处理、信息处理和存储合一、 可塑性与自组织性、容错性和鲁棒性等特点,采用并行和自适应信息处理方式。 神经网络从拓扑结构上可以看成是以处理单元( p r o c e s s i n ge l e m e n t ) 即人 工神经元为结点,用加权有向弧连接而成的有向图。其中,处理单元是对生物 神经元的模拟,有向弧是对“轴突一树突”对的模拟。其网络模型拓扑结构基 本上由以下七个方面的基本元素决定。 ( 1 ) 神经元 神经元是网络的结点,是具有加工( 计算) 能力的基本单元。这些单元可 以任意排列,可以是具体的实体,也可以是抽象的结点。一个单元仅仅接受一 些相关单元的输入,对所有的输入和权值的乘积求和,并在一种函数变换下向 其它单元输出信息。记t ( f = 1 , 2 ,疗) 为加于输入端的输入信号,q 为相应的突 触连接权系数,是模拟突触传递强度的一个比例系数,口表示神经元的阈值,盯 表示神经元响应函数。则此模型的数学表达式表示为: j = ( o , x s - 0 ) ,= 盯g ) 公k ( 2 - 4 ) 根据响应函数的不同,人工神经元分为不同的类型。 阈值单元的响应函数为: 僻0 = 公式( 2 5 ) 第二章股市预测问题研究方法 线性单元的响应函数为: y = 盯g ) = s 公式( 2 6 ) 非线性单元的响应函数为s 型( s i g m o i d ) 函数: 矿g ) = 专 公却一7 ) ( 2 ) 活跃状态 设网络有栉个单元,网络在t 时刻的活跃状态可由一个雄维向量爿( f ) 表示, 其中每一分量口( f ) 表示i 单元在t 时刻的活跃值。单元集合上的活跃状态描述了 系统在t 时刻所表示的对象,因而系统的处理过程就可以看成是活跃状态演变的 过程。单元活跃值可以取连续的取值,也可以取离散的值。 ( 3 ) 连接模型 连接方式的不同,不仅造成网络对同一外部输入的不同响应,而且决定了 不同的连接模型及其变型。不同种类的模型在其他特征上可以相同或不同,但 在连接模型上总是有区别的,从而使他们具有各不相同的性能。连接方式同时 还是网络是否分层、规模大小、分层多少、正向抑制,反向传输、有无反馈、 能存储的信息量以及扇入扇出各是多少等内容的综合反映。 ( 4 ) 传递规则 将若干各单元的输出和连接矩阵结合起来以得到某单元的输入规则称 为传递规则。可以假定,总有一些单元接受另一些单元的输出,一个单元的总 输入n e t 。就和它提供输入的各单元的活跃值成正比,即: n e t ,= 嘞q ( f ) 公式( 2 - 8 ) 其中,权重表示由单元”,至l j u j 的互联强度和性质。 ( 5 ) 活跃规则 将一单元的总输入与该单元的活跃状态结合起来以产生新的活跃状态的规 则称为活跃规则。用函数,表示: 噶( f + 1 ) = ,如,( t ) , n e t ,o ) ) 公式( 2 - 9 ) 第二章股市预测问题研究方法 由于存在不同的连接方式,得到更一般的形式: 啊( f + 1 ) = f 0 ,( t ) | n e t ,。o ) ,l p f ,: ) 公式( 2 - l o ) f 为可取的随机函数,s 型函数,阈值函数等。 ( 6 ) 输出规则 将某单元的活跃值转换到该单元对其它单元输出的规则称为输出规则。即 该单元对其它单元的影响与其自身的活跃值有关j 又和输出规则有关。输出规 则通常用函数,表示。有些模型中是某种阈值函数,当单元的活跃值小于某 值时,输出为0 。 ( 7 ) 学习规则 神经网络的性质一方面取决于网络的拓扑结构,另一方面取决于网络的学 习规则。学习方法是神经网络研究中的核心问题。学习所选用的规则实际上就 是权矩阵的修改规则。从学习过程的组织和管理而言,学习规则可分为:有监 督学习和无监督学习两种。 2 4 2 神经网络的学习 神经网络由大量的神经元连接而成,神经元分层排列,由一层输入层,若 干层隐层和一层输出层组成。连接方式可以分为: ( 1 )不含反馈的前向网络。如图2 - l ( a ) 所示,每一层神经元只接受前一层神经 元的输入。 ( 2 )从输入层到输出层有反馈的前行网络。如图2 - 1 ( b ) 所示,输入层的神经元 除接受输入外,还接受输出层的结果。 ( 3 )层内有相互结合的前向网络。如图2 - 1 ( c ) 所示。 ( 4 )结合型网络。如图2 - 1 ( d ) 所示。此种网络的任意两个神经元之间都可能有 连接。 褒一蔓恩强国 g ) “)( d ) 图2 1 神经网络连接方式 第二章股市预测问题研究方法 神经网络识别系统中网络结构非常重要,必须合理选择层数,每层神经元 数量和连接方式,还有神经元的i o 特性。其中,神经网络识别系统中的神经 元数量是待识别样本的特征向量的维数,输出层的神经元是待识别样本的种类 数。 神经网络识别系统的输入层接收待识别样本的特征向量,经过各隐层神经 元的运算,输出层的输出就是识别结果,输出层的每一个神经元代表一类,哪 个神经元获胜( 即该单元的输出远远大于其他单元的输出) ,该样本就是该输出 神经元所代表的那一类。 神经网络的工作过程主要由两个阶段组成: ( 1 ) 学习期:对神经网络的连接权值进行修改; ( 2 )工作期:对给定的输入进行计算,得到识别结果。 神经网络识别系统识别的准确与否,除需要有好的网络结构外,还要有好 的学习算法,即如何对连接权值修改。学习过程是非常重要的过程,神经网络 此时通过学习样本或其它方法对神经网络的连接权值进行修改,使神经网络输 出正确。 神经网络的学习过程中权值的修改规则如下: ( 1 )相关规则:仅仅根据连接间的激活水平改变权值。 ( 2 )纠错规则:依赖关于输出节点的外部反馈改变权值。是根据输出值与期望 值之间的误差对权值进行修正。 ( 3 ) 无导师学习规则:学习过程表现为自适应于输入空间的检测规则。通过大 量学习,不断修正权值,使每一个输入都能得到期单的结果。然后,对于 未知结果的输入通过神经网络计算获得结果。但是神经网络要识别的样本 如果有较大的噪声,在输入的特征向量中有些就是噪声。 可见,神经网络识别并非根据某个或者某些特征,而是整个特征记忆的, 每个神经元的输入都是:盯,= 罗形x ,+ s ,一只,所以只要大多数的特征是正确 的,经过各层神经元的计算,按上述计算方式,对应的输出神经元还是可以获 胜的。因此,神经网络具有良好的容错能力。 2 4 3b p 神经网络 目前,在用于预测系统的若干神经网络模型中,具有非线性隐含神经元的 b p 网络是研究最多,应用最广泛的模型。在金融系统的证券预测研究中,证券 预测分为基本面分析和技术分析两种方法,基本面分析是一种宏观分析法,重 点考察影响证券走势的宏观因素、产业因素、市场冈素以及企业因素等最基本 第二章股市预测问题研究方法 的因素;技术面分析是一种微观分析法,它使用技术手段分析证券市场交易数 量和价格走势,从而预测证券市场行情变动趋势,技术面分析的目的是预测股 价变化趋势、提高投资回报率,具有很强的针对性和可操作性。传统的技术面 分析方法多采用图表与指标作为工具,严重依靠主观判断和经验理论,很大程 度上降低了股票交易的可靠性。而神经网络能够探测出数据集合的非线性关系, 然后进行模拟,以分析类似于股价预测等多种因素、不确定、非线性的时间序 列数据,与标准的经济学方法相比,更具优势。b p 神经网络具有能够逼近任何 非线性连续函数的能力,可以通过神经元连接权值的调整,更准确的逼近股票 市场价格波动中反映出来的非线性映射关系,b p 神经网络实际上就是通过不断 学习以改进隐层的权值来模拟时间序列规律,从而实现对不规则或者混乱时间 序列的短期精确预测。 ( nb p 神经网络的学习过程 b p 神经网络是指使用b p ( b a c k - p r o p a g a t i o n 误差反向传播) 算法训练的多 层前向网络,b p 算法属于有导师的学习算法,可用于训练多层前向神经网络。 期基本思想是学习过程由信号的正向传播和误差的反向传播过程组成。正向传 播时,输入样本从输入层输入,经过各隐层逐层处理后,传向输出层。每一层 神经元的状态只影响下层神经元的状态。若输出层的实际输出与期挈输出不 符,则转入误差的反向传播阶段。误差的反向传播是将输出误差以某种形式通 过隐层向输入层反向传播,并将误差分摊给各层的所有单元,从而获得各层单 元的误差信号,并将其作为修正各个单元权值的依据。这种信号正向传播与误 差反向传播循环进行,其中权值的调整就是网络的训练过程,此过程直到输出 误差达到要求的标准为止。 b p 网络学习过程如图2 - 2 所示: 第二章股市预测问题研究方法 佳= e 投仿和闷恤来极小化误差 k 上 千h 土, 训 一 蜷 搓 本 敛 器 集 一_ 答 输入层嗨台层 输出屡 图2 - 2 b p 网络学习过程 ( 2 ) b p 神经网络的结构设计 多层b p 神经网络由输入层,输出层和隐含层构成。虽然网络的主要结构 由学习算法和网络拓扑结构决定,但具体的结构设计是否得当对网络的计算精 度有着不可低估的影响。b p 神经网络的具体结构包括: a )输入、输出节点的确定 输入输出节点与样本紧密相关,也与应用领域有关。建模后即确定了输入 输出节点。所以模型要有实际意义,具体分析输入输出节点的实际含义并确定 输入变量的个数。 协层数 b p 神经网络一般只采用一层隐层节点即可完成任务。 c )隐层节点的确定 隐层节点个数与训练速度有关,设置节点的数目取决于训练样本数目、样 本噪声和样本中蕴涵规律的复杂程度。在实践中,用输入输出节点个数平方和 的根作为隐层节点的个数。 d )激活函数 b p 网络的非线性逼近能力由s 型激活函数表示,s 型函数的值域只在( o , 1 ) 或( 一1 ,1 ) 之间。为使网络输出范围更大,实践中,在隐层到输出层之间 可以使用线性激洒函数。 第二章股市预测问题研究方法 e )初始参数的选择 应用神经网络的关键在于参数的设计,只有正确的选择参数,才能使网络 迅速有效的收敛,达到确定误差范围内。b p 网络主要的初始参数选择如下: 学习效率:学习步长和平滑因子都与学习效率相关,一般,较大的 学习效率会使网络不稳定,达不到误差范围即开始发散;太小又会 导致较长的训练时间。 初始权值:初始权值是( - - 1 ,1 ) 之问的随机数,以利于提高网络 的训练速度。 循环次数:网络的学习次数依赖于实际情况,只有在其它参数选择 适当时,较大的训练次数才能得到更精确的结果;否则循环次数增 大时会使网络产生振荡或者发散。 动量因子:动量因子是b p 算法改进后增加的参数,其取值在( 0 , 1 ) 之间,样本空间比较平稳的区域一般适合较小的动量因子,较 大的动量因子能得到更大的学习速率,但可能降低网络的稳定性和 增加局部饱和等不确定因素。 调整参数:激活参数中的调整参数是( o ,1 ) 之间的随机数,用于 调整激活函数,使其快速收敛。 ( 3 )b p 神经网络的缺陷和改进方法 b p 神经网络有其固有的缺陷, a )算法收敛速度慢: b p 算法的误差曲面存在平稳区域,在此区域中,误差梯度变化较小,即使 权值的调整量很大,误差仍然下降较慢。仅当网络权值的调整步无限小时,收 敛才有效,即要用无限的收敛时间和缓慢的训练速度才能得到网络的精度。 b )局部最小值问题 b p 算法用梯度下降法调整网络权值,对凸状的误差表面有效,但实际中 b p 误差曲面严重卷绕,无法知道误差平方和是否达到全局最小。同时,标准函 数由于存在局部极小值点,当学习反复进行到一定程度后,网络的全局误差减 小到非常缓慢或根本不再减小,而此时网络的实际输出与期卑输出还有很大的 误差,从而陷入局部极小点,使嘲络小能收敛到全局最小值。 c )训练瘫痪 训练b p 网络时,由于算法中作用函数在斜率接近于0 的区域,一旦进入 此区域,权值的修改也接近于0 ,训练将处于近乎瘫痪的状态。 与传统方法相比,神经网络技术表现出更好的性能和效率。通过学习历史 数据,神经网络可以在没有专家指导的情况下,对股票市场进行预测。特别是 第二章股市预测问题研究方法 b p 神经网络的应用,表现出很好的性能和准确性。然而神经网络预测方法也存 在很多缺陷: ( 1 )网络结构需要事先指定或通过启发式算法在训练过程中寻找。 ( 2 ) 网络权系数的调整和初始化方法没有理论指导。 ( 3 ) 训练过程易产生局部极值问题 ( 4 )在训练样本数目有限的情况下,用一个复杂的模型去拟合有限的样本,使 预测误差能够很小甚至为零,但却不能保证对未来新的样本能够有很好的 预测,从而出现模型复杂,但预测精度却很差的情况,即所谓神经网络的 过学习的现象。 第三章统计学习理论与支持向量机 第三章统计学习理论与支持向量机 3 1 统计学习理论 包括神经网络在内的许多优秀学习方法实际表现可能不尽人意,原因在于 这些学习方法的理论基础是传统的统计学,它是训练样本数目趋于无穷大时的 渐近理论,但实际问题中,样本的数目不可能无穷多,有时甚至十分有限。此 时,作为有很好预测能力的神经网络也会出现过学习现象。 统计学习理论的研究始于6 0 年代末,9 0 年代中期基于该理论的支持向量 机的出现才引起人们对统计学习理论的极大重视。由于传统机器学习方法采用 经验风险最小化准则,使训练样本集的误差尽量小,并用这个最小的经验风险 来代替最小期望风险,但训练样本集有限时并不能保证获得小的期望风险,即 训练集的误差最小时整个需测试集的误差不一定最小,从而导致了这些方法推 广能力( 或推广性,通常将模型对未来输出进行正确预测的能力称为推广性。) 的下降,然而统计学习理论是专门研究有限样本情况下机器学习规律的理论, 它采用结构风险最小化准则。结构风险最小化准则既考虑减, b up ( 练集的误差使 经验风险最小,也要兼顾减小学习机的复杂性( 称为v c 维) ,从而使学习机器 拥有较好的推广能力。 3 1 1 机器学习问题的表示 机器学习问题就是通过某种训练手段,根据给定的训练样本集将系统的输 入和输出之间的依赖关系估计出来,并且希望这个估计可以对任意给定的输入 进行尽量精确的输出预测,其基本模型可以用图3 1 表示: 预禹输出, 图3 - 1 机器学习的基本模型 其中,系统s 是研究对象,它在给定输a , x 下得到一定的输出y ,l m 是所 第三章统计学习理论与支持向量机 求的学习机,输出为y 。 该问题可以形式化的描述为: 已知随机变量y 和随机变量x 之间存在一未知的依赖关系:r = ,( j ) ,设y 与 ,是它们的观测值,又假设它们的联合概率分布为f ( x ,力,机器学习就是根据月 个独立同分布观测样本“,m ) ,(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汉字翻译成拼音课件
- 汉字的象形文字课件
- 汉字溯源课件谭飞
- 工程结算工作协议书
- 《中国传统文化》19秋冬校内知到智慧树答案
- 我父亲演讲稿
- 2024年秋新北师大版数学一年级上册课件 我上学啦 我上学啦 4.好玩的游戏
- 永旺消防安全知识培训课件
- 永久收入理论课件
- 水表基础知识培训教材课件
- 多媒体教室使用的课件
- 高中英语必背3500单词表完整版
- 【语文单元主题教学】六年级上册第三单元《单元整体教学以及教材解读》课件部编版创新
- 疑难病例讨论PPT模板
- 分布式光伏发电项目EPC总包合同范本
- 银行关于不动产抵押物权证保管操作模版
- 大金压缩机使用说明(D型)
- 心肺复苏术(三人组)操作程序及技术标准
- 工程进度计划横道图
- 医药代表销售技巧培训
- 牛的品种及生物学特性
评论
0/150
提交评论