




已阅读5页,还剩49页未读, 继续免费阅读
(计算机软件与理论专业论文)支持向量机在预测股票波浪走势中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
支持向量机在预测股票波浪走势中的应用 摘要 论文题目: 专 业: 硕士生: 指导教师: 支持向量机在预测股票波浪走势中的应用 计算机软件与理论 宋文峰 凌应标副教授 摘要 越来越多的人开始进行股票投资,为了获得超额利润,对股票价格进行预测 将是人们关心的问题。股票市场是一个复杂的非线性动态系统,利用现在比较常 见的马氏链预测技术、神经网络预测技术、灰色模型理论预测技术、时间序列预 测技术以及最普通的线性回归方程预测技术很难达到利用预测结果指导股票进 行操作而获利的目的。 为了更好的对股票市场的价格规律进行分析,达到实用化的目的,本文提出 并实现了一种以使用支持向量机的分类方法为基础的股票波段式预测方法。其主 要思想分为两个步骤:一,把需要训练和测试的股票走势k 线图进行分段。为了 达到对日k 线数据进行分段的目的,本文提出并实现了一种简单的基于层次聚类 的算法以对日k 线数据进行自动划分,并依次把上升波段的前两个样本点划为上 升起点类,把上升波段的剩余样本点划为普通上升类,把下降波段的前两个样本 点划为下降起点类,把下降波段的剩余样本点划为普通下降类。二,根据分段后 的波段特征信息进行分类并预测后市的波段走势。而为了达到更加准确的分类操 作,在挑选样本属性时,根据相关性原则和一些股票操作原则把原来2 2 维向量 压缩到5 维向量;通过反复实验挑选出最佳的核函数、核函数的参数以及惩罚系 数;在m a t l a b 中实现了一种基本的通用四类分类支持向量机算法并使用它对训 练样本进行训练并对测试样本进行分类预测,最终得到了比较满意的预测结果。 关键词:波浪、聚类、支持向量机、分类、股票预测 t i t l e :t h ea p p l i c a t i o no fs u p p o r tv e c t o rm a c h i n ei nf o r e c a s t i n g m a j o r : n a m e : w a v em o v e m e n to fs t o c kp r i c e c o m p u t e rs o f t w a r ea n dt h e o r y j o h n n ys o n g s u p e r v i s o r :a s s o c i a t ep r o f y i n g b i a ol i n g a b s t r a c t s t o c ki n v e s t m e n th a sb e c o m ea ni m p o r t a n tp a r to fp e o p l e sd a i l y l i f e f o r e c a s t i n gt h es t o c kp r i c e h a sb e e nac o n c e r np r o b l e m s t o c km a r k e ti sa c o m p l i c a t e dn o n - l i n e a rd y n a m i cs y s t e m i ti sv e r yd i f f i c u l tt og e tt h ep u r p o s eo fg a i n e x t r ap r o f i tb yu s i n gt h ef o r e c a s t i n gr e s u ro fw h i c hm a r k o vc h a i n ,a r t i f i c i a ln e u r a l n e t w o r k , g r e ym o d e lt h e o r y , t i m es e r i e sa n dt h em o s tr e g u l a rl i n e a rr e g r e s s i o n m o d e le t cp r e d i c a t i o nm e t h o d i no r d e rt o s a t i s f yt h ep u r p o s eo fp r a c t i c e ,w ep r o p o s e dan e wp r e d i c a t i o n m e t h o d t h em a i nw a yo ft h i sm e t h o dc a nb es e p a r a t e dt ot w os t e p s :f i r s ts t e p : s e p a r a t et h es t o c kp r i c es e r i e sw h i c hi sn e e d i n gt ob et r a i n e di n t os e v e r a lp a r t sb yt h e w a v ew a y ;i no r d e rt og e tt h ep u r p o s eo fs e p a r a t et h es t o c kp r i c es e r i e s ,w ep r o p o s e d a n di m p l e m e n t e daa l g o r i t h mw h i c hu s ec l u s t e r i n gm e t h o ds e p a r a t et h es t o c kp r i c e s e r i e si n t ow a v e sa u t o m a t i c a l l y , a n df u r t h e rm o r e ,w es e p a r a t ei tt of o u rk i n d so fc l a s s i n c l u d i n gw a v eu ps t a r t ,r e g u l a ru p ,w a v ed o w ns t a r t ,r e g u l a rd o w n s e c o n ds t e p :b a s e o nt h ef e a t u r ei n f o r m a t i o no fe a c hw a v es e g m e n t ,c l a s s i f ya n df o r e c a s tt h ef u t u r e s m o v e m e n t b a s eo nt h er e l a t i v i t yp r i n c i p l e ,w ec o m p r e s s e dt h es a m p l ef e a t u r ei n t o 5 - d i m e n s i o nv e c t o r 丘o m2 2 d i m e n s i o nv e c t o r a n dc h o s eam o s ts u i t a b l ec o r e f u n c t i o na n di t sp a r a m e t e ra n dp u n i s hf a c t o rct h r o u g he x p e r i m e n t t h er e s u ks h o w t h a tt h i sp r e d i c a t i o nm e t h o dh a sg o o de f f e c t k e yw o r d s :w a v em o v e m e n t ,c l u s t e r i n g , c l a s s i f i c a t i o n , s v m ,s t o c kf o r e c a s t i n g i i 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期: 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版,有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆、院系资料室被查阅,有权将学位论文的内容编入 有关数据库进行检索,可以采用复印、缩印或其他方法保存学位论文。 言萎罕雪渺 言篓稚哆 日期。p f 一月2 妒 支持向量机在预测股票波浪走势中的应用第l 章综述 第1 章综述 随着经济的发展越来越多的人开始进行股票投资,为了能获得超额利润对股 票价格的预测成为人们关心的问题。 1 1 研究背景 随着股市的发展,以及对于股市规律认识的加深,目前,对股票价格趋势预 测可以分为两个大类:基本分析法和技术分析法。基本分析法,就是尽可能的找 出所有影响股票价格波动的因素,建立这些因素与股票价格之间的模型,对股票 价格进行预测。这种方法有很强的理论根据,但是我国金融市场中广泛存在的炒 作现象经常使股票的价格严重背离其基本价值,使基本分析在实务中被认同的程 度不高。技术分析法,就是从证券市场的历史数据,通过图表、技术指标等寻求 股票价格变化的规律进行预测。经过多年的发展,己经积累了大量的股市信息数 据,如何从这些庞大的数据中挖掘出有价值的信息,并将这些应用于投资决策中 成为股市预测的焦点问题【l 】。 1 2 股票预测的发展及研究现状 近年来,随着人工智能理论的发展成熟,其在模式识别和复杂系统控制等方 面己经取得了巨大的成功,并开始在经济、金融等领域广泛应用。神经网络具有 可逼近任意非线性连续函数的学习能力和对杂乱信息的综合能力,在这些方面得 到了广泛的应用。并有不少人员开始用人工神经网络来研究股票,并取得一些成 果【2 】【3 】【4 】【5 】【6 】【7 】【8 j 【9 j 【1 0 j 【1 1 】【1 2 】。但是神经网络也存在有以下缺陷:网络结构需要事先 指定,或应用启发式算法在训练过程中寻找;网络权系数的调整和初始化方法并 没有理论指导;神经网络训练过程易陷入局部极小点;神经网络存在过学习 ( o v e r f i t t i n g ) 的问题等等【”】。 支持向量机在预测股票波浪走势中的应用第1 章综述 除了神经网络还有很多其它预测方法,例如马氏链、灰色模型、混沌理论等 等,这些方法都有各自的优点和缺点。 支持向量机的理论基础则是统计学习理论,其为解决有限样本学习问题提供 了一个统一的框架。支持向量机具有稳定性强,和全局最优,并能通过参数调节 来避免过学习,并成功的利用核函数解决了“维数灾难 。由于这些优点支持向 量机在文本分类,模式识别中得到了广泛的应用。并己经有一些人员开始用其进 行股票市场的研究【l 】。 文献【1 4 】也专门使用普通的股票预测方法对比了支持向量机和常用的两种 神经网络b p 和r b f 方法,结果表明支持向量机在分类准确率的表现上较为明显 的优于两种神经网络方法。 1 3 问题的提出 现在无论是最普遍的线性回归模型或时间序列理论以及统计基础的马氏链 方法还是比较新的灰色模型理论或是当下比较流行的神经网络模型,它们最终的 预测目标基本全都是固定的时间段( 例如都是以未来某一天的价格或涨跌为目 的) 。 凡是有过股票投资经历的人都会清楚,只有一个不是十分精确的单同预测结 果是对投资收益没有任何正面作用的。即使是股市的大顶,主力为了出货经常也 会有几波大的拉升行情,但随之而来的就是急速的下跌。如果不能准确的判断出 形式而盲目追涨却不能及时清仓则会被长期套牢。 其实股市投资获利可以简单归结为一句话:低位买进,高位卖出。即使没有 进行过股票投资的人也会知道这个道理。但是说起来容易,但却很难能做到。现 在几乎所有的预测方法都是以准确股票价格或者以统计理论为基础的等时间段 的涨跌幅度为预测目的,与真正的股票投资操作获利的目标相去甚远。 但是股票走势却有一个非常显著而且以后也不会消失的特点,那就是:波段。 无论股票走势中间出现多少变化、出现多少涨跌交叉,其走势都走势都不可能摆 脱波段的形式,只是或波段上行或波段下行下行罢了。 2 支持向量机在预测股票波浪走势中的应用第1 章综述 可见只要能找到股票走势波段的底部和波段的顶部,便可以实现低买高卖的 目标,从而达到利用预测结果而获得超额利润的最终目的。所以本文就提出了一 种通过分类方法找到这种波浪的起点( 也可称为拐点) 的预测方法。 1 4 本文的研究方法及主要工作 达到实用化的目的,本文提出并实现了一种以使用支持向量机的分类方法为 基础的股票波段式预测方法。其主要思想分为两个步骤: 1 、把需要训练和测试的股票走势k 线图进行分段。为了达到对日k 线数据 进行分段的目的,本文提出并实现了一种简单的基于层次聚类的算法以对日k 线 数据进行自动划分,并依次把上升波段的前两个样本点划为上升起点类,把上升 波段的剩余样本点互为普通上升类,把下降波段的前两个样本点划为下降起点 类,把下降波段的剩余样本点划为普通下降类。 2 、根据分段后的波段特征信息进行分类并预测后市的波段走势。而为了达 到更加准确的分类操作,在挑选样本属性时,根据相关性原则和一些股票操作原 则把原来2 2 维向量压缩到5 维向量;通过反复实验挑选出最佳的核函数和核函 数的参数以及惩罚系数;在m a t l a b 中实现了一种基本的通用四类分类支持向量 机算法并使用它对训练样本进行训练并对测试样本进行分类预测,最终得到了比 较满意的预测结果。 1 5 本章小结 本章简要介绍了一下股票预测的背景和技术分析的发展历程,然后述说了本 文的研究方向和方法以及主要工作。接下来的两章将会对本文所用到的一些股市 技术指标和聚类分类算法进行简单的介绍。 支持向量机在预测股票波浪走势中的应用第2 章股票市场的基本知识 第2 章股票市场的基本知识 股票是种由股份有限公司签发的,用以证明股东所持股份的凭证,它表明 股票的持有者对股份公司的部分资本拥有所有权。由于股票包含有经济利益,且 可以上市流通转让,股票也是一种有价证券【1 1 。 2 1 股市研究方法总括 股票预测1 5 1 同其它资本市场预测一样,“利益 和“风险 构成了市场的核 心内容,要对股市进行研究就要假设以下两条基本原则【l j ,即: 1 人是“理性的,理性意味着每个人都会在给定的法规政策约束条件下, 争取自身的最大利益; 2 交易者在市场交换中有着完全的选择自由,同时由自己承担风险,承担 选择的后果; 股市分析大体上可以分为两类:基本分析和技术分析。 基本分析法是根据整体客观因素来决定股票是否应该买进或卖出,是研究影 响证券市场供给和需求的各种各样所有因素的一种方法。而技术分析法是不考虑 发行股票公司以及外界环境对市场未来走势的影响,只根据市场过去和现在的一 些客观数据,运用多种数学或计算模型,进行预测市场未来变化的一种方法。 2 1 1 基本分析法 基本分析法着重于对一般经济状况以及上市公司的经营管理状况。行业动 态、政府政策等因素进行分析,以此来研究股票的内在价值,把它与现价进行比 较,从而决定股票的买卖。影响股票价格因素【l 】有很多,较为重要的有: 企业因素:企业的财务状况,经营成果,资本结构决定了企业股票的价值, 此外,行业特点,企业的重大合同,及人事变更都对企业股票价格也产生影响。 主要的社会经济指标:这些指标往往表明了国家经济的景气状况,未来经济 的发展前景。主要包括,消费品零售物价指数( c p i ,衡量通货膨胀的状况) 、g d p 5 支持向量机在预测股票波浪走势中的应用 第2 章股票市场的基本知识 增长率,城镇登记失业率,财政状况,国际收支状况等。 宏观金融指标:利率,关系到企业的资金成本,汇率,对一些外贸为主的企 业至关重要。 行业因素,股票发行公司的所属行业对于股票价格的影响较大。 政治因素,外交关系,国际环境,领导人的更换等等政治活动会对股票的价 格产生重大的影响。 此外,在我国,新的政策,法律,管理办法对股票市场的影响也不容忽视。 2 1 2 技术分析法 所谓股票的技术分析法是相对于基本分析法而言的。技术分析法【”1 是通过图 表或者技术指标的记录,研究市场过去以及现在的行为反映,以推测未来的价格 变动趋势。其依据的技术指标的主要内容是由股票价格、成交量和指数的涨跌等 数据计算所得。崇尚技术分析的人认为投资者心理和大众情绪对股票价格影响大 于公司基本面因素的影响。股票市场上的投资群体的行为是受投资者对股市下跌 的恐慌和对股市上涨的贪婪心理驱使的1 1 。 许多市场参与者,用技术分析作为短期买卖的基础。技术分析经过长期的发 展形成了许多的流派【l o 】,这些学派共同促进了技术分析技术的发展。 2 2 股票市场的基本常识 股票行情表反映了股票价格变动的基本信息它是股民进行股票买卖的根据。 1 、股票价格:广义上股票价格包括股票发行价格和股票交易价格。狭义上 更多是指股票的交易价格即股票行市。股票价格的种类包括股票的理论价格、股 票票面价格、股票的发行价格、股票的帐面价格、股票的清算价格。其中: 股票理论价格= 预期股息收益市场利率 2 、股票指数:股票价格指数是用来表示多种股票平均价格水平及其变动情 况以衡量股市行情的指标。常用的有以下几种: ( 1 ) 股价平均数: 股价平均数= 成交金额成交股数 ( 2 ) 股票价格指数:股价指数的计算方法主要有简单平均法、加权平均法和 6 支持向量机在预测股票波浪走势中的应用第2 章股票市场的基本知识 几何平均法。最常用的方法是加权平均法计算公式为: 股价加权指数= 现行成份股总市值基期成份股总市值1 0 0 式中的成份股即可以包括所有上市股票也可以只包括部分上市股票。 一般认为,股票指数是股市中一组股票的平均价格,但股票指数的实质是一 组股票的市值,当股票价格的变化导致这组股票市值上升时股票指数就上涨反之 就下跌,其涨跌幅度就为这一组股票的投资收益率。在以股票指数作为投资的参 考依据时,股民应注意股票指数中所包含的股票样本。 3 、开盘价和开盘指数:开盘价是一个交易日中股票第一笔的交易价格,沪 深股市的开盘价都由集合竟价产生,所以股票的开盘价是开市前2 5 分钟内委托 集体成交的价格。开盘指数为当日开市时的股票指数。 4 、收盘价和收盘指数:收盘价是一个交易日中股票最后一笔交易的价格。 盘指数为前一交易日收市时的股票指数。 5 、最新价和即时指数:最新价是刚刚成交那一笔股票的价格。即时指数依 照股票的最新价计算出来的股票指数。 6 、市盈率:股票的价格与该股票每股税后利润之比。其中市盈率i 为股票 价格与上一年度每股税后利润之比,市盈率i i 为股票价格与当年预测的每股税 后利润之比。 2 3 传统技术分析 股票技术分析是指运用图表来描述股市的指数和某个交易品种的运动轨迹。 然后利用统计学和数学的方法寻找出具有分析统计意义的行为模式,并以此预测 未来市场或个股的运动趋势。 技术分析以三个假设前提为理论基础【l 】: 其一,股票的价格己经包含了一切宏观和微观的经济信息。这是技术分析的 基础它认为影响股票价格的所有因素都反映在市场行为中如果不承认这个假设 也就是说市场行为没有包括影响股票的全部因素技术分析做出的结论当然就是 无效的。 其二,价格总是按照某种趋势运动。这是技术分析最根本最核心的正因为如 7 支持向量机在预测股票波浪走势中的应用第2 章股票市场的基本知识 此技术分析才会花费大量的精力试图找到价格变化的规律。 其三,历史往往会重复。这是从人们的心理因素考虑的市场买卖行为是由人 操作的肯定要受到心理因素的影响。对于相同或相似的情况往往认为会得到相近 的结果。 技术分析主要包括用来观察和预测股票市场走势和内在规律的一些指标和 方法: 1 、交易量:它是股票市场的一个重要指标,对市场走势均力敌有很大影响。 交易量的突然放大和缩小往往预示着市场走势即将发生转折,或是由上涨转为一 下跌或是由下跌转为上涨; 2 、股价的新高点或新低点:指某种股票上涨或下跌到过去从未有过的高点 或低点。从创新高点和新低点的股示数量的对比中可以判断股票市场的强弱。一 般说创新高点的股票多于创新低点的股票时股市走势将上升,反之将下跌; 3 、技术图形:根据k 线理论、形态理论、波浪花理论等技术分析方法通过 具体的图形、指标和计算方法对大市及个股进行分析判断并预测未来走势; 4 、平滑异同移动平均线m a c d 1 ) m a c d 原理:平滑异同移动平均线m a c d 是通过对指数型平滑移动平 均线e m a 的乖离曲线( d i f ) 以及d i f 值的指数型平滑移动平均线( d e a ) 这两条曲 线走向之异同、乖离的描绘和计算进而研判市势的一种技术方法。 计算平滑系数: m a c d 的一个最大长处就在于其指标的平滑移动,特别是对于某些剧烈波 动的市场,这种平滑移动特性能够对价格波动作较和缓的描述,从而大为提高资 料的实用性。不过,在计算e m a 前,首先必须求得平滑系数。其公式如下: 平滑系数= 2 ( 采样周期数+ 1 ) 如1 2 日e m a 的平滑系数= 2 1 3 ,2 6 日e m a 的平滑系数= 2 2 7 计算移动平均值( e m a ) : 一旦求得平滑系数后,即可用于e m a 之计算。公式如下: 今天的移动平均值= 平滑系数x ( 今天收盘价一昨天的移动平均值) + 昨天的 移动均值 依公式可计算出1 2 日e m a 和2 6 日e m a 。 8 支持向量机在预测股票波浪走势中的应用第2 章股票市场的基本知识 1 2 日e m a = 2 1 3 今天收盘价+ 1 1 1 3x 昨天的移动平均值 2 6 日e m a = 2 2 7 今天收盘价+ 2 5 2 7 昨天的移动平均值 由每日行情震荡波动之大小不同,并不适合以每日之收盘价来计算移动平 值,于是又提出了需求指数( d e m n a d l n d e x ) 的概念。在需求指数的计算时,加重 盘价的权量系数( 两倍) ,即对较近的资料赋予较大的权值,计算方法如下: d i = ( c x 2 + h + l ) 4 其中c 为收盘价,h 为最高价,l 为最低价。在移动平均值的计算时,可需 求指数代替每日的收盘价。 e m a 是移动平均线中计算最为复杂的一种。e m a 加重了当前价格变化的份 量,使移动平均线更加贴近价格曲线能够改善移动平均线滞后性的弱点。 d i f 的意义是两条移动平均线的乖离即快速e m a 减去慢速e m a 它把两条 动平均线相互关系的趋向型指标转变成为振荡型指标这样零轴线上d i f 的交点 对应着两条e m a 的交点d f i 以零值为轴心上下波动。 d e a 的引入在振荡型指标图上再造出一条相对于快速线d f i 的慢速线以完 技术分析的手段。 m a c d 再把d f i 与d e a 的乖离以柱线( h i s - - 1 1 i s t g o a r m ) 形表示出来更便 应用。 2 ) m a c d 的应用: 0 轴以下:d f i 若上穿d e a 为买入信号;d f i 若下穿d e a 为反弹结束信 号,也为卖出信号但适于多方平仓空方新卖单不适于入场。 o 轴以上:d f i 若下穿d e a 为卖出信号;d f i 若上穿d e a 为回档结束信 号也为买入信号但适于空方平仓多方新买单不适于入场。 与市势的m 头( 或三头) 以及w 底( 或三底) 形态相仿高档区d i f 二次以上 下穿d e a 可能大跌;低档区d i f 二次以上上穿d e a 可能大涨。这两处交叉若 价格走向相背离则可信度极高。 由柱线图拐点的变化更见敏感虽可捕捉先机但需小心因小失大。 5 、随机指标l j 1 ) ) j 的计算: 随机指标k d j 是由k 值线、d 值线及j 值线三条线路来作交叉配合因此它 9 支持向量机在预测股票波浪走势中的应用第2 章股票市场的基本知识 包括有三个指标值:k 值、d 值及j 值。 各指标值的计算公式如下: 计算未成熟随机值r s v : r s v :( c r - - l r ) x10 0 : ( h r l r ) ( 第t 日收盘价一t 日内最低价) ( t 日内最高价一t 日内最低价) 1 0 0 计算k 值:k = i ,k + 2 ,r s v 亦即:今日k 值= i 1 昨日k 值+ i 2 今日r s v 其中k 初值为5 0 计算d 值:d = 2 ,d + 昙k 亦即:今日d 值= i 2 昨日d 值+ i 1 今日k 值 其中d 初值为5 0 计算j 值:j = 3 k - - 2 d 亦即:今日j 值= 3 倍今日k 值一2 倍今日d 值 k 、d 初始值取5 0 。 2 ) k d j 的原理: k d j 以今日收盘价( 也即n 日以来多空双方的最终言和价格) 作为买力与卖 力的平衡点,收盘价以下至最低价的价格距离表征买力的大小而最高价以下至最 价的价格距离表征买卖力的总力。这样r s v 的买力与总力之比正是用以表征n 日以来市场买力的大小比例反映了市场的多空形势。 t 踅) k d j 指标的后来修正者放弃把r s v 直接作为k 值而只把r s v 作为新k 里面的l 3 比例的内容。这是一种权值处理手法表明更重视( 2 3 重视) 近期趋势作 用。 在乔治蓝恩的发明里d 值原来是n 日k 值的平滑平均值。现直接从算 式上可见d 值只把k 值作1 3 的权重加以考虑同样表明对近期趋势的重视。同 时d 值的变化率也就小于k 值的变化率因此k 线成为随机指标中较敏感的快速 线d 线则为较沉稳的慢速线。 j 值本意为d 值与k 值之乖离系数3 和2 也表现了权值的处理表明在k d 1 0 支持向量机在预测股票波浪走势中的应用 第2 章股票市场的基本知识 指标中d 指标应被更重视一些这与趋势分析中认为慢速线较具趋势的示向性原 理是一致的。 3 ) k d j 的应用: 一般而言d 线由下转上为买入信号,由上转下为卖出信号。 k d 都在0 1 0 0 的区间内波动,5 0 为多空均衡线。如果处在多方市场, 5 0 是回档的支持线;如果处在空方市场,5 0 是反弹的压力线。 k 线在低位上穿d 线为买入信号k 线在高位下穿d 线为卖出信号。 k 线进入9 0 以上为超买区,1 0 以下为超卖区;d 线进入8 0 以上为超买 区,2 0 以下为超卖区。宜注意把握买卖时机。 高档区d 线的m 形走向是常见的顶部形态,第二头部出现时及k 线二次 下穿d 线时是卖出信号。低档区d 线的w 形走向是常见的底部形态,第二底部 出现时及k 线二次上穿d 线时是买入信号。m 形或w 形的第二部出现时,若与 价格走向发生背离,分别称为“顶背驰和“底背驰 ,买卖信号可信度极高。 j 值可以大于1 0 0 或小于0 。j 指标为依据k d 买卖信号是否可以采取行动 提供可信判断。通常当j 值大于1 0 0 或小于1 0 时被视为采取买卖行动的时机。 i j 本质上是一个随机性的波动指标,故计算式中的n 值通常取值较小, 以5 至1 4 为宜,可以根据市场或商品的特点选用。不过,将k d j 应用于周线图 或月线图上,也可以作为中长期预测的工具。 2 4 本章小结 本章主要介绍了股市的一些基本知识、现在股市一般的分析方法,还有简单 介绍了几个常用的技术分析指标的计算和使用方法。下一章将介绍支持向量机的 一些知识。 支持向量机在预测股票波浪走势中的应用 第3 章支持向量机理论 第3 章支持向量机理论 n 持nn ) l , ( s u p p o r tv e c t o rm a c h i n e 简称s v m ) 1 9 1 口0 1 口2 1 口3 1 是一种近年 流行起来的通用的机器学习方法。它具有很强的学习能力,是数据挖掘中的一项 新技术。其主要借助于最优化方法解决数据挖掘中的分类问题,是数据挖掘中的 一个新的研究热点。本章先简要介绍支持向量机方法的理论基础,然后对支持向 量机的知识背景、模型的导出与求解给出简要的阐述【2 5 1 。 3 1 支持向量机理论基础 基于数据的机器学习是现代智能技术中的重要方面,研究从观测数据( 样本) 出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。包括模式 识别、神经网络等在内,现有机器学习方法共同的重要理论基础之一是统计学。 传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基 于此假设。但在实际问题中,样本数往往是有限的,因此些理论上很优秀的学 习方法实际中表现却可能不尽人意。 与传统统计学相比,统计学习理论( s t a t i s t i c a l l e a m i n g t h e o r y ,s l t ) 是一种专 门研究小样本1 2 5 】情况下机器学习规律的理论。v v a p n i k 等人从六、七十年代开始 致力于此方面研究,到九十年代中期,随着其理论的不断发展和成熟,也由于神 经网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛 的重视。它是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提 供了一个统一的框架,它能将很多现有方法纳入其中,有望帮助解决许多原来难 以解决的问题( 比如神经网络结构选择问题、局部极小点问题等) ;同时,在这一 理论基础上发展了一种新的通用学习方法一支持向量机( s u p p o r t v e c t o r m a c h i n e , s v m ) ,它已初步表现出很多优于已有方法的性能。一些学者认为,s l t 和s v m 正在成为继神经网络研究之后新的研究热点,并将有力地推动机器学习理论和技 术的发展1 2 5 1 。 1 3 支持向量机在预测股票波浪走势中的应用第3 章支持向量机理论 3 1 1 机器学习的基本问题 机器学习的目的是根据给定的训练样本求对某系统输入输出之间依赖关系 的估计,使它能够对未知输出作出尽可能准确的预测,可以一般地表示为:变量 y 与x 存在一定的未知依赖关系,即遵循某一未知的联合概率p 化o 和y 之间 的确定性关系可以看作是其特例) 。 机器学习问题就是根据n 个独立同分布观测样本 ( ,乃) ,( 砭,y 2 ) ,( ,m ) ) 在一组函数侬叫中求一个最优的函数讹砂对依赖关系进行估计使期望风险 r ( w ) = il ( y ,f ( x ,w ) ) d p ( x ,少) ( 3 1 ) 最小。其中,纸叫称作预测函数集,w 为函数的广义参数,讹叫可以表示任何 函数集;三m 胞例为由于用舷砂对y 进行预测而造成的损失,不同类型的学习 问题有不同形式的损失函数。 对模式识别问题,输出y 是类别标号,两类情况下尸 o ,1 ) 或 1 ,一1 ) ,预测函 数称作指示函数。损失函数可以定义为: 坳胞嗍= 髋震暑 p 2 , 学习的目的就是通过选择一个参数w ,使得学习系统的输出舷砂与期望输 出y 之间的误差概率最小化,即出错率最小化。出错率也称为期望风险( e x p e c t e d r i s k ) ,如下式定义: r ( w ) = 片i j ,一厂( x ,w ) i 卯( x ,y ) ( 3 3 ) 其中p 似一为样本空间的实际概率分布。由于尸似纠通常是未知的,因此无 法直接计算r m 。但是,对给定的训练集,其经验风险( e m p i r i c a lr i s k ) k ( 叻: r e m p ( w ) = 寺善卜胞川l ( 3 - 4 ) 却是确定的。其中( 薯,y i ) 为训练样本,为训练集中样本数,即训练集规模。 由数理统计中的大数定理可知,随着训练集规模的扩大,咫。( w ) 叫将逐渐收敛 于r f w ) o 1 4 支持向量机在预测股票波浪走势中的应用第3 章支持向量机理论 通过上面表述可以看出,学习的目标在于使期望风险最小化,但是由于我们 利用样本信息期望风险并无法计算,而对于给定的样本其经验风险确是给定的, 因此我们考虑用经验风险来作为期望风险的一个估计,设计算法使它最小化。 事实上,用经验风险代替期望风险最小化并没有经过充分的理论论证,只是 直观上合理的想当然做法,但这种思想却在多年的机器学习方法研究中占据了主 要地位。人们多年来将大部分注意力集中到如何更好地最小化经验风险上。而实 际上,即使可以假定当n 趋向于无穷大时( 3 4 ) 趋近于( 3 - 3 ) 式,在很多问题中的样 本数目也离无穷大相去甚远。那么在有限样本下得到的结果能使真实风险也较小 吗? 这是我们需要考虑的问题。 上面提到的问题的一个例子是神经网络的过学习问题。开始,很多注意力都 集中在如何使( w ) 更小,但很快就发现,训练误差小并不总能导致好的预测 效果,某些情况下,训练误差过小反而会导致推广能力的下降,即真实风险的增 加,这就是过学习问题。之所以出现过学习现象,一是因为样本不充分,二是学 习机器设计不合理,这两个问题是互相关联的。 在神经网络中,对有限的样本来说网络学习能力过强,足以记住每个样本, 此时经验风险很快就可以收敛到很小甚至零,但却根本无法保证它对未来样本能 给出好的预测。学习机器的复杂性与推广性之间的这种矛盾同样可以在其它学习 方法中看到。文献【1 8 】给出了一个实验例子。由此可看出,有限样本情况下: 1 ) 经验风险最小并不一定意味着期望风险最小; 2 ) 学习机器的复杂性不但应与所研究的系统有关,而且要和有限数目的样 本相适应; 我们需要一种能够指导我们在小样本情况下建立有效的学习和推广方法的 理论,统计学习理论便在这种背景下应运而生【2 5 1 。 3 1 2 统计学习理论的核心内容 统计学习理论就是研究小样本统计估计和预测的理论,主要内容包括四个方 面 1 ) 经验风险最小化准则下统计学习一致性的条件; 2 ) 在这些条件下关于统计学习方法推广性的界的结论; 3 ) 在这些界的基础上建立的小样本归纳推理准则; 1 5 支持向量机在预测股票波浪走势中的应用第3 章支持向量机理论 4 ) 实现新的准则的实际方法( 算法) 。 其中,最有指导性的理论结果是推广性1 2 6 】【2 7 】f 2 8 1 的界。与此相关的一个核心 概念是v c 维。 为了研究学习过程一致收敛的速度和推广性,统计学理论定义了一系列有关 函数学习性能的指标,其中最重要的是v c 维( v a p n i kc h e r v o n e n k sd i m e n s i o n ) 。 模式识别方法中v c 维的直观定义是:对一个指示函数集,如果存在h 个样 本能够被函数集中的函数按所有可能的2 办种形式分开,则称函数集能够把h 个 样本打散;函数集的v c 维就是它能打散的最大样本数目h 。若对任意数目的样 本都有函数能将它们打散,则函数集的v c 维是无穷大。有界实函数的v c 维可 以通过用一定的阀值将它转化成指示函数来定义。 v c 维反映了函数集的学习能力,v c 维越大则学习机器越复杂( 容量越大) 。 遗憾的是,目前尚没有通用的关于任意函数集v c 维计算的理论,只对一些特殊 的函数集知道其v c 维。比如在n 维实数空间中线性分类器和线性实函数的v c 维是n + l ,而上一节例子中纸州= s i n ( a x ) 的v c 维则为无穷大。对于给定的学习 函数集,如何( 用理论或实验的方法) 计算其v c 维是当前统计学习理论中有待研 究的一个问题。 统计学习理论系统地研究了对于各种类型的函数集,经验风险和实际风险之 间的关系,即推广性的界。关于两类分类问题,结论是:对指示函数集中的所有 函数( 包括使经验风险最小的函数) ,经验风险如口( 川和实际风险尺俐之间以至 少l 一玎,0 7 7 o 3 7 时这个界肯定是松弛的, 叩 当v c 维无穷大时,这个界就不再成立) 。而且,这种界只在对同一类学习函数 进行比较时有效,可以指导我们从函数集中选择最优的函数,在不同函数集之间 比较却不一定成立1 2 5 1 。 3 1 3 结构风险最小化 从上面的结论看到,在样本有限时我们需要同时最小化经验风险和置信范 围。其实,在传统方法中,选择学习模型和算法的过程就是调整置信范围的过程, 如果模型比较适合现有的训练样本,则可以取得比较好的效果。但因为缺乏理论 指导,这种选择只能依赖先验知识和经验。统计学习理论提出了一种新的策略, 即把函数集s 可k 叫构造为一个函数子集序列: j lcs 2c 屯c 屯c 使各个子集按照v c 维的大小排列: 啊忽吃 这样在同一个子集中,置信范围就相同。选择经验风险和置信范围之和最小的子 集,就可以使期望风险最小。这种思想称作结构风险最小化( s t r u c t u r a lr i s k m i n i n i l z a t i o n ) 即s r m 准则。 实现s r m 原则可以有两种思路,一是在每个子集中求最小经验风险,然后 选择使最小经验风险和置信范围之和最小的子集。显然这种方法比较费时,当子 集数目很大甚至是无穷时不可行。因此有第二种思路,即设计函数粗的某种结构 使每个子集中都能取得最小的经验风险,然后只需选择选择适当的子集使置信范 围最小,则这个子集中使经验风险最小的函数就是最优函数。支持向量机方法实 际上就是这种思想的具体实现【2 5 1 。 1 7 支持向量机在预测股票波浪走势中的应用第3 章支持向量机理论 3 2 支持向量机模型 支持向量机是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习 问题的新工具。它最初于2 0 世纪9 0 年代由v a p n i k 提出,近些年来在其理论研 究和算法实现方面都取得了突破性进展,并开始成为克服“维数灾难 和“过学 习”等传统困难的有利办法,虽然他还处在发展的阶段,但它的理论基础和实现 途径的基本框架已经形成。支持向量机目前主要用来解决分类问题( 模式识别, 判别分析) 和回归问题【2 5 l 。 3 2 1 支持向量机的基本思路 前面提到支持向量机是解决分类问题的一种新兴起的方法,但分类问题并不 是新问题,是数据挖掘的迅速发展赋予它新的意义,再次引起人们的注意。支持 向量机在分类问题中的优势也逐渐的体现出来。 文献 2 3 】中心脏病诊断的例子提出分类问题的数学描述及支持向量机思想 的提出。其本质就是在于寻找一个把r d 空间的点分成两部分的规则。基本思想 由图( 3 - 1 ) 中简单的线性可分的问题来说明。图( 3 一1 ) 中,两类点代表两类样本,日 为超平面,目、分别代表各类中离h 最近的样本且与日平行的超平面,它 们之间的距离称为分类间隔m a r g i n 。所谓最优化分类面就是要求不但能将两类 正确分开,而且使分类间隔最大。 假定大小为三的训练样本集 ( 鼍,只) i 誓r d 只 + 1 ,一1 ) ,z 1 ,) 由两个类别组成,如果r d 属于第一类,则标记为正( 尸1 ) ,否则,标记 为负( 尸一1 ) 。支持向量机的目的在于寻找分类超平面日: w 。x r = 0 1 8 支持向量机在预测股票波浪走势中的应用 第3 章支持向量机理论 啼 h 2 图3 - 1 线性可分情况口5 1 使样本集满足: 咒( w 7 x 一,) 一1 0 ,i 1 ,j ) ( 3 7 ) 则此超平面可以将两类点分开。 点到超平面h 的距离为: m 垆吲 根据最优分类超平面的定义,分类间隔可以表示为: 咖力= m 纠i n ,吲+ m 炉i n 。,引= 赢 使间隔最大等价于使0 叫l 最小。则求最优分类超平面问题就转化为求在满足 条件( 3 7 ) k 1 1 e l l w t l 最小的数学规划间题。 3 2 2 支持向量机模型 l 、线性支持向量机 上面已经提到了线性可分问题,并用来解释了支持向量机的基本原理。在线 性可分的情况下,设 ,y , l 。r d + l ,- 1 是二分类问题的训练样本,我们采用 1 9 支持向量机在预测股票波浪走势中的应用 第3 章支持向量机理论 最大间隔的思想得到的数学优化模型: 1 t m l n w w w 2 ( 3 8 ) s t m ( w 7 t r ) 1 ,i 1 ,z ) 其中w r ”为分类超平面的法向量,r 为阀值。 对于上述优化间题,其最优解可以通过求解它的拉格朗日对偶问题的解得 到。为此,可以定义下面的拉格朗日函数: ( w ,r ,a ) :昙( w 7 w ) 一圭a ,( 乃( w r 薯一r ) 一1 ) ( 3 9 ) 其中,a , o 为拉格朗日系数。对式( 3 9 ) 中的w 和,分别求偏微分并令他们等于 0 ,可以得到: 掣= w - - l 鹏誓= o ( 3 _ 1 0 ) c t w百 。 a l ( i w , r 一, a ) = 仅,乃= o ( 3 1 1 ) 西鲁。 v 7 n ( 3 1 0 ) 和( 3 1 1 ) 可得到: ( 3 1 2 ) , a ,乃= 0 ( 3 - 1 3 ) i = 1 将上面两个式子代入( 3 9 ) 可得到相应的对偶形式: 使得 警如 a ) = 缸一圭喜只鹏姒m ) ( 3 - 4 ) 这样,求最优分类面问题就转化为对口,求解下面的优化间题: ( 3 - 1 5 ) t a y ,趟 = w 毋口 zo | l 乃 晓 ,汹 0 一 位 支持向量机在预测股票波浪走势中的应用 第3 章支持向量机理论 哩n ( 三,善。乃坍叫) 一喜a ,) a f o ,i 1 ,z ) ( 3 - 1 6 ) 其中是与每一个样本对应的拉格朗日乘子。这是一个不等式约束的二次寻优问 题,存在唯一的解a = ( a :,a :,a j ) 则得到 且由k k t 定理可知,最优解满足: a , ( y i ( w 丁t 一厂) 一1 ) = 0 ( 3 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025甘肃金昌市人力资源和社会保障局招聘公益性岗位人员1人考前自测高频考点模拟试题附答案详解(突破训练)
- 2025年吉林省农业种植(玉米)买卖合同书
- 2025保健品销售合同范本参考
- 2025吉林白城市暨洮北区人才交流中心就业见习岗位和见习人员征集模拟试卷及完整答案详解1套
- 2025江苏省退役军人事务厅直属优抚医院招聘12人模拟试卷及答案详解(网校专用)
- 2025标准企业租赁合同范本:租赁协议模板
- 2025年三明市供电服务有限公司招聘61人考前自测高频考点模拟试题及答案详解(历年真题)
- 2025年湖南长沙天心区招聘32名勤务协助人员和体能测评的考前自测高频考点模拟试题及参考答案详解1套
- 衡阳初一考试题库及答案
- 安全教育培训会议通知课件
- 对外投资合作国别(地区)指南 -玻利维亚-20240530-00504
- 19S406建筑排水管道安装-塑料管道
- 沪教版九年级上册化学第三章《物质构成的奥秘》检测卷(含答案解析)
- 如何与客户建立有效的沟通
- 薯片加工项目规划设计方案
- 复方电解质醋酸钠葡萄糖注射液-药品临床应用解读
- 变压器租赁协议书x
- 部编版小学数学六年级上册分数乘法应用题解法一:找单位“1”解析同步练习
- 危重产科患者麻醉管理
- 宾馆旅客财物保管制度
- 学前教育政策法规全套精美课件
评论
0/150
提交评论