基于支持向量机的股票量化交易策略实验与研究_第1页
基于支持向量机的股票量化交易策略实验与研究_第2页
基于支持向量机的股票量化交易策略实验与研究_第3页
基于支持向量机的股票量化交易策略实验与研究_第4页
基于支持向量机的股票量化交易策略实验与研究_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

在分析过程中,主要就机器学习当中的SVM分类技术进行研究,再利用股票的分类指标,当作分类的基础数据,可以实现对股票进行分类,以此来对股票的收益率进行相应的预测。在获取的分类的结果之后,也能很好地对各种性质的股票进行组合,使得能够保障计算出的收益率,大于市场当中的平均收益率。一、支持的向量机的背景介绍支持向量机(SVM)是一种基于统计学习理论的新数据挖掘方法。它在解决小样本,非线性和高维模式识别问题方面具有许多独特的优势。基本原则主要来自结构风险最小化原则和风险资本水平。支持向量机和二分类模式识别问题,也有人使用支持向量机进行函数拟合。根据这两个目的,支持向量机分为支持向量分类机和支持向量回归机。常用的另一种数据挖掘方法是神经网络方法。与神经网络相比,支持向量机具有扎实的统计基础。具有以下优点:第一,根据结构风险最小的原则,降低了提升误差的上限,具有优良的提升性能,解决了神经网络过拟合的现象。第二,此问题的解决方案与具有线性约束的凸二次规划问题相同。它具有全局最优解,可以解决神经网络的局部最小问题。第三,将原始问题映射到高维空间,在高维空间中构造线性分类函数以划分原始问题,并引入核函数来解决该问题。以上优点可以解决维度灾难问题。结构风险最小化原则:在统计学习理论中,实际风险分为两部分。一个是代表给定样本分类函数误差的经验风险,另一个是置信度风险。代表了可以在多大程度上可以信任分类器在未知数据上分类的结果。从统计学习中要获最优函数,追求的不是经验风险最优化,而是结构风险最优化。我们的目标是最大限度地减少机器学习方法的经验风险,但后来发现许多分类函数可以轻松实现样本集很高的准确性,但完全用于实盘分类的时候结果却很不理想。此时选择一个足够复杂的分类函数以准确存储每个样本,但是样本之外的数据不能正确分类。这样做的主要原因是,在训练小样本时,如果样本数量与总样本大小比例太小,小样本不能很好地反映所有样本的行为,这就导致推广性很低。此时我们需要了解分类函数对未知数据的分类能力,需要用致信度风险来衡量。通过筛选了一些在中国具有代表性和知名度的股票。通常,与大型股票指数相比,单个股票的波动性更为“随机”。解决方案是提出一套可行的方法,在实际操作中,可以根据实际情况灵活选择参数和数据指标。如果对单个股票的研究能够产生一致的结果,它将在投资中有很强的指导性,但是将单个股票的特性推广到其他股票研究也有一定风险。二、分类预测的基本流程(一)模型输入变量以及输出变量的选择对于支持向量机而言,需要依据样本当中的特征x以及属性y,来对样本进行分类。为此,在对输入向量的合理性确定的过程中,其输出向量y有着重要的作用。在进行特征变量选择的过程中,需要重视起特征向量与预测结果之间的关联。同时,对于输入向量当中的一些无关特征向量上,会使得取得的问题具有较高的复杂性,降低成功预测的可能性。在基础行情方面,一般情况下主要的指标为涨幅、成交量、持仓量、最高价、最低价以及收盘价,但是对于股票的技术性指标分析上,则需要重视起对MA5、CCI、OBV以及RSI等指标的分析。而在对实际的股票数据进行分析的过程中,由于在基础行情指标,以及在技术性指标当中信息数据可能会存在相同的情况,为此在进行问题解决的过程中,会存在着一定的困难。因此针对这种问题,需要在分析的过程中,利用主成分分析方法来进行处理,对问题进行降维。获取均线,MACD等指标数据。data[‘5’]=data.close.rolling(5).mean()data[‘20’]=data.close.rolling(20).mean()data[‘60’]=data.close.rolling(60).mean()DIFF,DEA,hist=talib.MACD(data[‘close’],fastperiod=fastperiod,slowperiod=slowperiod,signalperiod=signalperiod)data[‘CCI’]=talib.CCI(data.high,data.low,data.close,timeperiod=14)data[‘upperband’],data[‘middleband’],data[‘lowerband’]=talib.BBANDS(data.close,timeperiod=20,nbdevup=2,nbdevdn=2)(二)分类问题的基本流程现阶段提出了各种类型的分析方法和建模的方式,但是对于机器学习领域分类方面,采用的流程比较相似,例如需要进行模式设计以及学习模式的设计。在统计学理论下,设计模式主要体现于训练集进行集中的训练,以此获取到一个分类器。对于学习模式而言,主要是在训练的过程中,利用各种参数进行训练,最后再对其测试集进行相应的测试,并对测试的结果进行分类决策分析。(三)数据预处理首先需要进行缺失值的处理,本文对A股当中出现的财务指标数据进行分析,但是对于另一些公司而言,一旦在一段时间内停牌,就会导致数据并不会很好的体现财务指标,为此就造成了数据的缺失值出现。对于这一部门的缺失值处理,就需要进行手工的处理,将数据进行补全。但是一旦出现了大量的缺失值,就需要对数据进行删除。其次对原始数据处理之外,还需要对数据经行标准化在多维样本数据中,由于每个标量都来自不同的字段并且具有不同的值范围,因此不同的分量具有不同的数据大小,并且较大的分量也非常大。对模型的影响越大,组件越小,对模型的影响就越小。这就像在构建模型之前人为地将权重添加到其他指标一样比例。甚至丢失了一些信息,使其变得非常不科学。另外,由于计算机可以表示的数据的精度是有限的,所以如果单个数据太大或太小,则计算出的数据将很容易越界并丢失信息。基于以上考虑,必须在一定程度上处理选择的原始数据,数据处理具体步骤如下:1.去极值:一般去极值的处理方法就是确定该项指标的上下限,然后超过或者低于限值的数据统统即为限值。2.缺失值处理:得到新的因子暴露度序列后,将因子暴露度缺失的地方设为中信一级行业相同个股的平均值。3.行业市值中性化:将填充缺失值后的因子暴露度对行业变量和取对数后的市值做线性回归,取残差作为新的因子暴露度。4.标准化:将中性化处理后的因子暴露度序列减去其现在的均值、除以其标准差,得到一个新的近似服从N(0,1)分布的序列。5.主成分分析:为避免特征之间的共线性,对标准化处理后的指标等因子暴露度进主成分分析,得到维度转换后的新特征。(四)模型参数寻优在应用支持向量机对其分类的问题进行预测的过程中,需要进行惩罚参数C以及核函数G的确定,一旦这两个影响因素无法确定,就会出现过度学习的问题。在对C和G进行确定的过程中,主要是利用遗传算法进行参数的寻找,但是在本文的分析过程中,采用了粒子群算法之后,可以利用其智能优化的算法类型,进行寻优机制的优化处理,以此寻找到最优解。使用风格搜索寻找最佳参数。grid_search=GridSearchCV(SVC(),param_grid,cv=5,return_train_score=True)grid_search.fit(X_train_scaled,y_train)表1训练结果mean_train_scoremean_test_scoreparam_Cparam_gammarank_test_score1.00.5260351000.01351.00.5616991000.1311.00.574980100111.00.5749801001011.00.5749801001001图1参数搜索热力图(五)模型的评价指标在本文的分析过程中,需要对建立起来的模型进行系统分析和检验,为此需要应用到股票价格的分类预测。之后再将预测的结果,在不同高斯核函数下,对建立起来的SVM预测模型进行数据的比较分析。(六)模型总流程首先需要取A股的股票数据,之后再依据历史的行情,将行情的变量以及技术指标的变量输入其中。之后利用主成分分析方法,对其输入的向量数据进行系统的分析和降维,这样的处理方式,可以有效地降低模型的复杂程度。然后需要使用最优核函数,建立起动态分类预测模型,同时在对建立起来的动态预测模型上,输入行情指标以及技术指标,这样便建立起来较为合适的交易策略。(七)分析结论在对支持向量机进行模型进行分类的过程中,其输入向量的确定,起到关键的作用。对于股票市场而言,股票的各种指标,会受到大宗商品的影响,对于输入向量的合理处理,是进行问题解决的关键所在。相比较其他类型的机器学习算法处理方式,在本文的技术分析过程中,对于股票的预测效果比较好。同时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论