基于频繁特征模式挖掘的期货市场单边运行深度的预测_第1页
基于频繁特征模式挖掘的期货市场单边运行深度的预测_第2页
基于频繁特征模式挖掘的期货市场单边运行深度的预测_第3页
基于频繁特征模式挖掘的期货市场单边运行深度的预测_第4页
基于频繁特征模式挖掘的期货市场单边运行深度的预测_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于频繁特征模式挖掘的期货市场单边运行深度的预测 摘 要 金融市场是一个受多种因素影响的、庞大的系统,具有非常复杂的运动规律,金融时间序列中必定蕴含了金融系统诸多的客观规律信息。本文将以商品期货作为基本的研究对象,引入数理统计的思想,将市场按照运行规律进行数据切分,形成单边模式序列与震荡点序列。在此基础上,结合领域知识以及金融时间序列数据的特征,通过改进的频繁特征模式挖掘算法,对单边运行深度的比例进行实时预测。 关键词 商品期货;数理统计;频繁特征模式挖掘 doi : 10 . 3969 / j . issn . 1673 - 0194 . 2015 . 17. 063 中图分类号 F746.16 文献标识码 A 文章编号 1673 - 0194(2015)17- 0120- 02 1 基于市场行为的时间序列切分及表示方法 为了对原始时间序列数据进行维约简,传统的时间序列数据建模通常采用分段表示的方法,整体可划分为2类:基于时域的分段表示方法与基于变换域的分段表示方法。 对于本文的基本研究对象商品期货,为充分还原其主要的市场特征,即单边运行模式及震荡情形,本文引入数理统计中线性回归的思想,基于市场行为,对时间序列进行切分处理。 在对时间序列数据进行切分时,针对每个子序列进行线性回归,当切分得到的子序列的回归判定系数R2大于设定的阈值r时,可将时间序列中的下一个数据点加入该子系列中继续计算,否则,可将当前数据点视为切分断点,从该数据点开始搜寻下一个子序列,直至整个序列搜索完毕或到达最新时间点。对于切分后得到的数据,长度达到3及以上的子序列,即可视为市场单边模式序列,采用线性回归结果进行描述;对于切分断点,相连即得到市场震荡点序列。 以伦敦金属交易所(LME)交易品种之一的伦铜期货为主要研究对象,将2001年1月2日至2015年5月12日的伦铜指数日交易数据的收盘价作为样本,进行数据的切分处理以及后续的规律挖掘,其中回归判定系数阈值r设定为0.7。 具体可获得3 632个交易日的交易数据,包括各交易日的开盘价、收盘价、最高价、最低价、成交量、持仓量等信息,如表1。 按照上述算法描述,对3 632个交易日收盘价序列进行数据切分,获得单边模式序列及震荡点序列。 如图1所示为2015年3月13日至2015年4月17日40个交易日的收盘价序列的切分结果。 对于切分后得到的线段序列,每个线段序列以2个属性进行描述:单边模式/震荡调整持续时间、单边模式/震荡调整趋势幅度。 2 关于单边运行深度预测的频繁特征模式挖掘 本节在市场切分后,基于改进的频繁特征模式挖掘过程,对单边运行的深度进行预测。着重研究对切分得到的单边模式序列及震荡点序列的符号化表示,在此基础上基于互关联后继树模型的频繁特征模式挖掘算法,以及通过频繁特征模式匹配实现单边运行深度预测的过程。 传统的时间序列频繁特征模式挖掘基本上可概括为两阶段:序列特征的描述及挖掘算法的设计。即首先利用移动时间窗口对时间序列进行分段,并对各个子段进行聚类,利用形成的符号对序列特征进行描述。在此基础上,利用关联规则挖掘思想及算法,对上述符号化序列进行频繁特征模式发现。本文提出,对切分后得到的线段序列,结合市场实际运行特征,对线段在时间轴上的长度及线段的斜率分别进行符号化,利用得到的二维属性组进行频繁特征模式挖掘。 基于上节思想,将2001年1月2日至2015年2月5日的伦铜指数日交易数据作为样本,设定回归判定系数阈值为0.75,进行数据切分,获得了单边模式序列及震荡点序列。对上述1070组切分后形成的线段序列,针对震荡点序列与单边模式序列,按照不同的策略,选取二维属性组(持续时间分类标记、运行深度分类标记),进行符号化表示: 将震荡点序列的持续时间分类标记设为10,运行深度分类标记设为100; 将单边模式序列持续时间分类标记按照超短期、短期、中期、长期分别设为1、2、3、4,运行深度按照是否超过相邻的上一单边模式序列的深度分别设为1、-1。 在对上述样本数据切分后形成的1 070组线段序列选取二维属性组(持续时间分类标记、运行深度分类标记),进行符号化表示的基础上,将2001年至2011年涵盖的833组符号化的线段序列作为主要的训练数据,根据基于互关联后继树频繁特征模式挖掘过程,对其建立tSIRST(时间序列互关联后继树)模型,设定最小支持数阈值,并基于tSIRST模型进行频繁特征模式挖掘。表2所示为设定最小支持数为3,最小置信度为70%情况下,挖掘得到的频繁特征模式。 根据频繁特征模式的挖掘结果,设定最小置信度阈值进行筛选,利用筛选后的频繁特征模式,对2012年至2015年市场实时跟踪得到的特征模式进行滚动匹配,以实现对单边运行深度的预测。 通过精确的频繁模式匹配,实现对单边运行深度的预测,对预测效果的评价设定以下指标:预测准确率、模式覆盖市场机会比率、模式覆盖市场幅度比率。 预测准确率是对挖掘得到的频繁规则在实时跟踪中真实的预测效果的评价。模式覆盖市场机会比率、模式覆盖市场幅度比率,反映了挖掘得到的频繁规则的市场应用价值。其比率越高,说明通过该方式可把握的市场机会越多,参与市场的收益越高。 综上,基于改进的频繁特征模式挖掘过程,对2012年至2015年,伦铜市场单边运行深度进行滚动预测,预测结果如表2所示,其中因样本期内2015年切分后数据较少,将其与2014年合并预测,在频繁特征模式挖掘过程中,设定支持数阈值等于3,设定置信度阈值等于0.6。 表2表明,在设定的置信度阈值等于0.6时,通过挖掘得到的频繁特征模式数较多,模式覆盖的市场机会及市场幅度比率都相对较高,但由此进行的频繁特征模式匹配以实现对单边运行深度的预测,准确率较上述情况偏低。 3 结 论 综上所述,对市场切分后得到的单边模式序列及震荡点序列,选取二维属性组(持续时间分类标记、运行深度分类标记),进行符号化表示,在此基础上,建立互关联后继树

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论