R语言环境下数据挖掘技术的量化投资实证研究--以预测上证指数收益为例.docx_第1页
R语言环境下数据挖掘技术的量化投资实证研究--以预测上证指数收益为例.docx_第2页
R语言环境下数据挖掘技术的量化投资实证研究--以预测上证指数收益为例.docx_第3页
R语言环境下数据挖掘技术的量化投资实证研究--以预测上证指数收益为例.docx_第4页
R语言环境下数据挖掘技术的量化投资实证研究--以预测上证指数收益为例.docx_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

同济大学 管理信息系统课程报告R语言环境下数据挖掘技术的量化投资实证研究 以预测上证指数收益为例【摘要】 目前,数据挖掘和R语言是学术界和工业界中的两个关键技术。在投资业,各种渠道提供的海量信息以及高频金融交易数据都在深刻地影响这个行业的发展以及金融市场的有效性。信息系统的发展以及统计工具的进步,都为投资者提供了一种向大数据要收益的可能性。在大数据时代背景下,各种针对数据挖掘技术的发展将在量化投资中得到应用,为投资者带来更大的回报。本报告运用R语言环境下的数据挖掘技术,构建了基于人工神经网络、支持向量机和多元自适应回归样条等预测模型的交易系统,以预测上证指数收益为实证研究对象,得到了非常好的收益效果,验证了R语言数据挖掘技术在量化投资领域推广和使用的优势。【关键词】 R语言 数据挖掘 量化投资 上证指数目录1 绪论41.1 研究背景及意义41.2 研究内容41.3 报告技术路线52 文献综述62.1量化投资起源与发展现状62.1.1量化投资起源62.1.2量化投资国内外发展62.1.3量化投资的应用82.2数据挖掘技术92.2.1 数据挖掘技术概述92.2.2 数据挖掘在量化投资的应用102.3 R语言简介与特点113 案例导入及预测参数143.1问题描述143.2数据来源和格式143.2.1上证指数143.2.2计算与修正153.2.3数据格式183.3模型参数与定义183.3.1目标变量183.3.2预测变量203.4 预测任务及评估标准214预测模型234.1建模方法234.2人工神经网络(ANN)234.3支持向量机(SVM)254.4多元自适应回归样条(MARS)264.5模型实践与交易评价标准274.5.1模型应用274.5.2交易相关评价准则284.5.3交易模拟(以支持向量机为预测模型)285实证评价及模型选择325.1蒙特卡洛估计325.2结果分析335.3交易系统实证结果346 报告结论与展望38参考文献39附录42附录一:符合3个约束的15个模型变体详细结果42附录二:15个模型变体显著性分析结果47附录三:实证研究过程示意501 绪论1.1 研究背景及意义量化投资产生于1970年代末,在此后的30多年中,其得到了长足的发展。量化交易是国际金融市场常用的交易方式,量化投资在纽交所交易量中占比一直不低于30%1。根据巴克莱的统计2,3,从1988年以来,巴克莱量化交易团队量化投资团队的年化复合收益为11.50%,而定性交易团队的平均年化收益为9.77%。根据Bloomberg数据统计2,3,从资产规模上来看,截至2008年11月4日,全球1184只量化基金管理的总资产高达1848亿美元,相比1998年21只量化基金管理的80亿美元资产来说,年平均增长率高达15%,而同期的数据显示,非量化基金的年增长率仅为8%。全球范围内,越来越多的投资者进入量化投资这个领域,量化投资己经成为一种主流的投资方式。如今,金融改革和金融创新在上海的未来发展中占据着至关重要的位置。国家根据发展的全局统筹推出上海自由贸易试验区,进一步推进上海四个中心建设,将为中国的金融改革提供丰富的经验,也将带来巨大的投资机遇。金融市场的逐步开放将会大大促进金融创新的步伐,给投资者带来越来越多的投资渠道,同时也将加速中国金融市场与国际金融市场的融合。毫无疑问,很多国外成熟的投资工具和投资方法将逐步进入中国市场。以期货市场为代表的衍生品市场将迎来飞速增长,以量化投资为代表的投资方法也将得到投资者更大的关注。同时,在这个信息科技高速发展的变革时代,每个行业都面临着大数据时代带来的挑战。在投资业,各种渠道提供的海量信息以及高频金融交易数据都在深刻地影响这个行业的发展以及金融市场的有效性。信息系统的发展以及统计工具的进步,都为投资者提供了一种向大数据要收益的可能性。在大数据时代背景下,各种针对大数据处理的技术的发展将在量化投资中得到应用,为投资者带来更大的回报。1.2 研究内容本报告不沉溺于复杂的数据挖掘算法研究,主要研究R语言环境下数据挖掘技术的实现及其实证结果。本报告的研究问题是:在R语言环境下,通过对长时期的证券交易价格序列数据进行数据挖掘,构建基于人工神经网络网络、支持向量机和多元自适应回归样条的交易系统对当前价格序列进行匹配,并对未来价格序列进行预测,选择统计显著性较好的模式匹配,做出交易,使得收益率最高。1.3 报告技术路线下文按以下顺序组织:第二部分对量化投资起源、发展,数据挖掘的基本算法及其在量化投资的运用和工具R语言等方面研究进行综述;第三部分对此次数据挖掘的案例问题进行介绍并建立各预测参数,为后文奠定基础;第四部分在第三部分的基础上进行预测模型的建立,同时构建基于人工神经网络,支持向量机和多元自适应回归样条为预测模型的交易系统;第五部分以预测上证指数收益为例,实际验证了交易系统的有效性。第六部分为报告结论与展望。图1.1 报告技术路线图2 文献综述2.1量化投资起源与发展现状2.1.1量化投资起源20世纪90年代以来,数学、金融、计算机技术和全球经济形成相互融合的趋势,而量化投资就是目前紧密结合这些知识技术的一个综合性领域。可以预见,随着大数据时代的到来,量化投资技术将发展到另一个顶端。量化投资是指以大量与投资相关的各种历史数据为样本数据,如股票价格、投资组合的到期收益率、日成交量、日成交额等,通过建立合适的数学模型和数学公式,编写高效的计算机程序,研究分析金融产品未来的收益和风险情况,判断各种可能出现的走势行情的概率,并且大多利用程序化的手段实现下单和交易。在量化投资过程中,投资人员需要将投资思想转化为投资模型;借助数据,投资人员可以检验投资模型的有效性;其中有效的投资模型,将被用来指导交易。在投资过程中,投资模型的纪律性可以帮助投资人员规避交易过程中的心理偏差,严格执行交易策略,以获取预期的收益结果。量化投资理论,在其诞生之时,就因其独特魅力而吸引了众多投资者的注意。量化投资策略的核心思想是通过对市场规律的观察与总结,试图寻找出市场中各个因素与股票未来收率之间的潜在关系,构建具有较大概率获胜的投资组合,从而获得概率意义上超额回报。与传统的投资方法相比,量化投资策略因其受投资者主观影响小而具有纪律性、系统性、及时性和准确性的特点。2.1.2量化投资国内外发展量化投资方法起源于100多年前,但是在过去的30年间才于国外得到迅速发展,据估计目前量化投资交易巳经占到全球交易总量的30%以上。国际上,在投资基金中以量化投资作为工具的资产更是高达数千亿美元。在证券市场中,以一定的数量化关系作为投资策略参考与指导的历史最早可以追溯到道氏理论,其核心是通过研宄股票价格或者股市指数的历史轨迹以分析和预测其未来走向和发展趋势。根据道氏理论,股市的涨落可以被分为主导潮流、次级运动与日常波动三种类型,由于次级运动与日常波动包含较强的随机性,难以被人们的理性所预测和捕捉,并且具有持续时间短的特征,因此,与此相比的主导潮流对投资者而言就格外重要。道氏理论详细地阐述了牛市和熊市中,股市运动的特征,并指出了判断股市主导潮流的策略。在此之后,试图从历史信息中挖掘有用信息,以对金融市场的下一期走势进行预测的经验性方法如雨后春第般发展起来,包括有Schabacker4通过对通用的图表形态进行分类,提出“缺口”理论,因此被后世称作“技术分析科学之父”。随后,Elliott5通过对市场的波动循环形态进行研究,结合“黄金分割”理论,提出了著名的“艾略特波浪理论”。受此启发,市场参与者对于图表的分析研究又进一步向前发展,出现了诸如K线分析、柱状图分析、点数图分析、移动平均线分析、趋势分析、形态分析、角度分析、神秘级数分析与四度空间分析等多种技术分析理论。这些方法直接依赖于历史数据形成的图表,具有思想朴素,应用直观的优点。但是这种方法同样因其缺乏严格的理论依据,过度依赖投资者的主观判断与经验而受到广泛的质疑。上世纪六十年代,随着时间序列分析方法被引入金融领域,人们开始尝试使用这类方法来对股市进行预测。其中,最先被引入研究的是线性模型,以此为基础,Schelcman6通过自回归模型(Auto Regression)对法兰克福股票市场进行预测,而取得了令人满意的结果。随着非线性理论的发展,混沌理论与分形理论也被应用到了对股价行为的规律性研究中,预测理论家Gordon7认为,混沌理论开辟了预测研究的新领域,为复杂系统的预测提供了新的理论基础与方法。在此领域,1989年,美国学者LeBaron8证实了股票市场中日收益率序列和周收益率序列中存在着混沌现象;同时,分形学创始人Mandelbrol9通过对股票价格变动规律的研究,从股价变动的分布情况及分布的相似性方面,证明了股价的变化符合分形理论;进一步地,Farmer10和Sidorowich通过对股市中时间序列的研究,观察系统的相图结构,借助数值计算方法,从而得到了系统的Lyapunov11指数,以此验证了证券市场中混沌的存在,他们利用非线性动力学中的相空间重构思想对股价的时间序列进行处理,并基于重构相空间,利用小波理论对股市进行了预测。量化投资策略在在中国市场的起步较晚,在我国1990年设立证券交易所后的几年内,由于上市公司数量少,市场规模小,市场走势很容易遭到庄家与上市公司的联手操纵,导致市场情况变幻莫测。同时,由于当时资本市场的运行机制正处于摸索期,无论是法制还是监管均存在很大的不足,从而导致了证券价格的形成机制并非完全市场化,为量化投资策略的实现带来了很大的困难。经过了十几年的不断自我完善,我国的股票市场环境不断地处于完善中,证券法的颁布象征了国家加大对证券市场监管力度的决心,随着国有股减持、社保基金入市、QFII制度实施、中小板启动、股权分置改革、QDII制度实施、创业板揭开帷幕等一系列制度与改革措施的实施,极大程度地完善了中国证券市场。在良好的市场环境下,上市公司的数目不断增加,市场规模也逐步扩大,中国的A股市场已于2009年超越日本,成为全球市值第二的股票市场。2009年,中国终于开启“量化投资元年”,国内的投资者才开始慢慢重视起量化投资交易。从2010年起,我国已有了 12只量化投资基金。随着融资融券业务的启动,股指期货市场也与2011年春季启动,如今国债期货、指数期权产品也正在酝酸之中。市场规模的深化,投资工具的不断完善都将为量化投资的发展提供足够的土壤。伴随着大数据时代的到来,国内金融机构已经将量化投资作为发展战略之一,量化投资在中国正处于急速起飞阶段。关于量化投资的研究,国内主要有丁鹏2(2012年)比较全面的归纳研究了量化投资的各种策略和涉及到的理论知识,另外还有各大金融机构的投资研究部门在其发表的研究报告中针对量化投资涉及到的各种理论基础做了详细研究,但是研究内容仍然不够全面。2.1.3量化投资的应用中国股票市场成立已经 20 余年,在这期间,相应法律法规和制度建设日益完善,市场中的参与者也越来越多,经过 2005 年股权分置改革,中国股票市场快速健康发展并不断壮大,可投资品种也越来越多。市场产品的增加为各种投资方式的发展提供了历史机遇,与此同时,机构投资者对量化投资的关注程度也越来越高。量化投资范围非常广,几乎覆盖了投资的全过程,包括量化资产配置、量化择时选股、期货套利、统计套利、算法交易,以及风险管理等等。量化资产配置是指大类资产类别的选择(固定收益类、权益类、大宗商品等),投资组合中各类资产的配置比例以及对这些混合资产进行的实时跟踪。借助于投资组合理论及各种资产的公开数据,量化模型可以确定各大类资产的投资选择和投资权重。此外,随着全球金融市场的透明度越来越高,数据也越来越容易获得,量化模型可以完成全球范围内的资产配置,拓宽投资领域,优化投资效果。量化择时是通过对投资标的的相关数据进行分析,以做出标的后续发展的预测。股市的可预测性问题与有效市场假说密切相关。Fama,E12提出有效市场假说,并将有效市场分为三种不同程度的有效:弱式有效市场、半强式有效市场和强式有效市场。如果市场弱有效,在关于股票历史价格的信息都被包含入当前市场价格中,技术分析失效;若市场半强式有效,则公开的关于股票的所有信息都已被当前市场价格所反应,从而使得技术分析和基本面分析都失效;若市场强式有效,则关于股票的所有信息都已经反应到当前股票价格中,从而使得包括分析内幕消息在内的所有分析失效。由于现阶段证券市场还没有达到有效市场的要求,因此量化分析者需要分析和标的证券相关的各种各样的信息,并建立各种模型对标的证券的发展给出预测。量化选股是借助上市公司的相关基本面数据和交易数据,建立恰当的模型(比如APT),判断某个公司的买入、卖出方向及数量。当满足组合入选条件时,该股票可入选股票池;若不满足,则需从股票池中剔除。量化投资策略根据一些量化的指标来指导投资决策,这些指标可以是技术分析学派使用的,如价格、成交量、成交额、移动平均线数据等,也可以是学术分析学派使用的,如货币供应量、公司财务指标等,也可以是心理分析学派使用的,如投资者情绪指标、分析师综合预测等。量化投资策略就是根据这些可以获得的能够量化的信息,对其进行统计学上的分析,并加以金融建模,通过运用计算机程序进行日常的决策和交易。2.2数据挖掘技术2.2.1 数据挖掘技术概述关于数据挖掘有很多相近的术语,如:数据库中的知识发现(Knowledge Discovery in Databases, KDD)、知识挖掘、知识提取、数据/模式分析、数据融合等。其中,最常使用的是数据挖掘和知识发现,并且二者在使用中常常不加区分。数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的规律表示出来13。目前,数据挖掘的任务有关联分析、聚类分析、分类分析、演变分析和异常分析等。1)关联分析关联分析是寻找数据项之间感兴趣的关联关系,用关联规则的形式描述2,例如:我们可以通过对超市交易数据的分析可能得出“85%购买尿布的客户也购买了啤酒,并且购买尿布的总次数占所有购物次数的百分比为8%”这样一条“啤酒”和“尿布”之间的关联规则。关联分析技术己经应用于很多方面,如银行系统从跟踪信用卡的消费数据中,发现特定客户群体的消费习惯和行为特征;网站设计者或运营者根据web服务器记录的网站访客的日志数据,发现访客的浏览习惯和网站页面间的关联等。2)聚类分析聚类分析是根据最大化簇内的相似性、最小化簇间的相似性的原则将数据对象集合划分成若干个簇的过程14,15。相似性是定义一个簇的基础,聚类分析过程的质量取决于簇相似性函数的设计。样本间的距离函数是常用的相似性度量标准,然而属性的数据类型不同,其距离函数定义也不同。聚类分析己被广泛应用于经济学、生物学、地质学等多个领域,如在市场营销中,根据客户的购物积分卡记录中的购物次数、时间、性别、年龄、职业、购物种类、金额等信息,进行聚类分析,帮助市场分析人员从交易数据库中发现不同的客户群;在生物学中,如通过对基因的聚类分析,获得对种群的认识等。3)分类分析分类分析是找出描述并区分数据类的模型(可以是显式或隐式),以便能够使用模型预测给定数据对象所属的数据类。例如:信用卡公司可以将持卡人的信誉度分类为:良好、普通和较差三类。分类分析可能给出一个信誉等级的显式模型为:“信誉良好的持卡人是年收入在10万元到50万元之间,年龄在30至45岁之间,居住面积达150平方米以上的人”。这样对于一个新的持卡人,可以根据他的特征预测其信誉度。分类技术已经在各个行业得到了广泛应用。例如,在医疗诊断中,当遇到一个病例时,分类分析可用于辅助判断从哪类药品着手更好;在税务稽查中,用分类预测纳税人是否有逃漏税行为,或者逃漏税等级等。4)异常分析异常分析是发现数据对象集中明显不同于大部分数据对象(具有相似性)的数据对象(称为异常对象)的过程16。一个数据集中大部分对象相似,而异常对象和它们都不相似,因此,很多情况下异常对象都是孤立点。异常分析己成为数据挖掘中的一个重要方面,它是在诸如信用卡使用模式这样的大量数据中发现明显不同于其他数据的异常对象的技术,已在欺诈甄别、网络入侵检测等领域有着广泛的应用。5)演变分析演变分析(evolution analysis)是一种用于描述对象行为随时间变化的规律或趋势,并对其建模,以预测其未来形式的技术。例如:通过对股票交易数据的演变分析,可能会得到“89%情况股票X上涨一周左右后,股票Y会上涨”的一条知识。演变分析技术已在各个领域得到了良好的应用,如对国民生产总值(GDP)的预测,以大致了解在未来一年内经济发展的总体特征,从而制定相应的政策;或是投资机构与股民对所持股票的涨跌幅度的预测,从而决定投资方向等。2.2.2 数据挖掘在量化投资的应用相对于传统投资采用抽样技术建立数学摸型的投资分析技术,数据挖掘技术能挖掘到更多金融产品的信息,更能反映金融产品价格的变化规律,并能严谨地分析金融产品投资的几个环节:研究金融产品信息、挖掘历史交易规律、分析当前交易情况、预测未来收益和风险情况、做出投资决定。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘技术在量化投资中的应用主要有关联分析、聚类分析、分类、预测等。关联分析是研究两个或两个以上变量的取值之间存在的某种规律性。例如,研究某只股票的成交量发生变化后,未来一段时间内股票价格的变化,即研究成交量和股价之间的关联关系。关联分析的目的是找出当某件事情发生之后引起另外一件事情发生的关联规则。关联分析的方法主要有Apriori算法和FP-growth算法。聚类分析就是利用数据的相似性判断出数据的聚合程度,将具有相似性质的对象归为一类,使得同一个类别中的数据尽可能相似,不同类别的数据尽可能相异。聚类分析方法主要有层次聚类、谱聚类、K-means聚类等,其中以层次聚类最为广泛。在聚类分析中,我们常常需要给出度量训练样本中对象之间相似性或者相异性的距离定义。聚类分析也可用于对股价的预测,在量化投资中有显著的作用17。分类就是提出一个类别的概念描述,是指利用训练数据集通过一定的算法而求得分类规则,将每个对象分到合适的类别中,其中分类规则代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,例如,银行可使用分类技术对客户的信用记录进行分类分析,为客户做信用评级。预测是指通过建立计量模型且基于历史数据模拟出某对象的历史变化规律,并由此估计出该对象的未来变化情况。预测关心的是精度和不确定性,另外,预测结果往往具有时效性,预测的未来时间跨度越远,预测结果越不准。2.3 R语言简介与特点R是一种为统计计算和图形显示而设计的语言环境,是贝尔实验(AT&T Bell Laboratories)的Rick Becker,John Chambers和Allan Wilks开发的S语言的一种实现。作为同样以S语言作为基础的S-plus,R和S-plus两者在程序语法上可以说是几乎一样的,可能只是在函数方面有细微差别,R程序十分容易地就能移植到S-plus程序中,而很多S-plus的程序只要稍加修改也能运用于R程序中。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行UNIX,windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统。R是一组数据操作、计算和图形显示工具的整合包。虽然R软件是免费软件,但它拥有很多其他收费软件如SAS和SPSS没有的优点:1) R具有有效的数据处理和保存机制。2) R拥有一整套数组和矩阵操作运算符。3) R具备一系列连贯而又完整的数据分析中间工具。4) R的图形统计可以对数据直接进行分析和显示,可用于多种图形设备。5) R可以处理不同类型的数据,如数字或非数字的数据也可以一并处理,应用层面广泛。6) R是一种面向对象的可编程(Programmable)语言。尺作为一个开放的统计编程环境,语法通俗易懂,很容易学会和掌握R语言的语法。而且学会之后,我们可以编制自己的函数来扩展现有的R语言。此外,R和其它编程语言、数据库之间有很好的接口。7) R是免费软件(Freeware)。这意味着它是完全免费,开放源代码的。我们可以在它的网站及其镜像中下载任何有关R的安装程序、源代码、程序包(Packages)及其源代码、文档资料。标准的R安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。R具有丰富的网上资源,更为重要一点的是R提供了非常丰富的程序包,除了推荐的标准包外还有很多志愿者贡献的贡献包,可以直接利用这些包,大大提高工作效率。8) R具有很强的互动性(Interactive)。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足客户的需要。输出的图形可以直接保存为JPG、BMP、PNG等图片格式,还可以直接保存为PDF文件。9) 如果加入R的帮助邮件列表(Rhelp mailing list),每天都可能会收到几十份关于R的邮件资讯。你可以和全球一流的统计计算方面的专家讨论各种问题。基于R语言这样一些特点,本研究最终选择了R语言作为数据挖掘工具。下表详细列出了本报告实证研究使用的R添加包。表2.1 本报告将使用的R添加包R添加包名称XTS/ZOO时间序列数据集QUANTMOD金融分析工具箱TTR技术指标工具箱nnet神经网络Kernlab/e1071支持向量机earth多元自适应回归样条DMwR交易系统PerformanceAnalytics技术分析工具箱3 案例导入及预测参数3.1问题描述在股票、外汇、期货等市场应用数据挖掘是个具有巨大潜力的应用领域。在国外,这些交易标的都已经累计了超过50年的数据,在国内,也有10余年的“数据仓库”存在。面对这样庞大的历史数据,人工对这些数据进行检测时很困难的,而数据挖掘技术对大数据具有先天的优势。另一方面,尽管2013诺贝尔经济学奖得主Eugene F. Fama于上世纪70年代提出的有效市场假说理论表示:市场在价格调整上适应之快,以至于根本没有空间获得稳定的收益。此理论先后被一些宽松的版本取代,即由于短暂的市场无效,市场还是具有交易空间的。股票交易的总体目标是维持一个基于买卖订单的多种股票组合。长期目标是从这些股票交易中获取尽可能多的利润。为了更加侧重表达数据挖掘技术在股票市场的应用,我们在本报告中对股票组合进行简化,用单一的股票市场指数上证指数来代替。对于给定的证券和初始资金,我们将常识通过交易行为(买入、卖出、持有)20,在未来一段时间测试期使得交易最大化。应用数据挖掘技术得到结果给出信号,然后据此作为决策的基础来制定交易策略。在该过程中,我们应用上证指数的历史数据来预测未来指数的变化。因此我们的预测模型将包含进一个交易系统中,该交易系统应用模型的预测结果来生产决策。总体的评估标准是交易系统的交易所产生的收益、回撤、以及对投资者有意义的其他指标。3.2数据来源和格式3.2.1上证指数上证综指即“上证综合指数”-(上海证券综合指数),英文是:Shanghai (securities) composite index. 通常简称:“Shanghai composite index”(上证综指) 。“上海证券综合指数”它是上海证券交易所编制的,以上海证券交易所挂牌上市的全部股票为计算范围,以发行量为权数综合。上证综指反映了上海证券交易市场的总体走势18。本报告中,我们选取了2007年1月4日至2014年10月17日的上证指数数据(数据来源:雅虎财经19)。3.2.2计算与修正3.2.2.1指数计算方法 1.计算公式(1)上证指数系列均采用派许加权综合价格指数公式计算。(2)上证180指数、上证50指数等以成份股的调整股本数为权数进行加权计算,计算公式为:报告期指数=(报告期样本股的调整市值/基期)1000 其中,调整市值=(股价调整股本数)。上证180金融股指数、上证180基建指数等采用派许加权综合价格指数方法计算,公式如下:报告期指数=(报告期样本股的调整市值/基期)1000其中,调整市值= (股价调整股本数权重上限因子),权重上限因子介于0和1之间,以使样本股权重不超过15%(对上证180风格指数系列,样本股权重上限为10%)。调整股本数采用分级靠档的方法对成份股股本进行调整。根据国际惯例和专家委员会意见,上证成份指数的分级靠档方法如下表所示(表3.1):流通比例(%)10(10,20(20,30(30,40(40,50(50,60(60,70(70,8080加权比例(%)流通比例20304050607080100比如,某股票流通股比例(流通股本/总股本)为7%,低于10%,则采用流通股本为权数;某股票流通比例为35%,落在区间(30,40内,对应的加权比例为40%,则将总股本的40%作为权数。(3)上证综合指数等以样本股的发行股本数为权数进行加权计算,计算公式为:报告期指数=(报告期成份股的总市值/基期)基期指数其中,总市值= (股价发行股数)。成份股中的B股在计算上证B股指数时,价格采用美元计算。成份股中的B股在计算其他指数时,价格按适用汇率(中国外汇交易中心每周最后一个交易日的人民币兑美元的中间价)折算成人民币。(4)上证基金指数以基金发行份额为权数进行加权计算,计算公式为:报告期指数=(报告期基金的总市值/基期) 1000 其中,总市值= (市价发行份额)。(5)上证国债指数以样该国债在证券交易所的发行量为权数进行加权,计算公式为:报告期指数=(报告期成份国债的总市值+报告期国债利息及再投资收益)/基期100 其中,总市值= (全价发行量);全价=净价+应计利息报告期国债利息及再投资收益表示将当月样该国债利息收入再投资于债券指数本身所得收益。(6)上证企债指数采用派许加权综合价格指数公式计算。以样该企业债的发行量为权数进行加权,计算公式为:报告期指数= (报告期成份企业债的总市值+ 报告期企业债利息及再投资收益)/基期100其中,总市值 = (全价发行量)报告期企业债利息及再投资收益表示将当月样该企业债利息收入再投资于债券指数本身所得收益。(7)上证公司债指数采用派许加权综合价格指数方法计算,公式如下:报告期指数= (报告期指数样本总市值+ 报告期公司债利息及再投资收益)/基期基值其中,总市值= (全价发行量)报告期公司债利息及再投资收益表示将当月付息指数样本利息收入再投资于债券指数本身所得收益。(8)上证分离债指数采用派许加权综合价格指数方法计算,公式如下:报告期指数= (报告期指数样本总市值 + 报告期分离债利息及再投资收益)/基期基值 其中,总市值 = (全价发行量)报告期分离债利息及再投资收益表示将当月付息指数样本利息收入再投资于债券指数本身所得收益。2.指数的实时计算上证指数系列均为实时计算。具体做法是,在每一交易日集合竞价结束后,用集合竞价产生的股票开盘价(无成交者取昨收盘价)计算开盘指数,以后每大约2秒重新计算一次指数,直至收盘,每大约6秒实时向外发布。其中各成份股的计算价位(X)根据以下原则确定:1 若当日没有成交,则 X = 前日收盘价;2 若当日有成交,则 X = 最新成交价。3.2.2.2指数修正1. 修正公式上证指数系列均采用“除数修正法”修正。当成份股名单发生变化或成份股的股本结构发生变化或成份股的市值出现非交易因素的变动时,采用“除数修正法”修正原固定除数,以保证指数的连续性。修正公式为:修正前的市值/原除数=修正后的市值/新除数其中,修正后的市值 = 修正前的市值+ 新增(减)市值;由此公式得出新除数(即修正后的除数,又称新基期),并据此计算以后的指数。2. 需要修正的几种情况(1)新上市。对综合指数(上证综指和新上证综指)和分类指数(A股指数、B股指数和行业分类指数),凡有成份证券新上市,上市后第十一个交易日计入指数。(2)除息。凡有成份股除息(分红派息),指数不予修正,任其自然回落。(3)除权。凡有成份股送股或配股,在成份股的除权基准日前修正指数。修正后市值 =除权报价除权后的股本数+修正前市值(不含除权股票);(4)汇率变动。每一交易周的最后一个交易日,根据中国外汇交易中心该日人民币兑美元的中间价修正指数。(5)停牌。当某一成份股处于停牌期间,取其正常的最后成交价计算指数。(6)摘牌。凡有成份股摘牌(终止交易),在其摘牌日前进行指数修正。(7)股本变动。凡有成份股发生其他股本变动(如增发新股上市引起的流通股本增加等),在成份股的股本变动日前修正指数。修正后市值 =收盘价调整后的股本数+修正前市值(不含变动股票);(8)停市。A股或B股部分停市时,指数照常计算;A股与B股全部停市时,指数停止计算。3.2.3数据格式3.2.3.1 内容格式本报告的数据集将包含一下几个属性:(1)交易日期(2)当日开盘价(3)当日最高价(4)当日最低价(5)当日收盘价(6)当日成交量价(7)当日调整后收盘价(调整了股票分割、分红、配股等之后的价格)3.2.3.2 文件格式本报告中用到的数据和时间有关,每个观测值都有一个时间标签,称为时间序列数据。在数学定义上,时间序列就是随机变量Y的一组随时间有序的观测值:y1, y2, y3, ,yt-1, yt, yt+1,yn其中yi是时间序列变量Y在时间t的观测值。时间序列的主要目的就是根据过去的观测值y1, y2, y3, ,yt-1, yt, yt来构造一个模型,据此对时间序列未来的取值yt+1,yn进行预测。在本报告中,我们对同一时间点上选取了开盘价、最高价等六个不同的观测值,所以是多元时间序列分析。在R中,处理时间序列的添加包有zoo21和xts22。但是xts包提供了ISO 8601时间字符串来获取数据自己等更多的方法。,在技术上扩充了zoo类。因此本报告分析主要应用xts对象。3.3模型参数与定义3.3.1目标变量我们从报价数据选取一个变量,它可以作为未来k天的趋势指标值。这一指标值应与接下来的k天能够获得p%的价格变化信心有关23。正常情况下,若p%在接下来k天的正向变化且大于交易成本时则买入,如果负向变化时则卖出。基于此,首先假定每天的平均价格由下面公式近似:其中,Ci、Hi和Li分别代表第i天的收盘价、最高价和最低价。同时,设Vi代表未来k天的平均价格相对于今天收盘价的百分比变化:我们把动态变化绝对值超过目标收益p%的变化进行累加作为一个指标变量T:T用来找出在k天内,日平均价格明显高于目标变化的那些日期的变化之和。T值越大,说明未来有几天的日平均报价高于今天的收盘价p%,这种情况表明有潜在的机会发出买入指令(因为有价格预期上涨);负的T值越大表明价格会下降,有可能执行卖出指令;T接近0则表示价格平稳波动或者价格涨跌交互出现,且变化正负相互抵消。在本报告中,默认的目标变化收益为2.5%。图3.1 最近三月(截至到2014年10月16日)上证指数和T指标示例上图示例表明,当某时间段一系列价格上升时,T值达到了最大(取10天)。T值并不是用来预测未来价格,T值的目的是把未来观测到的价格变化概括为一个单一的值。T指标可以总结接下来k天的价格时间序列行为,数据挖掘的目标是预测这种行为。预测未来金融市场行为背后的主要假设是通过观察市场过去的行为可以对未来做出预测。因为假设过去的某些行为p之后是另一个行为f,并且如果这一因果链经常发生,那么假设这一现象未来也会再次发生就是合理的。3.3.2预测变量3.3.2.1候选特征最近观测到的价格是我们可以使用的用于描述过去最简单的信息。因此,我们使用一些技术指标来反应过去价格序列的某些特征。由于买入、卖出决策是在每天交易结束后(由于只有每日数据,如有高频数据则可以实时交易),所以本模型集中于收盘价的分析。有下列公式来计算h天的算术收益:其中,Ci是第i天的收盘价;h变动:1-10。在R的添加包TTR中,我们选取了若干有代表性的技术指标作为模型的变量集合: 真实平均波幅(ATR):衡量价格波动 随即动量指数(SMI) 威尔斯-维尔德定向运动指数(ADX) Aroon指标 布林带指标 蔡金波动指标:最高价和最低价之间的价差 收盘价位置指标(CLV) MACD指标 资金流向指数(MFI) 抛物线止损反转和波动性指标上面所述的变量给出了预测指标T的未来取值的初始变量集合。在该变量集合中,需要对这些变量进行重要性删选,基于它们的重要性,再选择最合适的变量构成变量子集。3.3.2.2特征选择我们使用随机森林的方法来估计预测任务中变量的重要性。在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler于2001年推论出随机森林的算法24。首先,我们将2007年至今的上证指数数据集分为两部分:1)2011年12月30日前用于构建交易系统(训练集);2)2012年1月3日初至今的数据用于测试。我们用训练集构建随机森林模型。对于回归问题,R中的随机森林将估计两个可选变量的重要性分数。第一个值是当依次删除每个变量时,随机森林错误增加的百分比。每个变量被删除时,通过计算树在样本外数据上的均方误差的增加来估计该指标。该指标是对森林中所有树得到的结果进行标准化得到的。第二个值是与变量导致的结点杂质减少有关,也是对所有树的平均值。根据Leo Breiman的算法(2001),我们使用前者值作为变量重要性的参考值。图3.2 根据随机森林的变量重要性排序由上图,我们选定随机森林的阈值为8作为筛选参考值,得到如下7个变量作为变量子集: imp rownames(imp)which(imp 8)1 myATR.SSEC myADX.SSEC myVolat.SSEC myMACD.SSEC 5 myMFI.SSEC mySAR.SSEC runMean.Cl.SSEC因此,模型的数据集为25:T.ind(SSEC) myATR(SSEC) + myADX(SSEC) + myVolat(SSEC) + myMACD(SSEC) + myMFI(SSEC) + mySAR(SSEC) + runMean(Cl(SSEC)3.4 预测任务及评估标准预测的任务是预测出股市未来的走势,并产生相应交易信号。首先,T值作为未来变化的度量值,通过下式与交易信号联系26起来:当T小于某一阈值时发出卖出信号,当T大于某一阈值时发出买入信号,在两者之间是持仓或空仓。本模型为了简化,取两个阈值的绝对值相同,但实际操作中根据市场多头和空头趋势的强弱取值不一定不相等。其次,模型借鉴了Data Mining with R: Learning with Case Study27中对交易决策精度和回溯精度的定义,如下:表3.2 预测交易信号的分类矩阵预测结果买入持有卖出真实结果卖出持有买入买入经常把决策精度和回溯精度合并为一个统计量,成为F度量:其中,控制回溯精度相对于决策精度的相对重要性。 预测精确度与预测信号相关,而预测信号将决定是否开立新的仓位等交易行为。低预测精度是因为预测信号错误,它意味着在错误的时间开立仓位,可能会导致极大的损失。回溯精度则没有潜在损失,它衡量模型捕获交易机会的能力。回溯精度较低,意味着机会的错失,而不意味着高损失。4预测模型4.1建模方法我们应用人工神经网络、支持向量机和多元自适应回归样条三种方式,判断各自处理非线性回归问题的优劣,来选择最佳的模型28-30。我们考虑每个模型应用会用到以下三种不同的方法20-:1)所有的测试时段都使用一个模型;2)每隔w天更新数据增长窗口;3)每隔w天的数据滑动窗口。图4.1 三种形式获得测试时段数据的预测4.2人工神经网络(ANN)人工神经网络(Artificial Neural Network,ANN)经常在金融预测中使用,它可以处理许多高度非线性的问题。R的添加包nnet31可以实现最常用的前馈神经网络。人工神经网络中由相互联系的计算单元(即神经元)构成,每个神经元执行两次连续的计算:输入的线性组合;之后对前面结果的非线性计算得到的输出值最为神经网络的下一个神经元输入。每个神经元连接都有一个相关权重。构建神经网络,先要建立网络体系结构,然后使用一种算法来计算出神经元之间的连接权重。前馈人工神经网络按层来组织神经元,训练集的观测值通过这些输入神经元传递给网络。最后一层包含了任何情况下传递给神经网络输入神经元的神经网络预测值。在这两层之间,通常有一个或多个“隐藏”层神经元。权重更新算法,比如反向传播法,试图获得能够优化某个误差标准的连接权重,也就是试图确保网络输出与提交给神经网络模型的训练集个案一致。这是通过在网络输入结点多次传入训练个案来进行迭代的一个过程,在网络输出结点获得预测值并计算出各自的预测误差后,通过更新网络中的权重来减小模型的预测误差。这种迭代反复进行,直到满足一定的收敛准则。R添加包nnet中的一个函数实现了带有隐藏层的前馈神经网络。通过该函数获得的网络,可以用于回归问题,也可用于分类问题。人工神经网络对预测问题中变量的尺度敏感,首先需要对数据进行转换,以避免神经网络模型的性能受到变量尺度的影响。对训练集数据进行标准化处理,使所有变量均具有零均值和标准差为1:其中,是原始变量X的均值,是变量X的标准偏差。我们使用3.3节中的方法来评估人工神经网络模型预测测试集信号的准确性。对于回归问题的预测如下:precisionrecalls0.35449740.7165775b0.20370370.2558140s+b0.30925930.5284810这些值表明人工神经网络的预测性能不是很好。较低的回溯精度问题不是很严重,因为它基本上意味着失去交易机会而不是成本损失。而低的决策精度表明模型频繁得给出错误信号,如果这些信号被用作交易,损失可能极为严重。对于分类问题,神经网络将单一的输出单位改为和目标变量值一样多的输出单位,并产生各自类值的概率估计。因此对于每个测试个案,人工神经网络可以产生一组概率值,每一个概率值对应于一个可能的类值。分类问题预测如下:precisionrecalls0.31404960.2032086b0.24129350.7519380s+b0.31357550.5189873可以看到决策精度大约在30%左右,两项稍高于回归任务中相应的值,回溯精度则差不多。4.3支持向量机(SVM)支持向量机和神经网络一样,也是一种建模工具,可以用于回归和分类问题。基于其成功应用到多个领域和强大的理论背景,支持向量机已经受到越来越多的不同研究领域的关注。R中有对个添加包实现了支持向量机,如kernlab32和e107133。支持向量机34-36的基本思想是,将原始数据映射到一个新的高维空间中,在这个新的高维空间中,有可能应用线性模型来获得一个超平面进行分离,例如在分类任务中,分离问题中的不同类别。将原始数据映射到这一新的空间是在所谓的核函数的帮助下进行的。支持向量机是作用在核函数所引入的对称表示的线性机。在新的对称表示下进行超平面分割,这是通过最大化不同类别之间个案的分割边际来进行的。如下图,这是一个优化问题,经常用二次规划来解决。软边界方式允许将比例很小的个案划分为到“错误”的类别,这些方式导致一定的“损失”。图4.2 支持向量机边际最大化在支持向量回归函数中,这个过程很相似,主要区别在于误差和相关损失的计算。这通常借助于所谓的不敏感损失函数,如下:使用支持向量机进行回归任务。径向基核函数为:其中是一个用户参数,值为0.001。得到的实验结果为:precisionrecalls0.35185190.1016043b0.17845120.4108527s+b0.20512820.2278481使用支持向量机进行分类任务,结果如下:precisionrecalls0.29032260.2406417b0.22631

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论