(应用数学专业论文)时间序列挖掘方法及在投资组合中的应用.pdf_第1页
(应用数学专业论文)时间序列挖掘方法及在投资组合中的应用.pdf_第2页
(应用数学专业论文)时间序列挖掘方法及在投资组合中的应用.pdf_第3页
(应用数学专业论文)时间序列挖掘方法及在投资组合中的应用.pdf_第4页
(应用数学专业论文)时间序列挖掘方法及在投资组合中的应用.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(应用数学专业论文)时间序列挖掘方法及在投资组合中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 投资组合分析一直是金融领域的研究热点随着经济全球化的进程,全球资 本市场的进一步融合,资本流动速度加快,风险加剧,如何进行有效的投资组合, 回避市场风险一直是个体股民和券商关心的问题。同时金融数据呈几何级数增 长,面对日益庞大的数据,传统的分析方法已经很难解决。如何对大量的金融资 产进行快速分析将直接影响到投资组合的效率。数据挖掘方法由于具有强大的数 据处理、信息挖掘能力,开始广泛地应用在金融领域的相关研究中。 投资组合是指选择多种股票或其他资产进行组合,然后优化组合以探求在给 定的收益率水平下的风险最小化。理论表明,通过选取差异性较大的股票进行组 合,可以减少资产的非系统风险。选取合适的股票品种,可以通过对每日收盘价 时间序列进行聚类,即对具有不同的价格波动特性的股票进行无监督的分类,选 取相异波动特征的股票进行组合。但是金融时间序列不同于一般数据,庞大的数 据不仅波动复杂,而且还伴随着高噪声。常用的一些聚类方法并不适用于股票数 据的处理,如何改进聚类方法,使得其可以从海量的股票数据中选取股票进行投 资组合分析正是本研究的核心所在。 针对以上的问题,本文提出了子序列度量和马尔可夫转移矩阵作为相似性度 量的方法,从序列的形状和状态变化统计特征两个角度进行分析,得到不同资产 价格波动序列间的距离计算公式。大量实验验证了该方法的合理性。根据聚类的 结果,进一步选择不同类的股票进行投资组合。本文的主要创新和工作如下: 1 提出基于子序列度量的相似性度量方法,并应用于时间序列聚类,并且 考虑到了序列量纲的差异。 2 采用m a r k o v 链模型的m a r k o v 转移矩阵来构建时间序列的相似性度量,并 用于时间序列聚类。 3 利用a r m a 模型对神经网络训练过程中的训练误差进行分析,预测在预 测过程中的可能出现的误差,进行修正,提高了预测准确度。 4 利用s a s 软件开发模块,开发出一个证券投资组合与风险分析模块,包 括:股票基本统计分析,波动分析,聚类,投资组合分析等。 关键词:投资组合,聚类,相似性度量 t i m e s e r i e sm i n i n gm e t h o d sa n dt h e i ra p p l i c a t i o n st op o r t f o l i o a b s t r a c t p o r t f o l i oo p t i m i z em e a n si n v e s t o rc h o o s ea l lk i n d so fs t o c ka n do t h e ra s s e tt o f o r mac o m b i n a t i o na c c o r d i n gt ot h er e t u md e m a n d e d ,t h e no p t i m i z et h e s e c o m b i n a t i o nf o rr e a l i z i n gi n v e s t m e n tg o a l t h er e a s o no ft h ei n v e s t o ro p t i m i z e p o r t f o l i oi sr e d u c i n gn o t - s y s t e mr i s k i n v e s t o rc a nf i n dab a l a n c ep o i i l tb e t w e e n r e t u r na n dr i s kt h r o u g ho p t i m i z ep o r t f o l i o ,n a m e l yr e a l i z i n gt h em a x i m i z a t i o no ft h e r e t u r no nt h ep r e m i s eo ft a k i n go nac e r t a i nr i s k , o rm i n i m i z et h er i s ko nt h ep r e m i s e o ft h ef i x e dr e t u r n f o rap r o p e rc o m b i n a t i o no fa s s e t s , w ea i m t os e l e c ta s s e tw i t h i nt h ec l a s s e s b u t ag o o dd i s t a n c em e a s w ei sk e yt ot i m e - s e r i e sc l u s t e r i n g , w h i c hi sh i g hd i m e n s i o n , c o m p l e xv o l a t i l i t y , a n dh i g hn o i s e s oc o m m o nd i s t a n c em e a s u r ei nc l u s t e r i n gi sn o a v a i l a b l e f o rs o l v i n gt h ep r o b l e m sa b o v e ,s u b - s e q u e n c em e 龇e a n dm a r k o vc h a i n s t r a n s f e r r i n gm a t r i xa r ep r o p o s e d , o n eo fw h i c h i sa i mt om e a s u r et h ef i g u r eb e t w e e n s e r i e s ,t h eo t h e ri sf o c u so nt h es t a t u st r a n s f e r r i n gs t a t i s t i c s f u r t h e rt h ed i s t a n c e b e t w e e nt r a n s f e r r i n gm a t r i xa n dt h el e n g t ho fs i m i l a rs u b s e q u e n c ec o u l db et h e m e a s 邶eo ft i m es e r i e s t h em a i nr e s e a r c ha n di n n o v a t i o na sf o l l o w s : 1 as i m i l a r i t ym e a s u r eb a s e do ns u b s e q u e n c ei sp r o p o s e d ,d i s t a n c e sb e t w e e n s e r i e sa r eo b t a i n , w h i c hi sab e t t e rm 黝t s u l ef o rs e q u e n c ec l u s t e r i n ga s c o m p a r e dt oe u c l i dd i s t a n c ea n d s oo i l 2 ad i s t a n c em e a s l l r eb a s e do nm a r k o vt r a n s f e r r i n gm a t r i xi sp r o p o s e d ,w h i c h i sf o c u so nt h es t a t u st r a n s f e r r i n gs t a t i s t i c s 3 o nb a s eo fs a sa p p l i c a t i o nm o d u l e ,as t o c ka n a l y s i sm o d u l ei sd e v e l o p e d , w h o s ef u n c t i o n si n c l u d i n gi m p o r t i n gd a t a , g r a p h i c s ,v o l a t i l i t ya n d 黜啦 c l u s t e r i n g , a n dp o r t f o l i o 4 p r e d i c t i n gt i m es e r i e sw i t ha n n c o r r e c t e db ya r m a k e y w o r d s :p o r t f o l i o ,c l u s t e r , r i s k , s i m i l a r i t ym e a s u l e 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。 本入在论文写作中参考的其他个入或集体的研究成果,均在文中以明 确方式标明。本人依法享有和承担由此论文产生的权利和责任。 声明人( :与瓶 呷年毛其7 器 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大 学有权保留并向国家主管部门或其他指定机构送交论文的纸质舨和 电子版,有权将学位论文用于非营利舀的的少量复制并允许论文进入 学校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检 索,有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密 后适用本规定。 本学位论文属于 l 、保密() ,在年解密后适用本授权书。 2 、不保密( ) 作者签 导师签 日期弘奔石月7 日 日期a 倬石月 日 日期。7 年厂罗 日 第一章绪论 金融时间序列的分析研究始终是经济学和统计学的一个热点,对于制定精确 的决策是至关重要的,近代计量经济学和金融市场的许多研究成果和市场决策理 论愈来愈多地借助了时间序列分析的理论和方法。随着金融数据量的与日俱增, 常用的一些统计方法已经不能满足需求,运用数据挖掘方法来分析金融时间序列【2 】 已成为金融学研究的热点之一。 1 1 研究背景及选题意义 在证券市场中每天产生大量的交易数据【2 1 ,这些数据影响着股票交易活动, 同时也是人们买卖股票的重要依据,投资者根据主观判断,分析个股行情,同时 选择不同的股票进行分散化投资,构造投资组合。但是总体上看,大量的股票历 史数据都没有被充分地利用分析,如何充分利用这些数据,从中获得有用的信息 并转化为知识从而更好的指导股民进行科学得股票交易成为人们研究的热点。由 于投资者最关心的是资产价格变化,对价格序列进行分析,可以借助时间序列的 分析方法。数理统计分析方法【1 3 2 1 】是目前金融时间序列分析中最重要的方法。但 是随着数据量的不断增加( 例如金融领域中的高频和超高频数据) ,这些方法在分析 能力方面存在一定的缺陷。指出各种统计分析方法的二个主要问题在于,其无法 有效地处理具有较大规模的数据集。此外数据理统计分析方法也不适合用于从大 量的数据中主动地发现各种潜在的规则。数据挖掘作为一种新兴的知识发现方法, 近年来在时间序列数据分析方面也得到了广泛的应用,许多文献【2 1 ,2 6 】讨论了如何 将数据挖掘的各种方法运用于时间序列数据的挖掘,序列挖掘的主要研究领域, 包括关联与序列分析、聚类分析、异常检测、分割以及相似性查找等。 美国经济学家哈里吗科维茨【1 】( m a r k o w i t s ) 开创了分散化投资组合方法( m e 缸 - v a r i a n c e 模型m ,m v 广泛地应用于股票投资领域,大到基金公司、券商, 小到个体股民,他们的投资行为无不体现着资产分散化投资的痕迹。他认为,通 过购买多种资产,可以在固定水平的收益下,有效地减少资产的非系统风险。但 是随着市场信息几何级数的急剧增长,投资者迫切需要新的分析方法来选取合适 股票,进行投资组合。 在任何投资组合方法中,如何选择合适的资产是一个首要的问题。例如,要 构造由5 个股票组成的投资组合,而可行的侯选资产数为3 3 个时候,将有2 0 多 万种不同的选择,而实际上任何一个证券交易市场的股票品种多达成百上千,完 全地分析这些组合是几乎不可能的。聚类分析能够帮助投资者在大规模数据对象 集合上构造有意义的划分【1 6 , 3 3 】,将复杂的大系统分解为较小的具有统一特征的数 据分类,从而达到有的放矢。将m 维的时间序列样本看成m 维空间的一个数据点, 如此以来一个时间序列数据集可以对应空间中的一族点集,在其对应的空间里一 般是非均匀分布的。利用聚类方法,可以识别出该数据点空间上分布密集或者稀 疏的区域,能够发现隐含在数据点集中的数据特征属性和属性之间的相互关系, 这些关系能够用于知道投资者识别不同特性的资产,在对资产进行分类了解的情 况下,进行市场操作。如果能对资产进行分类,当对3 3 种资产进行分类后( 5 类, 各类的样本数为6 ,1 0 ,1 2 ,3 ,2 ) ,进而挑选来之不同类的股票进行投资组合,此时所 分析的组合个数减少到4 0 0 0 左右。本文正是通过对股票进行无监督的分类研究, 进而给投资组合中资产选择问题提供理论依据。 本文正是从投资组合的角度出发,主要研究了时间序列的聚类方法,提出了 两个时间序列相似性度量的指标:子序列度量方法从序列的形状上度量序列间的 差异;而m a r k o v 转移矩阵法从序列波动的统计特征开度量。借助时间序列聚类选 择资产进行投资组合。下面简单介绍一下数据挖掘技术在投资组合中发展历程。 1 2 研究现状和存在问题 现代资产组合理论【( m o d e mp o r t f o l i ot h e o r y ,简称m p t ) ,也有人将其称为 现代证券投资组合理论、证券组合理论或投资分散理论。现代资产组合理论的提 出主要是针对化解投资风险的可能性。该理论认为,有些风险与其他证券无关, 分散投资对象可以减少个别风险( u n i q u er i s ko ru n s y s t e m a t i cr i s k ) ,由此个别公 司的信息就显得不太重要。个别风险属于市场风险,而市场风险一般有两种:个 别风险和系统风险( s y s t e m a t i cr i s k ) ,前者是指围绕着个别公司的风险,是对单 个公司投资回报的不确定性;后者指整个经济所生的风险无法由分散投资来减轻。 虽然分散投资可以降低个别风险,但是,有些风险是与其他或所有证券的风险具 有相关性,在风险以相似方式影响市场上的所有证券时,所有证券都会做出类似 2 的反应,因此投资证券组合并不能规避整个系统的风险。并且不同的投资组合, 收益风险曲线也有很大的不同,数据挖掘技术能够针对具体的情况,面向具体问 题,进行知识挖掘。 统计方法的发展和多样化( 图1 1 ) ,为数据挖掘技术提供了新的工具,并借鉴 了统计中的一些概念和思想,是统计分析方法学的延伸和扩展。数据挖掘的一些 方法是对一些基本统计方法的直接应用,比如聚类分析,主成分分析,方差分析 等。数据挖掘常用来处理海量的数据,其检验需要构件相应有效性指标,而不想 统计学中的统计量检验;此外数据挖掘也不局限于常有的统计方法,它还包罗多 个领域的一些理论和方法,比如人工智能、机器学习和专家系统等。 其他技术 数据库t 歹 判别分析 三一 回归和预测 逾燃 聚类分析 相关分析 主成分分析 可视化技术 其他 图1 1 数据挖捌中的统计方法 资料来源:参考数据挖掘概念昶i 技术【1 6 1 采用数据挖掘的方法进行股票数据分析,期望依据统计资料和股市信息,从 股市的历史、现状和规律出发,运用科学的方法来构造投资组合,降低个体股民 的投资风险。相关的研究也时见发表。w a n gs h e n gt a n g 3 1 在投资组合模型中引入 了概率判别函数,这个判别函数是组合价值不高于某个期望值的概率。并采用模 拟、人工神经网络和遗传算法相结合的方法构造和选择投资组合。c h r i s t i a nd o s e 4 】 采用了时间序列聚类的方法,从聚类结果中抽取合适的股票跟踪市场的变化( 被动 保守投资) 。r o l a n dj e u r i s s e n 5 1 是采用混合遗传算法来构造投资组合模型。s h i q iy e 6 】 考虑了投资组合模型中的交易成本问题,把单目标优化问题扩展成为多目标优化 问题。n i c o l a sc h a p a d o s 7 利用神经网络模型对资产价格进行预测,同时也利用神 经网络模型得到投资组合模型各资产的分配情况。从以上可以看出,聚类,神经 网络,遗传算法,人工智能等数据挖掘技术已经广泛地应用于投资组合分析中, 其中聚类用于资产组合时需要进行样本问的距离计算,c h r i s t i a nd o s e 只采用了最 简单的相关系数和常见的距离公式来度量,度量效果并不明显和有效。除了欧氏 距离度量和相关系数度量,其他常用的距离度量方法如下 1 ) e u c l i d e a n 距离,它把每个时间序列样本当成e u c l i d 空间中的一个点,并 根据e u c l i d 空间中点之间的距离函数来计算时间序列样本之间的距离, 并依次作为时间序列样本之间相似度的衡量尺度; 2 ) 分段正交化【3 8 1 ( p i e c e w i s en o r m a l i z a t i o n ) ,其主要思想是通过将时间序列 分割,进行正交化并定义相应的距离函数; 3 ) 自相关函数【3 9 1 ( a u t o e o r r e l a t i o nf u n c t i o n s ,a c f ) ,其主要思想是考虑到 时间序列本文时刻点取值的前后关联性,利用时间序列的a c f 系数来刻 画时间序列本身的特征,并提取前若干个特征值进行计算。 4 ) 重要点分析法【删( i m p o r t a n tp o i n t s ) ,根据某个规则,提取时间序列的重 要点来重新描述原时间序列,达到压缩时间序列的目的; 5 ) 编辑距副4 ( e d i td i s t a n c e ) ,时间序列样本之间的距离是采用两个样本 之间相互转化所需的最小编辑长度来定义; 6 ) 时间序列符号化【4 2 】,结合时间序列分割表示法,将时间序列数据转化为 离散的符号序列,以矢量间形态相似性度量作为时间序列挖掘计算的基本 依据; 7 ) 余弦小波变化【4 3 1 ( c o s i n ew a v e l e t s ) ,利用小波变化技术( 比如h a r r 转换) , 将时间序列数据进行小波变化,采用变换后的特征作为时间序列重新描述 的一种手段; 8 ) 离散f o u r i e r 变换【删( d i s c r e t ef o u r i e rt r a n s f o r m a t i o n , d f t ) ,基于离散 f o u r i e r 变换,将时间域的时间序列数据转换到频域,并提取变换后频域 中的前若干特征值来描述原时间序列。 9 ) 全局特征提取( g l o a b a lm e a s u r e ) ,从各方面提取时间序列的全局特征, 比如趋势特征、周期特征、自相关系数( a c f ) 、偏度特征、峰度特征、l e 指数等,构造时间序列特征向量,每个时间序列对应其唯一的一个时间序 列特征向量,利用该特征向量来描述原时间序列,不仅可以降低计算的复 4 杂魔,而且可以较少数据储存的空间。 l 妨分段概率统计嘲( p i e c e , , v i s ep r o b a b i l i s t i c ) ,缩合对闯穿捌分段表示法, 定义一个概率匾羧,分裂求褥备段时间痔刭撰应的概率篷。 重1 ) d t w f 4 刀,考虑到对常的时序数据熬时闼滞赋因素,毙如音频数据流的瓣闯 滞后,通常可以利用d t w 来衡量样本之间的距离。 以上1 1 种时间序列的相似性度量,都有其各自的优势和应用领域,但究其本质都 是在寻求一种能有效刻域时间序列样本之间相似性的程度的方法。这正是时间序 列挖掘的难题之一。 此矫在投资组合和其耱关酶证券分析领域,数据挖掘技术存在戮下难点: 1 ) 数据量重大 由于现代存髂手段和透信水平的提憨,全球投资者脱离了地域慰域的限 制,交易投机活动随时随地都在进行,全球资本大规模的流动,高频数据 的大量产生,无论对股民还是投资机构来说,手工或者基与常规方法分析 股票数据几乎没有意义。 2 ) 数据高随度桃往 市场的不稳定不理智行为苏及经济政治嚣素熬交互影响市场冲击着赛本 市场,不弱的信息对不同类型的毅票的影响效果并不网一,不溺市场的反 应水平并不一致。 3 ) 市场行为和市场理论并不致 虽然经济理论层出不穷,健是与市场行为相比,经济理论的发展总是滞后 的,往往总是市场行为与理论出现了较多的不一致,经济理论才开始寻找 薪豹出路帮新薜工具。所以经济理论并不麓动缝、动态地鼹踪市场的发 震。 本文利用时阐序列按对阅取得一系列观测僮,针对股票波动煦特点,为了能 够动态地比较不嗣股票价格变化的异同,并考虑了股票数据量纲的不一致和对不 同市场行为反应的时间轴上的不一致,提出了两种能有效衡量金融时间序列差异 的距离度量方法,研究股票间隐含的变化趋势以及价格序列的相似性。 s 1 3 主要研究内容和创新点 本文主要王作是提出两釉时间序列距离的度量方法:基于子序列度量的距离 度量和基于m a r k o v 链转移矩阵的时间序列距离度量。其中子序列度量方法通过一 个优化过程,动态地比较序列间的异同,同时还保持了序列基本波动特征的不变 性。最大限度考虑了时闻和数量水平上的随机因素的影响。丽对与m a r k o v 链模型, 透过统计各种状态间变纯的统计巍律,通过分析m a r k o v 转移矩阵藏的异丽,瓢蠢 度量邋价格变化特性的异瓣。总之,嚣种度量方法总结了股票价格波动中的套种 动态特征,可以将此作为股票闻缒距离的度量,应用到时润序列聚类过程中,作 为股票投瓷选择的依据。 本工作的主要创新点如下: 1 ) 对股票波动率序列进行子序列相似性搜索,在搜索过程中,通过一个迭 代过程,查找到的相似时间穿列点个数,将不裙徽点的百分眈俸为序捌 波动稿儆程度熬度量。并显得到穗应黪优纯算法过程。露时考虑到了时 闻序列闻量缨的差别帮时闻辘熬不一致性。逶过线性交换的方法健褥量 纲统一。 2 ) 将股票的连续变量进行离散化处理,通过对每个股票序列建立一个 m a r k o v 链模型,由于m a r k o v 转移矩阵从统计角度上袭征了序列的波动 特征。所以利用该模型的转移矩阵来描述该时间序列的动态特征,通过 度量这些矩阵酶距离,得到序列闻的距离度量。也就是将对这些时间序 列豹聚类闯题转换为瓣这些m a r k o v 链熬聚类翘题。 3 ) 剥用a r m a 模型对神经网络训练过纛中的谬l | 练误差进行分橱,预测在预 测过程中的可能出现的误差,进行修正,提离了预测准确度。 4 ) 利用s a s a f 开发工具,开发出一个投资组合模块,其中包括股票基本 统计分析,波动分析,聚类分析,投资组合分析等。 从以上的介绍可以看潦:两种不同的时间序列度量模型分剃胰时闻序捌形态和时 闻穿列数值交纯的统计角度来衡量对闯序捌阕的差异酶。嗣时,莠了评估投资组 合模整在降低风险中蘸捧耀,瞧蠹了投资组合模块受燕方便地进行研究霸应用。 本研究还实现了以下的功能:剩舞g a r c h 模型进行股票的波动率分析翻计算; 风险计算,g a r c h 模型动态地反映了资产价格的波动情况,因此夥历史数据法 6 相比,它能够更加动态地反映资产价格的变动实际表明,与移动平均收益率波 动模型相比,他能够更快地反映资产价格的波动;风险可靠性检验。 1 4 本文结构安排 本文其余部分安排如下t ( - - 、四章为核心部分,力求表现数据挖掘的基本思 想,并使其与证券分析基本原理进行有效结合) 第二章介绍投资组合模型发展和数据挖掘技术在投资组合中的应用,以及 投资组合模型的风险评估方法。 第三章介绍时间序列聚类中的距离度量问题,为股市投资组合研究找出适 合股票收益序列距离度量方法,指出各种算法的过程和各种指标的 实现算法。 第四章介绍了基于s a s a f 模块的组合分析模块,并且对上证a 股数据进 行投资组合和风险分析,表明通过数据挖掘可以降低投资组合风险。 第五章总结和展望,对全文进行总结,指出了其中的不足,并对工作进行 展望。 7 第二章投资组合理论及模型 现代资产组合理论的提出主要是针对化解投资风险的可能性。“不要把所有的 鸡蛋放在一个篮子里 就是多元化投资组合的最佳比喻,而这已成为现代金融投 资世界中的一条真理,本章将按照投资组合理论的产生和发展历程依次介绍,叙 述各种投资组合理论及所形成的各种的选择模型。m a r k o w i t z 的均值一方差组合模 型是现代投资组合理论模型的开创,由此发展出的现代投资组合理论获得了诺贝 尔经济学奖的认可。在此基础上介绍投资组合风险评价方法,风险评估即是投资 组合设计初衷也是评价的重要指标。它的改进和多样化也代表了投资组合理论的 发展方向。理论和模型的重要性在于模拟现实,从这一意义上来说,投资组合模 型将会继续发展,并将在现实世界中得到更广泛的运用。 2 1 投资组合 资产配置就是在一个投资组合中选择资产的类别并确定其比例的过程。当投 资者面对多种资产,考虑应该拥有多少种资产、每种资产各占多少比重时,资产 配置的决策过程就开始了。马科维茨在上述具有里程碑意义的文章中,已经通过 数量化方法说明,战略性地分散投资到收益模式有区别的资产中去,可以部分或 全部填平在某些资产上的亏损,从而减少整个投资组合的波动性,使资产组合的 收益趋于稳定。下面介绍几种常用的投资组合模型。 2 1 1m a r k o w it z 的均值一方差组合模型 m a r k o w i t z 1 】于19 5 2 年提出的“均值一方差组合模型 是在禁止融券和没有无 风险借贷的假设下,以个别股票收益率的均值和方差找出投资组合的有效边界 ( e f f i c i e n tf r o n t i e r ) ,即一定收益率水平下方差最小的投资组合。根据m a r k o w i t z 投 资组合的概念。欲使投资组合风险最小,除了多样化投资于不同的股票之外,还 应挑选相关系数较低的股票。因此,m a r k o w i t z 的“均值一方差组合模型 不只隐 含将资金分散投资于不同种类的股票,还应将资金投资于不同产业的股票。 m a r k o w i t z 确立了证券组合预期收益、风险的计算方法( 这里关键是组合收益 率的方差是唯一的风险测度) 和有效边界理论,建立了资产优化配置均值一方差 模型: 删跫嗡_ 鼍; ( 2 。) s u b j e c t t o 工r ,= l ,工r r = 墨,0 1 、7 其中不同收益水平墨下,模型的风险为: = ,玖= 【巧l m _ 【r 1 r v 。1 w q 【r l 】4 q 【如1 1 r 邶l 计嘭t h 1 击( 二甜乃l 】r ( 2 2 ) 口一2 嗨+ c r ; 一= 厂 根据以上的模型,不同的收益水平矗p 在投资有效边界上确定了不同的风险,+ 和不 同的资产权重如下图: j 心 。 o ,q o 层 0 ) 具体计算步骤如下【l l 】: 1 ) 估计g a r c h 模型中的参数 彩,口,; 2 ) 根据g a r c h 模型计算出各期条件方差,然后开方的到条件标准差: 3 ) 将计算得到的各期条件标准差代入眦= 毛p 咋一p p 中,得到绝对 v a r ,其中为标准正态分布下置信度对应的分位数,为回报率均值。 基于g a r c h 模型f l 勺m o m ec a r l o 模拟法o o v a r 计算:已知对数回报率模型为 例埽其中毋i q l _ l - n ( o , 晚盹廿慨:i 。 亿蚴 其中qig 一n ( o ,砰) 表示已知时间乒情况下q f - l ,乞的条件分布为正态分布从而可 以知道股票价格满足以下模型:1 l l = i n g - l + ”+ q ,tiq 一n ( o ,z ) 。 因此,基于m o n t ec a r l o 方法估计未来一天的日w 浪的过程如下 1 ) 给出最。,然后由渊h 模型估计未来一天的条件方差辞; 2 ) 产生服从正态分布( o ,矿) 的随机数 岛) :。 3 ) 将 乞) 二代到公式只= e x p 似+ q ) 中模拟出刀个只,记为 只( f ) ) 二,计算 1 3 股票价格变化 。以f ) = p ( f ) 一尸( f 一1 ) ,将a t p ( i ) ( i = 1 ,2 ,以) 从大到小排 列,取第 x0 0 5 个值的绝对值即为所求的绝对v a r 。 2 2 5v a r 可靠性检验 v a r 模型是一种利用历史数据,一定的统计参数和分布建立起来的统计预测模 型,v a r 值是一个估计值。在实际应用中,v a r 的准确度受到估计偏差的影响,这 些偏差主要来源于以下方面:数据抽样过程产生的偏差、模型的架设条件不当引 起的误差和建模过程中产生的偏差。v a r 模型的准确性检验是指v a r 的估计结果对 实际损失的覆盖程度。假定给出t 9 0 的置信条件下的v a r 值,贝t j v a r 模型的准确性 是指实际损益结果超过v a r 的概率是否等于1 0 。本文介绍失败率检验法。 v a r 模型的准确性通常的检测发则是通过“失败率 来检验,把实际损失超过 v a r 的估计记为失败,把实际损失低于v a r 的估计记为成功。如果假定v a r 的估计具 有时间独立性,则失败观察的二项式结果代表了独立的贝努里检验,失败的期望 概率为风( p o = 1 一口,口代表了v a r 的置信度) 。检验模型的准确性相当于检验失败 概率等于特定概率的零假设。k u p i e c 给出了这种检验方法的具体过程。 假定计算v a r 的置信度为口,实际考察天数为乃失败天数为,则失败率为 p ( p = n t ) 。零假设为p = p o ,这样对v a r 模型准确性的评估就转化为检验失败率p 是否显著不同于p o 。k u p i e c 1 1 】提出了零假设的似然比检验: l r = 一2 i n ( 1 一p o ) 卜( 风) ”】+ 2 i n ( 1 一p ) 卜p 】( 2 1 3 ) 表2 1k u p i e c 检验的非拒绝域( 9 5 的置信水平) i j i 蒸尾概囊 ; 失败次数n 的非拒绝域 譬 i j 骜 jj 薹耋i t = 2 5 5 t = 5 l ot = 1 0 0 0 # m 黼k “# # ”* n 目# 蝴“茹1 5 6 n 2 11 6 n 3 63 7 n 6 5 2 5 2 n 1 2 6 n 2 i1 5 n 3 6 1 o n 7i n 75 n 1 6 0 5 o n 4i n 62 n 9 0 1 0 n 1o n 2o 2 1 表明v a r 模型低估 了损失发生的概率,反之,n 6 表明模型过于保守。从表中可以看到,左尾概率越 小,越难于确定偏差,特别是评价样本个数较小的时候。 2 3 聚类方法在投资组合中的应用 聚类( c l u s t e r i n g ) t 1 5 】是一个将数据集划分为若干组( c l 嬲s ) 或类( c l l l s t 哪的过程, 并使得同一组内的数据对象具有较高的相似度,而不同组的数据对象则是非相似 的。相似或者非相似的度量是基于数据对象描述的取值来确定的,通常是利用( 各 对象间) 距离来度量。 2 3 1 聚类分析 聚类分析就是根据样本或者指标的“相似一特征进行分类的一种多元统计方 法,这里的类就是相似元素的集合。聚类分析是要将刀维实空间中的肌个点分配到k 个类中。这类问题被公式化就是在r ”空间中找出阶中心使得各个点到距离自己 最近的中心的距离总和最小。 量 n u m ( x 1 ) = 朋j r i = 1 ( 2 1 4 ) 其中而表示在第璞中第f 价点,写表示第媵中心点,删研( 而) 表示第z 类中点的数 量。许多方法可以解决这类问题,其中有统计、机器学习和数学规划。一般来说, 聚类分析的过程分为以下步骤:选择变量、计算距离、聚类结果解释( 见图2 2 ) 。 聚类分析是根据所选定的变量对研究现象进行分类,聚类结果仅仅反映了选 定变量所定义的数据结构,但是实践中往往缺乏选择变量的理论基础,一般根据 实际经验和所研究问题的特征,人为选定变量。再而遇到的是距离度量的问题, 1 5 一而 一 而 槲 。m 妄m 通常的距离度量方法有:平方和距离、明科夫斯基距离、切比雪夫距离、方差加 权距离、马氏距离等。聚类过程涉及到两个问题:一个是聚类方法问题,一个是 聚类类数的确定问题。最经常用的聚类算法是系统聚类方法( 其结果的树形图如图 2 3 ,即层次聚类,见图2 4 ) ,。层次聚类方法的思想是:首先定义样品间的距离和 类间的距离。一开始将距离最近的两个样本各自合成一类,这时类间的距离和样 品间的距离是一致的,然后将距离最近的两个类进行合并形成一个新的类,并计 算新类与其他类之间的距离,再按照距离最小准则并类,每合并一次,类的个数 就减少一个,这一过程一直持续到所有样本都被归为同一类为止。在层次聚类中 根据各种类间距离的定义,可以得到不同的聚类方法,其中有:最短距离法、最 长距离法、中间聚离法、重心法、类平均法、离差平方和法等。 变距 量 离 、 选 一 计 取 算 图2 2 聚类流程图 资料来源:参考了数据挖掘概念和技术【1 6 】 图2 3 时间序列层次聚类的树形图 资料来源:时间序列挖掘与相似性查找技术研究伫1 1 6 否 图2 4 层次聚类过程图 资料来源:参考了 数据挖掘概念和技术 1 e l 在层次聚类分析中,如何确定类的个数是个十分困难但又必要解决的问题,在这 里采用根据样本统计量来确定类的个数n 引。 设已将外样本分为价类:g l ,g 2 ,q ,则第价类g :f 样本间离差平方和为: s f = ( 五- l ) ( 一- l ) ( 2 1 5 ) i = 1 髟个类的类内离差平方和为: 七 冀= 砰 ( 2 1 6 ) 价样本的总的离差平方和为: 霹= ( 五一暑) 。( 五一置) 1 7 ( 2 1 7 ) 七 可以证明,霹可以分解为霹= 舅+ ,其中,霹= 吩( 置一牙) ( 置一牙) ,j 为 f 暑l 所有样本的重心,定义为: 1 ) r 2 统计量为: j :三圭强置 n 百 肛t ( 2 1 8 ) ( 2 1 9 ) 尺2 越大,表明内类离差平方和在总离差平方和中所占比例越小,聚类效 果越好。但是单纯考虑尺2 值的意义并不大,必须动态第考虑,当聚类到 某一步,价样品已经分成价类,当下一步分为七一价类时,r 2 值明显下 降,则说明k 个类是比较合适的。 2 ) 伪廊计量为: ,= 面s ;c 而k - 1 ) ( 2 2 。),= -( 2 2 0 ) uj i ,一 , 该统计量数值越大,表明价样本越可以显著地被分为k 类。 3 ) 伪丁2 统计量: 严= 雨蒜 ( 2 2 1 ) 其中d 2 扩= 稚) 一( 砰+ 霹) ,表示g f 和q 类合并成新样本后新类g ( 。) 类增加 的离差平方和。统计量越大说明两个类是比较分开的,也就是说上一次 聚类的效果比较好。 4 ) 半偏尺2 统计量: 尺2 :肇( 2 2 2 ) s ; 当半偏统计量比较大时,说明上一步的效果较好。 在实际中的判断需要灵活掌握,特别当几个统计量的结论不一致时,需要根据实 际情况灵活掌握。聚类样本间以及样本类间的距离度量在聚类过程中起到了重要 的作用。如何根据实际情况找到合适的样本间度量方法是决定聚类成败的关键。 2 3 2 聚类在投资组合中的应用 投资组合管理可以分成三种类型,即积极的投资管理,被动管理( 指数跟踪投 资组合) ,以上两类的混合组合。m a l k i e l f l 引,s o r c n s o n 捌,f r i n o 2 0 的研究表明,被 动的投资组合比积极的投资管理效果好。不管什么样的投资组合,都遵守有效地 选择股票使得选择的股票尽量分散化、多样化的原则,因为多样的资产有利于构 造风险较小的资产组合。 i is 妒。砷毒成分脾l u | l i i 胶枭收益序莉晕每j u 卜橐拳分菥( 系统蒙类k j 睁赫) u | i i 碜凄聚菱块謦_ | n i _ ;:从不同类中选取股l i 票,进行投资组合。i u 跟踪误差比较l 图2 3 聚类在投资组合中的应用 随着证券市场的不断发展,上市公司增多,投资组合所要面对巨量的资产数 据,如何地分析数据,选取资产就成为构造投资组合难点。通过聚类来选择资产, 如图2 3 所示,可通过聚类来提供资金选择的信息。c h r i s t i a nd o s e 和s i l v a n o c i n c 幻t t i t 4 ) 利用聚类技术,对美国证券市场的指数跟踪( 也称被动投资) 进行了研究, 通过对4 8 7 支股票进行聚类,选择k 支股票= 工j 缈,构造指数跟踪的投资组合 模型,他采用了下面两种度量方法:收益相关系数度量,序列相似度量。 1 9 时间序列兄y 之间收益相关系数距离定义为: d ( x ,y ) = x 2 ( 1 - c x r ) ( 2 2 3 ) 其中c 刍为序列兄】r 收益的相关系数,序列距离度量: d ( x ,y ) = m i n ( d i ,畋) ( 2 2 4 ) 其中4 ( 置】,) = 珊 _ 1 荟r ( 立) 2 ) ;哎,y ) = 曾与1 善t ( ) 2 ) 。 以上两种度量方法存在明显的缺陷: 1 ) 实际表明,股票收益率的波动是随时间改变的,并不固定,收益相关系数 距离度量没有考虑到收益的波动时变性。 2 ) 序列相似度量只对股票时间序列相同时间点的价格情况进行度量,没有考 虑到同种性质的资产在时间轴上的微小差异。 3 ) 只能对具有相同长度的金融时间序列进行处理。 实际实验也表明,以上的时间序列距离度量不能有效地对时间序列进行分类,所 以有必要寻找一种新的时间序列度量方法,用于时间序列聚类中。 2 4 小结 本章介绍了投资组合模型及资产风险计算方法,同时表明对资产的时间进行 聚类有利于选择更加分散的资产组合模型,使得投资组合能够更加有效地减低风 险。同时也提出,传统的对低维样本距离度量方法并不适合与时间序列聚类。有 必要寻找一种更有效的度量。 第三章时间序列挖掘方法 时间序列的研究是数据挖掘技术中的新内容,与时间序列的统计研究相比, 用数据挖掘技术处理时间序列有处理时序数据形式多样,处理数据量大,算法灵 活多变等优点。其中如何根据具体的数据和研究内容改变已有的数据挖掘算法是 数据挖掘技术的研究热点。 3 1 引言 时间序列是一组观测的数据序列,通常是按时间顺序排列。在现实生活中, 大量数据集之中的数据都带有时间特征,时间序列随处可见,股市每日( 或月) 指数、 交换机每小时的业务量、w e b 页的日访问量、年太阳黑子数等等,这些都是比较 常见的例子。对时间序列数据进行分析,从中获取所蕴含的关于生成时间序列的 系统的演化规律,以完成对系统的观测及其未来行为的决策、预测。传统的数理 统计时间序列分析方法包括:相关分析、菲线性线性回归分析、自回归移动平均 模型分析、金融资产定价和投资组合分析、分行分析,此外各种多元统计方法也 应用于时间序列分析中,如判别分析,主成分分析,因子分析等。 时间序列分析一直以来被强调属于统计分析领域。1 9 2 7 年,当时,y u l e 【l3 】发 明了自回归技术用于太阳黑子的每年度黑子数的预测。在他的模型中他用序列中 前面的观测值的加权之和来预测下一时序值。在接下来的近半个世纪里,这种白 噪声驱动的线性模型在时序分析领域一直占据着统治地位。近年来出现了一些 新的金融时间序列分析方法,即将数据挖掘技术与传统的金融时间序列分析方法 和模型相结合,我们称这类方法为混合方法。这类方法大多针对于某个特定的金 融分析任务,或者基于金融时间序列的某些特征,因此在应用中更具有针对性。 数理统计方法与模型,己经成为现代投资学、数理金融学的理论基石,这些方法 与模型连同基本分析和技术分析方法,已经在实际中得到了广泛的应用。将数据 挖掘技术与这些传统分析方法和模型相结合,一方面有利于提高各种传统分析方 法的分析能力,另一方面也使得数据挖掘技术在金融时间序列分析领域的应用更 2 l 具有针对性。 基于数据挖掘的时间序列分析,大多集中在时问序列预测、聚类、分类、相 似搜索、序列匹配、序列模式挖掘和周期分析这几个方向。运时闾序列数据是指 根据时间组成的具有相同性质的数据的有序排列。实际中有大量的对时间序列数 据进行分析的需求,例如对证券市场的股票交易数据进行分析,可以了解目前市 场上股票的波动行为都有那些特征,提供分析结果,方便投资者进行投资选择。 从第二章的阐述可以看出,在时间序列挖掘中,时间序列的相似性问题是个 关键的问题,个体间的相似性度量是个关键的问题,也是个仁者见仁,智者见智 的问题。本章提出的基于子序列和m a r k o v 链模型的相似性度量方法,分别从时间 序列的形态和波动统计特征的角度对时间序列进行比较和划分,该方法适合于金 融时间序列挖掘。 正如前文所叙述,我们可以通过聚类来进行股票的选择,从而构建投资组合。 根据投资组合模型可知,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论