(统计学专业论文)数据挖掘中金融时间序列的粗糙聚类分析.pdf_第1页
(统计学专业论文)数据挖掘中金融时间序列的粗糙聚类分析.pdf_第2页
(统计学专业论文)数据挖掘中金融时间序列的粗糙聚类分析.pdf_第3页
(统计学专业论文)数据挖掘中金融时间序列的粗糙聚类分析.pdf_第4页
(统计学专业论文)数据挖掘中金融时间序列的粗糙聚类分析.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(统计学专业论文)数据挖掘中金融时间序列的粗糙聚类分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内容摘要 内容摘要 传统统计分析与现代金融计量经济方法研究时间序列的主要思路是建立基 于严格数学推导下的统计模型并对其进行参数估计与数据检验,目前已建立起一 套较为成熟的理论体系。但该方法既依赖于苛刻的假设条件,又要求所有数据都 符合一个固定的数学模型,显得过于牵强。数据挖掘研究时间序列的思路则不同, 它由数据直接驱动建立模型,克服了上述的缺陷。 时间序列数据挖掘已是当前的研究热点之一,人们也取得不少的研究成果, 但对于时间序列相似性度量这一关键难题一直未能得到较好的解决,而很多时序 挖掘方法都是建立在相似性的基础上,显然时间序列相似性度量直接影响着这些 时序挖掘方法的结果,为此本文首先就该关键的基础性问题展开研究,进一步讨 论了该度量方法在序列挖掘中的应用。由于数据挖掘方法众多,本文不可能一一 涉及,所以只针对聚类分析进行深入的探讨。聚类分析不仅是数据挖掘的重要组 成部分,同时也是多元统计分析的重要方法,在实际中有广泛的运用。本文绕开 了已有较多成熟方法的硬聚类,而深入地研究了一种软聚类相糙聚类的方法 及其在时间序列挖掘中的应用,同时从侧面反映了本文度量序列相似性方法的实 用性。全文的主要工作及创新可归纳为以下几点。 首先,结合小波分析的思想方法,提出一种基于小波多尺度变换的时间序列 相似性度量方法,并通过金融时间序列的实例研究,说明该方法全面考虑了影响 序列相似性度量的各种因素,很好地克服了已往方法无法兼顾序列整体形状轮廓 与细节差异的缺陷。 其次,在相似性度量方法的基础上,研究了序列粗糙聚类方法,通过金融实 证研究表明粗糙聚类方法的优点。并深入研究了以下三个问题:( 1 ) 建立粗糙聚 类质量指标,并研究不同阈值参数对聚类结果的影响;( 2 ) 将粗糙聚类法与层次 聚类法进行整合,各取所长;( 3 ) 将软聚类转化为硬聚类,通过迭代剔除法对粗 糙聚类结果精简化,并与之前聚类结果进行比较,说明其可行性。 最后,本文模型方法尚无现成的软件模块实现,故本文还给出m a t l a b 软件 上具体实现的参考程序,结合实证研究取得较好的效果。 关键词:数据挖掘;时间序列;相似性度量;小波分析;粗糙聚类; a b s t r a c t a b s t r a c t b a s e do ns t r i c tm a t h e m a t i c a lc o n d u c t i o na n dt h e nt oc o n d u c tp a r a m e t e r s e s t i m a t i o na n di n f e r e n c e ,t r a d i t i o n a ls t a t i s t i c sa n dm o d e mf i n a n c i a le c o n o m e t r i c s ,i n w h i c ht h e o r yf r a m e w o r k sh a v eb e e nb u i l tu pf o ry e a r s ,a r et oe s t a b l i s hs t a t i s t i c a l m o d e l s h o w e v e r , s u c hm e t h o d ss e e mu n f i td u et oi t sd e p e n d e n c eo ns t r i c th y p o t h e s i s a n di m p o r t u n i n ga l ld a t ao fs e r i e st om e e tm o d e l i n gr e q u i r e m e n t s d a t am i n i n g t e c h n i q u e so v e r c o m et h i sk i n do fs h o r t a g ei naw a yo fe s t a b l i s h i n gm o d e l sm o t i v a t e d b yd a t a t i m es e r i e sd a t am i n i n gi sp o p u l a rt o d a y , a n dm a n ya c h i e v e m e n t sh a v eb e e n m a d e w h e r e a s ,a p p r o p r i a t es o l u t i o no fm e a s u r i n gs i m i l a r i t ys t i l ll a c k so fa t t e n t i o n , w h i c hl a y st h ef o u n d a t i o no fs e v e r a lm e t h o d si ns e r i e sm i n i n g a p p a r e n t l y , s i m i l a r i t y m e a s u r e m e n ti nt i m es e r i e sd o e sa f f e c tm i n i n gr e s u l t s t h i sd i s s e r t a t i o na i m sa ts u c h p i v o t a li s s u ea sw e l la si t sa p p l i c a t i o n si n s e r i e sm i n i n g ,p a r t i c u l a r l y , c l u s t e r i n g a n a l y s i s i n s t e a do fh a r dc l u s t e r i n g ,t h i sd i s s e r t a t i o ni n t r o d u c e sas o f tc l u s t e r i n g m e 血o d ro u g hc l u s t e r i n gm e t h o d ,w h i c hc a l lr e f l e c tt h ep r a c t i c a b i l i t yo ft h en e w m e t h o do nm e a s u r i n gs i m i l a r i t yo ft i m es e r i e s m a i nw o r k sa n di n n o v a t i o n so ft h i s d i s s e r t a t i o na r es u m m a r i z e da s : f i r s t l y , am e t h o dt om e a s u r es i m i l a r i t yo ft i m es e r i e sb a s e do nm u l t i s c a l e w a v e l e tt r a n s f o r m a t i o ni sp r e s e n t e dw i t ht h ei d e ao fw a v e l e t sa n a l y s i s a n df i n a n c i a l t i m es e r i e sc a s e ss t u d yi sa l s oc o n d u c t e dt os h o wt h a tt h i sm e t h o dc o n s i d e r sa l lt h e f a c t o r sa f f e c t i n gt h em e a s u r i n gs i m i l a r i t yo fs e r i e sa n de f f e c t i v e l yo v e r c o m e st h e s h o r t a g eo fe x i s t e n tm e t h o d st h a tf a i lt ob a l a n c eb e t w e e no u t l i n ea n dd e t a i ld i f f e r e n c e s o fs e r i e s s e c o n d l y , d i s c u s s e sr o u g hc l u s t e r i n go fs e q u e n c e sa n ds h o w si t sa d v a n t a g e s t h r o u g hf i n a n c i a lc a s e ss t u d y f u r t h e r m o r e ,a n a l y s i so nt h r e ei s s u e sa sf o l l o wi s c o n s i d e r e d :( 1 ) t od i s c u s st h ei m p a c to ft h r e s h o l dp a r a m e t e r so nc l u s t e r i n gr e s u l t sb y e s t a b l i s h i n gt h eq u a l i t yi n d i c a t o r sf o rr o u g hc l u s t e r i n g ;( 2 ) t oi n t e g r a t et h er o u g h c l u s t e r i n ga n dh i e r a r c h i c a lc l u s t e r i n gs ot h a tw ec a nm a k em o s to f t h e i ra d v a n t a g e s ;( 3 ) t ot r a n s f e rs o f t c l u s t e r i n gi n t oh a r dc l u s t e r i n g ,t oc o n d e n s et h er e s u l t so fr o u g h i i a b s t r a c t c l u s t e r i n gb y t h e i t e r a t i v e l y - r e m o v e d - m e t h o d ,a n d t os h o wi t s f e a s i b i i i t yb y c o m p a r i n gw i t ho r i g i n a lr e s u l t s f i n a l l y , w ea l s od i s c u s st h ea l g o r i t h m su s e di nt h e s em e t h o d s ,a n ds h a r e p r o g r a m m i n gc o d e i nf o r mo fm a u a b r e s u l t sf r o m e m p i r i c a l r e s e a r c ha l e c o n v i n c i b l e k e yw o r d s :d a t am i n i n g ;t i m es e r i e s ;s i m i l a r i t ym e a s u r e m e n t ;w a v e l e ta n a l y s i s ; r o u g hc l u s t e r i n g i i i 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成 果。本人在论文写作中参考的其他个人或集体的研究成果,均在 文中以明确方式标明。本人依法享有和承担由此论文产生的权利 和责任。 声明人( 签孙呈,叫 切舻年弓月乡日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦 门大学有权保留并向国家主管部门或其指定机构送交论文的纸 质版和电子版,有权将学位论文用于非赢利目的的少量复制并允 许论文进入学校图书馆被查阅,有权将学位论文的内容编入有关 数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密 的学位论文在解密后适用本规定。 本学位论文属于 1 、保密( ) ,在年解密后适用本授权书。 2 、不保密( ) ( 请在以上相应括号内打“ ) 日期:妒扩年;月;7 日 日期:二口t ,彩够兵j 3 ) e i 第l 章绪论 1 1 数据挖掘的兴起 第1 章绪论 1 1 1 数据挖掘的重要性 数据挖掘是信息领域发展最快的技术之一,很多不同领域的专家,如统计学 家、数据库专家等,都从中获得了发展的空间。随着计算机技术,特别是数据库 技术的快速发展和广泛应用,各行各业积累的数据日益膨胀,数据量达到g b 甚 至t b 级,传统的数据处理方式已很难充分利用蕴藏在这些数据中的有用知识, 从而导致了“数据丰富,但信息贫乏 的现象n 1 ,激增的数据唤起了人们对挖掘 其中所隐藏知识的需求,于是数据挖掘这一整合多种分析手段,从大量数据中发 现有用知识的方法就应运而生,并在使用中得以蓬勃发展。 1 9 9 5 年在加拿大蒙特利尔召开的第一届知识发现和数据挖掘国际会议上, “数据挖掘”概念第一次由u s a m af a y a a d 提出,这次会议一直被认为是该领域 的主要会议之一。数据挖掘“是一门能对观测到的数据集( 经常是很庞大的) 进行 分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式 来总结数据的技术州引。或者说“是从数据集中识别有效的、新颖的、潜在有用 的,以及最终可理解的模式的高级处理过程。州引。总的说来,数据挖掘是从大量 的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事 先不知道的、但是又潜在有用的信息和知识的过程,它包括数据清理、集成、选 择、变换、挖掘、模式评估、知识表达等过程。它应用各种方法从数据序列中发 现隐含的规律和模式,这些方法可能来自于各个领域,比如统计学、人工智能、 神经网络、粗糙集、支持向量机、模糊逻辑等等,甚至也包括其它新鲜的方法。 其功能主要包括概念描述和可视化、关联分析、分类和预测、异常分析、趋势分 析等引。 如今数据挖掘技术已在购物篮分析、客户关系管理、产品质量分析、基因工 程研究、i n t e r n e t 站点访问模式发现等许多领域得到成功应用。根据g a r t n e rg r o u p 的一次高级技术调查,其报告将数据挖掘和人工智能列为“将对工业产生深远影 响的五大关键技术 之首,并且还将并行处理体系和数据挖掘列为未来五年内投 资焦点的十大新兴技术前两位n 1 。 第1 章绪论 1 1 2 统计学与数据挖掘的相互影响 数据挖掘中有很多思想方法源自统计学,常见的数据挖掘软件都有提供统计 分析功能,这对于数据挖掘的前期数据探索和数据挖掘之后对数据进行总结和分 析都是必不可少的。统计分析中诸如时间序列分析、假设检验、相关性分析、方 差分析、线性预测等方法都有助于数据挖掘前期对数据进行探索,发现挖掘的主 题,定位挖掘的目标,确定挖掘涉及的变量,对数据源进行抽样等等。所有这些 前期的探索工作都对数据挖掘的效果与质量产生重大影响,且数据挖掘的结果也 需要统计分析的描述功能进行具体描述,使数据挖掘的结果能被用户所了解。 数据挖掘并不是为了替代传统的统计分析技术,而是统计分析方法的拓展与 延伸,二者相辅相成,相互促进。统计分析中的许多技术都是建立在完善的数学 理论和高超的建模技巧基础上,其分析与预测的准确程度还是令人满意的,但对 于使用者的知识要求比较高。而随着计算机能力的不断发展,数据挖掘可以利用 相对简单和固定程序完成同样的任务。新兴的计算方法如决策树、神经网络使人 们不需了解到其内部复杂的原理也能通过这些方法获得良好的分析和预测效果。 数据挖掘作为多门学科的综合,其分析问题的思维不再局限于传统统计分析的模 式,它已经从机器学习那里继承了实验的态度,这与传统统计分析的本质区别是 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘得到的信 息应具有启发性,有效性和实用性三个特征。由此可见,数据挖掘方法和统计模 型分析方法尽管其目的和出发点相似,但由于解决问题的思路存在本质上的区 别,因而两类方法对数据规律的提取形式和效果都有所不同,因而它们是两类不 同、可相互弥补不足的分析方法d 1 。对两者开展深入研究,都具有非常重要的意 义,至于二者谁是谁的分支这类的争论,已经没有多大意义,实际上,由于挖掘 方法和统计方法间的联系,特别是数据挖掘极富包容性的开放式思维风格,它经 常借鉴和引用统计方法的很多成果,而同时,数据挖掘的进一步发展也对统计学 提出了更高的要求与挑战。 1 2 选题背景及意义 1 2 1 金融时间序列研究的重要性 时间序列是指按时间顺序排列的一组数据,是最常见的数据形式之一。在金 一2 一 第l 章绪论 融、工业、医药、气象、计算机网络等十分广泛的领域,存在大量带有时间属性 的数据。在数据挖掘领域内,对时间序列的关注也越来越多,针对时间序列的数 据挖掘已成为一个新的热点。人们对时间序列的研究己经开展了很长时间,特别 在利用时间序列数据来进行建模、预测等方面,已经取得了相当多的研究成果。 而随着人工智能、机器学习等信息科学技术的飞速发展,对时间序列进行信息知 识方面的研究也越来越广泛,比如时间序列的查询、编码、分类等等。因此时间 序列数据挖掘自2 0 世纪9 0 年代以来得到了快速的发展。 在金融领域,数据绝大多数表现为时间序列数据,常见的如股票或期货市场 中的各种价格、成交量、持仓量、收益率,货币市场中的利率,外汇市场中的汇 率等数据都是以时间序列的形式记录保存的。本文选用金融时间序列数据作为挖 掘对象,主要出于两方面的考虑:一是金融数据的质量高,而保证数据质量是进 行数据挖掘的重要前提,所挖掘出的知识才有价值,否则将会是“垃圾进,垃圾 出 的尴尬局面;二是金融在国民经济发展中占有举足轻重的地位,金融市场是 国家乃至世界经济运行的核心,探析金融市场的变化规律、进行有效的金融管理、 提高金融投资效率是各国政府与投资机构孜孜以求的目标之一。特别是在我国经 济与世界经济相互融合程度越来越高,金融业面临着更大的、新的发展机遇和挑 战的今天,以及在全球金融创新活动日新月异、各国金融市场联动效应不断增强 的国际背景下,对金融市场本质规律的认识和把握更直接关系到金融市场的稳 定、效率与安全。我国金融业经过多年来的高速发展,己经形成了相当规模的市 场,金融机构的许多业务活动( 如价格预测、客户分析、投资决策、风险管理等) 都越来越依赖于对大量历史数据的分析,我国的投资者与金融机构也越来越清楚 地认识到分析金融数据、从中挖掘出有价值的信息是其实现科学化管理决策的重 要手段与“基础核心 工作。金融市场是一个非常庞大的系统,受多种因素影响, 其运动规律极其复杂,而时间序列数据则是其综合外在表现形式。“本质决定现 象,现象反映本质”,因此时间序列中必定蕴含了金融系统许多客观规律信息。 从中挖掘出各种信息,更好地认识、掌握、并利用其规律无疑对金融投融资决策 与风险管理活动具有特别重要的意义。 兰秋军等人分析指出,对金融数据的分析方法,主要分模型法和挖掘法两大 类 9 , 1 0 o 模型法是指在各种假设基础之上,建立数学模型,然后运用历史或当前 第1 章绪论 数据来进行决策与预测分析,最后根据有关金融理论得出结论。它是现代金融计 量经济学理论中的重要内容,主要以数理统计模型为基础,实质就是研究如何构 造一个与现实情况符合的预测模型,最大程度地减少预测误差。如美国经济学家 e n g l e 就因其在1 9 8 2 年对金融时间序列所提出的a r c h 模型而荣获2 0 0 3 年度诺 贝尔经济学奖。为了构建模型,许多假设条件是必须的。比如常用的a r m a 模 型要求时间序列是平稳的,并要求a r m a 模型所产生的时间序列与观察序列间 的误差相互独立,且呈正态分布。即便对目前研究较多的a r c h 、g a r c h 类模 型同样也脱离不了类似假设。在这些假设基础上建立起来的这些模型固然具有一 种无与伦比的“简洁美”,然而,这些假设条件对许多实际情况来说却是非常“苛 刻”的。而且,这种统计模型分析技术存在一个致命的缺陷,即它们总是着眼于 所考察数据的全体。或者说,模型在构建过程中是以对“所有 考察数据的最佳 适应为准则的。模型一旦构建出来,它将“适用 于数据序列的各个部分。显然, 这里的一个隐含假定是金融时间序列是保持某种结构不变的。但现实金融市场是 一个复杂系统,往往是以多种方式对外界作用起反应的。因而,金融时间序列的 随机性是非常强的,以一个全局统计模型来囊括其运动规律太理想化,自然会造 成较大的估计偏差,甚至得出一些错误的结论。正因为如此,依赖这种方法建立 起来的许多模型在现实中往往失效,并可能带来无法估量的损失。一个令人瞩目 的例子是,由美国著名经济学家、诺贝尔经济学奖获得者、期权定价理论的创立 者一一莫顿和舒尔斯管理的长期资本管理基金,在1 9 9 8 年的一次投资活动中惨 遭失败,损失达1 5 - - 2 0 亿美元之巨,而不得不面临倒闭的结局。 挖掘法总的说来基于归纳推理的思维。“知识 之所以被发现是因为有足够 多的数据支持它。因此它缺乏严格的理论支撑,而更多的是“经验 基础。更何 况由于各种干扰因素的影响,数据中确实会存在“假 知识。因此它发现的“知 识 一般还需通过其它手段进行验证。不过,它能发现“新”知识这一点非常重 要,尽管发现出来的有些模式或规则目前也许难以理解,但它可能具有极好的“启 发”价值。由于挖掘方法基于归纳的思想,它是直接以数据驱动的,因而它常常 可以撇开一些假设条件,如不须正态假设、平稳假设、线性假设等等。挖掘工具 开发好后,即使对挖掘理论不了解,用户也可以自助地对其感兴趣的数据进行挖 掘,因而也容易使用,事实上数据挖掘很大程度上就是为这种便利性而提出来的。 一4 一 第1 章绪论 对金融时间序列的挖掘不仅是有益的尝试,更是对金融计量学分析的良好补充, 这也是本文的初衷。 1 2 2 小波分析的实用性 传统概率统计学下的时间序列分析,经过数十年的研究已经形成了自己的理 论体系,但传统的方法多单独集中于时域或频域,而金融时间序列十分复杂,从 单方面的时域或频域很难充分反映其特征,或者反映速度较慢,或者没有定位作 用,因而分析金融时间序列应采用时频相结合的分析方法,这其中最引人注目的 就是小波分析理论。 小波理论是目前国内外学术界高度关注的前沿领域,包含了极其丰富的数学 内容,具有广泛使用的潜力,正在科学技术界掀起一场革命。在数学领域,它是 泛函分析,f o u r i e r 变换,样条分析,调和分析,数值分析的完美结合。在信号 处理、图像处理、语音识别、模式识别、数据压缩、故障诊断、量子物理等应用 领域中,它是近年来在工具和方法上的重大突破。小波变换是一种可同时在时频 两域表征信号局部特征的时频局部化分析方法,即在低频部分具有较高的频率分 辨率和较低的时间分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨 率,所以被誉为分析信号的“数学显微镜 。由于其具有良好的时间频率分辨率 而在许多领域得到广泛应用,因而在金融时间序列等方面必将有十分广阔的应用 前景。目前小波分析理论在金融数据分析上的应用大多数只限于小波去噪功能, 然而小波真正的强大在于其“多分辨率”功能,即多尺度变换,并且可以同时实 现数据去噪与数据约简( 降维) ,本文受此启发,提出了一种基于多尺度小波变 换的时间序列相似性度量方法。 1 3 时间序列挖掘研究现状 1 3 1 时间序列挖掘面临的问题 时间序列挖掘已发展成为数据挖掘研究的一个重要分支,受到数据挖掘研究 者的广泛关注。从文献综合情况来看,时间序列的挖掘研究目前主要集中在时间 序列中相似序列搜索、频繁模式发现、关联模式发现、周期模式发现以及异常数 据挖掘等方面n0 | 。目前时间序列挖掘面临的主要问题有: ( 1 ) 时间序列的相似性度量 第l 章绪论 关于时间序列相似性度量方法人们尽管已经研究得较多,比如直接距离法、 特征参数距离法、相关系数法、神经网络学习法、原子序列匹配法等等n 1 ,但还 远没有达到人们所期望的准确度。而相似性度量又是时间序列模式挖掘的基础, 如何更好地度量相似性就显得尤为重要,这也是本文致力解决的一个问题。 ( 2 ) 时间序列的特征提取 对时间序列进行特征提取一方面可以达到数据降维,方便进一步的研究,比 如对一个长序列,通过时频变换,就可以用前面几个高能量的系数来刻画,丢失 的信息却较少i n 另一方面,通过特征提取更容易反映序列的本质,比如对序 列的幅度、波动频率、趋势、极值点等特征的提取无疑可大大加深对序列的理解 和把握,为进一步的分析比较奠定基础。但是时间序列的特征是多方面的,不只 是这些常见的特征,它与实际问题是相强关的,更多的特征必须根据问题本身的 性质去发现和研究。 ( 3 ) 时间序列的分割 时间序列的分割是指将一个长时间序列划分为若干个子序列。这也是进行模 式挖掘的一个基础性问题,对挖掘的进行与结果有很大影响。但是如何合理的分 割,却非易事。目前采取的常见分割方法是等宽度的滑动窗口方法n 。这种方 法的一个明显的缺点是不但效率低,而且由于事实上序列中的模式长度不一,等 宽度的一刀切方法显得过于武断,而宽度值的选取也是一个疑问。因此研究自适 应的分割方法具有重要的意义。李斌、谭旭都采用了线性化分段的方式实现分割, 不失为一种新的尝试和选择n “。 ( 4 ) 序列的模式聚类与分类 将序列进行分割,并提取各个子序列的特征后,由于存在多个特征,每个特 征的取值可能有多个,每个子序列对应特征空间中的一个点,而挖掘的目的是从 复杂的数据中抽取简单的、易被人理解的规律和知识,因而在时间序列挖掘中, 经常需要把这些子序列归类成少数几个模式,以便于人们理解和掌握。那么如何 进行分类、聚类,这都是有待进一步研究的。 ( 5 ) 规则的筛选或约简 采用数据挖掘对时间序列进行分析,可能会产生大量的模式或规则。在为数 众多的规则中,有相当多的规则显然与应用无关的或者用户己经熟知,只有其中 一6 一 第l 章绪论 一部分是用户感兴趣或有价值的,选取这一部分的规则即为规则的筛选或约简。 关于有趣性的判断一直是数据挖掘研究者们讨论的热点,实际中的有趣性与问题 背景有很大关系,往往带有很强的主观性,如何把这种主观性“数量化并用之 于规则的筛选则是序列挖掘研究中面临的一个难题。 1 3 2 金融时间序列的特性与挖掘研究 金融市场是一个由自然、社会、心理、政治、经济等很多因素作用的复杂系 统,因而作为其外在表现的金融时间序列具有非平稳、非线性、信噪比低等一些 不同于许多其它一般时间序列的特性,其中非平稳性是最为显著的特征之一。随 机过程的平稳性是指其统计特性不随时间而变化,一般是指一种广义平稳性,即 过程的一阶矩( 期望值) 和二阶矩( 协方差) 与时间起点无关n ”。平稳性条件是许多 时间序列建模的基础条件。但由于影响金融市场的政治、经济、文化环境等随时 间的变迁,金融时间序列的一阶矩,二阶矩不可能维持不变,因而通常表现为明 显的非平稳性。金融时间序列另外一个显著性特点是信噪比低、信噪难以有效分 离。金融时间序列的预测之所以非常困难,主要就是因为随机性太强,噪声太多。 但是要给噪声和信号下个明确的定义,指出哪些是有效信号,哪些是噪声并不容 易。一般地,对于一些较大幅度的波动来说,小幅度波动可以看作噪声,因为这 些小幅波动即使能被预测出,对最终结果的预测并无多大影响,而对于小幅波动 来说,更小的波动才能看作噪声。由于金融时间序列的非平稳特点,其波动频率、 波动幅度都在不断变化之中,因而“小 幅波动是一个相对动态的概念。 许多时间序列挖掘研究都以金融时间序列为例,探论其挖掘算法的有效性问 题c t s 。这些文献的主要目的是研究序列挖掘中的基础算法,并非针对实际金融 应用问题的。专门针对时间序列挖掘在金融领域的应用问题也得到一些学者的关 注和研究。k o v a l e r c h c u k 和v t i y a e v 就一种基于混合方法的关系数据挖掘进行了 研究,并将其应用于s & p s o o 、汇率、股市大盘方向等的预测,该方法所发现 的规则具有很好的可理解性和抗干扰性e 2 0 r b o e r tr t r i p p i 是数据挖掘在金融领 域应用的一位资深学者,在其汇编的文献乜门中就神经网络在金融和投资中的应 用进行了许多举例。w i l l i a ml e i g h 等基于序列的相似性识别技术,提出了一种根 据技术图表启发发现n y s e 综合指数交易规则的方法1 2 2 , y i f a nw a n g 采用模糊 粗糙集方法构建了股价预测挖掘系统。根据日内的每小时交易价格数据,计算价 第1 章绪论 格变化率来分类,可以找出一些何时买卖的i f t h e n 形式的规则引。 s e h a k c h u n a 等比较了应用神经网络等数据挖掘技术辅助进行积极的投资策略 和一般的买并持有策略的收益情况,认为采用积极策略在多个市场构建投资组合 是有效的1 2 4 op o v i n e l l i 提出了一个从时间序列中发现具有预测功能的时态模式的 挖掘方法,该方法通过事件特征函数的定义,采用遗传算法搜索序列中的模式, 将其用于d j i a ( 道琼斯工业平均指数) 的预测汹3 。k y o u n g - j a ek i m 采用支持向量 机研究了韩国k o s p i 指数的方向预测问题,并与b p n ( 反向传播神经网络) 和 c b r ( 基于案例的推理) 方法进行了比较,结果表明支持向量机的性能优于b p n 和c b r 乜引。c h r i s t o p h e r 采用遗传程序研究了发现s & p 5 0 0 指数的交易规则的方 法。 总的看来,金融时间序列挖掘应用研究主要集中在两个方面,一个是直接利 用挖掘技术构建对价格、价格区间和价格变动方向的预测系统:另一个方面是根 据挖掘结果形成某种技术交易规则n 引。采用的方法主要是神经网络、遗传算法、 模糊理论等,尤其以神经网络最多。近年来,随着数据挖掘技术研究与统计学习 理论的推广和深入,粗糙集、支持向量机以及其它方法也逐渐增多。需要指出的 是,以往大部分研究所获得的模式是以神经网络为代表的“黑盒子形式,这种 模式的可理解性与可解释性是很差的,在很多实际应用中受到限制。另外,大部 分方法对股价等进行预测采用的是分类的思想,即通过对大量金融数据建立一个 分类器模型,并以此来进行预测。显然,金融时间序列挖掘在方法上的拓展与分 析还有很大的研究空间。 1 4 本文主要工作与结构 本文针对金融时间序列进行挖掘分析,而时间序列的相似性度量则是最基础 同时也是最关键的一环。所以,本文围绕时间序列的相似性度量这一主线展开, 全文结构如下: 第l 章为绪论,首先简要介绍数据挖掘及其与统计学的关系,之后阐述本文 的选题依据与意义,介绍了时间序列挖掘研究的现状及面临的主要问题,指出小 波分析在金融时间序列挖掘领域具有很大的运用前景。最后阐述全文的研究内容 与组织结构。 第1 章绪论 第2 章简要介绍了小波分析理论,阐述小波分析的优势,并结合本文研究需 要,重点介绍了小波函数与多尺度小波变换,为后面的研究作好理论基础。 第3 章针对时间序列相似性度量这个难点展开研究。首先综合阐述了已有的 序列相似性度量的种种方法,并简要地分析了各自的特点与局限;接着分析了影 响时间序列相似性的几种因素,针对它们提出了一种基于多尺度小波变换的时间 序列相似性度量方法,并进步给出相应的算法及程序实现;而后通过实证分析 表明该方法的优越。 第4 章研究时间序列的粗糙聚类。首先综合阐述了各种聚类方法的特点,而 后介绍了基于粗糙集思想的聚类方法,接着在第3 章的相似性度量方法基础上, 通过实证分析对时间序列进行粗糙聚类:最后,进一步研究粗糙聚类与层次聚类 的综合以及将粗糙聚类的软聚类结果转化为硬聚类结果,在运用中取得良好的效 果。 第5 章对全文的研究成果进行总结,指出小波分析在数据挖掘领域具有广阔 的应用前景。而后表明时间序列数据挖掘是个相对完整的体系,本文只是对其中 的一部分进行研究,要从时间序列中挖掘出更丰富的信息与知识,还需注重多种 方法的结合。最后本文列举了在小波分析的基础上时间序列数据挖掘可以进一步 深入探讨的部分研究方向。 第2 章小波分析及其多尺度变换 第2 章小波分析及其多尺度变换 2 1 小波理论的发展及其特点 2 1 1 小波理论的发展 有关小波分析的详细理论可参见文献 2 s 9 本文在此仅给出一些简要介绍。 自1 8 2 2 年傅立叶( f o u r i e r ) 发表“热传导解析理论 以来,傅立叶变换一直是 信号处理领域中最完善、效果最好、应用最广泛的一种分析手段,其基本思想是 将信号从时间域转换到频率域。对属于平方可积函数空间的任意一个函数 f ( t ) e ( r ) ,傅立叶变换( f o u r i e rt r a n s f o r m ,f t ) 定义为: f ( c o ) = i 厂( f ) p 叫耐a r t ( 2 1 ) 五 傅立叶逆变换( if 1 ) 定义为: 1 f ( t ) = 圭if ( c o ) e 脚d c o ( 2 2 ) 二冗蠢 从数学的角度来看,实质是将函数以正弦函数( p 埘= c o s m t + j s i n c o t ) 为基函 数展开。对许多情况,傅立叶变换能满足分析要求,然而傅立叶变换有一个严重 的不足,那就是在变换时丢失了时间信息,即无法根据傅立叶变换的结果判断一 个特定的信号在什么时候发生。它是一种纯频域的分析方法,其在频域的定位是 准确的( 即频域分辨率高) ,而在时域无任何定位性。对于平稳信号而言,这点也 许并不重要,但实际当中大多数信号,都是非平稳的,都存在偏移、趋势、突变 等非稳态成分,即其频域特性往往随时间而变化。 为研究信号在局部时间范围的频域特征,1 9 4 6 年g a b o r 提出了著名的g a b o r 变换,之后进一步发展成为短时傅立叶变换( s h o r tt i m ef o u r i e rt r a n s o f r m ,s t f t ) 。 短时傅里叶变换分析的基本思想是:给信号加一个小窗,主要集中在对小窗内的 信号进行傅立叶变换,因此可以反映信号的局部特征。假定非平稳信号在分析窗 函数g ( f ) 的一个短时间间隔内是平稳的,并移动分析窗函数,使f ( t ) g ( t - b ) 在不 同的有限时间宽度内是平稳信号,从而计算出各个不同时刻的功率谱。本质上, 短时傅里叶变换是一种单一分辨率的信号分析方法,其使用一个固定的短时窗函 第2 章小波分析及其多尺度变换 数。短时傅里叶变换虽然在一定程度上克服了标准傅里叶变换不具有局部分析能 力的缺陷,但它也存在着自身不可克服的缺陷,即当窗函数g ( ,) 确定后,矩形窗 口的形状就确定了,而且只能改变窗口在平面上的位置,而不能改变窗口的形状。 进行单一分辨率的分析,若要改变分辨率,则必须重新选择窗函数。对非平稳信 号进行分析的时候,在信号波形变化剧烈的时刻,主频是高频,要求有较高的时 间分辨率:在波形变化比较平缓的时刻,主频是低频,则要求比较高的频率分辨 率。窗口傅里叶变换不能兼顾两者n 盯,因而其时频分辨率也是固定的。此外, 在进行数值计算时,人们希望将基函数离散化,以节约计算时间和存储量。但 g a b o r 变换无论怎样离散都不能构成一组正交基,给数值计算带来不便。 小波变换不但继承和发展了s t f t 的局部化思想,而且克服了窗口大小不随 频率变换、缺乏离散正交基的缺点,是一种信号的时间一尺度( 时间一频率) 分析 方法,它具有多分辨率分析特性,在时频两域都具有表征信号局部特征的能力。 小波变换对不同的频率在时域上的取样步长是可调节的,即在低频部分具有较高 的频率分辨率和较低的时间分辨率,而在高频部分具有较高的时间分辨率和较低 的频率分辨率,这正符合低频信号变化缓慢而高频信号变化迅速的特点,因而被 誉为“数学显微镜,是一种理想的信号分析处理手段。 小波变换( w a v e l e tt r a n s f o r m ) 的概念是1 9 8 4 年法国地球物理学家j m o r l e t 在 分析处理地球物理勘探资料时提出来的,而后理论物理学家a g r o s s m a n 采用平 衡和伸缩不变性建立了小波变换的理论体系,其数学基础就是傅里叶变换。1 9 8 5 年,法国数学家y m e y e r 第一个构造出具有一定衰减性的光滑小波。1 9 8 8 年, 比利时数学家i d a u b e c h i e s 证明了紧支撑正交标准小波基的存在性,使得离散小 波分析成为可能。1 9 8 9 年s m a l l a t 提出了多分辨分析概念,统一了在此之前的 各种构造小波的方法,特别是提出了二进小波变换的快速算法,使得小波变换完 全走向实用性口引。 2 1 2 小波变换的特点 小波变换的含义是:将一个称为基本小波的函数吵( f ) 做位移_ f 后,再在不同 尺度a ( a 0 ) 下与待分析信号f ( t ) 做内积: 第2 章小波分析及其多尺度变换 等效的频域表示是: 呢他咖击e 巾( 等弘 口3 , 暇( 叩) = 要e m ( 毗胁d 缈 ( 2 4 ) 式中,x ( 缈) ,y ( 国) 分别是f ( t ) ,少( ,) 的傅里叶变换。不妨做个粗略的比喻 来解释小波变换的作用,我们用镜头观察目标x ( f ) ,u ( t ) 代表镜头所起的作用 ( 女r l - 滤波或卷积) 。f 相当于使镜头相对于目标平行移动,称为平移参数;a 的 作用相当于镜头向目标推进或远离,称为尺度参数。小波变换的时频窗口特性与 短时傅里叶的时频窗口不一样,因为f 仅仅影响窗口在相平面时间轴上的位置, 而a 不仅影响窗口在频率轴上的位置,也影响窗口的形状,这使得小波变换对不 同频率在时域上的取样步长是可调节的,从而优于经典的傅里叶交换和短时傅里 叶变换,从总体上讲,小波变换比短时傅里叶变换具有更好的时频窗口特性,它 具有以下特点和作用: ( 1 ) 小波变换在时、频两域都具有表征数据局部特征的能力,可利用这一点 来检测信号的非正常情况。 ( 2 ) 小波变换的过程无需人为干预。小波变换约简数据可以简单概括为去除 数据中掩盖主要内容的细节部分,这样使数据的轮廓更加清晰。整个这个过程不 需要人为的干涉,只要我们创建好小波函数,推导出相应的低通滤波器和高通滤 波器,按照约简的原理依次进行就可以了。 ( 3 ) 多分辨性( m u l t i r e s o l u t i o n ) ( 也叫多尺度( m u l t i s c a l e ) ) 。小波变换的多分 辩性可以由细到粗的看到原始数据的每一尺度上具体情况。 ( 4 ) 效率高。小波变换的效率是很高的,时间复杂性为d ( 甩) ,刀为序列的长 度。 ( 5 ) 对数据的约简。长度为r 的时间序列经过一层离散小波变换,低频系数 为f l o o r ( 芝+ ,也就是说每次变换后低频系数约为原来的一半,那么, z 经过m 层小波变换后长度约为原来的1 1 2 材,在保持了原序列大致形状的同时大 大约简数据,这点在大型数据库中进行数据挖掘工作是非常有用的。 第2 章小波分析及其多尺度变换 为了更显示出小波变换特长所在,下面我们将小波变换和傅里叶变换进行比 较州: ( 1 ) 傅里叶变换的实质是把能量有限的信号f ( t ) 分解到以 口枷) 为正交基的 空间上去;小波变换的实质是把能量有限的信号厂( ,) 分解到矿i ( 歹= l ,2 ,j ) 和 圪,所构成的空间上去。 ( 2 ) 傅里叶变换用到的基本函数只有s i n ( o 醴t ) 、c o s ( c o t ) 和e x p ( c o t ) ,具有惟一 性;小波分析所用到的小波函数则不是惟一的,同一个工程问题用不同的小波函 数进行分析有时结果相差甚远。小波函数的选用是不波分析应用到实际中的一个 难点问题也是分析研究的一个热点问题,目前往往是通过经验或不断地试验,将 不同的分析结果进行对照分析来选择小波函数。 ( 3 ) 在频域中,傅里叶变换具有较好的局部化能力,特别是对于那些频率成 分比较简单的确定性信号,傅里叶变换很容易把信号表示成各频率成分的叠加和 的形式,但在时域中,傅里叶变换没有局部化能力,无法从信号f ( t ) 的傅里叶变 换f ( c o ) 中看出厂o ) 在任一时间点附近的性态。 ( 4 ) 在短时傅里叶变换中,变换系数主要依赖于信号在时间窗内的情况,一 旦时间窗函数确定,则分辨率也就固定了。而在小波变换中,变换系数虽然也是 依赖于信号在时间窗内的情况,但时间宽度是随尺度口的变换而变化的,所以小 波变换具有时间局部分析能力。 简单说,小波变换相对于f o u r i e r 变换,更能适应非平稳数据或是信号,具 有良好的局部化性质。傅立叶变换只是一种纯频域的分析方法,反映的是信号在 全部时间上的整体频率特征,不能提供任何局部时间上的频率特征。加窗傅立叶 变换将一个时间窗口函数和待分析函数点乘,再进行傅里叶变换,结果可以描述 某一局部时间段上的信息,但对一个时变的非稳态信号,很难找到一个合适的时 间窗日来适合不同的时间段。小波变换是在傅立叶变换的基础上发展起来的,同 时反映了信号在时域和频域上的差异,在时域和频域上均具有良好的局部化性 质,能够将各种交织在一起的不同频率组成的混合信号分解成不同频带上的块信 号。它具有多尺度性、时移不变性等特点旧3 。 第2 章小波分析及其多尺度变换 2 2小波函数及小波变换 2 2 1 小波函数及其特性 小波是一种特殊的、长度有限、均值为o 的波形。它有两个特点,一是“小”, 即在时域都具有紧支集或近似紧支集:二是正负交替的“波动性”,其直流分量为 o 。同傅里叶分析不同,小波分析的基也就是小波函数,不是唯一存在的,所有 满足小波条件的函数都可以作为小波函数,那么小波函数的选取就成了十分重要 的问题,实际选取小波的标准主

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论