




已阅读5页,还剩78页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据挖掘的金融预测模型.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 金融预测是金融数据挖掘的一个重要研究方向。金融时间序列除了具有非 线性、非平稳、动态的一般常见的特征外,还具有其它一些特征,例如高噪音、 非正态、尖峰厚尾等。因此,金融预测也就更有挑战性,同时有着广阔的应用 价值和市场前景。 本文重点研究了模糊修正模型和基于聚类分析和神经网络的混合模型在金 融预测领域中的应用。由于传统的模糊逻辑模型自身的局限性,在对金融时间 序列趋势的连续预测应用中,趋势准确率偏低,连续预测值波动小( 体现不出 未来的市场走向) ,对此,本文提出了模糊修正的方法,试验结果表明,运用 模糊修正模型进行金融预测是可行的和有效的;在基于聚类分析和神经网络的 混合模型中,研究了针对金融时间序列的子序列特征提取聚类方法,并引入到 b p 神经网络训练中,消除了不相关历史模式对网络训练的影响,实验预测结果 明显优于传统的b p 神经网络。 本文两个创新的预测模型是基于同样的实验数据,因此还对这两个预测模型 的实验结果进行了比较,并对各自特点和适用性进行分析。 此外,本文对预测模型中一些参数的选择方法进行了研究,提出了简单有 效的选择方法。 关键词:金融预测;数据挖掘;模糊修正;特征提取聚类 a b s t r a c t f i n a n c i a l p r e d i c t i o n i sa ni m p o r t a n tr e s e a r c hf i e l di nf i n a n c i a ld a t am i n i n g b e s i d e sb e i n gn o n l i n e a r , n o n s t a t i o n a r y , a n dd y n a m i c ,f i n a n c i a lt i m es e r i e sa l s oh a s s p e c i a lp r o p e r t i e s ,b e i n gh i g hn o i s y , n o n - n o r m a l ,s h a r p - p e a k e da n dh e a v y t a i l e d s o , f i n a n c i a lp r e d i c t i o ni sm o r ec h a l l e n g i n g ,a n dh a sg r e a tv a l u e si np r a c t i c a la p p l i c a t i o n a n db r i g h tp r o s p e c ti nm a r k e t i n g t h i st h e s i si n v e s t i g a t e st h ea p p l i c a t i o n so ff u z z yr e v i s i n gm o d e la n dah y b r i d m o d e lb a s e do na n na n df e a t u r ee x t r a c t i o nc l u s t e r i n gi nf i n a n c i a lp r e d i c t i o n b e c a u s eo ft h el i m i t a t i o no ft h eo r i g i n a lf u z z yl o g i cm o d e l ,w h e nu s i n gi tf o rf i e n d f o r e c a s t i n g ,t h et r e n da c c u r a c yr a t i o i sl o wa n dt h ec o n s e c u t i v ep r e d i c t i n gv a l u e s f l u c t u a t e f l a t l y , w h i c hc a n n o tr e f l e c tt h er e a lt c n d e n c yo fm a r k e t i n o r d e rt o o v e r c o m es u c hd e f i c i e n c y , af u z z yr e v i s i n gm e t h o di sp r e s e n t e d t h ee x p e d m e n m l r e s u l t ss h o wt h a tu s i n gf u z z yr e v i s i n gm o d e lf o rf i n a n c i a lp r e d i c t i o ni se f f e c t i v ea n d f e a s i b l e i nt h eh y b r i dm o d e lb a s eo nc l u s t e r i n ga n da n n ,t h i st h e s i si n v e s t i g a t e st h e m e t h o do fs u b s e q u e n c ec l u s t e r i n gi nf i n a n c i a lt i m es e r i e sb a s e do f ff e a t u r e s e x t r a c t i o n ,a n da p p l e st h er e s u l t st ot r a i na n n ,e l i m i n a t i n gt h eb i a so fi r r e l e v a n t h i s t o r yp a t t e r n s t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h eh y b r i df o r e c a s t i n gm o d e l o u t p e r f o r m st r a d i t i o n a lb p n e t w o r ki nt r e n da c c u r a c y b a s e do nt h es a m ee x p e r i m e n t a ld a t a ,t h et h e s i sc o m p a r e st h er e s u l t so ft h e s et w o n e wf o r e c a s t i n gm o d e l s ,a n da n a l y z e st h er e s p e c t i v ec h a r a c t e r sa n da p p l i c a b i l i t y f i n a l l y ,t h et h e s i sm a k e sar e s e a r c ho nh o wt oc h o o s et h ep a r a m e t e r so ft h e f o r e c a s t i n gm o d e l s ,a n dp r e s e n t ss o m es i m p l eb u te f f e c t i v em e t h o d s k e y w o r d s :f i n a n c i a lp r e d i c t i o n ;d a t am i n i n g ;f u z z yr e v i s i n g ; f e a t u r e se x t r a c t i o nc l u s t e r i n g 厦门大学学位原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成 果。本人在论文写作中参考的其他个人或集体的研究成果,均在 文中以明确方式标明。本人依法享有和承担由此论文而产生的权 利和责任。 申明人( 签名) :丝膳形 2 年6 民1e l 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大 学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电 子版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学 校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索, 有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适 用本规定。 本学位论文属于 1 、保密() ,在年解密后适用本授权书。 2 、不保密( ) ( 请在以上相应括号内打“”) 日期:巧聋与7 日日期:剜年z 月7 日 日期:缉f 月7 日 绪论 1 1 引言 第一章绪论 人们正在被海量的数据所淹没科学数据、医疗数据、人口统计数据、金 融数据以及市场数据等等1 一i 。特别是进入九十年代,随着互联网的飞速发展, 人们占有的数据更是以指数速度迅速增长。但是人们却没有时间和能力去观察和 分析这些数据,导致知识贫乏。据估计,一个大型企业数据库中数据,只有百分 之七得到很好应用。奈斯伯特( j o h nn a i s b e t t ) 惊呼“w ea l ed r o w n i n gi n i n f o r m a t i o n ,b u ts t a r v i n gf o rk n o w l e d g e ”( 人类正被数据淹没,却饥渴于知识) 。 因此需要研究一种技术和方法能自动分析和总结历史数据,发现其中蕴藏的规律 和趋势,数据挖掘( d a t am i n i n g ) 技术应运而生,其概念是在1 9 8 9 年国际人工智 能联合会议( i j c a i ) 上首次提出。 数据挖掘技术应用到金融领域,可以用来对金融市场进行分析、建模和预测, 并进行风险评估和客户关系管理,为金融企业运营提供决策支持。国外著名的金 融企业在这方面表现积极,例如美国银行、美国第一银行、h e a dl a n d 抵押公司、 f c c 国家银行都在进行某种程度的数据挖掘。由于客观原因,我国金融企业的相 关运用刚刚起步,有关这方面的研究还局限于基础技术和算法的研究上,即使如 此,这方面的论文和专著也不多,而且主要是关于神经网络的。 数据挖掘任务一般可分成描述和预测两类,描述性挖掘任务是刻画数据库中 数据的一般特性,而预测性任务则在当前数据上进行推断,以进行预测。时间序 列数据是一种复杂类型数据,时间序列预测和分析是数据挖掘研究中一个重要的 分支。金融时间序列除了具有非线性、非平稳、动态的特征外,还具有其它一些 特征,例如高噪音、非正态、尖峰厚尾等。因此,金融预测也就更有挑战性,同 时有着广阔的应用价值和市场前景,吸引着众多的研究人员投入其中,例如w h i t e ( 1 9 8 8 ) 尝试利用神经网络来预测m 普通股每日报酬率,k i m o t oa n d a s a k a w a ( 1 9 9 0 ) 主要研究了东京证券交易所股价加权平均指数( t o p ) 的预 测。 基于数据挖掘的金融预测模型 1 2 金融预测的发展及现状 很多金融理论的实质就是研究如何构造一个与现实情况符合的预测模型以 最大程度的减少预测误差。传统的预测方法有基于数理统计的自回归移动平均模 型( a r m a ) 及其扩展差分自回归移动平均模型( a r i m a ) ,自回归的条件异方 差( a r c h ) 模型等。不过传统的金融分析和理论所采用的预测模型往往是在某 些苛刻的假设条件上建立的,形式上是一些简单的数学表达式的模型吲。虽说这 种模型简洁,具有较好的解释性和可理解性,但它在某种程度上损伤了预测的精 确性。而数据挖掘技术在某些方面突破了这种限制,如近年来发展迅速的神经网 络( a n n ) 、粗集( r o u g hs e t ) 、b a g g i n g 、归纳逻辑程序( i l p ) 、支持向量机( s v m ) 等智能方法m 【1 0 】。 f a m a 于1 9 6 5 年提出有效市场假说,起初,金融领域广泛接受这一假说。该 假说认为金融产品当前的价格已经充分反映了所有公共信息( 包括过去价格所包 含的所有信息、已公布的信息等) ,并且这些信息会立即反映到价格中去。按照 有效市场假说,市场行为是不可预测的。然而实际市场并不遵循这一结论,很显 然如果所有信息对所有投资者来讲都有相同影响的话,市场就缺乏流动性。按照 有效市场假说的论述,当投资者接收到信息时,所有人都力争以相同的价格进行 相同的买卖。但实际上投资者并非如此整齐划一:有些人可能需要每天进行买卖 操作,而有些人只需在若干年之后能够偿付其债务即可,由此可以看出信息对投 资者的重要性是依赖于投资者投资期限的长短。事实上大量研究和理论分析证 明了市场并不是有效的,或者说是弱式有效的( h a n g h e n ,1 9 9 7 ) ,来自金融界和 信息科学界的众多的研究成果也表明使用金融市场的历史数据来预测未来市场 行为是可能的1 2 , 1 3 1 0 近年来发展的数据挖掘模型能更好的适应金融数据复杂动态性的特点:n 4 1 ( 1 ) 数据类型多 金融市场的不确定性来自许多因素的影响,如经济的、政治的、社会的、心 里的、交易技术的等等。数据的类型既有数值型的也有大量非数值型的,如分类 数据。传统的基于统计学的金融定量分析大多数针对数值数据,对分类数据多采 用定性分析,因而受分析者主观因素影响较大,分析结果也非常粗略。数据挖掘 2 绪论 技术则对分类数据的适应性很强,比如神经网络、决策树都特别适合分类数据。 ( 2 ) 关系复杂 一个金融变量的取值可能和很多因素有关,这种相关可能是线性的也可能是 非线性的;也许能以初等函数形式来描述,也许根本无法以数学形式表示。数学 形式的预测模型固然简洁,具有较好的解释性和可理解性,但同时也是其缺陷所 在,即它的变量个数不可能很多,函数关系也不可能太复杂。而数据挖掘技术接 受几百上千个变量也并不是太难的事,而且它表达的关系可以非常复杂,甚至无 法以数学形式描述,如神经网络表达的变量间的关系是非常复杂的。此外,数据 挖掘表达逻辑关系的能力也非常强,这是传统的统计分析所欠缺的。 ( 3 ) 动态性 金融数据中所包含的规律时效性往往非常强。随着时间、经济环境的变化, 规律也在不断更迭。比如在牛市中的某条规则到熊市中可能就不起作用了。数学 形式的预测模型很难及时适应这种变化。而采用某些数据挖掘技术可以在不断获 得新数据后自动对模型进行动态更新,适应新的环境。 ( 4 ) 数据量大 金融领域的数据量非常庞大,每天都不断涌出大量新的数据。传统的分析法, 即便采用计算机,其分析处理能力也非常有限。而数据挖掘技术,我们从其定义 即可看出,它面向的就是大数据量。特别是它与数据仓库的结合更是加强了其海 量数据处理能力。 1 3 本文主要研究内容 本论文是在己发表论文( 见攻读硕士期间所发表论文) 和后继关于特征提取 聚类分析和神经网络的混合预测模型的基础上的扩展和深化。 数据挖掘是一门多学科交叉,综合多门学科成果的技术。主要包括数据库、 人工智能、机器学习、神经网络、统计学、并行计算、数据可视化等。具体到金 融预测,除了上述方法工具和技术外,还需要一定的金融知识。 我们运用数据挖掘的理念和思想研究设计实用的金融预测分析系统,重点研 基于数据挖掘的金融预测模型 究模糊修正预测模型和基于聚类分析和神经网络的混合预测模型在金融时间序 列预测中的应用,具体实验数据为上证综合指数和国外的道琼斯工业平均指数数 据。 对模糊修正预测模型,研究了如下两个方面: ( 1 ) 传统的模糊逻辑预测模型由于自身的局限性,造成运用在金融预测领域中 适用性差的特点,本文研究给出了改进模型,拓展了模糊逻辑模型的适用 范围。 ( 2 ) 研究了针对金融预测的模型参数训练方法,引入模拟退火算法用于模型参 数训练。 对基于聚类分析和神经网络的混合预测模型,研究了针对金融时间序列的子 序列聚类方法,把聚类结果引入到传统的b p 神经网络预测模型中,提高了预测 的趋势准确率。对混合模型,具体研究如下两个方面: ( 1 ) 基于特征提取的子序列f c m 聚类方法,并把聚类结果引入到b p 神经网 络预测模型中。 ( 2 ) 研究了常用的聚类有效性指标在对基于特征提取的金融时间序列子序列 聚类中的表现。 同时还分别从实验结果和模型自身特点两个方面评价了这两个创新模型,并 对各个模型的适用条件进行了说明。 此外,从数据挖掘的角度研究了: ( 1 ) 数据的准备和预处理( 数据变换,数据滤波等) ( 2 ) 在对时间序列自相关性研究的基础上,给出了简单有效的时间序列模式长 度选择方法。 1 4 本文结构安排 本论文共分为7 个章节。 第一章是绪论,介绍了课题的背景及实际意义,金融预测的发展及现状。最 4 绪论 后简述了本文的研究内容。 第二章为时间序列及预测理论基础,概括的介绍了本课题研究的相关背景知 识,包括时间序列的定义和性质、模糊逻辑、神经网络、模拟退火算法的概念。 第三章从数据挖掘的理念介绍了金融预测阶段过程及每一过程所用到的技 术方法。 第四章在传统模糊逻辑预测模型的基础上给出了模糊修正预测模型,分别从 理论和试验结果的角度论证了使用模糊修正预测模型进行金融预测的有效性和 可行性。 第五章介绍了基于特征提取聚类和神经网络的混合预测模型,同单一神经网 络预测模型的试验结果对比表明了混合模型的优势和吸引力。 第六章为预测系统设计与开发,介绍了基于本文创新的两个预测模型的实际 应用系统设计开发及其功能。 第七章总结了本论文所创新的两个模型,对其特点及适用条件进行了分析。 同时对模型进一步的研究进行了展望。 基于数据挖掘的金融预测模型 2 1 引言 第二章时间序列及预测理论基础 时序数据在人们所拥有数据中占有很大的比例,针对时序数据的分析和挖掘 是数据挖掘的一个重要研究和应用分支。时间序列的分析方法在工业自动化、水 文、地质、气象、机械、化工等许多技术领域以及军事、经济管理和某些社会科 学领域都得到了广泛的应用,因此也是众多领域学者研究的范围,这些领域包括 经济、计算机科学、管理、社会科学等。本论文是使用计算机科学的方法和思想 对金融领域的时间序列分析研究,涉及些基本的概念和理论基础。在介绍模型 和算法之前,首先介绍有关时间序列的定义和相关概念以及本论文所涉及的相关 预测模型的理论基础。 2 2 时间序列 时间序列就是按时间顺序取得的一系列的观测值h 1 5 10 时间序列是一个有序 结构,是按照时间先后顺序记录下的一种或多种数据,分别称为单变量时间序列 和多变量时间序列。时间序列数据在自然、经济及社会等领域非常常见。例如每 天的证券各种指数、国家和地区每个月的g d p 、动植物种群在某个地区逐月或 逐年的消长情况等等。对单变量时间序列其数学描述为: x ,= ( 。】,一,x t 一。) ,其中,j ,。表示时间t 前面第f 个时间单元对应的 序列数值。 下面介绍几个本文中用到的几个时间序列相关概念。 2 2 i 稳定性 对每个自然数m 和每组整数t i , r 2 ,f 。,( z 工b ,t 。) 的m 维联合分布定 义为1 1 引: f ( z 1 ,一,z m ;l t 。) = p x f 。 z t , : z 2 ,x z 。 ( 2 1 ) 对时间序列的平稳性,有如下定义1 5 1 : 6 时间序列及预测理论基础 对时间序列( x t l ,如果对任何正整数m 和整数t i t 2 t 。,此序列中的 随机变量黾。x t 2 一,x t m 。的联合分布与整数j 无关,即 f ( z l ,z m ;f 1 + s ,f 。+ s ) = f ( z l ,z 。;f 1 ,t 。)( 2 2 ) 则称时间序列 是平稳的。 2 2 2 时间序列的自相关性 对时间序列x = “,恐,x n ) ,自相关函数( 见文献【1 4 】) 为: g = 击薯( 一x - ) ( x ,+ k - ) ( 2 3 ) 自相关系数为:r k = g c o 其中,k 为时滞,i 为序列x 平均值,c 0 为序列x 的二次方差。 2 2 3 时间序列的预测 具体来说,就是确定一个预测函数f :r “一r ,然后根据式 毫= 盹,再州) ,h )( 2 4 ) 来预测未来a 其中,量,为预测值,( t 。,x t - ( n - 1 ) , , x t 。) 为最近h 个单元的时间 序列。关于时间序列及其一般的预测方法的详细介绍见文献 1 6 】。 2 3 模糊逻辑 模糊集合理论是由美国控制理论专家l a z a d e h 在1 9 6 5 年提出来的,是基于 现实世界中存在的大量不确定不完整信息,而人脑能够理解有感知器官提供的不 精确及不完整的传感信息的基础上的。模糊集合理论通过使用由隶属函数表示的 语言变量,可以进行数值计算。另外也可以选择模糊规则建立模糊推理系统,从 数据中挖掘知识表达的逻辑关系。模糊集合理论在理论和应用方面的研究,为计 算机处理模糊信息及进行模糊推理找到了有效的途径n 7 1 。 7 基于数据挖掘的金融预铡模型 给定论域上的一个对象空间u ,研究对象工u ,对于另一个子集a , a u 。对于研究对象工是否属于集合a ,对每一个x 定义个特征函数,使 得它与工构成一组有序对。因此,口上的模糊子集a 定义为一组有序对: a = ( ( z , ( 工) ) i 工u ) ( 2 5 ) 在模糊集合中,对于任何一个x eu ,都确定了一个心( 戈) ,z a ( x ) 称为工 对a 的隶属函数,隶属函数,( 工) 【0 ,1 】。当以( x ) = 0 ,1 l 时,模糊集合a 就 成为一个普通集合。 模糊集合完全由隶属函数所表示,隶属函数是模糊集合理论的基石。一般隶 属函数通过大量的实验,从数据中归纳、总结得出。隶属函数可以是离散的,也 可以是连续的,常见的隶属函数有如下几种: ( 1 ) 三角形隶属函数 三角形隶属函数如图2 1 所示,由三个参数( n ,b ,c 确定 t a ( 曲= ( 2 ) 梯形隶属函数 梯形隶属函数如图2 2 所示,由四个参数f 口,b ,c ,d l 确定 f ( 茗) = 0x a 苎二! a 一 x 一6 一口 b d lb x c d - x c 工d d c od x ( 3 ) 高斯函数形隶属函数 高斯函数形隶属函数如图2 3 所示,由两个参数 c ,盯) 确定 8 ( 2 7 ) 回 6 c 一 口 工 j 石 v i 善, 贝新状态j 作为重要状态,否则舍去。 若新状态j 是重要状态,就以j 取代i 成为当前状态,否则仍以i 为当前 状态。再重复以上新状态的产生过程。在大量迁移( 固体状态的变换称为迁移) 后,系统趋于能量较低的平衡状态。 由式( 2 2 0 ) 可知,高温下可接受与当前状态能量差较大的新状态为重要状 态,而在低温下只能接受与当前状态能量差较小的新状态为重要状态。这与不同 温度下热运动的影响完全一致。在温度趋近于零时,就不能接受任一e , 巨的新 状态j 了。 上述接受新状态的准则称为m e 廿o p o l i s 准则,相应的算法称为m e p o l i s 算 法。模拟退火算法用m e 咖p o l i s 算法产生阿题解的序列,并由与m e 舡o p o l i s 准则对 应的转移概率只 f1,( j ) ,( f ) 趴b 力2 k 等盟) 否则 2 ” 确定是否接受从当前解f 到新解j 的转移。 式( 2 2 1 ) 中,( f ) ,( j ) 为目标函数,t er + 表示控制参数。开始让t 取 较大的值( 与固体的溶解温度相对应) ,在进行足够多的转移后,缓慢减小t 的 值( 与“徐徐”降温相对应) ,如此反复,直至满足某个停止准则时算法停止。 一般的模拟退火算法可以如算法2 1 ( 伪c 语言描述) ,其中,气表示m e t r o p o l i s 算法第k 次迭代时控制参数t 的值,表示m e t r o p o l i s 算法第k 次迭代时产生 的变化个数。 1 6 时间序列及预测理论基础 算法2 1 模拟退火算法s a i n i t i a l i z e ( i o ,t o ,k ) c = 0 ; i = o ; d o ( f o r ( 1 - - o ;k ;“+ ) g e n e r a t e ( jf r o m 置) ; i f ( ,( j ) f ( i ) ) 可; e l s ei f ( e x p ( 丛丛韭) r a n d o m o ,1 ) ) - - j ; 舢: c a l c u l a t el e n g t h ( 厶) ; c a l c u l a t e _ c o n t r o l ( 气) ; ) u n t i ls t o p c r i t e r i o n ; 模拟退火算法依据m e t r o p o l i s 准则式( 2 2 1 ) 接受新解,因此除接受优化解 外,还在一个限定范围内接受恶化解,这正是模拟退火算法与局部搜索算法的本 质区别所在。开始时t 值大,可能接受较差的恶化解:随着t 值的减小,只能 巨受较好的恶化解:最后在t 值趋于零值时,就不再接受任何恶化解了。这就 使模拟退火算法既可以从局部最优的“陷阱”中跳出,更有可能求得问题的整体 最优解,又不失简单性和通用性。 基于数据挖掘的金融预测模型 3 1 引言 第三章金融预测模型 金融预测是指对金融市场的大量历史数据,运用数据挖掘的方法来预测未来 的市场行为。金融预测有着广阔的应用价值和市场前景,因此吸引着众多的研究 人员投入其中h 5 ,6 9 1 们。 时间序列分析方法是金融预测一种重要方法,是属于技术分析层面( 相对于 基本面) 上的方法。其预测分析对象为金融市场上的各种金融证券指标和金融产 品价格,例如各种股票指数、利率、汇率等等。在金融市场中,证券品种或证券 投资工具日益丰富,除公司股票外,国库券、财政债券、金融债券、公司债券、 政权投资基金等都有不同程度的发展,股票期权以及指数期权等衍生金融产品不 断出现。所用方法和模型有基于统计的回归模型,有基于数据挖掘和人工智能、 机器学习的智能算法。 在金融市场中,股票市场是最大最重要的市场,被称为经济的“晴雨表”和 “报警器”,其作用不仅仅被政府所重视,而且受到投资大众的普遍关注。同时, 股票市场也是最复杂的市场,是一个非线性、动态的系统,其市场行为受到诸如 利率、通货膨胀率、经济增长率、政治和国家宏观经济政策等诸多因素的影响。 所以对股票市场行为做出比较准确的预测是相当困难的,也是极具挑战性的。众 所周知,股票收盘价包含许多有用的信息,特别是近期的价格直接影响到市场未 来的价格走向。因此本论文选择股票收盘价时间序列来进行金融预测的研究。 一个有用的金融预测模型应该能够给出金融市场未来的走向,应该能够做出 一定时间段的短期连续预测。因此,金融预测不同于其它领域的时间序列预测, 可以只做单步预测,有不少关于金融预测的研究只涉及单步预测,对投资者是没 有参考价值的。同时,作为一种技术层面的分析工具,时间序列模型也只能做短 期预测,这是所有技术分析方法的局限性。基于金融市场行为中的“牛顿第一定 律”,即价格呈趋势运动,本论文选择了最近挖天日收盘价作为模型输入来预测 未来d 天的股票价格。 本章介绍了金融预测系统的设计开发过程,重点介绍了我们在每一过程中所 1 8 金融预测模型 用到的方法及技术。预测系统的结构如图3 1 所示,对每一步骤所用的方法和技 术见本章后续部分。 图3 1 预测系统结构 3 2 数据预处理 在输入到算法之前,数据必须收集、观察、清理和选取。因为最好的预测系 统也可能因为不好的数据形式而失败,所以进行数据的预处理非常关键13 1 。本文 采用对原始数据采用线性变换和数据滤波处理的预处理方法,对模糊修正预测模 型和基于聚类分析和神经网络的混合预测模型采用同样的数据预处理过程。 3 2 i 线性变化 因为原始时间序列波动太大,不适合模糊修正预测模型( 包括混合预测模 型) ,一般把原始数据压缩到一个较小的范围之内,本文采用线性变换把原始数 据压缩到e o 1 ,0 9 区间,线性变换公式为: 置:j 塑兰l 葺+ o 1 m a x ( x k ) - 0 9 m i n ( x k ) ( 3 1 ) m a x 瓴) 一m i n k ) m a x 魄) 一n i i n 瓴) 其中,t 为原数据,置为变换后数据,r o f i n ( x 。) ,m a x ( x d 分别表示历史时间序列 数据的最小值和最大值。对模型输出结果,应该根据式( 3 i ) 做反方向变换, 还原为实际数据输出。 3 2 2 数据滤波 由于股票价格时间序列的高峰、高噪音等特点,数据应用到模型之前进行数 据滤波预处理是必要的。在对非线性时间序列进行预测、模式匹配等应用中对数 据进行滤波非常普遍,常用的滤波估计量有:正交序列延伸、最艋近估计、平均 微商估计等。本文采用n a d a r a y aw a t s o n 核估计量口0 1 : 基于数据挖掘的金融预测模型 墨= 毫揣 2 , 其中,核估计函数k ( j ) 为g a u s s i a n k e m e h r 吃( z ) 2 而1 已2 6 2 这里需要说明的是,对数据进行平滑滤波时候,只能向前平滑,而不能向后 平滑,即对序列数据值玉,只能使用向量x 。= ( t 。x i - - ( k - i ) ,, 而) 代入式( 3 2 ) 进 行滤波处理,而不能使用善后的数据,否则提前使用后续数据,与预测实际相 驳,从而造成很高预测精度的假象。文献1 2 0 l 没有给出选择核估计函数吒( 曲参 数h ( 称为带宽) 的有效方法,在本论文中通过实验选择经验值。带宽h 越大, 数据平滑的越充分,同时失真度就越大。通过试验验证带宽h 在【l ,3 1 范围内取 3 3 预测模型选择 建模是数据挖掘过程中最重要的过程。金融预测作为数据挖掘的一个应用研 究分支也不例外,预测模型的选择和优化( 也就是建模) 是预测系统设计开发过 程中最关键的一环。 传统的预测模型有自回归模型( a r ) ,移动平均模型( m a ) 或自回归移动 平均模型( a r m a ) ,参数估计一般采用最小均方( l m s ) 估计。差分自回归移 动平均模型( a i t m a ) 及自回归的条件异方差( a r c h ) 模型是重要的预测工具, 在经济金融领域应用广泛。但这些都是基于数理统计的分析预测模型,近年来随 着计算机科学的迅猛发展,人工智能和机器学习研究的突破性进展,开创了数据 挖掘新的研究发向,也为金融预测领域的研究开拓了一条新的途径,例如近年来 发展迅速的神经网络( a n n ) 、粗集( r o u g hs e t ) 、b a g g i n g 、归纳逻辑程序( i l p ) 、 支持向量机( s 讧) 等智能模型。 本论文预测系统的模型选择有两个,为模糊修正预测模型和基于聚类分析和 神经网络的混合预测模型,分别见第四章和第五章。 2 0 金融预测模型 下面分别简要介绍a r 。m a ,a r m a ,a r i m a 模型,其它的模型在这里就 不多介绍了。 3 3 1a r 过程 a r 是2 0 世纪2 0 年代开始发展起来的一种随机时间序列分析。它描述的是 系统过去自身的记忆。我们称时间序列 玉 为p 阶段自回归过程,简记为a r t ( p ) , 如果它为p 阶过去值的加权和再加上一个冲击乙,即: 玉= 破一i + 珐玉一2 + + 砟t p + z t ( 3 3 ) 其中, 乙 为均值为0 ,方差为盯2 的白噪音过程。设后移算子b ( 如= 一。) , 则a r ( p ) 模型可以表示为妒( 8 ) = ,其中,妒( 8 ) = 1 一破b 一绣矿一屯嚣9 为曰 的1 7 阶多项式。 a r 模型具有简单、直观、容易理解等优点,而且很容易从数据系列中去除 季节分量。但预测精度较低且模拟的动力行为有限。 3 3 2m a 过程 我们称q 阶移动平均过程( 简记为m a ( 鼋) ) 是过去q 阶冲击响应的线性加 权和,即: 玉= z t - 0 1 z , 1 一皖z f 一2 一一吱z ,_ 口 ( 3 4 ) 这里的加权因子不一定都要是正数。如果用上面的后移算子表示,模型可以 记为:= 口( 日) z f ,其中,口( 丑) = 1 - 0 1 b - 0 2 8 2 一o , b 2 。对所有的参数值, 有限阶m a 过程都是稳定的。 3 3 3a r m a 过程 把自回归和移动平均过程结合在一起,就构成了a r m a 过程,记为 a p , m a ( p ,鼋) ,如果 = 谚】0 1 十晚j 0 2 + + 唬,薯一p + z t bz f l 一睦z ,一2 一一吃z | - 口 ( 3 5 ) 2 1 基于数据挖掘的金融预测模型 或烈四) 墨= 口( 口) 乙,其中妒) 和p ( 口) 的含义同上。 3 3 4a m m a 过程 a r i m a 过程即差分自回归移动平均模型,它的思想跟a r m a 差不多,其基 本思想是,为了消除时间序列的非平稳性,引入差分算子v 。如果原始序列经过 d 阶差分后满足a r m a ( p , q ) 过程,那么原始序列( 没有经过差分) 就为 a r i m a ( p ,d 口) 过程。数学上记为: 妒( 曰) ( 1 一b ) 。= o ( b ) z , ( 3 6 ) 3 4 预测模型评估 对预测模型进行预测性能评价,必须基于一定的评价指标。特别需要说明的 是,对不同的预测模型进行比较评价,基于不同的指标,比较结果可能不同,这 说明不同评价指标的不一致性。在不同的预测领域中,往往根据实际情况选择有 价值的评价指标。 本论文采用平均绝对误差函数e ( o 和趋势准确率函数t a d ( o 两个评价指标来 评价系统的预测效果。其中,平均绝对误差函数e ( o 如下: 酬) 2 万1 善mh 一训,汪o ,1 2 ,d _ 1 ( 3 7 ) 这里m 为总的预测天数,耳0 表示预测未来第件l 天的平均绝对误差。 趋势准确率函数t a d ( i ) 如下: t a d :趾m t 帆 s , 其中 b - :嘛警刊川小o l ,小t d ( d 表示预测未来第i + 1 天的股票价格与+ ;跟当天价格。比较的平均趋势准 确率。 在金融预测上我们更关心的指标是趋势准确率,因为这直接关系到投资决策 金融预测模型 是否盈利的问题。误差函数指标以d 只是作为参考。这里需要说明的是对于趋 势准确率函数烈d ( f ) ,对第f 天未来d 天的预测趋势( 乱,毫。,暑+ 。) ,比较的 基准均为第i 天的价格王,这与实际投资操作是一致的。 3 5 小结 在实施数据挖掘之前,先制定采取什么样的步骤,每一步都作什么,达到什 么样的目标是必要的,有了好的计划才能保证数据挖掘有条不紊地实施并取得成 功。金融预测作为数据挖掘的一个应用研究领域,同样遵循一定的过程流程,比 较概括的讲,分为数据预处理,模型选择和优化,模型评估三个周期过程,每一 过程都涉及到相关的方法和技术,任一过程的不足和不完善都将造成整个预测系 统的失败。同时,金融预测不同于其它的时间序列预测应用领域,只有趋势预测 模型才具有实际的应用价值。 基于数据挖掘的金融预测模型 4 1 引言 第四章模糊修正预测模型 模糊逻辑具有较强的概化和推理能力,q p a n g 等较早研究了基于模糊逻辑 的时间序列预测模型2 1 1 ,q i n g s h a nj i a n g 等在q p a n g 等的基础上发展并测试了 模糊逻辑系统t 2 2 ,结果表明模糊逻辑系统在信号数据流的预测上有良好的表现。 虽然金融数据时间序列同信号数据流一样具有非稳定、非线性的特点,但是直接 把逻辑模型运用到股票预测上,试验结果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东古代文学自考试题及答案
- 乐谱理论考试题及答案
- 护士从业资格考试试题及答案解析
- 课件显示倒计时
- 勘测测量考试题及答案
- 铝电解筑炉工内部技能考核试卷及答案
- 酒吧音乐考试题及答案
- 加工中心操作工转正考核试卷及答案
- 抗生素酶裂解工基础考核试卷及答案
- 2025年教师招聘之《幼儿教师招聘》模考模拟试题及答案详解(必刷)
- 成品仓库发货流程
- 2025体育单招英语备考100个高频名词精讲(精校打印版)
- 供应链金融合作合同范本
- 医务人员职业防护暴露(针刺伤)防范与应急预案课件
- 肥胖症诊断与治疗(2024版)指南解读
- 基坑工程课程设计
- 医美注射类知识培训课件
- 高速公路文明施工文物保护保证体系及保证措施
- 监理部总控制计划
- 软件可行性报告范文
- 压裂泵往复密封动态磨损机理及失效自愈控制技术研究
评论
0/150
提交评论