已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 针对目前国内股市走势预测存在的问题,如预测过程计算量庞大、预测结果 不理想等,本文使用数据挖掘中的几种常用方法建立预测模型,通过对预测过程 及预测结果的分析,来寻求数据挖掘算法与股票预测的结合点。 本文使用了时间序列方法、马尔可夫链模型、人工神经网络模型对证券市场 的价格进行建模和预测。应用时间序列方法预测时使用了简单一次移动平均预测 法、一次指数平滑预测法、两次指数平滑预测法。时间序列方法预测股票走势最 为简单,但是误差过大。应用人工神经网络时,采用了b p 算法和遗传算法来训 练网络权值,同时使用动量法和学习率自适应调整相结合的策略,人工神经网络 模型虽然预测效果最好,但是计算量过大。相对于前两种方法,马尔可夫链模型 更适合对股票走势的预测,其计算量较小,虽然自身有些弊端,但是用多状态预 测法可以弥补其自身的不足。改进方法后的马尔可夫链模型预测效果同人工神经 网络模型的预测效果不相上下。 关键字:数据挖掘股票预测时间序列预测马尔可夫链人工神经网络 a b s t r a c t v i e wo ft h ep r o b l e m sl l l a te x i s ti nf o r e c a s t i n go fc w t e n tt r e n do ft h ed o m e s t i c s t o c km a r k 吒s u c ha s :t h eh u g ea m o u n to fc o m p u t a t i o np r o c e s sf o r e c a s t s ,p r o j e c t i o n s a n do t h e ru n s a t i s f a c t o r yr e s u l t s ,t h eu s eo fd a t am i n i n gi nt h i sp a p e rs e v e r a lm e t h o d s u s e dt oe s t a b l i s hp r e d i c t i o nm o d e l ,p r e d i c t i n gt h eo u t c o m eo ft h ep r o c e s sa n a l y s i sa n d p d i c i i o n i no r d e rt os e e kt h ep o i n to fd a t am i n i n gs t o c k sf o r e c a s ta l g o r i t h ma n dt h e i n t e g r a t i o n i ti su s et h et i m e s e r i e sm e t h o d s m a r k o vc h a i nm o d e l t h ea r t i f i e i a ln e u r a l n e t w o r km o d e li nt h i sp a p c r a p p i i c a t i o n so ft i m e - s e r i e sf o r e c a s t i n gm e t h o d sh a v e b e e nu s e di nas i m p l em o v i n ga v e r a g ef o r e c a s t af o r e c a s to fe x p o n e n t i a ls m o o t h i n g , t w oe x p o n e n t i a ls m o o t h i n gp r e d i c t i o nm e t h o d t i m e - s e r i e sm e t h o d sh a v et h em o s t s i m p l ei nf o r c - e a s t i n gt r e n do ft h es t o c k , b u th a v et h el a r g e s te r r o r a p p l i c a t i o no f a r t i f i c i a ln e u r a ln e t w o r k , b pa l g o r i t h ma n du s e dg e n e t i ca l g o r i t h m st ot r a i nt h e n e t w o r kw e i g h t s ,b u ta l s oa d o p t e dt h el e a r n i n gr a t ea n dm o m e n t u mm e t h o do f c o m b i n i n ga d a p t i v ea d j u s t m e n to ft h es t r a t e g y , t h ep r i c eo ft h es e c u r i t i e sm a r k e t s m o d e l i n ga n df o r e c a s t i n g a r t i f i c i a ln e u r a ln e t w o r km o d e li ns p i t eo ft h ep r o j e c t e d b c s te f f e c t , b u tt h ev o l u m ec a l c u l a t e d c o m p a r e dt ot h ef i r s tt w om e t h o d s m a r k o v c h a i nm o d e li sm o t es u i t e dt of o r e c a s tt h em o v e m e n to ft h es t o c k t h es i n a i t e ra m o u n t o fc o m p u t a t i o n , t h ee f f e c t so ft h ea r t i f i c i a ln e u r a ln e t w o r km o d e lf o r e c a s ts i m i l a r r e s u i t sw i | hi m p r o v ef o r e c a s t i n gm e t h o d s k e y w o r d :d a t am i n i n g f o r e c a s to f s t o c km a r k e rc h a i n t i m e s e r i e sm e t h o d sa r t i f i c i a in e u r a ln e t w o r k 长春理工大学硕士学位论文原创性声明 本人郑重声明:所呈交的硕士学位论文,基于数据挖掘的股票预测研究 是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经注明 引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成 果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 作者签名:握选2 年丘月碰日 长春理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“长春理工大学硕士、搏士学位论文版 权使用规定”,同意长春理工大学保留并向国家有关部门或机构送交学位论文的 复印件和电子版,允许论文被查阅和借阅。本人授权长春理工大学可以将本学位 论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等 复制手段保存和汇编学位论文。 作者签名:燧显幸 年世月碰日 指导导师签名:年丝月幽 第一章绪论 1 1 研究目的与选题意义 数据库系统经过数十年的发展,已经保存了大量的e l 常业务数据。随着数据库和 各类信息系统应用的不断深入,数据量的日益积累,每年都要生成大量的数据,并成 增量发展趋势。大量信息是当今信息社会的特征,是我们的宝贵财富,然而面对海量 数据,我们往往无所适从,无法发现数据中存在的关系和规则,无法根据现有的数据 预测未来的发展趋势“1 。导致了“我们淹没在数据的海洋中,却缺少知识”的现象。人 们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识,提高信息利用 率? ”我们希望运用数据挖掘技术从这些数据当中挖掘出知识来。大量数据的背后隐 藏了很多具有决策意义的信息,通过对海量数据的分析,发现数据之间的潜在联系, 为人们提供自动决策支持。 作为市场经济重要特征的股票市场,从诞生的那天起就牵挂着数以千万投资者的 心。高风险高回报是股票市场的特征,因此投资者们时刻在关心股市、分析股市、试 图预测股市的发展趋势。一百多年来,一些分析方法随着股市的产生和发展逐步完善 起来,如:道氏分析法、k 线图分析法、柱状图分析法、点数图分析法、移动平均法, 还有形态分析法、趋势分析法、角度分析法、神秘级数与黄金分割比螺旋历法、四度 空间法等,随着计算机技术在证券分析领域的普及与应用,不断推出新的指标分析法。 然而,严格讲这些方法仅仅是分析手段,还不能直接预测股市的动态”。此外,人们也 试图用回归分析等统计手段建立模型来预测股市。然而,利用传统的预测技术进行股 市预测有一个最根本的困难,那就是待处理的数据量非常巨大。由于股市的行情受到 政治、经济等多方面因素的影响,其内部规律非常复杂,某些变化规律的周期可能是 一年甚至是几年,因此需要通过对大量数据的分析才能得到,而传统的预测技术预测 效果并不理想。 近十年间,数据挖掘技术的研究工作取得了很大的进展,各种数据挖掘技术的应 用极大地推动了人们分析、处理大量数据信息的能力,并为人们带来了很好的经济效 益,因此可以预见数据挖掘技术在股市预测中将会有很大的潜力。 1 2 国内外研究现状 技术分析方法近些年来发展很快,特别是随着计算机的普及,各种分析方法越来 越多。针对股票市场表现出的不同特点,国内外学者提出了多种多样的分析和预测方 法,常用的分析和预测方法有下面几种。1 :( 1 ) 证券投资分析方法。这是市场分析家常用 的方法。( 2 ) 时间序列分析法。这种方法主要是通过建立股价及综合指标平均模型 ( a r m a ) 、自回归移动平均模型( a r i m a ) 等来预测未来变化。( 3 ) 其他预测方法。如专家 评估法和市场调查法等定性方法、季节变动法、马尔可夫链和判别分析法等定量预测 方法。( 4 ) 神经网络预测法。神经网络是一种最新的时间序列分析方法。 1 2 1 国内研究现状 9 0 年代以来,我国计算机技术、尤其是数据库技术和网络技术在股票市场中得到 充分应用,使得作为证券市场的重要组成的股票市场更加蓬勃发展起来,逐步成为证 券业乃至整个金融业的必不可少的组成部分,显示出强大的生命力。早期市面流行的 预测方法很多,其中技术分析便包括了移均线、l ( d 指标、r s i 等3 0 余种指标。这些预 测方法大多使用了统计学知识。近两年,随着数据挖掘技术的日趋成熟,更多的国内 学者采用了数据挖掘方法预测股市走势。常用的如:时间序列分析法,独立分量分析 法、人工神经网络等。有些在算法方面对分析方法提出改进,如离散小波的学习算法、 b p 算法、正交最小二乘法、决策树算法、租糙集算法等1 。有些在模型建立上提出刨 新,如建立混合型的神经网络模型哪御、多变量函数估计小波网络和模糊小波网络模型、 运用最小描述长度原则选取显效因子建立模型等。 1 2 2 国外研究现状 相比国内,国外对股票预测方面的研究要早很多。1 9 8 7 年,l e d e s 和f a r b o r 首次将 神经网络引入到预测领域中,无论是从思想上、还是技术上都是一种拓宽和突破。它 解决了传统预测模型难以处理高维非线性、偏重定量指标、难以处理定性指标、缺少 自适应和自学习能力的预测问题。随后,r e f e n e s 等人将神经网络预测方法和多重线性 回归方法在股票市场预测中的应用进行了比较研究,指出神经网络的平滑内插特性使 其能较好的拟合数据并能更好地泛化,其预测精度比统计预测方法有较大的提高。1 9 9 2 年由美国的p a t i 和s h n a p r a s a d 首次正式提出小波神经网络,通过小波函数作为神经元 的映射函数,充分利用小波基的局域特性及具有自适应的时频特点,构造了离散仿射 小波神经网络”。目前,国内外研究现状基本相同,都是对以往研究成果进行改进。其 中比较有影响的是l a s t ,m 提出的首先对时间序列进行预处理,然后从中抽取关键的预 测属性( p r e d i c t i n g a t t r i b u t e s ) ,这些属性对时间序列的发展趋势影响较大,将其组 成属性集,这些预测属性表征了时间序列的某种特性,这种特性与时间没有关系,因 此可以采用普通的静态的数据挖掘工具对时间序列进行行为趋势的分类预测“”。此外 2 有些专家也将态势理论引入了股票走势预测中根据军事领域的数据融合理论,将所观 测的多空力量分布与活动和当前的证券投资环境、对方投资操作意图及操作机动性有 机地联系起来,分析证券涨跌的原因,得到关于个股,板块和大盘的估计,最终形成 证券综合态势图。 1 3 主要研究内容 本设计以数据挖掘技术为基础,对股票的走势进行分析预测。目标为使用数据挖 掘中的几种常用方法建立预测模型,通过对预测过程及预测结果的分析,来寻求数据 挖掘算法与股票预测的结合点。下面详细说明: 1 时间序列是指按照时间先后顺序将某个变量的取值排列起来形成的序列。时间 序列模型主要用来对未来进行预测,属于趋势预测法。本设计将采用三种时间预测的 方法来预测股票的走势,分别为简单一次移动平均预测法、一次指数平滑预测法、二 次指数平滑预测法。 2 马尔可夫链模型是以俄国数学家m a r k o v 的名字命名的一种动态随机数学模型, 它通过分析随机变量现时的运动情况来预测这些变量未来的运动情况。本文先将股票 指数根据其涨幅的程度分为四种状态,运用马尔可夫链的相关性质对股票指数运行趋 势的发生概率进行短期预测。 3 人工神经网络以大脑作为研究基础,模拟人的大脑的活动机理以实现大脑的某 些方面的功能。本文建立了三层b p 神经网络,同时采用调整权值和调整策略相结合的 方法。 第二章数据挖掘技术与证券分析技术 2 1 数据挖掘技术 近年来随着数据库和计算机网络的广泛应用,加上使用先进的自动数据生成和采 集工具,人们所拥有的数据量急剧增大。数据的迅速增加与数据分析方法滞后之间的矛 盾越来越突出,人们希望能够在对已有的大量数据分析的基础上进行科学研究,从而 充分的利用海量数据。但是目前所拥有的数据分析工具很难对数据进行深层次的处理, 使得人们只能望数兴叹数据挖掘正是为了解决传统分析方法的不足,并针对大规模 数据的分析处理而出现的。数据挖掘从大量数据中提取出隐藏在数据之后的有用的信 息,它被越来越多的领域所采用并取得了较好的效果,为人们的正确决策提供了很大的 帮助m 1 。 目前,数据挖掘技术在银行、电信、保险、交通、零售等商业领域得到了广泛的 应用,在股市预测方面也是一样。随着国内证券行业政策的逐步开放,证券行业的竞争 越来越激烈,股市预测对数据的依赖性和敏感度也越来越高“”。数据挖掘是从数据中 发现知识,挖掘、开发和利用这些数据可以使证券行业进行最适合的定位,将使企业长 期的积累得以充分发挥,从而树立竞争优势。数据挖掘技术作为分析与辅助决策工具 已经越来越得到国内券商的重视。 2 1 1 数据挖掘基本思想 数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息,即从大量的、不完 全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、规律性的、人们事先 未知的,但是又是潜在有用的并且最终可理解的信息和知识的非平凡过程。事先未知 的信息是指该信息是预先未预料到的,或称新颖性。新颖性要求发现的模式应该是从 前未知的,该信息是预先未曾预料到的。数据挖掘就是要发现那些不能靠直觉发现的 信息或知识,甚至是违背直觉的信息或知识“”。 数据挖掘是一门交叉学科,融合了数据库、人工智能、机器学习、统计学等多个 领域的理论和技术“”。数据挖掘利用各种分析工具在海量数据中发现模型和数据间关 系的过程,使用这些模型和关系可以进行预测,它帮助决策者寻找数据| 日j 潜在的关联, 发现被忽略的因素,因而被认为是解决当今时代所面临的数据爆炸而信息贫乏问题的 一种有效方法。 4 2 1 2 数据挖掘分类 数据挖掘涉及多个学科,主要包括数据库、统计学和机器学习三大主要技术。可 以按照数据库类型、挖掘对象、挖掘任务、挖掘方法和技术,以及应用等几方面进行 分类”。 1 按数据库类型分类 数据库主要是在关系数据库中挖掘知识。随数据库类型的不断增加,逐步出现了 不同数据库的数据挖掘。现有关系数据库挖掘、模糊数据挖掘、历史数据挖掘、空问 数据挖掘等多种不同数据库的数据挖掘类型。 2 按数据挖掘对象分类 数据挖掘除了对数据库这个主要对象进行挖掘外,还有文本数据挖掘、多媒体数 据挖掘、w e b 数据,这些均是非结构化数据。 3 按数据挖掘任务分类 数据挖掘的任务有关联分析、时序模式、聚类、分类,偏差检测、预测等。按任 务分类有:关联规则挖掘、序列模式挖掘、聚类数据挖掘、分类数据挖掘、偏差分析 挖掘和预测数据挖掘等类型。 4 按数据挖掘方法和技术分类 ( 1 ) 归纳学习类:该类又分为基于信息论方法挖掘类和基于集合论方法挖掘类。基 于信息论方法是在数据库中寻找信息量大的属性来建立属性的决策树。基于集合论方 法是对数据库中各属性的元组集合之间关系来建立属性间的规则。各类中又包括多种 方法,主要用于分类问题。 ( 2 ) 仿生物技术类:该类又分为神经网络方法类和遗传算法类。神经网络方法是在 模拟人脑神经元而建立的肝数学模型和h e b b 学习规则基础上,提出了系列的算法 模型,用于识别、预测、联想、优化、聚类等实际问题。遗传算法是模拟生物遗传过 程,对选择、交叉、变异过程建立了数学算子。主要用于问题的优化和规则的生成。 ( 3 ) 公式发现类:在科学实验与工程数据库中,用人工智能方法寻找和发现连续属 性之闻的关系,建立变量之间的公式,已引起人们的关注,该类中有多种数据挖掘方 法,如b a c o n 和f d d 等。 ( 4 ) 统计分析类:统计分析是门独立学科,由于能对数据库中数据求出各种不同的 统计信息和知识,故也构成了数据挖掘中大类方法。 ( 5 ) 模糊数据类:模糊数据类是反映人们思维的一种方式。将模糊数学应用于数据 挖掘各项任务中,形成了模糊数据挖掘类,如模糊聚类、模糊分类、模糊关联规则等。 2 1 3 数据挖掘处理过程模型 数据挖掘是一个需要经过反复的多次处理过程。如同软件工程在软件开发中的作 用,数据挖掘的处理过程模型为数据挖掘提供了宏观指导和工程方法“”。合理的处理 过程模型能将各个处理阶段有机地结合在一起,指导人们更好地开发及使用数据挖掘 系统嘲。从数据挖掘进入应用领域起,就有人对数据挖掘的过程进行归纳和总结,提出 了不同的数据挖掘处理过程模型。其中u s a l n a m f a y y a d g e r g o r y p i a t e t s k y - - s h a p i r o 等人给出的多处理阶段模型是一种通用模型,也是最广为接受的一种处理模型。 1 9 9 6 年,b r a c h m a n 和a n a n d 通过了解很多数据挖掘用户在实际工作中遇到的问题, 发现用户的很大一部分工作量是在数据库的交互上,他们从用户的角度对数据挖掘处 理过程进行了分析,认为数据挖掘应该更着重于对用户进行知识发现的整个过程的支 持,而不是仅仅限于在数据挖掘的一个阶段上,进而提出了以用户为中心的处理过程 模型。该模型特别注重对用户与数据库交互的支持,用户根据数据库中的数据,提出 一种假设模型,然后选择有关数据进行知识的挖掘,并不断对模型的数据进行调整优 化。b r a c h m a n 和a n a n d 在他们开发的数据挖掘系统i i d a c s ( i n t e r a c t i v em a r k e t i n g a n a l y s i sa n dc l a s s i f i c a t i o ns y s t e m ) 中采用了这种以用户为中心的处理过程模型。 1 9 9 7 年斯坦福大学的g e o r g e h j o h n 在其博士论文中给出另外一种数据挖掘处理 过程模型。该模型强调由数据挖掘人员和领域专家共同参与数据挖掘的全过程。领域 专家对该领域内需要解决的问题非常清楚,在问题的定义阶段由领域专家向数据挖掘 人员解释,数据挖掘人员将数据挖掘所用的技术及能解决问题的种类介绍给领域专家。 双方经过互相了解,对要解决的问题有一致的处理意见,包括问题的定义及数据的处 理方式。 1 9 9 9 年中国科学院计算研究所的朱延绍博士认为前述模型对知识发现过程中的反 复学习和多目标学习支持不够,即针对某种知识发现算法确定一批相关数据,使用其 他算法时,这批数据即告无效,必须重新进行数据的提取和预处理。为此在他的博士 论文中提出支持多数据集多学习目标的数据挖掘处理模型,将数据和学习算法尽量分 离,以使得数据挖掘更适合实际工作的需要并使得最终用户和数据挖掘人员之间的影 响尽量小,以提高学习效率。为了实现数据与学习算法分离的目的,该模型使用了数 据集的概念。数据集是指为了完成某项学习任务而从数据库中提取出的数据。在数据 集的描述中包括对数据的描述以及训练数据和测试数据的生成方法。数据集并不是针 对某一个学习算法,而是针对某类问题而定义的,它给出了问题所涉及的数据。在具 体算法进行数据处理时,必须对数据进行简单的筛选和加工以剔除冗余数据。 6 2 1 4 数据挖掘过程及工具 数据挖掘是一个反复的过程,通常包含多个相互联系的步骤,如定义和分析主题、 数据预处理、选取算法、提取规则、评价和解释结果、将模式构成知识,最后是应用。 并且随着应用需求和数据基础不同,数据挖掘处理的步骤可能也会有所不同。通常, 数据挖掘有以下几步( 如图2 1 ) j 1 5 图2 1 数据挖掘过程示意图 1 问题定义 进行数据挖掘,首先必须分析应用领域,包括应用中的各种知识和应用目标。问 题定义阶段就是了解相关领域的有关情况,熟悉背景知识,弄清用户要求。在确定用 户的需求后,应对现有资源如已有的历史数据进行评估,确定是否能够通过数据挖掘 技术来确定用户的需求,然后将进一步确定数据挖掘的目标和制定数据挖掘计划。 2 数据准备 数据挖掘所处理的数据集通常不仅具有海量数据,而且可能存在大量的噪声数据、 冗余数据、稀疏数据或不完全数据等。数据准备包括数据抽取、清洗、转换、和加载, 具体包括数据的清洗、集成、选择、变换、规约,以及数据的质量分析等步骤。 7 3 建立模型 数据挖掘中的建模实际上就是利用己知的数据和知识建立一种模型,这种模型可 以有效地描述已知的数据和知识,希望该模型能有效地应用到未知的数据或相似情况 中。在数据挖掘中,可以使用许多不同的模型:关联规则模型、决策树模型、神经网 络模型、粗糙集模型、数理统计模型、时间序列分析模型。 4 评价模型 数据挖掘得到的模式有可能是没有实际意义或没有实用价值的,也有可能不能准 确反映数据真实意义,甚至在某些情况下是与事实相反的,因此对于数据挖掘的结果 需要进行评估。确定数据挖掘是否存在偏差,挖掘结果是否正确,确定哪些是有效的、 有用的模式,是否满足用户需求。 5 评估的方法一种是直接使用原先建立的挖掘数据库中的数据来进行检验,也可 以另找新的测试数据并对其进行检验,另一种办法是使用实际运行环境中的当前数据 进行检验。 正是数据挖掘技术巨大的商业潜力,吸引了众多公司从事数据挖掘系统的研究和 开发,而且有的已经商品化。在不久以前大部分数据挖掘工具还只能为专业技术人员 所操控。但是,现在有更多的公司提供了更高级的数据挖掘系统,使得非专业人士也 能使用。如表2 - 1 所示,归纳了当今主要的数据挖掘产品“”。 表2 - 1 数据挖掘工具产品供应商技术及算法 2 2 证券分析技术 股票是市场经济的产物,股票的发行与交易促进了市场经济的发展。股票自1 7 7 3 年在英国率先发行,至今己有二百多年“”。我国于1 9 8 5 年发行第一支股票,现已拥有 沪、深两大证券交易所、上百家证券公司、3 0 0 0 多个证券营业部、7 0 0 0 多万证券投资 者。截止2 0 0 7 年l o 月在两大交易所上市的企业已有1 5 0 0 多家,上市证券品种接近千 种,两地总市值达2 8 0 0 0 0 多亿元。 2 2 1 证券技术分析的定义 技术分析是对证券市场行为所做的分析。技术分析的要点是通过观察分析证券市 场中过去和现在的具体表现,应用有关逻辑、统计等方法,归纳总结出在过去的历史 中所出现的典型的市场行为特点,得到一些市场行为的固定模式,并利用这些模式预 测证券市场未来的变化趋势“。 价格和成交量是市场行为最基本的表现。在某一时点上的价和量反映的是买卖双 方在这一时点上共同的市场行为,是买卖双方所达成的暂时均衡点。随着时间的变 化,均衡点会发生变化,也就是价和量的关系的变化。买卖双方对价格的认同程度可 以通过成交量的大小来确认。伴随的成交量大的价格变化,为投资者提供的信息量就 大,越值得投资分析人员重视。分析成交量大的价格变化,比分析成交量小的价格变 化要重要得多。买卖双方的这种市场行为反映在价量上就往往呈现出这样一种规律: 价升量增、价跌量减。如果价格上升,成交量不再增加,意味着价格得不到更多的买 方的确认,价格在今后的继续上升就将是“不正常”的。价格和成交量的这种相互配 合和相互认同的规律,是技术分析研究股票走势的合理性所在。“。 2 2 2 证券技术分析的理论基础 l 。技术分析的三个假设 技术分析赖以存在的基础是下面的三个假设:( 1 ) 市场行为包含一切信息;( 2 ) 价 格沿趋势移动,并保持趋势;( 3 ) 历史会重演。 第一个假设是进行技术分析的基础。该假设认为,影响证券价格变动的所有内外 因素都将反映在市场行为中,没有必要对影响价格因素的具体内容给予过多的关心。 这个假设的合理性在于,投资者关心的目标是市场中的价格是否会发生变化,而并不 关心是什么因素引起变化,因为价格的变动才真正涉及投资者的切身利益。 第二个假设认为,价格的运动是按一定规律进行的,如果没有外力的影响。价格 将保持原来的运动方向。一般说来,一段时间内如果价格一直是持续上涨( 下降) ,那 么,今后如果不出意外,价格也会按这一既定的方向继续上涨( 下降) ,没有理由改变 原来已经存在的运动方向。 第三个假设是从统计学和人的心理因素方面考虑的。在市场中具体进行买卖交易 9 的是人,决策最终是由投资者作出的。既然是人,其行为就必然要受到某些心理因素 的制约。在某个特殊情况下,如果某个交易者按某种方式进行交易并取得成功,那么 以后遇到相同或相似的情况,他就会按同一方式进行交易。 在进行分析时,一旦遇到与过去相同或类似的情况,交易者最迅速和最容易想到 的方法是与过去的结果作比较。我们假设,过去重复出现某个现象是因为某个“必 然”的原因,它不是偶然出现的,尽管我们不知道具体的原因是什么。过去的结果是 已知,这个已知的结果应该是用来对未来做预测的参考。任何有用的东西都是经验的 结晶,是经过许多次实践检验而总结的。我们对重复出现的某些现象的结果进行统计, 得到成功和失败的概率,对具体的投资行为也是有指导作用的。 2 三个假设的不合理之处 对三个假设的合理性一直存在争论。例如,市场行为反映的信息只体现在价格的 变动之中,同原始的信息毕竟有差异,损失信息是必然的。正是因为如此,在进行技 术分析的同时,还应该适当进行一些其他方面的分析。再如,就第三个假设而言,证 券市场中的市场行为是千变万化的,不可能有完全相同的情况重复出现,差异总是或 多或少存在,有时这样的差异可能是很大的。在进行具体的统计分析的时候,由于要 考虑的因素太多,。重复性”将受到考验。 每一种对反映市场行为或市场表现的资料数据进行加工处理的方法都属于技术分 析方法,至少是涉及了技术分析方法。股票走势的预测也是证券分析技术之一,目前 市面流行的预测方法很多,本文将使用三种方法:时间序列法、马尔可夫链法、人工 神经网络法,下面详细介绍。 2 3 时间序列预测技术 时间序列是一种非常广泛也非常重要的数据,如计算机系统中的日志记录。可以 抽象地认为这个记录是时间的一个序列,每个时间有对应的产生事件。时序数据库是 指由随时间变化的序列值或时间组成的数据库,值通常是等时间间隔测得的数据。时 间序列分析是用变量过去的值来预测未来的值。这些值的区别是变量所处时间的相关 性,如对股票涨跌的分析w 。 趋势分析是时间序列方法的一个主要应用之一,通常,对趋势进行评估有三种曲 线拟合方法m ,: 1 自由方法。它是根据个人判断画一条近似曲线( 或直线) 来拟合所给出的一组 数据:这种方法的有效性和质量就完全依赖个人的判断,这种方法在对大规模数据挖 掘中既不可靠且成本高。 1 0 2 最小平方方法。将最佳拟合曲线作为最小平方曲线。 3 移动平均方法。它是利用移动平均来消除循环、季节性和无规律的模式。然而 移动平均会丢失在序列开始和结束时的数据,而这些数据不存在时可能会导致循环或 其他变化的产生。通过加权移动平均可以消除极端值数据的影响。 , 预测是构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或 区间值。预测的目的是从历史大量数据中自动推导出对给定数据的推广描述,从而能 对未来数据进行预测。由于股票数据具有数据时序的特点,正符合时间序列方法要求 有大量充足的时序数据的要求。所以应用时间序列方法预测股票的走势是可行的。 2 3 1简单一次移动平均预测法 简单一次移动平均预测法是对时间序列按一定跨越期,移动计算观察值的算术平 均数,其平均数随着观察值的移动而向后移动。 设 y 。 为时间序列,取移动平均的项数为n ,设y 。是第t 期的实际值,则第( t + 1 ) 期预测值的计算公式为: 夕r + t 。吖尸- ! l ! 土2 量二! ;= 监- 詈套y ,一+ , ( 2 1 ) 厅 钙 其中,肘j 1 表示第t 期一次移动平均数,夕i “是第( t + 1 ) 期预测值( t 苫n ) ,预 测的标准误差是: s一( 2 2 ) 其中,n 为时间序列 y t ) 中原始数据的个数“o 。 项数n 的取值应该根据时间序列的特点而定。如果n 过大会降低移动平均数的敏 感性,影响预测的准确性;如果n 过小,移动平均数易受随机变动的影响,难以反映 实际趋势。一般取n 的大小能包含季节变动和周期变动的时期比较好,这样可以消除 它们的影响。对于没有季节变动和周期变动的时间序列,n 的取值要视历史数据的趋势 类型而定。一般说来,如果历史数据的类型呈水平型发展趋势,则项数n 可取较大值; 如果历史数据的类型呈上升( 下降) 发展趋势,则项数n 可取较小值,这样能取得较 好的预测效果汹】。 2 3 2 一次指数平滑预测法 指数平滑预测法实际上是一种特殊的加权移动平均法。它的特点在于: 1 对离预测期最近的市场现象观察值,给予最大的权数,而对离预测期渐远的观察 值给予递减的权数口玎。 2 对于同一市场现象连续计算其指数平滑值,对较早期的市场现象观察值不是一概 不予考虑,而是给予递减的权数。 3 指数平滑法中的口值,是一个可调节的权数值,它是一个o 口1 的值。 一次指数平滑预测法是以a ( 1 一口y 为权重( 0 口 1 ,i = o ,1 ,2 ,3 ,) 对时间序列 y 。 进行加权平均的一种预测方法,y 。的权重为a ,y 。 的权重为口( 1 一a ) ,y n 的权重 为口( 1 一口) 2 ,依此类推。计算公式为: 奠+ 。”- 叼+ ( 1 一a l : ( 2 3 ) 其中,y 。表示第t 期实际值,允,是第( t + 1 ) 期预测值,s 2 ,s p 分别表示第( t 一1 ) 期和第t 期的一次指数平滑值,口表示平滑系数,0 弓一p o 且 昂最 弓最 昂最 己最 l q 猫q 捌q 1 9 3 4q 卿 n 1 8 9 4n 3 5 酊n l 蛔9n 2 s 8 1 n 1 而7n 努眩q 2 刁8q 2 4 乃 旺邳4n 3 啷q 脚q 撇 如此我们也可以得到e 、只。通过观察它们变化的趋势我们可以 得到:。l i m p ,2 n 1 9 9 2n 3 荔眨 n 1 9 9 20 3 2 9 2 0 1 9 9 2q 3 2 8 2 o 1 9 9 2o 3 2 9 2 蚴1 70 2 7 0 9 q 麓毽z 鹣 0 2 0 1 7o 2 7 0 9 n 2 0 1 7n 2 7 0 9 ( 4 1 ) 忍己& 昂昆乏昂圪 小 岛最恳尼 日弓昂昂 - _ p , 气最昂只最弓昂圪 己匕最巴最毛足圪圪乞最吃 最最& 4 1 3 应用马尔可夫模型对股票进行短期预测 模型初始化 上 l 计算各状态转移数据 j r i判定状态数目 上 l构造状态转移矩阵 上 l求预测值 l 0 l求误差 l 图4 1 马尔可夫模型预测股票算法流程图 根据马式链的原理,第n + l 期的向量可以用第n 期向量来表示,即: u t p t ) 。u ( j ) p l( 4 2 ) 利用前面得到的各步转移矩阵,我们可以对亚泰集团2 0 0 7 年1 0 月3 1 日以后的发 展趋势做短期预测判断。由于一共收集到1 2 1 个数据样本,且1 0 月3 1 日的收盘价 2 3 3 8 ,状态为强跌,所以当日的状态向量u 。2 0 ) - - ( 1 ,0 ,0 ,o ) ,根据( 4 2 ) 式我们得到1 1 月1 日亚泰集团指数发展趋势。u ) = u ( 。p 。= ( 0 4 0 1 90 0 9 0 90 3 6 3 6 0 1 4 2 9 ) ,数据结果表明1 1 月1 日亚泰集团的跌幅应在1 ( 元) 以上。在预测1 1 月2 日股票走势时我们应该把1 1 月1 日的向量值算进状态转移矩阵p 中,同理我们得到了 1 1 月1 日到1 1 月3 0 日的预测走势表。 表4 - 2 亚泰集团0 7 年1 1 月预测走势表 从实验结果不难看出,马尔可夫链预测股
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家用电器维修技术进阶测试题库及答案集
- 家居装修知识手册设计技巧测试题及答案解析
- 恐惧死亡心理测试及应对策略
- 广东安全员招聘考试试题及参考答案
- 环保安全员考试题库大全及答案
- 店面顾客服务与管理测试题目及答案集
- 健康管理师考试题库与答案详解集
- 环境科学基础知识点总结与习题集答案解析
- 2025年低空经济投资风险防范策略研究报告
- 家庭养花入门知识测试题及答案集
- 2025江苏南通如皋技师学院秋季招聘教师7人笔试考试备考题库及答案解析
- 初中作文写作技巧与实例解析
- 2025年青海选调生考试题及答案
- 招商园区营销方案
- 工程股权转让合同关键条款详解
- 职业生涯决策与管理
- 2025秋季湖南能源集团校园招聘补充考试笔试参考题库附答案解析
- GB/T 16714-2007连续式粮食干燥机
- 最新《工会基础知识》试题库及答案1000题【完美打印版】
- 行政事业单位无形资产管理办法模板
- 《烹饪美学》教学课件-项目四-烹饪造型艺术
评论
0/150
提交评论