(运筹学与控制论专业论文)基于神经网络股市预测的数据挖掘模型研究.pdf_第1页
(运筹学与控制论专业论文)基于神经网络股市预测的数据挖掘模型研究.pdf_第2页
(运筹学与控制论专业论文)基于神经网络股市预测的数据挖掘模型研究.pdf_第3页
(运筹学与控制论专业论文)基于神经网络股市预测的数据挖掘模型研究.pdf_第4页
(运筹学与控制论专业论文)基于神经网络股市预测的数据挖掘模型研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(运筹学与控制论专业论文)基于神经网络股市预测的数据挖掘模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电子科技大学硕士学位论文 摘要 本文针对股市预测分析问题,对基于神经网络股市预测的数据挖 掘模型进行了研究,提出在模型设计中,采用属性相关性分析理论对 输入指标变量和 目标变量作必要的相关性分析,以此优选输入变量组 合,从而提高网络的预测性能。并在股票交易的历史数据基础上,进 行了实证分析。大致工作流程为:首先利用数据库查询技术,实现多 个候选的技术指标变量的计算,然后对概化后的指标数据,采用信息 增益度量方式计算出各指标属性与目标变量的相关性大小,筛选出强 相关的属性作为网络模型的输入变量,再从中随机选出相互独立的训 练集和侧试集样本, 最后采用 m a t l a b 软件的神经网络工具建立连续和 离散两种径向基函数网络模型,分别对其进行训练和测试,完成相应 的股价预测,结果采用输出值和实际值的均方误差来反映预测精度。 本文用到的数据概化技术和属性相关性分析技术,同样适用于除神经 网络模型外的其他数据挖掘模型中输入变量与输出变量的关系分析, 如:决策树算法中的分类问题。 关键词:数据挖掘,属性相关性,信息增益,神经网络 电子科技大学硕士学位论文 abs t r a c t t o t h e q u e s t i o n o f p r e d i c a t i o n i n t h e s t o c k m a r k e t , i s t u d y s o me i n f o r ma t i o n s a b o u t d a t a mi n g i n g p r e d i c a t i o n m o d e l o f s t o c k p r i c e b a s e d o n n e u r a l n e t w o r k . l p u t f o r w a r d t o d o a t t r i b u t e r e l a t i v i t y a n a l y s i s f o r i n p u t i n g i n d e x v a r i a b l e s a n d o u t p u t i n g o b j e c t v a r i a b l e s w i t h t h e t h e o r y o f a t t r i b u t e r e l a t i v i t y a n a l y s i s i n t h e c o u r s e o f d e s i g n i n g a n e u r a l n e t w o r p r e d i c a t i o n mo d e l . a n d i d o a d e m o n s t r a t i o n a n a l y s i s b a s e d o n h i s t o r y e x c h a n g e d a t a o f s t o c k m a r k e t . t h e r e o u t , i h o p e t o a c h i e v e t h e o b j e c t o # o p t i m i z i n g t h e i n p u t i n g v a r i a b l e s s c o m b i n e d m o d e a n d i m p r o v i n g t h e p r e d i c a t i o n c a p a b i l i t y o f a n e t w o r k mo d e l . r o u g h l y w o r k f l o w a s : t h e f i r s t s t e p , c a l c u l a t e t h e i n d e x d a t e o f t e c h n i q u e a n a l y s i s w i t h t h e t e c h n i q u e o f d a t a - b a s e q u e r y . t h e s e c o n d s t e p , g e n e r a l i z e t h e i n d e x d a t a a n d c a l c u l a t e t h e r e l a t i v i t y b e t w e e n g e n e r a l i z e d i n p u t i n g i n d e x d a t a a n d o u t p u t i n g o b j e c t wi t h t h e me a s u r e me n t u n i t s o f i n f o r ma t i o n e n t r o p y , s e l e c t f o u r k i n d s o f i n d e x a t t r i b u t e s w h o s e r e l a t i v i t y i s b i g g e r t h a n o t h e r s a s i n p u t i n g v a r i a b l e s o f n e t w o r k m o d e l . t h e l a s t s t e p , s e l e c t t w o m u t u a l - s u b s t a n t i v e d a t a s e t s a s t r a i n i n g s e t a n d t e s t i n g s e t , t h e n e s t a b l i s h s e q u e n t i a l a n d d i s c r e t e r b f n e u r a l n e t w o r k m o d e l , a f t e r s o me k i n d o f t r a i n i n g a n d t e s t i n g , a c c o m p l i s h t h e o b j e c t o f p r e d i c a t i o n o f s t o c k p r i c e . t h e t e c h n i q u e o f d a t a g e n e r a l i z a t i o n a n d a t t r i b u t e r e l a t i v i t y a n a l y s i s a r e a l s o a d a p t i v e f o r o t h e r d a t a mi n g i n g mo d e l s , s u c h a s d e c i s i o n - t r e e a l g o r i t h m. k e y w o r d s : d a t a mi n i n g , a t t r i b u t e r e l a t i v i t y , i n f o r m a t i o n e n t r o p y , n e u r a l n e t wo r k i i 独 创 性 声 明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。 据我所知, 除了文中特别加以标注和致谢的地 方外, 论文中不包含其他人已经发表或撰写过的研究成果, 也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名 i 卿卿日期: a o o 3年 厂 月 / / 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、 使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘, 允许论文被查阅和借阅。 本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索, 可以 采用影印、 缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:导 师 签 名 : 4 7 o 日 期:1 o o s 年 r 月i t 日 电子科技大学硕士学位论文 引台 随着数据库技术和数据库管理的广泛应用,全球范围内数据库中 存储的数据量急剧增长,各行各业面临着 “ 数据过剩,信息i乏 “ 的 现象,数据挖掘技术正是解决这一问题的有效方法。例如在股票交易 中,有很多历史数据,蕴涵着价值很高的信息,但是股票和基金所涉 及的一系列指标数据让证券投资者无所适从,传统的凭经验来做出判 断的方式,已经不能满足投资者的潜在需求,因此及时获得各种基本 面信息和技术面信息对投资者和决策者都具有重要作用。 近年来,众多学者致力于数据挖掘技术在股市中的应用研究,通 过数据挖掘过程将股市中海量的数据进行信息量化处理,并用计算机 来自动识别和处理,从中发现有用的知识及某种必然规律,以预测未 来的股价趋势。一方面可以促进信息交流,另一方面为投资者提供有 利的决策支持。 针对股票市场表现出的不同特点,人们提出了多种多样的分析和 预测方法,其中较常用的方法有:1 )证券投资分析方法;2 )时间序 列分析法;3 )神经网络预测法;4 )其他预测方法。 鉴于我的专业背景知识,本文选择神经网络的股市预测法为研究 背景。神经网络是依据数据本身的内在联系建模,具有良好的自组织、 自适应性,也具有很强的学习能力和抗干扰能力,能自动从历史数据 中提取有关经济活动的知识和规律,可以避免许多人为因素的影响, 为非专业人员预测股市动向提供了有利的工具,因而无数的学者把神 经网络模型应用于股票预测方面。研究结果表明人工神经网络在处理 诸如股票数据这种非线性时间序列的预测问题时, 表现出很好的学习、 映射和泛化能力。并且这类预测模型对股市研判有重要的参考价值。 由于神经网络的最大优点在于对复杂的系统不需要清楚的知道其 内部机理,只要确定其输入输出变量,就可以构造一个网络模型来模 拟这个系统,所以确定网络的输入输出显得尤为重要。于是本文提出 采用属性相关性分析技术对输入变量和目标变量做相关性分析,从而 优选输入变量,并选取相互独立的训练集和测试集数据样本对模型进 行训练和测试,希望以此提高神经网络模型的预测能力。 第 1 页 共4 9 页 电子科技大学硕士学位论文 第一章 数据挖掘的相关背景知识 数据挖掘 的概述 1 . 1 . 1 数据挖掘的概念 数据挖掘 ( d a t a m i n i n g ) 是从大量数据 中发现和提取知识,又被称 作数据库中的知识发现 ( k n o w l e d g e d i s c o v e r y i n d a t a b a s e - k d d ) ,即 是从大型数据库或数据仓库中提取隐含的、未知的、具有潜藏应用价 值的信息或模式,是从系统内部自动获取知识的过程。在传统的决策 支持系统中,知识库中的知识和规则是由专家或程序人员建立的,是 由外部输入的。对于那些决策者明确了解的信息,可以用查询、联机 分析处理 ( o l a p )或其他工具直接获取。而另外一些潜在的关联规则 和趋势信息对于预测和决策行为也是至关重要的,这就需要数据挖掘 技术来获取 。 数据挖掘是数据库研究 中很有应用价值的新领域,是一门交叉性 学科,涉及到机器学习、模式识别、神经网络、统计学、智能数据库、 知识获取、数据可视化、高性能计算、专家系统等多个领域。从数据 库中发现出来的知识可以用在信息管理、过程控制、科学研究、决策 支持等很多方面。 1 . 1 . 2 数据挖掘过程 数据挖掘过程一般由3 个主要的阶段组成:数据准备、挖掘操作、 结果表达和解释。知识的发现可以描述为这 3个阶段的反复过程。如 图所示 : 第2 页 共4 9 页 电子科技大学硕士学位论文 数据准备数据挖掘.结具表达和解释 知识 据集成 团 团 团 数据源 今 模 式 图 1 - 1数据挖掘过程 具体步骤包括: 1 . 确定业务对象 清晰地定义出业务问题, 认清数据挖掘的目的是数据挖掘的重要 一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的, 而为了数据挖掘而数据挖掘是带有盲目性的,是不会成功的。 z , 数据准备 这个阶段可进一步分为 3个步骤:数据选择、数据预处理、数据 转换。 1 )数据选择 搜索所有与业务对象有关的内部和外部数据信息,并从中选择适 用于数据挖掘的数据,从而缩小处理范围,提高挖掘的质量。 2 )数据的预处理 现实世界中的数据一般是不完整、不一致的,因此这一步就是要 提高数据质量,为进一步分析做准备,包括对空缺值的处理、识别孤 立点、消除噪声数据、纠正不一致的数据。并确定将要进行的挖掘操 作的数据类型。 第3 页 共4 9 页 电子科技大学硕士学位论文 3 )数据的转换 将数据转换成分析模型,该分析模型是针对挖掘算法建立的。建 立一个真正适合挖掘的分析模型是数据挖掘的关键。 它往往涉及平滑、 聚集、规范化等操作。 3进行挖掘 对经过转换得到的数据进行挖掘。除了选择和设计和优化挖掘算 法外,其余一切工作都能自动地完成,这是使用智能方法提取数据模 式的过程。当然需要选择相应的挖掘工具。 4 . 结果分析 根据兴趣度度量,识别和表示出知识中的有趣模式,从而解释并 评估结果。分析的方法和角度视挖掘 目的而不同。 5 . 知识的表示和 同化 使用可视化和知识表示技术,向用户提供挖掘结果,并将分析所 得到的有用信息集成到业务信息系统的组织结构中去。 1 . 1 . 3 数据挖掘的功能及应用 据数据挖掘任务能够挖掘出的模式类型, 将其功能分为以下几种: 1 、 类/ 概念描述 ( c l a s s / c o n c e p t d e s c r i p t i o n ) 2 、关联分析 ( a s s o c i a t i o n a n a l y s i s ) 3 、分类 ( c l a s s i f i c a t i o n ) 4 、预测 ( p r e d i c a t i o n ) 5 ,聚类 ( c l u s t e r ) 6 、孤立点分析 ( o u t l i e r a n a l y s i s ) 7 、 演变分析 ( e v o l u t i o n a n a l y s i s ) 数据挖掘可以应用于以下范围:1 )自动探测以前未发现的模式。 2 )让现有的软件和硬件更加 自动化,并且可以在升级的或者新开发的 平台上执行。3 )自动趋势预测:数据挖掘能自动在大型数据库里面寻 找潜在的预测信息。传统上需要很多专家来进行分析的问题,现在可 以快速而直接地从数据中找到答案。一个典型的利用数据挖掘进行预 测的例子就是目标营销,数据挖掘工具可以根据过去邮件推销中的大 量数据找出其中最有可能对将来的邮件推销作出反应的客户。 具体应用领域举例如下: 第4 页 共4 9 页 电子科技大学硕十学位论文 l ,银行 / 信用评估:金融服务产品的交叉销售,贷款偿还预测,个人 或企业的信用评级,欺诈甄别。 2 、电子商务;w e b行为模式分析,个性化设计,网上购买推荐和商品 推荐 。 3 、客户关系管理:客户利润率分析,客户细分,客户流失分析,客户 响应率的分析。 4 、电信:客户流失分析,盗用模式分析和异常模式识别,电信数据分 析可预测网络通信中的警报。 5 、 证券: 分析并预测股票价洛的走势及相关性, 分析股民的购买方式。 6 、科学数据:实验数据分析;实验数据可视化。 1 . 1 . 4 数据挖掘工具 目前,绝大部分数据挖掘研究原形都己转化为数据挖掘产品。将 数据挖掘技术与信息系统集成是当今的潮流。数据挖掘作为数据库、 数据仓库, w e b系统的一个组件为智能数据挖掘的发展开辟了新路。 许 多大型商业数据库推出了自己的数据挖掘系统组件: 1 、m s / s q l s e r v e r 2 0 0 0的 a n a l y s i s s e r v i c e 2 , i b m d b 2的 i n t e l l i g e n t m i n e r 3 、o r a c l e的 o r a c l e d a t a m i n i n g 4 , s a s e n t e r p r i s e m i n e r : d a t a w a r e h o u s i n g + m i n i n g 5 , s p s s的 c l e m e n t i n e 1 . 2 数据挖掘中的分类和预测技术 1 . 2 . 1 分类和预测的概念 数据挖掘中的分类和预测是两种数据分析形式,可用于提取描述 重要数据类的模型或预测未来的数据趋势。然而,分类是预测分类标 号,而预测建立连续值函数模型。分类方法是将数据集按某个指定的 属性划分,并给出分类规则。分类问题可用数据库术语表示如下:对 于一个给 定 的数据 集 ,该数据集具有 m + 1个属性 ( 字段 ) a , , a z , a 3 , . . . a . , c . , 且均为 种类字段。 c 作为分类属性, 将此数据集按c 的属性值分类,形成一个分类模型。再用该模型对新的数据集进行分 第5 页 共4 9 页 电子科技大学硕十学位论文 类预测,既在己知新数据集a , , 4 2 , . . . a m 值的情况下预测分类属性 c的 值。分类问题分为两个步骤: 1 . 创建分类模型: 这是一个机器学习过程 ,用分类算法和一个类别己经确定的数据 集创建分类模型。用于创建模型的数据集叫训练集。训练集用其分类 属性的属性值表示类别, 训练集中每一条记录都属于一个确定的类别。 分类模型中的预测模式可以用分类规则,决策树或数学方程的形式来 表达 。 2 . 使用模型预测: 使用分类模型前必须用一定的方法估计分类模型的准确率。可使 用创建的模型对一个类别己知的数据集一一测试集上进行预测,并将 预测结果和实际值进行比较。测试集和训练集必需是相互独立的。再 用达到一定准确率的分类模型预测类别未知的数据集。 预测是构造和使用模型评估无标号样本类,或评估给定样本可能 具有的属性值或值区间。在这种观点下,分类和回归是两类主要预测 问题,其中分类是预测离散或标称值,而回归用于预测连续或有序值。 然而广泛采用的观点是:用预测法预测类标号为分类,用预测法预测 连续值为预测。 1 . 2 . 2 分类和预测方法 分类一直都是机器学习、模式识别和数理统计的研究对象。因此 存在多种分类方法,常见的有:决策树归纳方法、贝叶斯方法、神经 网络方法、k最临近分类法、基于事例的推理方法、遗传方法、粗糙集 方法、模糊集方法。每种方法可由几种代表性的算法实现。对不同的 数据类型和应用领域,每种方法都有其长处和短处。但实验表明,没 有一种分类算法对所有的数据类型和应用领域都优于其他分类算法。 随着预测科学的发展和客观需要的增加,预测对象所涉及的领域 非常广泛,按预测对象的不同可分为社会预测、经济预测、科学预测、 技术预测和军事预测等领域:按预测研究方法可分为定性预测 、定量 预测和模糊预测:按预测的范围,预测可分为宏观预测、中观预测与 微观预测;根据预测未来时间的长短,可分为超短期预测、短期预测、 中期预测和长期预测。预测方法大体上分为定性预测法、时间序列预 第6 页 共4 9 页 电子科技大学硕士学位论文 测法和因果模型预测法。 定性预测法是在数据资料掌握不多的情况下, 依靠人的经验和分析能力,用系统、逻辑的思维方法,把有关资料加 以综合,进行预测。定性预测法包括特尔斐法、主观概率预测法、判 断预测法等方法。时间序列预测法是依据预测对象过去的统计数据, 找到其随时间变化的规律,建立时序模型,以判断未来数值的预测方 法。其基本思想是:过去的变化规律会持续到未来,即未来是过去的 延伸。时间序列预测法包括时间序列平滑法、趋势外推法、季节变动 预测法等确定型时间序列的预测方法和马尔可夫法、随机型时间序列 的预测方法。因果模型预测法是把所要预测的对象同其他因果因素联 系起来进行分析,制定出揭示因果关系的模型,然后根据模型进行预 测。包括回归分析预测法、经济计量模型法、投入产出预测法等。时 间序列预测法和因果模型预测法都是应用统计方法进行预测的,所以 有时两者被统称为统计预测。 1 . 2 . 3 评估分类、预测模型的方法 一般从以下几个标准评估分类和预测方法: 预测的准确率:这涉及模型正确的预测新的或先前未见过的数据 的类标号的能力; 速度:这涉及产生和使用模型的计算花费: 强壮性:这涉及给定噪音数据或具有空缺值的数据,模型正确预 测的能力; 可伸缩性:这涉及给定大量数据,有效地构造模型的能力; 可解释性:用户对算法产生的分类模式可理解程度。对于描述型 的分类任务,模型描述越简洁越受欢迎。例如,采用规则表示的分类 模式就更实用,而神经网络方法产生的结果就难以理解。 分类模型的准确性是分类成功的关键。运用分类算法建立分类模 型后,可用下面几种方法评估分类模型的准确性。 1 )保持法 ( h o l d o u t m e t h o d ) 运用保持法时,将数据集随机地划分成两个独立的数据集:训练 集和测试集。用训练集建立模型,再用测试集评估模型。模型在给定 测试集上的准确率是正确被模型分类的测试样本的百分比。对于每个 测试样本,将已知类标号与该样本的学习模型类预测比较。注意,模 第, 页 共4 9 页 电子科技大学硕士学位论文 型的准确率是根据训练数据集评估的,会有过分适合数据 ( 过度拟和) 的可能性,所以还得经过测试集的校正。 2 ) k 一析交叉确认法 k - f o l d c r o s s - v a l i d a t i o n m e t h o d ) 交叉确认法能避免 出现重叠问题, k 一折交叉确认法首先将整个数 据集划分为 k个相等于集。然后进行 k次迭代,依次将每个子集用作 测试集、另外 k - 1个子集用作训练集。将 k次评估的正确分类数除以 数据集的记录总数可得到模型的总体准确率。通常取 k = 1 0 a 3 )留一法 ( l e a v e o n e o u t m e t h o d ) 4)q ! 导 法( $ o o t s t r a n m e t h o d ) 第8 页 共4 9 页 电子科技大学硕士学位论文 第二章 神经网络模型在的股市预测中的应用 2 . , 股市的预测分析方法 影响股票市场价格变化的根本原因和直接原因都是供求关系的变 化。在股市分析方面,以预测为基础划分主要存在两个学派:基本分 析派和技术分析派。前者的观点是认为影响股价的主要原因是基本因 素,因而他们注重研究发行公司的经营特征、经营状况、财务状况以 及股利派发、管理决策、销售环节、竟争力等基础经济困素,还注重 研究社会的经济指标、经济政策以及与经济有关的政治因素等。 然而投机者的交易行为给基本分析蒙上了阴影。另一个学派就是 人们所熟知的技术分析学派,他们认为影响股价的主要原因是技术因 素,股市是沿趋势运动,而且这些趋势是可以被发现并用来预测的。 他们试图用过去的股票价格和交易量来预测将来的价格运动。技术分 析法可分为图象分析方法和统计分析方法,图象分析法以图象为分析 工具,统计分析法是对价格、交易量等市场指标进行一定的统计处理。 具体可以使用图形模式、技术指标和专门的技术工具进行分析预测。 就股价走势预测这一目标,技术分析派所采取的方法在预测股价 的短期趋势特别是在旧趋势向新趋势变化方面优于基本分析方法;而 在预测股价长期趋势方面,基本分析法却优于技术分析方法。不幸的 是,技术分析者使用的大多数枝术分析方法没有表现出统计上的有效 性,而且很多方法都缺乏应用的合理解释。 因而,针对股票市场表现出的不同特点,人们总结出以下几种常 用的分析和预测方法: i 、证券投资分析方法。这是市场分析家常用的方法口 2 、时间序列分析法。 这种方法主要是通过建立股价及综含指数之 间的时间序列相关辩识模型,如自回归移动平均模型 ( a r m a ) 、齐次非 平稳模型 ( a r i m a )等来预测未来变化。 3 、其他预测方法。如专家评估法和市场调查法等定性预测方;季 节变动法、马尔柯夫法和判别分析法等定量预测方法。 4 、神经网络预测法。神经网络是一种最新的时间序列分析法。 第9 页 共 4 9 页 电子科技大学硕士学位论文 2 . 2神经网络预测模型 2 . 2 . 1 神经网络预测性概述 人工神经网络,一种包含许多筒单的相互连接的计算单元 ( 节点) 的系统,已经展现出其分析非线性时间序列数据的能力。由于其自动 化性能好,所以在没有广泛的市场数据或者知识背景情况下,同样可 以得到有用的预测。 它模拟人脑神经元方法, 以m p 模型和h e b b 学习规 则为基础, 目前主要有三大类神经网络模型: 前馈式网络、 反馈式网络、 自组织网络。 它是一种通过训练来学习的非线性预测模型, 可以完成分 类、聚类、特征挖掘等多种数据挖掘任务口 在股市中,神经网络既可以模拟基本分析,也可以模拟技术分析。 模拟基本分析时,零售、黄金价格、工业生产指数和汇率等可以用作 输入。模拟技术分析时,延时时间序列数据及各种技术指标可以作为 输入。 以神经网络为基础的预测一般要经过三个主要步骤:预处理,结 构设计和后加工。预处理中,收集可以用作神经网络输入和输出的资 料。这些数据首先要经过标准化和比例调整,以减小波动和噪声。在 设计阶段,多种可以捕获输入数据与输出数据关系的神经网络模型被 建立起来。使用不同的训练、验证和预测数据集试验不同的模型和结 构。以标准误差比率为标准选出最好的模型用来预测。最后,在后加 工阶段, 不同的交易策略被用于预测结果来优化神经网络的预测能力。 2 . 2 , 2 神经网络模型研究归纳 2 . 2 . 2 . 1 神经网络股市预测模型的研究现状 目前有三种基于人工神经网络的股市预测模型: a 、基本数据模型;b 、技术指标模型;c 、宏观分析模型 文 1 6 1 把对上证综合指数的拟合作为研究对象,对这三种模型分 别进行了实证分析,在 “ 基本数据模型”中, 建立带有附加动量项和自 适应学习速率的 b p网络, 反映出较快的运算速度和逼近性能。在 “ 技 术指标模型”中, 通过一些股市重要技术指标的引入, 增加了反映市场 各方面深层内涵的信息, 使网络的泛化能力有所提高。( 技术指标是按 第1 0 页 共4 9 页 电子科技大学硕士学位论文 照事先定好的固定方法对证券市场的原始数据仁 开盘价、最高价、最低 价、收盘价、成交量和成交金额, 简称 4价 2量 进行处理, 处理后的结 果是某个具体的数字, 即技术指标值。对技术指标可以进行定量分析, 使得具体操作的精度大大提高。 )在 “ 宏观分析模型”中, 结合基本数 据的同时,引入了影响股市的 5项主要宏观经济指标, 强化了股市神经 网络模型的应用价值。从而说明人工神经网络在处理股票数据这种非 线性时间序列的预测方面的具有可行性, 并且有很好的学习、 映射能力 和应用价值。比较网络结构发现: “ 技术指标模型”比 “ 基本模型”增 加了7 个输入点、 3 个隐层节点, 即采用了 1 0 个技术指标作为输入量, 明日收盘价作为输出变量,但是经过同样次数的迭代后,所得到的预 测误差最小,提高了网络的泛化能力。 文l 2 们在文 1 6 的基础上提出将 “ 基本数据模型” 、“ 技术指标模 型”和 “ 宏观分析模型”合并,构成股市预测神经网络集成系统, 集成 系统的输出采用简单平均法。实证分析发现集成系统的泛化能力高于 单个独立的模型, 这种模型间的融合使得股市集成系统包含更广泛的 输入信息, 既有基本数据信息、技术指标信息, 又包含较多的宏观经济 信息,也使模型具有更好的稳健性和更好的应用价值。 2 . 2 . 2 . 2 模型的归纳分类 1 . 根据所读文献,归纳出主要有以下几类 “ 预测对象、 a 股票价格的预测:a 后一天的股价 ( 又称为一步预测) b 后几天的股价 ( 又称为多步预测) b股票综合指数的预测 c 股票发行定价的预测 2 . 神经网络股市 “ 预测方法”分类: a 前向型神经网络: a b p 神经网络( b a c k p r o p a g a t i o n ) b r b f 神经网络 ( r a d i a l b a s i s f u n c t i o n ) c 遗传神经网络 ( 遗传算法和人工神经网络相结合) b 综合性神经网络方法 a 模糊神经网络 基于模糊理论和神经网络技术结合的的混沌数据预测:t - s 模型) 第1 1 页 共4 9 页 电子科技大学硕士学位论文 b 粗集理论与神经网络技术结合 ( 又称为粗神经网络) c 基于小波分析的神经网络技术 d神经网络集成系统 c反馈式神经网络一 时间序列分析法 ( 自回归滑动平均模型 ) 3 . 神经网络 “ 学习算法”分类: a b p 算法 ( 又称为误差反向传播算法) 是一种监督学习算法,采用优化算法中的梯度下降法思想。 b最近邻聚类学习算法( 适用于 r b f 神经网络模型) c正交最小二乘算法 d 遗传 b p算法 将遗传算法和人工神经网络相结合 ) 2 . 3 基于前向神经网络的股市预测研究 通过 以上归纳分类 ,本文特别选出采用前 向型神经网络 ( b p网络 和 r b f网络)进行股市预测的文献进行详细比较和分析。 2 . 3 . 1 基于b p 神经网络的股票预测研究现状 b p网络是基于误差反向传播的多层前向网络 ( 即用误差反向传播 算法进行训练的单向传播的多层网络) , 是人工神经网络中最具代表性 和应用最为广泛的一种网络。网络拓扑结构包括输入和输出层,以及 一层或多层的隐含层,同层节点中没有任何祸合。隐含层节点单元特 性 ( 传递函数) 通常为s i g m o i d 型函数:f ( x ) = 1 / ( 1 十 e x p ( - x ) ) , 但在输 出层中,节点的单元特性常为线性。 b p算法的基本思想是利用 l m s( 最小均方)学习算法,在网络的 学习过程中使用梯度下降搜索技术,利用误差向后传播来修正权,从 而实现网络的实际输出与期望输出的均方差最小化。 一般而言, b p网络 算法主要有以下几个步骤: 工 、 对全部连接权的权值进行初始化, 一般设置成较小的随机数, 以 保证网络不会出现饱和或反常情况。 2 、取一组训练数据输入网络, 计算出网络的输出值。 3 、 计算该输出值与期望值的偏差, 然后从输出层计算到输入层, 向 着减少该偏差的方向调整各个权值。 4 、对训练集的每一组数据都重复上面两个步骤, 直到整个训练偏 第1 2 页 共4 9 页 电子科技大学硕士学位论文 差达到能被接受的程度为止 。 b p 算法的学习过程分为两个阶段:第一阶段( 正向传播过程) ,给 出输入信息通过输入层前向传播到隐层的节点上,经过各单元特性为 s i g m o i d型的激活函数运算,把隐层节点的输出信息传播到输出层节 点,得到每个单元的实际输出值:第二阶段 ( 反向过程) , 若在输出层未 得到期望的输出值,则计算出实际输出与期望输出之差值( 即误差) 将 误差信号沿原来的连接通路返回,通过修改各层神经元的权值逐次地 向输入层传播进行计算。再经过正向传播过程,这两个过程的反复运 用, 使得误差最小。 文 1 2 中采用大量的数值实验进行对比分析的方法,确定了比较 适合股票市场预测的初始条件: 学习步长为 0 . 0 2 5 , 权与阀值的初始域 为 ( - 0 . 0 5 , 0 . 0 5 ) ,网络拓扑结构为 1 6个输入量,7个隐层节点,隐 层活化函数为g ( z ) = t a n h 0 .6 5 x , 输出 活化函 数为: g ( x ) = t a n h x , 选择1 0 0 个沪市综合指数为训练学习样本,3 0个为预测样本,训练精度达到了 9 8 % ,预测精度达到了7 0 % 。但在样本处理、预测方法及网络的自适应 能力等方面还有待进一步的改进。 文【 1 3 中是以上证指数为研究对象,同样用 b p网络模型对其进行 短期预测, 不同的是模型输入变量为: 收盘价 c l o s e ) , 最高价( h i g h ) , 最低价( l o w ) 、成交量( a m o u n t ) , 5日移动平均线( m a 5 ) , 1 0日移动平 均线( m a 1 0 ) , 6日相对强度指数( r s i ) , 6日乖离率( b i a s ) 、指数平滑 异( m a c d ) 、以及 k d随机指标中的 k 值和 d值; 输出为下一交易日的收 盘价( c l o s e ) 。 而且提出通过对当日收盘价与前日收盘价之比再取自然 对数的方法检测出数据有较大噪声,在 s t a t i s t 工 c a n e u r a l n e t w o r k 软件中进行预处理。采用的是交叉验证集的方法来确定隐层节点数, 对输入变量进行敏感性测试,选出影响输出变量最重要的五个因素: c l o s e , h i g h , l o w , m a 5 , m a 1 0 ( 其中收盘价影响率最高) 。然而预测结 果离期望还有一定距离,因此作者提出应该将技术因素和基本因素同 时作为输入,并改进输出数据的具体形式,实际应用我们可以考虑预 测未来 2 至 3天的价格变化, 及最高价最低价的短期预测的改进思想。 文 1 4 是以 b p神经网络去模拟股市这个 “ 黑箱”, 以上市公司的 财务状况为输入变量, 而网络输出值即看作公司要发行股票的价格。 与 第 1 3 页 共4 9 页 电子科技大学硕士学位论文 上文所不同的是,该文对隐层节点的确定问题是采用以下公式:( m+ n ) / 2 -s 2 - , s s ) 二 一 艺 丘 lo g , 二 ( 3 一1 7 ) s s 人气指标属性 的 “ 嫡 ” : 以 人 气 指 标 ) = - 艺 三 竺 土 二 全 ! 1 1s li s z . , : , ) ( 3 一1 8) 么 s ,_ 了 = 一 么= l t s 不! s . ti s 2 i , 一 , , , ) 最后可得到:属性人气指标的 “ 信息增益”为: g a in 江气 指 标 ) 二 i 令 ! s 2 , 一 , s , ) 一 e 认气 指 标 ) 3 一 1 9) 实现信息增

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论