版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘在股票投资中的应用摘耍:研究股票价格预测,由t股票价格具有非线性、随机性等变化规律,同吋 股票市场与国内外经济政治变化有关,因此通过简单的单个模型分析是很难准确 有效的对股票价格进行预测,更准确的估价预测需要分层进行各类模型分析,本 文运用spss clementine系统通过arima法对股票价格进行整体的预测即股指预 测,接着利用神经网络对乐视股票价格进行涨跌预测。摘要:arima;神经网络;乐视股票一、 背景及意义进行股票投资是为了获得更大的收益,然而由于股票市场具有较大的动态特 性,股票投资的收益与风险往往是成正比的,投资收益越高,存在的风险则越大。有效地进行股票价格的预测,最
2、大程度规避股票风险,增加投资收益,是股票投 资者最关注的热点问题。随着市场经济的不断发展和中国股市的规范化、正规化,股票投资不断兴起, 股票市场在金融投资领域占有越来越重要的地位,成为不可缺少的组成部分。股 票价格的变化直接反映出股票市场的状态,如果能够很好的预测股票价格的走势, 将不但对我们口常生活产生巨大影响,而且还会对国家的经济发展提供有价值的 参考。所谓对股票进行预测,主要是在研究股票指数过去的信息后,找到适合其 数据特点的科学方法对其预测,进而得到股市未来价格。但是影响股票价格的因 素有很多,如政策、经济状况、股票投资者心理因素等,并且这些因素相互交错,彼此存在约束,仅应用线性分析会
3、含有误差。因此,如何较为准确的预测股票短 期内发展趋势以及长期n的大体走向已经成为当今较为关注的热点之一。股市具 冇高收益与高风险并存的特性,如何最人程度的获得高收益,规避高风险成为人 们热切关心的问题。因此股市的建模预测研宄对金融建设及其经济的发展具有极 其重要的意义。在现实的经济活动过程中,股价序列的变化呈现出随机性和时变 性等特性。所以如何把握股价变动的规律,一直是当今社会经济研宄中的一个极 其重要的问题。由于股票价格序列可以看做是含有g噪声的时间序列,所以可以 通过建立估价序列的适应或最冇统计模型对股价的变化作出分析与预测。国内研究现状在证券领域,早在1993年agrawal就提出了通
4、过客户的交易数据挖掘其中 的项集间的关联规则的方案,随后吸引了诸多相关领域的研究人员对如何挖掘关 联规则进行研允,通过引入随机采样、并行等方法对原有的算法进行优化,关联 规则挖掘也得到推广。在其基础上,徐晓峰提出了针对证券交易屮单交易项数据 挖掘的频繁模式链表关联规则挖掘方法,可以奋效的提高客户的个性化服务质量。 董泽坤则针对关联规则的挖掘算法,提出了 es-apriori算法,对关联规则分析过 程中的数据库扫描次数进行了简化。周昌乐基于bp神经网络容易陷入局部最小解和网络只有一个隐含层的缺 陷,提出一种新的部分神经进化网络,增加了网络的隐层数,将预测效果提升了 很多。对于非线性时间序列的研究
5、是一个难点,王上飞在充分学习滑动窗口技术 的基础上,将其与rbf神经网络联系起来对国际商业机器公司(ibm)公司股 票进行预测,最终得到的股票数据走势基本相同,曲线拟合效果很好。针对股价 数据非平稳、非线性的特点,崔建福,李兴绪分别建立garch模型与bp网络 模型对比分析两个模型的预测效果。得到结论:对于波动幅度人的时间序列,祌 经网络以其较强的泛化能力,使得从非线性角度建模效果优于非平稳角度建模, 但bp网络也存在训练时间忪、易陷入局部极小值的问题。三、数据挖掘(一)数据挖掘的概念、社会需求数据挖掘概念最早是由usama fayaad 1995年加拿大蒙特利尔的第一届知识 发现和数据挖掘国
6、际会议上提出的,它的提出是与计算机科学、人工智能相关的 机器学(等发展分不开的,数据挖掘一般是指在数据库中,利用各种分析方法与 技术,将过去所累积的大量繁杂的历史数据中,进行分析、归纳与整合等工作, 以萃取出有用的信息,找出有意义且用户有兴趣的模式,提供企业管理阶层在进 行决策时的参考依据。随着计算机技术,特别是数据库技术的快速发展和广泛应用,各行各业积累 的数据量越来越大。激增的数据背后隐藏着许多重要的信息,人们希望能够对苏 进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无 法根据现有的数据预测未来的
7、发展趋势。缺乏挖掘数据背后隐藏的知识的乎段, 必将导致"数据包扎但知识贫乏的现象。例如,股票经纪人如何从口积月累的大 量股票行情变化的历史记录中发现其变化规律,预测未来趋势,从而决定未来投 资方向;大型卖场的决策人员怎样才能根据过去几年的销隽记录来判断分析顾客 的消费习惯和行为,及时变换营销策略?金融领域的经纪人需要从顾客的消费习 惯中判断正常消费,减少金融诈骗的发生,等等。数据挖掘能为决策荠提供重要 的有价值的信息或知识,产生不可估量的效益。目前,数剧挖掘产品尚不常熟, 但市场份额却日益扩大。苏原因就是越来越多的大中型企业开始利用数据挖掘工 具来分析公司的数据,为决策层做出辅助决策
8、,以便于在市场竞争中领先,从而 立于不败之地。(二)数据挖掘过程数据挖掘的过程火致分为:问题定义、数据收集与预处理、数据挖掘实施, 以及挖掘结果的及吋与评估。(1)问题定义数据挖掘是为了从大量数据中发现游泳的令人感兴趣的信息,因此发现何种 知识就成为整个过程中第一个也最重要的一个阶段。在这个过程中,必须明确数 据挖掘任务的具体要求,同时确定数据挖掘所需要采用的具体方法。(2)数据收集与预处理这个过程主要包括:数据选择、数据预处理和数据转换。数据选择的fi的就是确定数据挖掘任务所涉及的操作数据对象(fi标数据),也 就是根据数据挖掘任务的具体需求,从相关数据源屮抽取出于挖掘任务相关的数 据集。数
9、据预处理通常钮括消除噪音、遗漏数据处理、消除重复数据、数据类型转 换等处理。数据转换的主要a的就是消减数据集合的特征维数(简称降维),即从初始 特征屮筛选出真正与挖掘任务相关的特征,以便有效提高数据挖掘效率。(3)数据挖掘实施根据挖掘任务定义及己有的方法(分类、聚类、关联等)选择数据挖掘实施算法。其间主耍考虑:数据特定和结果知识描述方式。(4)结果解释与评估实施数据挖掘所获得的挖掘结果,需要进行评估分析,以便有效发现有意义 的知识模式。因为数据挖掘所获得的初始结果中可能存在冗余或无意义的模式, 也可能所获得的模式不满足挖掘任务的需要,这时就需要退回到前面的挖掘阶段, 重新选择数据、采用新的数据
10、变换方法、设定新的参数值,甚至换一种数据挖掘 算法等。此外还需要对所发现的模式进行可视化,表示将挖掘结果转换为用花移 动的另一种表示方法。数据挖掘的实施,仅仅是整个数据挖掘过程中的一个步骤。影响数据挖掘质 量的两个因素分别是:所采用数据挖掘方法的有效性;用于数据挖掘的数据质量 和数据规模。如果选的数据集合不合适,或进行了不恰当的转换,就不能获得好 的挖掘结果。三、时间序列模型与神经网络(一)时间序列模型1、时间序列吋间序列,也叫时间数列、历史复数或动态数列。它是将某种统计指标的数 值,按时间先后顺序排到所形成的数列。时间序列预测法就是通过编制和分析时 间序列,根据时间序列所反映出来的发展过程、
11、方向和趋势,进行类推或延仲, 借以预测下一段时间或以后若干年内可能达到的水平。其内容包括:收集与整理 某种社会现象的历史资料;对这些资料进行检查鉴别,排成数列;分析时间数列, 从中寻找该社会现象随吋间变化而变化的规律,得出一定的模式;以此模式去预 测该社会现象将来的情况。2、时间序列预测法的步骤:第一步:收集历史资料,加以整理,编成时间序列,并根据时间序列绘成统 计图。时间序列分析通常是把各种可能发生作用的因素进行分类,传统的分类方 法是按各种因素的特点或影响效果分为四大类:(1)长期趋势;(2季节变动;(3) 循环变动;(4)不规则变动。第二步:分析时间序列。时间序列中的每一时期的数值都是由
12、许许多多不同 的因素同时发生作用后的综合结果。第三步:求时间序列的长期趋势(t)季节变动(s)和不规则变动(i)的值,并选定 近似的数学模式来代表它们。对于数学模式中的诸未知参数,使用合适的技术方 法求出其值。第四步:利用吋间序列资料求出长期趋势、季节变动和不规则变动的数学模 型后,就可以利用它来预测未来的长期趋势值t和季节变动值s,在可能的情况 下预测不规则变动值i。然后用以下模式计算出未来的时间序列的预测值y:加 法模式t+s+i=y乘法模式txsx|=y如果不规则变动的预测值难以求得,就只求长期趋势和季节变动的预测值, 以两者相乘之积或相加之和为时间序列的预测值。如果经济现象本身没奋季节
13、变 动或不需预测分季分月的资料,则讼期趋势的预测值就是时间序列的预测值,即 t=yo但要注意这个预测值只反映现象未来的发展趋势,即使很准确的趋势线在 按时间顺序的观察方而所起的作用,本质上也只是一个平均数的作用,实际值将 围绕着它上下波动。(二)神经网络神经网络是一门活跃的边缘性交叉学科,是在人脑组织结构和运行机制的认 识理解基础之上模拟其智能行为的一种工程系统。神经网络既是高度非线性动力 学系统,又是自适应组织系统,可用来描述认知、决策及控制的职能行为,其屮 心问题是对智能的认知和模拟。神经网络理论是巨量信息并性处理和大规模并行 计算的基础。1、人工神经网络模型人工神经网络是大量简单元件广泛
14、相连接而成的复杂网络系统,它是现代神 经科学成果的基础下提出的,反映了人脑功能的若干基本特征,但并非祌经系统 的逼真描写,而只是一种抽象的数学模型。人工神经网络苏实质是一门非线性科 学,它具有并行处理、容错性、自学习功能,有别于传统方法,己在模式识别、 自动化控制等领域取得了惊人的成就。在国外,人工神经网络己经成为了投资公 司及基金经理的强力工具与高效助手。国内起步虽晚,但对于棊于神经网络的股 票预测系统也有一定的研究。人工神经网络的应用按照面向的预测对象可分为这三类。第一类为通过将股 票分类为强势股与弱势股来预测股票表现为优秀股,一般股,较差股。这类人工 神经网络应用做出的决策只提供能否盈利
15、,并不提供期望的价格及期望的盈利。 第二类对股票价格进行预测,这些系统基丁之前的股价及相关的金融系数尝试预 测未来一天或几天的价格。第三类重要的人工神经网络在股票市场屮的应用是对 股票表现建立模型及预测。这类应用不仅预测股票的未来价格,也估算重要影响 因素,可能影响结果的变量的敏感度分析,以及其他相关性分析。2、人工神经元模型神经网络由大量的节点构成,这些节点也称为神经元或单元。节点之间相互 连接,并且具有不同的权重。每一个节点都具有其特点的输出函数,称之为激活 函数。其原理可以表示如图所示。图1人工祌经元模型其中a -么为输入信号,为神经元i及j之间的连接权重,e为阀值。所以祌经元i的输出和
16、输入一般可以表示为:nyi =jxj - 0)7 = 1实证分析(一)神经网络模型预测 1、数据来源数据来源于wind金融终端,研宄对象是上证指数从2015年7月24 口至2016 年5月31日以来的收盘价序列数据。其中变量date是日期,变量price是上证 指数的收盘价的序列数据。选择输入变量与预测变量,输入变量包括当u最高价, 当曰最低价,当日成交量,当日成交额,5日移动均线序列数据,7日移动均线 序列数据,输出变量为当闩收盘价。2、变量的重要性variable i mportancetaiae<t s : pr i ee由图可以看出当h最低价对收盘价的影响最大,其次是当h最高价。
17、5h移 动均线序列数据与成交量对收盘价的影响差不多。7日移动均线序列数据对收盘 价的影响是最小的。3、预测图3050100150200250record niuiberprice$n-price由预测与实际价格的拟合图可以看出预测的估价走势与实际估价走势大致相同,但预测的偏高。(二)时间序列的预测1、数据来源数据来源于wind金融终端,研究对象是上证指数从2015年7月24 h至2016 年5刀31日以来的收盘价序列数据。其中变量date是日期,变量price是上证 指数的收盘价的序列数据。2、实证分析(1) 序列的平稳性图4收盘价的趋势图由图可以看出收盘价是非平稳的ii有一定的下降趋势,没有
18、明显的季节性。(2) 建立模型表1jumber of records used in estimation:335targetmodelpredictorsstationaryr*2dfsige额堡a1a2rice次决低嘉 啪啪pn成成最最0000000damped tr.00.559175.64615.00.0damped tr.00.579163.13515.00.0arima(0,1.0)0-0.065.53318.0_ 0.0simple00.11359.25717.00.0simple00.12863.531170-0.0arima(1,1,0)0-0.0110.46617.00.0
19、damped tr.0001736.4215.00.002with 95.0% confidence 1ii t* iiiiiiiiiiiiiiiiiiiiiiir12345678910 11 12 13 14 15 16 17 18 19 20 21 22 23 241sp-3s 40y4 isptj2u表1是建立的时间序列模型,由p值均小于0.05得出模型成立,阁5是收 盘价的残差自相关函数图,可以看出残差平稳。(3)预测图6price$ts-price图6是又arima模型进行预测后得到的预测结果与实际结果进行的拟合,可以看出二者走势大致相同,说明拟合的效果不错。五、结论本文使用了数据挖
20、掘方法中的时间序列预测方法、神经网络模型对同一股票 的当口收盘价的走势进行丫预测。采用数据挖掘技术解决实际问题,说明了在信 息科技吋代,信息化处理数据是一个必然趋势,对股场中众多股民在选择股票及 回避风险中只有较为深远的参考意义。中国的股票市场经历了十多年的发展,逐渐己经走向了成熟,股票市场是金 融市的重要组成部分,股票的交易与发行促进了市场经济的发展,是一个国家市 场经济的产物。近几年,随着经济的快速发展,股票已经成为了最常见的一种投 资方式,因此股票的预测就成为了人们最为关心的问题,不论是投资者还是管理 者对于股票市场的波动都有着特别的关注,股票是一种高风险,高收入的投资方 式,因此,近儿
21、年,股票的预测也成为一个热门的话题,对股票进行准确的预测, 对管理者来说能够了解股票市场的动态,从而制定相关的决策,而对于投资荠来 说,准确的预测股票价格,可以获得更高的收益。然而股票的价格受到宏观经济 指标、利率水平、行业状况、国家政策、投资心理等因素的影响,股票的价格序 列是一个十分复杂的非线性动态系统,要准确预测股票价格趋势是很难完成的。因此,无论是利用技术分析还是用时间序列进行建模都有一定的误差,都需 要投资者根据国家政策,经济状况和时事热点等一系列的问题具体情况具体分析, 不要只纯粹的相信某一指标或者某一模型,毕竟股票市场充满丫不可控性。参考文献:1 r. agrawal, t. imielinski, and a. swami, mining association rules between sets ofitems in large databasesj,proceedings of the acm sigmod conference on management of data, 1993, 207-2162 r. agrawal, and r. srikant,fast algor
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年农场防台防风作物保护合同协议
- 2025年农产品直播带货合同协议(销售)
- 环保之路我为先行
- 房产销售成就解析
- 2025年特种作业人员电工证考试试题库及答案
- 酒店消防逃生演练方案酒店消防演练流程
- 2025年护士传染病护理知识专项训练试卷及答案
- 2024年一建法规真题及答案解析
- 临床职业技能大赛试题及答案2025年
- 2025年山东省初中信息技术考试试题(+答案)
- 湖北省十堰市2024年七年级上学期语文期中考试试卷【附答案】
- 酒店全员安全生产责任制
- 八年级英语上学期期中考试(扬州卷)-2024-2025学年上学期英语期中模拟卷
- 数字政府建设课件
- 肖像权使用知情同意书五篇
- 全国民政行业职业技能竞赛(墓地管理员赛项)备赛试题库及答案
- 《广播电视技术》考试复习题库(含答案)
- 2024-2030年中国私护行业市场深度调研及发展趋势与投资前景研究报告
- 2024年人教版八年级上册历史全书知识
- 贵阳市2025届高三年级摸底考试英语试卷(含答案)
- JJG 693-2011可燃气体检测报警器
评论
0/150
提交评论