




免费预览已结束,剩余7页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘在股票投资中的应用数据挖掘在股票投资中的应用 摘要 研究股票价格预测 由于股票价格具有非线性 随机性等变化规律 同 时股票市场与国内外经济政治变化有关 因此通过简单的单个模型分析是很难 准确有效的对股票价格进行预测 更准确的估价预测需要分层进行各类模型分 析 本文运用 spss clementine 系统通过 ARIMA 法对股票价格进行整体的预测即 股指预测 接着利用神经网络对乐视股票价格进行涨跌预测 摘要 ARIMA 神经网络 乐视股票 一 一 背景及意义背景及意义 进行股票投资是为了获得更大的收益 然而由于股票市场具有较大的动态 特性 股票投资的收益与风险往往是成正比的 投资收益越高 存在的风险则 越大 有效地进行股票价格的预测 最大程度规避股票风险 增加投资收益 是股票投资者最关注的热点问题 随着市场经济的不断发展和中国股市的规范化 正规化 股票投资不断兴 起 股票市场在金融投资领域占有越来越重要的地位 成为不可缺少的组成部 分 股票价格的变化直接反映出股票市场的状态 如果能够很好的预测股票价 格的走势 将不但对我们日常生活产生巨大影响 而且还会对国家的经济发展 提供有价值的参考 所谓对股票进行预测 主要是在研究股票指数过去的信息 后 找到适合其数据特点的科学方法对其预测 进而得到股市未来价格 但是 影响股票价格的因素有很多 如政策 经济状况 股票投资者心理因素等 并 且这些因素相互交错 彼此存在约束 仅应用线性分析会含有误差 因此 如 何较为准确的预测股票短期内发展趋势以及长期内的大体走向已经成为当今较 为关注的热点之一 股市具有高收益与高风险并存的特性 如何最大程度的获 得高收益 规避高风险成为人们热切关心的问题 因此股市的建模预测研宄对 金融建设及其经济的发展具有极其重要的意义 在现实的经济活动过程中 股 价序列的变化呈现出随机性和时变性等特性 所以如何把握股价变动的规律 一直是当今社会经济研宄中的一个极其重要的问题 由于股票价格序列可以看 做是含有白噪声的时间序列 所以可以通过建立估价序列的适应或最有统计模 型对股价的变化作出分析与预测 二 二 国内研究现状国内研究现状 在证券领域 早在 1993 年 Agrawal 就提出了通过客户的交易数据挖掘其 中的项集间的关联规则的方案 随后吸引了诸多相关领域的研究人员对如何挖 掘关联规则进行研究 通过引入随机采样 并行等方法对原有的算法进行优化 关联规则挖掘也得到推广 在其基础上 徐晓峰提出了针对证券交易中单交易 项数据挖掘的频繁模式链表关联规则挖掘方法 可以有效的提高客户的个性化 服务质量 董泽坤则针对关联规则的挖掘算法 提出了 ES Apriori 算法 对关 联规则分析过程中的数据库扫描次数进行了简化 周昌乐基于 BP 神经网络容易陷入局部最小解和网络只有一个隐含层的缺 陷 提出一种新的部分神经进化网络 增加了网络的隐层数 将预测效果提升 了很多 对于非线性时间序列的研究是一个难点 王上飞在充分学习滑动窗口 技术的基础上 将其与 RBF 神经网络联系起来对国际商业机器公司 IBM 公 司股票进行预测 最终得到的股票数据走势基本相同 曲线拟合效果很好 针 对股价数据非平稳 非线性的特点 崔建福 李兴绪分别建立 GARCH 模型与 BP 网络模型对比分析两个模型的预测效果 得到结论 对于波动幅度大的时间 序列 神经网络以其较强的泛化能力 使得从非线性角度建模效果优于非平稳 角度建模 但 BP 网络也存在训练时间长 易陷入局部极小值的问题 三 数据挖掘数据挖掘 一 一 数据挖掘的概念 社会需求数据挖掘的概念 社会需求 数据挖掘概念最早是由 Usama Fayaad 1995 年加拿大蒙特利尔的第一届知识 发现和数据挖掘国际会议上提出的 它的提出是与计算机科学 人工智能相关 的机器学习等发展分不开的 数据挖掘一般是指在数据库中 利用各种分析方 法与技术 将过去所累积的大量繁杂的历史数据中 进行分析 归纳与整合等 工作 以萃取出有用的信息 找出有意义且用户有兴趣的模式 提供企业管理 阶层在进行决策时的参考依据 随着计算机技术 特别是数据库技术的快速发展和广泛应用 各行各业积 累的数据量越来越大 激增的数据背后隐藏着许多重要的信息 人们希望能够 对其进行更高层次的分析 以便更好地利用这些数据 目前的数据库系统可以 高效地实现数据的录入 查询 统计等功能 但无法发现数据中存在的关系和 规则 无法根据现有的数据预测未来的发展趋势 缺乏挖掘数据背后隐藏的知 识的手段 必将导致 数据包扎但知识贫乏 的现象 例如 股票经纪人如何从 日积月累的大量股票行情变化的历史记录中发现其变化规律 预测未来趋势 从而决定未来投资方向 大型卖场的决策人员怎样才能根据过去几年的销售记 录来判断分析顾客的消费习惯和行为 及时变换营销策略 金融领域的经纪人 需要从顾客的消费习惯中判断正常消费 减少金融诈骗的发生 等等 数据挖 掘能为决策者提供重要的有价值的信息或知识 产生不可估量的效益 目前 数剧挖掘产品尚不常熟 但市场份额却日益扩大 其原因就是越来越多的大中 型企业开始利用数据挖掘工具来分析公司的数据 为决策层做出辅助决策 以 便于在市场竞争中领先 从而立于不败之地 二 数据挖掘过程 二 数据挖掘过程 数据挖掘的过程大致分为 问题定义 数据收集与预处理 数据挖掘实施 以及挖掘结果的及时与评估 1 问题定义 数据挖掘是为了从大量数据中发现游泳的令人感兴趣的信息 因此发现何 种知识就成为整个过程中第一个也最重要的一个阶段 在这个过程中 必须明 确数据挖掘任务的具体要求 同时确定数据挖掘所需要采用的具体方法 2 数据收集与预处理 这个过程主要包括 数据选择 数据预处理和数据转换 数据选择的目的就是确定数据挖掘任务所涉及的操作数据对象 目标数据 也 就是根据数据挖掘任务的具体需求 从相关数据源中抽取出于挖掘任务相关的 数据集 数据预处理通常包括消除噪音 遗漏数据处理 消除重复数据 数据类型 转换等处理 数据转换的主要目的就是消减数据集合的特征维数 简称降维 即从初始 特征中筛选出真正与挖掘任务相关的特征 以便有效提高数据挖掘效率 3 数据挖掘实施 根据挖掘任务定义及已有的方法 分类 聚类 关联等 选择数据挖掘实 施算法 其间主要考虑 数据特定和结果知识描述方式 4 结果解释与评估 实施数据挖掘所获得的挖掘结果 需要进行评估分析 以便有效发现有意 义的知识模式 因为数据挖掘所获得的初始结果中可能存在冗余或无意义的模 式 也可能所获得的模式不满足挖掘任务的需要 这时就需要退回到前面的挖 掘阶段 重新选择数据 采用新的数据变换方法 设定新的参数值 甚至换一 种数据挖掘算法等 此外还需要对所发现的模式进行可视化 表示将挖掘结果 转换为用花移动的另一种表示方法 数据挖掘的实施 仅仅是整个数据挖掘过程中的一个步骤 影响数据挖掘 质量的两个因素分别是 所采用数据挖掘方法的有效性 用于数据挖掘的数据 质量和数据规模 如果选的数据集合不合适 或进行了不恰当的转换 就不能 获得好的挖掘结果 三 三 时间序列模型与神经网络时间序列模型与神经网络 一 一 时间序列模型时间序列模型 1 时间序列 时间序列 也叫时间数列 历史复数或动态数列 它是将某种统计指标的 数值 按时间先后顺序排到所形成的数列 时间序列预测法就是通过编制和分 析时间序列 根据时间序列所反映出来的发展过程 方向和趋势 进行类推或 延伸 借以预测下一段时间或以后若干年内可能达到的水平 其内容包括 收 集与整理某种社会现象的历史资料 对这些资料进行检查鉴别 排成数列 分 析时间数列 从中寻找该社会现象随时间变化而变化的规律 得出一定的模式 以此模式去预测该社会现象将来的情况 2 时间序列预测法的步骤 第一步 收集历史资料 加以整理 编成时间序列 并根据时间序列绘成 统计图 时间序列分析通常是把各种可能发生作用的因素进行分类 传统的分 类方法是按各种因素的特点或影响效果分为四大类 1 长期趋势 2 季节变动 3 循环变动 4 不规则变动 第二步 分析时间序列 时间序列中的每一时期的数值都是由许许多多不 同的因素同时发生作用后的综合结果 第三步 求时间序列的长期趋势 T 季节变动 s 和不规则变动 I 的值 并选 定近似的数学模式来代表它们 对于数学模式中的诸未知参数 使用合适的技 术方法求出其值 第四步 利用时间序列资料求出长期趋势 季节变动和不规则变动的数学 模型后 就可以利用它来预测未来的长期趋势值 T 和季节变动值 s 在可能的 情况下预测不规则变动值 I 然后用以下模式计算出未来的时间序列的预测值 Y 加法模式 T S I Y 乘法模式 T S I Y 如果不规则变动的预测值难以求得 就只求长期趋势和季节变动的预测值 以两者相乘之积或相加之和为时间序列的预测值 如果经济现象本身没有季节 变动或不需预测分季分月的资料 则长期趋势的预测值就是时间序列的预测值 即 T Y 但要注意这个预测值只反映现象未来的发展趋势 即使很准确的趋势 线在按时间顺序的观察方面所起的作用 本质上也只是一个平均数的作用 实 际值将围绕着它上下波动 二 二 神经网络神经网络 神经网络是一门活跃的边缘性交叉学科 是在人脑组织结构和运行机制的 认识理解基础之上模拟其智能行为的一种工程系统 神经网络既是高度非线性 动力学系统 又是自适应组织系统 可用来描述认知 决策及控制的职能行为 其中心问题是对智能的认知和模拟 神经网络理论是巨量信息并性处理和大规 模并行计算的基础 1 人工神经网络模型 人工神经网络是大量简单元件广泛相连接而成的复杂网络系统 它是现代 神经科学成果的基础下提出的 反映了人脑功能的若干基本特征 但并非神经 系统的逼真描写 而只是一种抽象的数学模型 人工神经网络其实质是一门非 线性科学 它具有并行处理 容错性 自学习功能 有别于传统方法 己在模 式识别 自动化控制等领域取得了惊人的成就 在国外 人工神经网络已经成 为了投资公司及基金经理的强力工具与高效助手 国内起步虽晚 但对于基于 神经网络的股票预测系统也有一定的研究 人工神经网络的应用按照面向的预测对象可分为这三类 第一类为通过将 股票分类为强势股与弱势股来预测股票表现为优秀股 一般股 较差股 这类 人工神经网络应用做出的决策只提供能否盈利 并不提供期望的价格及期望的 盈利 第二类对股票价格进行预测 这些系统基于之前的股价及相关的金融系 数尝试预测未来一天或几天的价格 第三类重要的人工神经网络在股票市场中 的应用是对股票表现建立模型及预测 这类应用不仅预测股票的未来价格 也 估算重要影响因素 可能影响结果的变量的敏感度分析 以及其他相关性分析 2 人工神经元模型 神经网络由大量的节点构成 这些节点也称为神经元或单元 节点之间相互 连接 并且具有不同的权重 每一个节点都具有其特点的输出函数 称之为激 活函数 其原理可以表示如图所示 图 1 人工神经元模型 其中为输入信号 为神经元 i 及 j 之间的连接权重 为阀值 所以 1 神经元 i 的输出和输入一般可以表示为 1 四 实证分析四 实证分析 一 神经网络模型预测 一 神经网络模型预测 1 数据来源 数据来源于 Wind 金融终端 研究对象是上证指数从 2015 年 7 月 24 日至 2016 年 5 月 31 日以来的收盘价序列数据 其中变量 date 是日期 变量 price 是上证指数的收盘价的序列数据 选择输入变量与预测变量 输入变量包括当 日最高价 当日最低价 当日成交量 当日成交额 5 日移动均线序列数据 7 日移动均线序列数据 输出变量为当日收盘价 2 变量的重要性 图 2 由图可以看出当日最低价对收盘价的影响最大 其次是当日最高价 5 日 移动均线序列数据与成交量对收盘价的影响差不多 7 日移动均线序列数据对 收盘价的影响是最小的 3 预测 图 3 由预测与实际价格的拟合图可以看出预测的估价走势与实际估价走势大致 相同 但预测的偏高 二 时间序列的预测 二 时间序列的预测 1 数据来源 数据来源于 Wind 金融终端 研究对象是上证指数从 2015 年 7 月 24 日至 2016 年 5 月 31 日以来的收盘价序列数据 其中变量 date 是日期 变量 price 是上证指数的收盘价的序列数据 2 实证分析 1 序列的平稳性 图 4 收盘价的趋势图 由图可以看出收盘价是非平稳的且有一定的下降趋势 没有明显的季节性 2 建立模型 表 1 图 5 表 1 是建立的时间序列模型 由 P 值均小于 0 05 得出模型成立 图 5 是收 盘价的残差自相关函数图 可以看出残差平稳 3 预测 图 6 图 6 是又 ARIMA 模型进行预测后得到的预测结果与实际结果进行的拟合 可以看出二者走势大致相同 说明拟合的效果不错 五 结论五 结论 本文使用了数据挖掘方法中的时间序列预测方法 神经网络模型对同一股 票的当日收盘价的走势进行了预测 采用数据挖掘技术解决实际问题 说明了 在信息科技时代 信息化处理数据是一个必然趋势 对股场中众多股民在选择 股票及回避风险中具有较为深远的参考意义 中国的股票市场经历了十多年的发展 逐渐已经走向了成熟 股票市场是 金融市的重要组成部分 股票的交易与发行促进了市场经济的发展 是一个国 家市场经济的产物 近几年 随着经济的快速发展 股票已经成为了最常见的 一种投资方式 因此股票的预测就成为了人们最为关心的问题 不论是投资者 还是管理者对于股票市场的波动都有着特别的关注 股票是一种高风险 高收 入的投资方式 因此 近几年 股票的预测也成为一个热门的话题 对股票进 行准确的预测 对管理者来说能够了解股票市场的动态 从而制定相关的决策 而对于投资者来说 准确的预测股票价格 可以获得更高的收益 然而股票的 价格受到宏观经济指标 利率水平 行业状况 国家政策 投资心理等因素的 影响 股票的价格序列是一个十分复杂的非线性动态系统 要准确预测股票价 格趋势是很难完成的 因此 无论是利用技术分析还是用时间序列进行建模都有一定的误差 都 需要投资者根据国家政策 经济状况和时事热点等一系列的问题具体情况具体 分析 不要只纯粹的相信某一指标或者某一模型 毕竟股票市场充满了不可控 性 参考文献 参考文献 1 R Agrawal T Imielinski and A Swami Mining association rules between sets ofitems in large databases J Proceedings of the ACM SIGMOD Conference on Management of data 1993 207 216 2 R Agrawal and R Srikant Fast algorithms for mining association rules in large dat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论