




已阅读5页,还剩21页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘在股票投资上的应用作 者:李建兰 卢志辉 欧思钰 吴兆麟班 级:10 统计指导老师:蒋盛益报告提交时间:2012年12月17日目录摘要2第一章 绪论21.1 研究背景21.2 研究意义31.3 可行性分析31.4 数据挖掘在证券领域的应用状况41.5 数据挖掘方法介绍51.6 实验步骤91.7本文的创新之处:10第二章 运用数据挖掘方法构建我国民企上市公司投资模型102.1 研究对象102.2 样本选择112.3 指标选择112.3.1建立上市公司绩效评价指标体系的原则112.3.2指标体系结构设计122.3.3指标解释132.4 数据来源说明152.5 数据预处理152.6构建CART树模型162.7 C5.0树模型分析20模型评估22本文局限性231 数据指标存在局限性232 分析方法存在局限性233 研究深度的局限性23组内分工及心得体会24摘要 股票中的分析一直以来都是研究的重点,股票价格趋势和股票投资的预测一直以来都是研究的内容,本文通过数据挖掘的经典算法,采用CART树和C5.0对上市A股的财务指标进行分析,并通过2006年每股季收益率对上市我国上市A股进行划分为值得投资的类型股票和不值得投资的类型的股票,对其股票的11项财务指标进行决策树算法分析,发现其存在的规则,并采用测试样本对决策树进行测试,并通过累积增益图进行评判。从而为股票投资提供一定的建议。关键词:数据挖掘 股票 CART模型 C5.0模型 预测第一章 绪论1.1 研究背景股票于1773年在英国率先发行,至今己有二百多年。我国于1985年发行第一支股票,现已拥有沪、深两大证券交易所、上百家证券公司、3000多个证券营业部、7000多万证券投资者。中国的股票市场用近十五年的时间走过了资本主义国家用近百年的历程,虽然取得一定的成就,但也产生了不少问题,由于股市行情受经济、政治等因素(如发行公司的经营状况和财务状况、股上市、利率水平、汇率变动、国际收支、物价因素、经济周期、经济政策等的作用,其内部规律非常复杂,变化周期无序。经过证监会近年来的监管和努力以及经济市场化程度的提高,市场运作体制机制和政府宏观调控的不断完善,我国股票市场的发展也会逐渐步入理性运行的区间,逐渐有理有迹可循。而投资者的资金不断被蒸发掉,投资者的收益参差不齐,严重不均,迫切需要一个合理的模型来分析和预测每股的收益率,给投资者一个清晰明了的收益指标1.2 研究意义股票市场是金融市场上最重要的一部分,少数投资者在这里成为富豪,然而数以千万投资者的资金被套牢或者蒸发掉。自从股市诞生以来,无数的分析方法被前人总结和论证出来,此外,人们也试图用统计或者数学软件如SPSS、SAS来做回归分析建立模型来预测股价。可是这些传统的预测技术有一个最根本的困难,那就是待处理的数据量非常巨大,如股票市场每天、每时、每刻都在生产大量的数据,不仅有上市公司的K线数据,上市公司的交易量数据,还有公司的财务报表的数据,送股、转股、分红的数据等等。那是因为股市的行情受到政治、经济等多方面因素的影响,其内部规律错综复杂,某些变化规律的周期可能是一年甚至是几年,因此需要通过对大量数据的分析才能得到,而传统的预测技术在这方面的作用不大。自从数据挖掘学科被建立起来至今已有16年多,它取得了很大的发展和完善,包括在理论和应用方面的作用被前人发掘出来。且各种数据挖掘技术的应用极大地推动了人们分析、处理大量数据信息的能力,弥补了传统预测技术的缺陷,并为人们带来了合理的预测和丰厚的经济效益。本文提出了用数据挖掘的方法来分析2006年制造业A股的公司,通过用神经网络、贝叶斯网络等数据挖掘方法,选择较为恰当的属性指标,如资产负债率,建立一套可行的评估收益的体系。而其现实意义:在现实的股票分析过程中,通过对各上市公司的盈利能力、营运能力等进行神经网络等数据挖掘方法的分析,可以准确和合理直观地发现并得出哪些指标与每股收利率有关的结论。并且随着统计软件的不断发展,我们可以轻松利用Clementine等统计软件对数据进行分析处理,而不用考虑其复杂的算法和抽象的公式。用数据挖掘方法进行证券分析具有非常现实的意义。1.3 可行性分析本课题的可行性主要有以下理由:(1) 数据真实本课题数据来自于广东外语外贸大学的学校数据库国泰安金融数据库研究中心,国泰安金融数据库是国内第一家,也是比较大从事金融、经济信息精准数据库设计开发的专业高科技公司,具有比较完备的数据库,本小组组员们本着十足的信任选择了2006年制造业A股上市公司股票进行了分析。(2) 选取的指标具有较高的科学性及可操作性由于源数据过于烦杂,属性过多,我们小组进而将数据做了进一步的加工,根据指标的选择而确定各主要项的属性,主要指标有资产报酬率、销售净利率、息税前利润/营业总收入、营业利润/营业总收入、流动比率、资产负债率等11项指标。采用经典的圣经网络和贝叶斯算法等来分析和预测该上市公司的股票1.4 数据挖掘在证券领域的应用状况证券市场存在巨大的风险。受多方面因素影响,券商的经营对数据的正确、实时、安全性要求极高。数据挖掘技术作为分析与辅助决策工具已经越来越得到国内券商的重视。证券公司应该能够给自己的客户提供大盘及各股的未来走势的信息,给客户的投资、选股提供有价值的参考,尽可能地回避风险。更何况,大多数证券公司本身就是证券的投资者。股票价格的变动受多方面因素的影响,而证券投资分析的方法很多,在此以证券的数据和数据挖掘产品为例阐述数据挖掘在证券领域的应用。(1) 客户关系管理:利用聚类做客户行为分析用客户交易数据统计出每个客户的交易情况,根据客户行为进行聚类。通过对客户数据聚类,将客户进行分群,考察每类客户对证券公司的贡献情况,这样可以根据客户的产生类别的交易行为等其他特点知道该类用户是否对公司最有价值,并且证券公司根据客户行为的特点对贡献度大的客户类采取相应的政策照顾,并且还能吸引某些行为类似的贡献度较低类的客户发展为较高贡献的客户。(2) 股市技术分析:利用时间序列预测股票价格数据挖掘是对大量的历史数据进行处理和分析,提炼出有价值的信息表现为规则、模型等模式信息),其中的时间序列模型,可以用于股票价格的预测。(3) 股市基本分析:利用决策树等预测任何金融资产的“真实”价值等于这项资产的所有者的所有预期收益流量的现值。具体地说,分析家不仅需要预测折现率,而且还必须预测这种证券的每股平均收益和派息率。证券的真实价值一经确定,就可以用来与这种证券的市场价格进行比较,从而鉴别这种证券的定价是否恰当。如果真实价值低于市场当前价格,那么该证券价值是被高估了,应该卖出;如果证券的真实价值高于市场当前价格,那么该证券价值是被低估了,应该买进。具体的分析策略包括宏观经济信息、产业分析、区域分析和公司分析几类。从上面可以知道,宏观经济信息、产业、地区和公司的基本信息和股票价格是有关系的。在我们的方案里,我们使用数据挖掘的办法来描述这种数据间隐藏的规律,根据证券的发行特征寻找它与实际价格的基本规律,并且根据这个规律对未知真实价格的股票(新发行的股票)进行预测。(21.5 数据挖掘方法介绍1.5.1各大数据挖掘方法介绍数据挖掘的分析方法是利用数据来建立一些模仿真实世界的模型,利用这些模型来描述数据中的模式及相互关系。它不但能够为我们的投资行为或其他决策提供所需要的信息。而且还可以帮助我们做出预测。数据挖掘主要用来建立五种模型: (I)分类分类要解决的问题是为一个事件或对象归类。它根据一些变量的数值做计算,然后依照结果作分类。在使用上,既可以用模型分析己有的数据,也可以用它来做预测。比如我们可能用一些己经分类的数据来研究它们的特征,然后再根据这些特征对其他未经分类的数据进行预测。分类技术是数据挖掘技术中应用最广泛的技术,在商业上应用尤其多。分类技术主要有:判定树归纳分类,神经网络,高速数据链挖掘,贝叶斯分类,随机森林,支持向量机等。本文的第一个研究部分就是应用数据挖掘中的不同分类方法进行对比,找出最适合证券数据的分类方法。(2)关联规则关联规则旨在从大量数据当中发现特征之间或数据之间的相互信赖关系。数据库中的数据一般都存在着关联关系,两个或多个变量的取值之间可能存在某种规律性。关联分析的主要目的就是找出数据库中隐藏的关联网,关联分析生成的规则带有置信度和支持度,置信度级别度量了关联规则的强度,支持度度量了关联规则的重要性。Agrawal等在1993年提出了挖掘关联规则的一个重要算法一Apriori算法,得到了广泛应用。(3)时间序列预测模型 时间序列,也叫时间数列、历史复数或动态数列。它是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。它一般采用曲线拟合和参数估计方法(如非线性最小二乘法)进行。时间序列在生产和科学研究中,对某一个或一组变量x(t)进行观察测量,将在一系列时刻t1, t2, , tn (t为自变量且t1t2 6.170,则该公司的股票值得投资;规则 2 如果 销售商品劳务收入现金/营业收入 116.665,并且 资产负债率 0.855 并且 销售净利率 97.191, 并且 资产负债率 0.855 并且 销售净利率= 7.031,并且 流动比率= 1.244,并且 资产负债率 2.394,则该股票值得投资;规则 6 如果 息税前利润/营业总收入 6.594 并且 固定资产周转率 0.374,则该股票值得投资;规则 7 如果 息税前利润/营业总收入 = 2.119 并且 资产负债率 = 64.961,则则该股票值得投资; 规则 8 如果营业利润/营业总收入 = 1.561 并且 资产负债率= 64.961 则该股票值得投资;3模型评估累积增益图分析对于样本368个样本,我们抽取其中的100个作为测试样本对样本进行测试,以下是我们小组研究的技术流程图图3.1-1模型评估图以下是我们小组研究的累积增益图图3.1-2累积增益图在累积增益图上的分析上可以看出,CART树和C5.0的效果无太大差异,唯一不足的是累计增益图的效果不是太理想,要到70%的付出上才有86.8%的效果,不过这也说明一个问题就是CART树和C5.0在财务分析上存在一定的局限性,需要用更多的方法去验证。本文局限性1 数据指标存在局限性 由于此次的数据是从网上搜索得到的,由于数据的来源是来自锐思金融数据库,对指标的筛选,是通过研究公司的财务的基础上筛选出来的,而股票投资上考虑的可能不仅是该股票的公司的财务状况,可能该股票价格和收益率还收到市场等政策的影响,对于价格的影响因素可能是不确定的,甚至是不可预测的,因此,对指标的筛选,需要我们多次重复的实验。 2 分析方法存在局限性 由于本文仅从CART决策树和C5.0这两种方法出发,对股票的投资指标的选择,可能考虑的不是很完整,在模型评估上效果也不是很理想。在参考其他文献的基础上,我们发现神经网络和SVM支持向量机对于分类,也有很高的正确率,并且对于那些多属性的变量进行黑箱模拟,因此在以后的研究中,可以采用神经网络和SVM等方法进行改进,并进行比较。 3 研究深度的局限性 在分析过程中采取了决策树和C5.0的分析上,只对投资股票的财务数据做了基本的分析,得出了基本的财务指标的投资抉择,但是对股票的所属类型没有做具体的划分,对于股票的价值类型做了初步的划分,但是股票类型往往具有关联性,不同股票的收益率在一定程度上是具有关联的,由于本作者研究技术的局限性,没有对股票的类型做进一步的划分。在不同类型中,挑选价值更高的股票,从而减低投资的风险,提高投资的收益率。参考文献1刘申菊,田丹. 浅谈数据挖掘的应用D.沈阳.沈阳理工大学,20102陈祖义,华勇,王培培.商业数据挖掘技术的应用与发展.J.当代经济,2007组内分工及心得体会流程任务完成人数据准备数据收集,数据预处理全组成员数据测验实验操作全组成员数据挖掘及论文初稿撰写综述,流程介绍卢志辉背景分析吴兆麟算法介绍欧思钰结果分析李建兰修改初稿并终稿确定修改初稿全组人员评分:组员李建兰卢志辉欧思钰吴兆麟评分心得体会这段时间我们全组都放了很多时间和心思在数据挖掘大作业上,虽然从选题、数据收集到数据分析,都遇到了大大小小不同的困难,但是我们最终还是顺利完成了此次大作业。首先,我觉得选题是一件非常重要并且困难的事情,选取的题目要有现实意义,并且能够获得有效数据,最终经过多次讨论和资料收集,我们选取了股票投资这个课题。第二,数据处理的效果和教课书上的差别很大,如果数据处理得不好,后面的数据分析工作就会很慢,出来的数据分析结果可能就不太理想,本文在写这篇文章的时候就遇到这个问题,后面对于数据样本的筛选,对于一些数据缺失值比较严重的,我们采取剔除。做数据分析是一件不简单的事情,数据处理的不好,那么得出来的效果也可能不太理想。不过在这次分析上,我明白团队的分工是非常重要的,我们要发挥团队合做精神,提高团队合作效率。 -李建兰之前一直都有在关注证券市场,尤其是股票这一部分。从股票的价格、上证指数和深证指数来看,都深刻的感觉到中国的股票市场存在极大的投资性而投资风险极高。但通过这次的大作业,我同我的组员们收集各种各类的信息,用合理的先进的数据挖掘技术对中国的股票市场进行了初步的分析,觉得还是有理可循,有据可依的。从而也体会到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023六年级数学下册 三 图形的运动第5课时 欣赏与设计说课稿 北师大版
- 建材买卖合同(墙地砖类)
- 第8课 《人间词话》十则王国维说课稿-2025-2026学年高中语文统编版 选修:中华传统文化专题研讨-统编版
- 9.1《念奴娇•赤壁怀古》教学设计 2024-2025学年统编版高中语文必修上册
- 第3课 插入图片教学设计-2023-2024学年小学信息技术(信息科技)四年级下册粤科版
- 1.3 氧化还原反应(习题)(含答案解析)-2024-2025学年高一化学同步教学教学设计+讲义(人教版2019必修第一册)
- Unit 9 Section B 2a~3c Self check说课稿-2025-2026学年人教版英语七年级上册
- 2.4 匀变速直线运动规律的应用说课稿-2025-2026学年高中物理上海科教版共同必修1-沪教版2007
- 湘潭县辅警考试题库2025
- 环保型出渣车劳务分包与生态修复合同
- 视频监控调取记录表
- 第2章 Windows 10操作系统
- 教研活动:幼儿园班级主题墙创设课件
- GB/T 42430-2023血液、尿液中乙醇、甲醇、正丙醇、丙酮、异丙醇和正丁醇检验
- 酒店住宿水单模板-可修改
- SF-三福的历史与文化 v2.0
- 幼儿园故事《小红帽》PPT模板
- GB/T 6723-2017通用冷弯开口型钢
- GB/T 4456-2008包装用聚乙烯吹塑薄膜
- 葫芦丝(初学教学)-课件
- 李家小学教师绩效考核实施方案
评论
0/150
提交评论