大数据在选股分析中的应用_第1页
大数据在选股分析中的应用_第2页
大数据在选股分析中的应用_第3页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、文摘要在科技不断发展、网络覆盖率持续扩张的今天,大数据时代早已悄然而至,每个行 业都会形成海量、 繁杂的数据。 对于如何有效地采集信息、 如何挖掘出数据内部的规律, 学者们一直在不遗余力地研究并不断提供各种新型的技术。对于国内的私募基金而言,大数据的价值及其所蕴含的新商机并未充分体现出来, 不过可以肯定的是,大数据在私募基金决策的过程中起着越来越重要的作用。基金行业 是一个大数据市场,股市每天交易频繁,由此形成了大量的数据,大数据分析技术在这 一行业不断走向成熟的过程中,也在不断地更新。笔者在本课题中,以金融市场中存在的主要问题为切入点,以上市企业为对象,探 讨如何对基本面数据以及股票交易展开

2、挖掘分析,并且详细阐述了 K-means算法的基本 原理、神经网络在选股的作用原理;在现有股票预测原理的基础上,提出的多聚类分析 股票数据的方法,结合分类算法对股票数据进行训练,形成基于聚类分析的智能选股算 法。然后对算法进行验证,对整体方案框架进行设计,通过MATLABft行聚类实现,最后得出最优参数下的聚类结果。最后结合聚类分析出来的选股算法,利用HADOO技术设计一个简单,稳定高性能的智能选股系统。实验结果显示,开发出的模型分析选股系 统可以对股票数据进行多维的分析预测,作为投资者的投资决策的辅助工具,是利用数 据挖掘技术结合多聚类分析股票数据的方法,分析大量与股票相关数据,并做出未来走

3、 势预测,具有一定的实用意义。关键词 : 私募基金;数据挖掘;证券分析;互联网大数据;交易数据AbstractWith the continuous development of technology and the continuous expansion of network coverage, the era of big data has long been quietly emerging and there is massive and complicated data in every industry. Researchershave been sparing no effor

4、t in researching and constantly providing various new technologies for how to effectively collect information and how to find out the internal laws of data.For domestic private equity funds, the value of big data and the new business opportunities big data contains are not fully demonstrated, but it

5、 is certain that big data plays an increasingly important role in the decision-making process of private equity funds. The fund industry is a big data market. Daily trades in the stock market result in a large amount of data. Analysis technology of big data is constantly updated with the industry be

6、ing mature.In this subject, takeing the main problems existing in the financial market as the starting point and the listed companies as the object, the author explores how to excavate and analyze the fundamental data and stock transactions, and elaborates the basic principle of K-means algorithm. B

7、ased on the existing stock forecasting theory, this paper proposes a multi-clustering method to analyze stock data and a combination of classification algorithms to train stock data to form an intelligent stock selection algorithm based on clustering analysis.Then the algorithm is verified, the over

8、all program framework is designed, and the clustering is realized by MATLAB. Finally, the clustering results under the optimal parameters are obtained. At last combining with the stock selection algorithm based on clustering analysis, a simple stable and high-performance intelligent stock selection

9、system is designed by using HADOOP technology. The experimental results show that the model stock picking system can make multi-dimensional analysis and forecasting of stock data. As a supporting tool for investors' investment decision-making, it has certain practical significance, which uses th

10、e method of data mining combined with multi-cluster analysis of stock data, Stock-related data, and make the future trend forecast.Key Words: private fund; data mining; securities analysis; Internet big data目录中文摘要 IABSTRACT II目 录 III图表目录 V1 绪论 11.1 论文选题研究的背景及意义 11.2 国内外现状分析 21.2.1 国外大数据在金融领域发展现状21.2

11、.2 国内大数据在金融领域发展现状41.3 论文的组织结构 52 相关理论技术基础及可行性分析 62.1 股票二级市场的状况 62.2 数据挖掘工作原理 92.2.1 聚类算法概述 9222 K-mea ns 算法原理102.2.3 分类算法142.2.4 分类算法的类型152.3 神经网络在选股中的作用 182.3.1 神经网络进行股票预测的原理182.4 本章小结 193 智能数据挖掘 选股算法 203.1 现状分析 203.2 基本概念 213.2.1 算法研究 213.2.2 多聚类分析股票数据 233.2.3 多聚类方法描述 243.3本章小结 254 算法模型 验证 264.1 实

12、验方案 264.2数据准备 264.3MATLAB 中聚类的实现 264.4聚类结果 284.4.1 采样/持有周期 对聚类结果的影响 284.4.2 分类数/滞后期对聚类结果的影响 304.4.3 最优参数下的聚 类结果 304.5 本章小结 315 选股系统的设计 325.1 系统的详细架构 325.2 并行数据挖掘算法 实现 335.3 数据库设计 345.3.1 数据表索引 345.3.2 数据表详细设计 355.4 详细设计 375.4.1 数据结构设计 375.4.2 离线交易数据入 库 385.4.3 主要指标数据计算385.5 系统实施 435.5.1 日线数据入库 435.5

13、.2 指标计算 435.5.3 智能选股 435.6 应用 455.7 系统测试 455.8 本章小结 466 总结与不足 47参考文献 49致 谢 50图表目录图 2-1K 均值聚类算法的流程图 11图 2-2数据挖掘的流程图 15图 2-3数据文本分类的流程图 15图 3-1行业收益率序列聚类分析方法 21图 3-2分类数据产生过程22图 3-3分类模型的建立 22图 3-4多重分 类模型建立 23图 5-1系统架构图32图 5-2并决策树算法流程图 33图 5-3离线交易数据入库流程图 38图 5-4日线数据入库界面 43图 5-5指标计算界面 43图 5-6股票预测数据 45表 2-1

14、行业分类表 8表 3-1股票资产定价的技术发展表 20表 4-1不同采样 / 持有周期对聚类结果的影响 29表 4-2 不同采样 / 持有周期对聚类结果的影响(反转效应) 29表 4-3分类个数 / 滞后期对聚类结果的影响 30表 4-4聚类模型下的收益 对比30表 5-1数据库索引 35表 5-2日常交易数据表 35表 5-3股票指标数据 36表 5-4指标基本信息表 361 绪论1.1 论文选题研究的背景及意义在过去短短几十年间, IT 行业经历了多次历史性的革命,比如云计算、物联网等, 而这一行业最新的突破性成果即为大数据。随着计算机和网络的普及,大数据时代已经 降临,在这样的背景下,私

15、募基金行业也迎来了新的机遇和挑战。无论是从投资者还是 创业者的角度来看,大数据都是非常受关注的融资标签。大数据的首要特点是数据体量非常大, 通常至少应该达到10TB然而在现实中,很 多企业将自身的数据集全部集中起来,最终汇聚成达到PB级的数据量。另外,其所包含的数据从类型上来看是多种多样的,数据来源丰富多样,数据格式明显不统一,完全 超出了以往人们所说的结构化数据范畴,还包含了半结构化数据以及非结构化数据。大 数据的数据处理速率非常快,即便它涉及到庞大的体量,但依旧能够满足数据处理的实 时性要求。最后,其数据具有很强的真实性,近些年间,社交数据、企业内容、交易等 方面的信息不断涌现,这些数据都

16、来自新的数据源,在这样的背景下,企业需要更加有 效的信息,才能确保其真实性和安全性,为企业的决策提供准确、及时的依据。作为一种信息资产,大数据表现出大量、快速增长、多样化的特点,其在决策、洞 察、流程优化方面有着明显的优势,但这些优势能够在多大程度上体现出来,主要由处 理模式所决定。从数据类型角度而言,“大数据”是指超出以往的流程和方法的处理范 围的信息。它对所有突破正常处理范围、必须使用非传统方法进行处理的数据集进行了 定义。亚马逊网络服务(AWS、大数据领域的学者John Rauser曾经对其概念进行高 度归纳的阐述,即通过一台计算机无法处理的庞大数据量。研发小组提到:大数据指的 是一种最

17、大、最时髦的宣传技术,一旦发生了这一现象,定义就会杂乱无章。而 Kelly 则认为,大数据或许并不等同于所有的数据,但其所包含的大多数数据都是正确的。时 至今日,大数据的概念都存在广泛的分歧,但有一点是取得了共识的,即由于它有着庞 大的体量,因此在对其进行分析的过程中,要用到多个工作负载。数据的极限,是由技 术的极限所决定的。当然,概念上的分歧并未对大数据的应用造成过大的影响,关键在 于如何应用,如何在更大程度上发挥出其作用和价值,因此要在技术方面不断地推陈出 新,使大数据的作用充分的释放出来。同时还要探讨和以往的数据库不同的是,具有开 源性特点的大数据分析工具比如 Hadoop的广泛应用,以

18、其为代表的非结构化数据服务 的价值体现在哪些方面等。大数据挖掘技术在金融领域的应用,可以追溯到十多年之前。金融行业是竞争十分 激烈的行业,私募基金经理每天都需要面对大量的数据,能否高效地从中找到有价值的 信息,并据此对行情进行判断,在很大程度上决定了产品收益率的高低。事实证明,大 部分投资决策失误的根源在于信息不对称,所以,越来越多的学术界和实践界人士开始 投入到行业热点信息的研究中来。与此同时,在网络高速发展的背景下,网络所形成的 金融大数据对金融分析师而言,充满了机遇,同时也处处面临危机和挑战。笔者在本课题的研究中,从基金 经理的角度出发,探讨大数据挖掘技 术对行情分析 的作用和价 值,从

19、金融数据信息里面挖掘有效的因素,并据此 对股市未来的走向 进行预 测,对基于聚类分析的智能 选股算法进行分析和测试。本课题研究旨在充分利用大数据 挖掘技术,为私募基金经理在业务操作过程中提供更有力的依据,使其能够更加准确地 定位股票和分析、预测市场行情,改变以往实地调研等传统方法过于耗时耗力的现状。1.2 国内外现状分析1.2.1 国外大数据在金融领域发展现状纵览全球,大数据技术的主要潮流和趋势是易用化、简单化,大多数大数据分析企 业,都将数据采集、分析、处理等功能全部集成在一起,通过分析平台的方式提供这些 方面的服务。比如 Fractal Analytics 不但实现了数据分析的功能,并且能

20、够在无需人 工操作的情况下完成数据的清理和验证等操作,从而提供标准化、规范化的数据。 Voyager Labs 则在全球范围内铺设了十亿个数据点,有着广泛的数据来源,从而为用户 提供更加全面的数据服务。如今,很多企业的产品策略中明确提到,要进一步降低大数据技术的技术难度和成 本,从而提高其易用性,比如 Domino 公司推出的产品能够让研究人员将更多的精力和 时间放在数据分析上, 也就是节省在软硬件环境维护方面的时间。 Datameer 推出的产品 直接将复杂的底层技术遮盖起来,通过表格的形式将数据呈现在用户的眼前,充分地考 虑到了用户的操作习惯和便利性。 Rapid Miner Studio

21、 无需任何代码就能够在客户端进 行操作,拥有机器学习、数据挖掘、文本挖掘等一系列的功能,能够更好地满足用户的 需求。在大数据分析应用范围不断扩张的过程中,此项技术在性能方面的表现也持续优 化,数据分析结果的准确性大幅提高。比如 SigOpt 公司通过贝叶斯优化 (Bayesian Optimization) 算法对模型参数进行调整,从而对网格搜索方法予以改进,新的方法能 够在更短的时间内提供更为准确、 易用性更高的结果。 更重要的是, SigOpt 的产品不但 能够对多种变量进行测试,同时能够为后续的测试工作提供可行的建议,从而为用户提 供更加准确的数据分析结果。值得一提的是,很多大数据分析企

22、业通过不断的研究,突破以往数据分析理论的约 束,通过新颖的方法实现数据分析, 为传统的分析方法无法解决的问题提供了解决之道, 在很多领域中都得到了广泛的应用。三位数学领域的权威专家共同成立的 Ayasdi 公司即为其中之一,这一公司基于拓 扑数据分析技术以及大量的机器学习算法开发出性能十分突出的数据处理功产品, 从而 对各种复杂的数据集进行处理,不但能够采集到更多的高维数据空间里面的拓扑信息, 并且能够提供很多以往的方法无法提供的小分类, 该产品如今已经被应用到基因和癌症 研究方面,在医疗保健领域起着重要的作用,一位医生就是利用该产品发现 14 种乳腺 癌变种的,另外该产品在金融服务行业中也积

23、累了一定的用户。如今,很多国家已经从战略层面来思考大数据的作用和价值, 并进行了全面的部署, 从而紧跟大数据技术革命的潮流。尤其是一些 IT 强国,比如美国等,为了促进大数据 技术的应用和发展,不但制定了全面的战略和法律,并且拟定了科学的行动计划。而在 澳大利亚,一些有着较强综合实力的银行,针对小微企业这一客户,打造了无偿的大数 据分析服务,期望通过这种附加的服务,提高客户忠诚度的同时,吸引更多的客户,通 过此项服务,银行帮助小企业进行客户和竞争对手的分析,使其对其自身的财富结构、 消费者购买倾向、竞争对手客户结构等情况有更加全面的了解。当然,大数据分析是需 要大量的原始数据的,而这些数据都是

24、银行通过零售业务积累的,不但数量较大,而且 准确性更高, 因此银行提供的分析结果比大多数市场分析机构提供的结果更为全面和准 确。很多小企业就是看中了这方面的服务,才成为银行的客户的。大数据也为风险控制方面的创新创业注入了有力的活力, 比如来自美国的一家创业 型企业,为了让银行更及时地了解贷款风险,将电梯运行的数据和黄页数据结合在一起 进行分析。我们知道,如今有很多企业都是租借办公楼的某一层或某一区域的,办公楼 往往都是高层建筑,电梯是此类建筑的标准配置之一。电梯在运行的过程中,会产生各 种数据,比如在其中一层停留了多少次等。黄页信息具有公开性的特点,一般的个人也 能方便地查到,比如办公楼的某一

25、层被哪一个企业所租赁等,将这两方面的数据匹配起 来,就能够确定每天电梯在特定的企业停留多少次。若这一数据在短时间内出现大幅降 低的情况,或许可以证明公司的员工数量或到公司拜访的客户数量降低,该公司经营状 况有所下滑,这对银行来说是非常重要且有价值的信息。如果银行能够在贷款后管理的 过程中及时地了解这一信息,将能够实现对贷款风险的跟踪管理,相比以往每季度进行 的全面检查,能够更加及时地反映出风险状况。当然,这一案例仅仅是大数据技术对金融机构作用的“冰山一角”,其应用前景还 需我们去探索、去开发。但现实却是,尽管大数据处理技术的发展十分迅速,但金融机 构在应用大数据方面的表现并不理想, 导致这一现

26、状的原因是什么?为了寻求这一问题 的答案,波士顿咨询公司从全球范围内选择几十家金融机构展开调查研究,以期发现数 据发挥其价值的整个过程,并因此寻找到限制其价值发挥的节点之所在。该公司通过研究发现,数据发挥价值的过程由七个环节构成,即数据收集、获得数据拥有者的许可和 信任、储存和处理技术、数据科学 / 算法、协调、洞察、嵌入式变革。同时他们还指出, 限制数据价值发挥的节点是数据拥有者的许可和信任以及协调这两个环节, 这反映出数 据整合不力、金融机构内部不同部门协调不畅的问题。比如,很多银行的问题在于各个 部门比如零售、对公等方面的数据并未充分地共享,同时技术和业务部门之间的沟通不 够有效,数据很

27、难转变成生产力。1.2.2 国内大数据在金融领域发展现状截止到 2017 年,国内很多企业开始全面部署大数据处理技术,这种技术也因此成 为生产环境中最重要的核心企业级系统。大数据的受关注程度有所降低,但这并未影响 到其发展速度,这方面各种产品不断走向成熟,更多的财富百强企业开始将其应用到生 产经营活动中去,一些初创企业也通过此项技术的应用找到了新的盈利增长点。毫不夸 张地说,大数据技术已经成为国民生活中重要的基础设施之一。大数据处理技术对金融企业内部各个部门都有着一定的用途,比如从销售部门来 看,该部门工作人员可以对客户性格、资产、所属行业等方面的数据进行分析和挖掘, 以客户购买倾向为依据,对

28、客户进行排序,从而让销售员将更多的时间和精力放在购买 倾向更强的客户身上,提高销售成功率。对于企业宣传部门而言,在完成市场情绪分析 的基础上,能够编辑出更容易使客户共鸣的文案,帮助企业塑造更好的形象,提升投资 者对企业的信心。对于企业法务部门而言,大数据处理技术能够“阅读”大量的合同, 并根据具体的案件对法院的判决进行模拟,给出各种判决结果的概率,为法务部门选择 辩护思路提供依据,在不久后的未来,企业的初级法务工作或许可以完全交由大数据处 理技术完成。除此之外,从研发、策划部门的角度来看,大数据技术能够揭示出企业数 据内部的关系,从而为基金经理进行行情判断、投放广告、向客户推荐金融产品等提供

29、更有力的依据。大数据的应用价值和作用早已得到了实践的验证,其在人们生活的不同 领域发挥着日益重要的作用。整体来看,大数据金融具有普惠性的特点,它让人们能够享受到高效、平等的金融 服务。如果某一家金融机构能够了解大数据的规律,这就意味着掌握了更大的核心竞争 力,企业销售业务量因此会大幅增长,企业市场份额因此而提高。当前,大数据分析的 理念和方法在国内发展迅猛, 但现有的这方面的研究成果基本上都来自计算机科学领域 的研究人员,这些学者在进行这方面的研究时,基本上都是从信息科学角度出发的,将 主要的关注点放在大数据采集、保存、处理、挖掘等上,针对具体企业进行研究,探讨 大数据对企业管理、决策作用的研

30、究成果相对比较少,在学科的融合这一点上做得不太 到位,知晓商业语言同时能够独自清理和组织大数据的专家人数略显不足。1.3 论文的组织结构本课题研究主要由以下六部分组成:第一章是绪论,阐述本课题研究背景和意义,从分析金融领域大数据使用史,进而 引导出本课题的创新性,并指明本课题研究思路。第二章论述股票二级市场的状况,详细阐述了 K-mea ns算法的基本原理、神经网络 在选股的作用原理。第三章结合现有股票预测原理的基础上,提出的多聚类分析股票数据的方法,结合 分类算法对股票数据进行训练,形成基于聚类分析的智能选股算法。第四章对智能选股算法进行验证,对验证方案进行阐述准备,并通过MATLABft行

31、聚类实现,最后得出最优参数下的聚类结果。第五章设计整体选股系统,结合第三章给出的基于聚类分析的选股算法,利用 HADOC技术设计一个简单。稳定高性能的智能选股系统。第六章对本课题研究内容进行归纳,提出针对性和可行性建议,指明未来该领域的 研究方向,并客观地指出本课题研究的不足之处。2 相关理论技术基础及可行性分析2.1 股票二级市场的状况股票市场是股票发行和交易的平台,参与这一市场的主要主体包括了:交易所、中 介机构、自律性组织、监管机构、投资者等。1990 年底,为了推进改革开放, 满足国内经济增长的需求, 政府经过多年的准备后, 在上海、深圳两地成立了证券交易所,我国也因此成为全球第一个拥

32、有资本市场的社会 主义国家。当前,在国内A股市场上市的企业超过了 2500家,股票总市值排名世界第三。在 过去将近三十年的历程里,国内股票市场在帮助企业筹集资金、提高企业融资结构合理 性方面作出了无与伦比的贡献,为我国经济的发展创造了更好的环境。如今,该市场中 能够交易的证券包括了 A股、B股、企业债券、可转换债券、国债等。越来越多的个人 和机构迈入投资者队伍中来。 中介机构是证券市场的重要参与者, 国内这一机构的出现, 可以追溯到上世纪八十年代中期,在此后的十年间迅猛发展。统计数据显示,我国一共 拥有超过 90 家的证券公司,开展证券业务的会计师事务所超过 100 家,律师事务所超 过 30

33、0 家,资产评估机构超过 100 家,证券评级机构一共 2 家。同时,更多的国民将投 资目光转向证券市场, 2016年6月,国内在证券公司开户的个人达到 2亿人之多。 然而 就目前的现状来看,国内的股票市场和国外市场的关联性并不强。国内资本市场存在一 系列的问题,比如市场结构合理性程度低、在资源配置方面的作用并未完全体现出来、 市场约束机制不够有力、市场运行机制不够完善等,要解决这些问题,有赖于资本市场 自身的调整和优化。A股市场长时间保持低迷,这是市场调整所必须经历的阶段。整体来看,国内股票市场的特征主要体现在这些方面:1、在企业性质上,包括了国有企业以及民营企业。国有企业:此类企业的管理目

34、标和股东利益存在一定的出入, 国企追求的终极目标, 并非红利的最大化,而是对国家建设和人民生活贡献的最大化。在过去的一段时间内, 银行股的股价不太理想,而在香港的保险公司则长期保持这种低迷的表现,尤其是信托 行业,其情况更加令人堪忧。境外的经验告诉我们,从短期的角度来看,信托的利润是 非常可观的,但从中长期的角度来看,股东要承受较大的风险,这是欧美地区上市企业 对信托行业不太感兴趣的主要原因之所在。民营/私营企业:过度竞争。我国拥有的汽车、水泥、钢铁企业数量居全球首位, 一个行业中存在过多的竞争者,很有可能会出现恶性竞争行为,啤酒行业利润低于其他 国家就是最好的证明。当然,这种现状并不是有弊无

35、利的,它能够提高行业的竞争性, 降低生产和经营成本,提高在全球市场中的竞争地位,但会对股东利益造成影响,导致 企业盈利能力降低。私营企业,特别是家族企业在未来的发展充满更多的不确定性。3. 企业作假,存在严重的内幕交易情况,虽然这种情况在各个国家都有,但相比来看, 在国内更为严重。2、股票政策目标的不合理,现行的很多针对股市进行监管的政策,其目标不是以 保护股东为主。 2009 年到现在,美国证监会总共开出 249 张罚单,远远多于我国。从管 理层面而言,美国证监会的首要保护对象为股东, 企业甚至是经济都没有股东那么重要。3、投资者基础不理想:投资者投资理念不够成熟,没有足够的资金用于长期投资

36、, 大部分都追求的是短期利益。首先,在投资目的上的差异,以巴西为例,该国股市上最大的投资者是以长线投资 为主的机构,并非个人。一旦股市出现大幅的波动,机构投资者也会继续投资和交易行 为,而在国内 90%都为散户,在这种情况下容易撤离。其次,上市企业忽视了长期投资者的利益。不管是国企还是民营企业,都身处竞争 过度的困境,大部分的企业并未对未来 5-10 年的发展进行科学的规划。所以从个人层 面而言,难以进行长期投资。在国内,企业在五年后跨行的事件屡见不鲜,很多投资者 选择短期投资也是无奈之举。在过去的几年间,越来越多的个人将投资的目光转向二级 市场,然而上市企业对分红的积极性并不高,大部分投资者

37、都是通过差价抓取收益的, 因此将近八成的投资者每天所跟踪的, 就是股票价格的波动并对大盘的波动情况进行预 测,国内股票市场的驱动力来源在于散户, 因此学者们在进行股票市场方面的研究时的, 都将关注点放在股价的波动和如何进行更准确的预测上。众所周知,证券市场中的上市企业身处宏观经济这一大环境,因此难免受到影响。 所以,在股票市场中投资时,通常都会结合当下的经济形势进行考虑,选择可能会带来 收益的上市企业股票。要准确的判断经济形势,通常都需要结合政府相关部门制定的财政和货币政策,以 及披露的行业数据进行全面的考虑。 财政政策是政府根据当前社会各个方面的发展目标 而提出的财政工作总体方针,政府制定和

38、推行此项政策的主要目的,是对国民总需求进 行调整。从财政政策的角度能够了解发展空间,通过经济数据对发展取得的成绩进行检 验。各种经济数据和货币政策存在紧密的关联,货币政策指的是政府或央行为引导经济 活动朝着预期的方向前行而制定的货币方面的政策, 主要目的是对货币供应和利率进行 控制,通俗来说就是调节货币的流通量, 这一参数在很大程度上决定了国民的消费能力。 比如,当政府推行收缩性货币政策时,利率就会因此而提高,消费者难以从银行手中获 取贷款资金支持,或者不愿意承担高额的利息而放弃消费,所以此项政策对房地产行业 的发展具有打压性的作用,在这种情况下理性的投资者就会远离房产股。通过分析对经济形势有

39、全面的了解后, 后续工作主要是找到发展前景比较好的行业 了。以行业中竞争者数量、产品性质、企业价格控制能力等为依据来看,市场包括了四 种类型,即完全竞争、垄断竞争、寡头垄断、完全垄断。接着对确定的行业的周期性展 开判断,行业发展状况和宏观经济状况之间存在一定的关联,不过各个行业这一关联性 的强弱程度存在或大或小的差异,根据这一差异可以把各个行业分成三种,具体如下表2-1 :表2-1行业分类表增长性行业该行业的变动趋势和宏观经济并非未完全同步,表现出较强的增长性,无 论经济处于增长或衰退阶段,行业都有可能表现出增长的趋势。周期性 行业该行业的变动趋势和宏观经济是完全同步的,比如钢铁、有色金属、煤

40、炭 等行业,都属于这一类。防御型行业无论经济处于周期中的哪一阶段,行业的发展都比较稳定,比如视频业、 公用事业等,都属于这一类。无论是哪一种行业,都不可避免地会经历成长、衰退等阶段,此即为行业生命周期 理论的核心之所在。投资者能够按照专业的偏好对特定的行业展开分析。从幼稚期、成 长期、成熟期、衰退期来看,每个阶段行业中应该选择的企业是不同的。针对幼稚期行 业,通常都会投资管理人员整体素质较高的企业;针对成长期行业,通常都会投资技术 成熟、市场容量大、产业关联性更强的企业;针对成熟期行业,企业在产品、工艺和技 术方面都达到了成熟水平,企业竞争力最强;针对衰退期行业,落后的产能应该去寻找 新的替代

41、品,也就是说企业发展的重点在于业务的转变。目前应用比较广泛的调研方法包括了: 问卷调查、电话访问、实地调研、深度访谈。 在正式调研之前,需要完成的准备工作包括了:采集基础性的行业数据;了解企业 在过去两年或以上时间的相关数据;浏览市场中权威媒体公布的的文章,从而了解市 场以及对手的观点和最新情况;创建模型,把采集到的关于行业和企业的数据提交给 模型,确定模型预测还需要哪些未知的数据,编制调研提纲;对于未知的数据,根据 市场观点以及自身的经验,对其进行估量,然后将其提交给模型,基于模型输出的结果 对企业进行较为全面的判断。这一过程涉及到大量的数据挖掘工作,需要投入大量的时 间和精力,当前行业研究

42、的框架和逻辑是完全公开的,因此决定基本面判断结果的主要 因素,是数据的及时性和准确性,了解各个行业的核心数据之所在,并及时地进行更新, 创建数据挖掘系统,跟踪这些数据,是准确判断行业周期的重要前提。整体而言,趋势的形成、演变的规律,在很大程度上由因果循环所决定,市场分析 的重点在于趋势的判断、跟踪和迎合。因此,为了提高行情分析的准确性,必须明确和 市场发展有关的各项因子。2.2 数据挖掘工作原理2.2.1 聚类算法概述聚类,指的是将大量的数据分割成多个簇,确保不同簇彼此间有着明显的区别,而 同一个簇里面的数据的差异非常小。这里的簇指的是样本的集合,聚类分析让同一个簇 里面的元素的关联性比其和别

43、的簇里面的元素的关联性更强, 也就是说同一个簇包含的 两个元素表现出很高的相似度,不同簇里面的元素则表现出很高的相异度。通过对样本 的属性值进行计算, 就能够确定相异度的大小, 通常情况下都会选择不同样本的 “距离” 予以衡量。聚类分析(Cluster Analysis)别名群分析,它是遵循“物以类聚”的思想,将样本或指标分为不同类型的多元统计分析方法,其在数据挖掘领域有着广泛的应用、发挥着重 要的价值。有了这种方法后,即便在不存在先验经验,和能够借鉴的模式的情况下,也 能够以样本的特性为依据,将大量的样本分为不同的类型。在聚类之前,用户往往不确定需要将数据分成几个簇,并且没有确定划分的依据,

44、 在聚类分析的过程中, 数据集的特征是不知道的, 应用聚类算法的目的就是了解其特征, 并因此为依据将其分为若干个簇。从这个角度来看,聚类和分类存在一定的共同点,也 就是把数据分成不同的组,不过二者是完全不同的两个概念。在分类之前,组已经定义 好,然而在聚类时,组(通常被叫做簇)并未提前定义,是在了解数据的特征后,根据 数据的相似性进行定义的。数据挖掘对聚类分析的要求主要体现在:可伸缩性,如果聚类对象达到几百万个, 最终的聚类结果应该在准确度方面保持一致;能够对数据的各种属性进行处理;部分聚 类算法,只能够用于数值类型数据的处理, 然而在实践中, 数据的类型并不局限于数值, 还有很多不同的数据,

45、比如二元数据、分类数据等。不过,这些数据都能够被转化成数 值型数据,不过这样一来,聚类所需的时间会变长,最终聚类结果的准确性也会有所降 低;能够找到各种形状的类簇:考虑到相当一部分的聚类算法都是以距离( eg:欧几里 得距离或曼哈顿距离)反映出不同对象彼此间的相似度的,在这种情况下,只能够找到 尺寸、密度相差较小的球状类簇或凸形类簇。然而,在实践中,类簇的形状有很多种; 对聚类算法初始化参数的知识需求是最小的:相当一部分算法的应用,需要用户提供初 始参数信息,比如所希望得到的类簇的数量,初始质点等。如果参数出现小幅的变化, 最终的聚类结果会出现明显的变化,准确性大打折扣,同时给用户造成更重的负

46、担。整体而言,数据分类是对现有的数据展开分析,确定其在属性上的一致之处,同时 利用分类模型将数据分成多个类别, 并为每个类标记标号。 类别往往都是已经定义好的,类别数量是确定的。而数据聚类,则是把不存在类别参考的数据分为多个组,也就是从 数据导出类标号。聚类分析是对数据进行挖掘,从而得到数据对象和它们之间的关系, 然后把数据分为不同的组。每组包含的对象具有较高的相似性,不同组里面的对象是不 相似的。所以说,判断分类效果的依据,是组内、组间样本的相似性的高地程度。222 K-means算法原理K -means属于硬聚类方法,它是在原型的目标行数聚类方法基础上提出的,能够 用于优化数据点和原型的某

47、种距离,通过函数求极值的方法,从而确定迭代运算的调整 规则。这种方法通过欧式距离来衡量相似度,通过计算得到对应某一初始聚类中心向量 V最优分类,从而将评价指标J控制在更低范围内。该方法选择的聚类准则函数为误差 平方和准则函数。对于数据挖掘而言,K - means属于cluster analysis算法范畴,它能够通过计算提供 数据聚集,持续地取离种子点最近均值。我们用c代表聚类分析后样本集的数量,该算法的原理为:(1)恰当地选择c个类的初始中心;(2) 在进行第k次迭代时,针对任何的样本,通过计算确定其和c个中心之间的 距离,把样本归入到最小距离值对应的类中;(3)通过均值等方法调整这一类的中

48、心值;(4)完成上述两个步骤后,针对 c个聚类中心,若其值并未发生任何变化,停止 迭代,否则就应该继续进行迭代。这种算法最显著的优势和特征在于计算工作量小、耗时短,初始中心的选择以及距 离公式直接影响到算法结果的准确性。在采用该算法时,具体的操作步骤是:通过随机的方法,在n个数据里面抽选k个对象,并将其当做初始聚类中心,对于其他的(n-k)个对象,计算其和聚类中心的相 似度,也就是距离,并以此为依据,将其归入到和其相似度最高的聚类中;接着再进行 计算,确定新聚类的中心,也就是聚类包含的全部对象的均值;持续重复上述过程,直 至标准测度函数开始收敛。通常情况下在标准测度函数方面都会选择均方差,k个

49、聚类的特点是:同一聚类实现了最大化的紧凑性,不同聚类实现了最大化的分隔性。Kmea ns算法实现的详细流程是:(1)通过随机的方法,在n个数据里面抽选k个对象,并将其当做初始聚类中心。(2)对于其他的(n-k)个对象,计算其和聚类中心的相似度,也就是距离,并以 此为依据,将其归入到和其相似度最高的聚类中。(3)结束全部对象的归类后,再次计算并更新 k个聚类的中心。和之前计算确定的k个聚类中心进行对比,若二者是不同的,回到步骤 ,否 则继续。(5) 输出聚类结果。通过流程图2-1方式可以描述为:图2-1 K均值聚类算法的流程图首先,按照随机的方法,抽取k个对象,将这些对象当做一个簇的初始均值或中

50、心, 然后计算出未被抽取的所有对象和所有簇中心的距离,以此为依据将其归入到某一簇 中,计算确定所有簇的均值,并将其当做本簇的新中心;持续重复上述步骤,直至准则 函数收敛。一般情况下都会选择平方误差准则,也就是是针对簇包含的各个对象,计算 出其和中心距离的平方和,基于该准则得到的簇具有良好的紧凑性和独立性。K均值聚类算法的优势和劣势分析:K -means算法的主要优势在于操作复杂性低,耗时短,尤其适用于中小型数据集当然,它也有一定的劣势,主要体现在如下三个方面:(1) 聚类结果不确定K -means算法是按照随机的方法确定初始中心的,而基于不同的初始中心得到的 聚类结构是不同的。因此这种方法的重

51、复性和稳定性并不好。另外,该算法往往选择的 目标函数都是准则函数,而这种函数包含的全局最小值和极小值的数量分别是1和N,所以,经过一系列的运算后,有较高的概率陷入局部极小值,进而导致最后无法实现全 局最优解。(2) 聚类个数不确定K -means算法里面的K代表的是聚簇的数量,其值的大小直接影响到聚类结果的 准确性。在确定K值时,通常都要结合具体需求考虑,但在大多数情况下,这一需求本 身是不明确的,所以这也导致了该算法的聚类结果具有较强的不确定性。(3) 数据量大、算法时间复杂度较高在使用K -means算法时,需要持续进行迭代,为了确定最准确的聚类中心,在计 算的过程中,还需要持续进行调整,

52、只有这样才可以得到准确的聚类结果,计算的主要 目的是得到不同对象彼此间的距离,因此,这种方法需要投入很多的时间,算法在效率 方面的表现并不太突出。适用于分类问题的方法多种多样,其中单一的方法有:决策树、贝叶斯、人工神经 网络、K-近邻、支持向量机和基于关联规则的分类等,当然也可以将这些方法组合起来 使用,以更好地解决分类问题。(1) 决策树决策树在分类和预测方面有着广泛的应用,决策树学习是基于实例的方法,从本质 上来看,它属于归纳学习算法范畴,它根据大量的没有次序和规则的实例进行推理,然 后通过决策树的形式揭示出分类规则。采用这种方法,旨在确定属性和类型彼此间的关 联,从而对不确定类别的样本的

53、类别进行判断和分析,这种方法按照从上到下的顺序进 行递归,在决策树的节点上展开属性的对比,按照各种属性值判断这一节点下方的分支, 最终通过叶节点获取结论。目前应用比较广泛的决策树算法包括了ID3、C4.(C5.0、CART、PUBLIC、SLIQ和SPRINT算法等。它们在选择测试属性采用的技术、生成的决策树的结构、剪枝的方法以及时刻,能否处理大数据集等方面表现 出不同点。(2) 贝叶斯这种算法的理论基础在于概率统计知识,通过Bayes定理,对不确定类别的样本来自各个类别的概率进行判断,然后以概率为依据排序,将样本归入到概率最高的那一个 样本类别中去。这一方法是建立在一个假设性前提条件下的,然

54、而这一前提通常在现实 中是不成立的,所以这种方法的分类效果并不好,准确性并不高。针对这一点,学者们 不断对其进行改进和完善,由此提出了不同的改进型贝叶斯分类算法,比如TAN算法等, 这种算法充分考虑了属性彼此间的关联,因此相比传统贝叶斯算法,其在分类准确性方 面的表现大幅提高。(3)人工神经网络人工神经网络(ArtificialNeural NetworksAN是具有信息处理功能的数学模型,它是对大脑神经系统进行模拟后创建的,它由一系列的节点所构成,这些节点彼此 间存在一定的关联,由此共同形成一张网络,此即为“神经网络”,从而对信息进行有 效的处理。这种方法的第一个环节是训练,通过训练让网络进

55、行“学习”,完成学习后, 节点的连接权值会因此而改变,因此能够起到分类的作用,通过训练的网络能够有效地 识别对象。经过多年的发展,研究人员提出了大量的人工网络模型,其中应用最广泛的包括了BP网络、径向基RBF网络、Hopfield网络、随机神经网络(Boltzmann机)、竞争神经网络(Hamming网络,自组织映射网络)等。神经网络的缺陷和不足主要体现在收敛耗时长、计算工作量大、无法解释等,因此还需要在未来的研究中进一步改进和完善。(4)k-近邻k-近邻(kNN, k-Nearest Neighbors)算法是一种基于实例的分类方法。该方法就是 找出与未知样本x距离最近的k个训练样本,看这k

56、个样本中多数属于哪一种类别,就 将x归入到这一类中。这种方法的本质是懒惰学习方法,它把样本保存起来,如果不需 要的话不会分类,针对非常复杂的样本集,如果采用这种方法进行分类,需要完成很大 的计算工作量,所以这种方法并不适用于对实时性具有很高要求的场景。(5)支持向量机支持向量机(SVM,Support Vector Machine),这种方法是在统计学习理论的基础上提出的,它的主要特征在于基于结构风险最小化员原则,通过尽量大的分类间隔创造 最优分类超平面,使学习机具备更强的泛化能力,因此在面对非线性、高维数、局部极 小点等问题时具有不错的分类效果。 针对分类问题,SVMS于区域里面的样本进行计

57、算, 进而得到这一区域的决策曲面,最终确定区域里面所有样本应该属于哪一类。(6)基于关联规则的分类关联规则挖掘受到了更多数据挖掘学者的关注。在过去的几年间,学者们在这方面 的研究中投入了大量的精力和时间。这种方法的挖掘过程类似于condset > C的规则,这里面condset是项(或属性-值对)的集合,而C是类标号,这种形式的规则称为类关联 规则(class association rules,CARS )。关联分类方法的操作过程包括两个环节:其一, 通过算法在样本集里面进行挖掘,从而确定全部满足指定支持度和置信度的类关联规 则;其二,通过启发式方法,在上一环节中得到的关联规则里面选择质量最高的规则, 并以此为依据完成分类。(7) 集成学习(Ensemble Learning)在实践中,需要分类的数据往往都表现出复杂性和多样性的特点,如果采用一种分 类方法进行分类,效果通常都不够理想, 为此,学者们开始研究如何针对同一问题采 用多种分类方法,也就是集成学习,这也是全球机器学习界最热门的议题之一,集成学 习属于机器学习范式,它会持续地使用不同的学习算法,得到多个基学习器,接着按照 既定的规则,将其组合在一起,以得到问题最终的解,这种思路能够使学习

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论