版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要在科技不断发展、网络覆盖率持续扩张的今天,大数据时代早已悄然而至,每个行业都会形成海量、繁杂的数据。对于如何有效地采集信息、如何挖掘出数据内部的规律,学者们一直在不遗余力地研究并不断提供各种新型的技术。对于国内的私募基金而言,大数据的价值及其所蕴含的新商机并未充分体现出来,不过可以肯定的是,大数据在私募基金决策的过程中起着越来越重要的作用。基金行业是一个大数据市场,股市每天交易频繁,由此形成了大量的数据,大数据分析技术在这一行业不断走向成熟的过程中,也在不断地更新。笔者在本课题中,以金融市场中存在的主要问题为切入点,以上市企业为对象,探讨如何对基本面数据以及股票交易展开挖掘分析,并且详细阐述了K-means算法的基本原理、神经网络在选股的作用原理;在现有股票预测原理的基础上,提出的多聚类分析股票数据的方法,结合分类算法对股票数据进行训练,形成基于聚类分析的智能选股算法。然后对算法进行验证,对整体方案框架进行设计,通过MATLAB进行聚类实现,最后得出最优参数下的聚类结果。最后结合聚类分析出来的选股算法,利用HADOOP技术设计一个简单,稳定高性能的智能选股系统。实验结果显示,开发出的模型分析选股系统可以对股票数据进行多维的分析预测,作为投资者的投资决策的辅助工具,是利用数据挖掘技术结合多聚类分析股票数据的方法,分析大量与股票相关数据,并做出未来走势预测,具有一定的实用意义。关键词:私募基金;数据挖掘;证券分析;互联网大数据;交易数据
AbstractWiththecontinuousdevelopmentoftechnologyandthecontinuousexpansionofnetworkcoverage,theeraofbigdatahaslongbeenquietlyemergingandthereismassiveandcomplicateddataineveryindustry.Researchershavebeensparingnoeffortinresearchingandconstantlyprovidingvariousnewtechnologiesforhowtoeffectivelycollectinformationandhowtofindouttheinternallawsofdata.Fordomesticprivateequityfunds,thevalueofbigdataandthenewbusinessopportunitiesbigdatacontainsarenotfullydemonstrated,butitiscertainthatbigdataplaysanincreasinglyimportantroleinthedecision-makingprocessofprivateequityfunds.Thefundindustryisabigdatamarket.Dailytradesinthestockmarketresultinalargeamountofdata.Analysistechnologyofbigdataisconstantlyupdatedwiththeindustrybeingmature.Inthissubject,takeingthemainproblemsexistinginthefinancialmarketasthestartingpointandthelistedcompaniesastheobject,theauthorexploreshowtoexcavateandanalyzethefundamentaldataandstocktransactions,andelaboratesthebasicprincipleofK-meansalgorithm.Basedontheexistingstockforecastingtheory,thispaperproposesamulti-clusteringmethodtoanalyzestockdataandacombinationofclassificationalgorithmstotrainstockdatatoformanintelligentstockselectionalgorithmbasedonclusteringanalysis.Thenthealgorithmisverified,theoverallprogramframeworkisdesigned,andtheclusteringisrealizedbyMATLAB.Finally,theclusteringresultsundertheoptimalparametersareobtained.Atlastcombiningwiththestockselectionalgorithmbasedonclusteringanalysis,asimplestableandhigh-performanceintelligentstockselectionsystemisdesignedbyusingHADOOPtechnology.Theexperimentalresultsshowthatthemodelstockpickingsystemcanmakemulti-dimensionalanalysisandforecastingofstockdata.Asasupportingtoolforinvestors'investmentdecision-making,ithascertainpracticalsignificance,whichusesthemethodofdataminingcombinedwithmulti-clusteranalysisofstockdata,Stock-relateddata,andmakethefuturetrendforecast.KeyWords:privatefund;datamining;securitiesanalysis;Internetbigdata目录中文摘要 IAbstract II目录 III图表目录 V1绪论 11.1论文选题研究的背景及意义 11.2国内外现状分析 21.2.1国外大数据在金融领域发展现状 21.2.2国内大数据在金融领域发展现状 41.3论文的组织结构 52相关理论技术基础及可行性分析 62.1股票二级市场的状况 62.2数据挖掘工作原理 92.2.1聚类算法概述 92.2.2K-means算法原理 102.2.3分类算法 142.2.4分类算法的类型 152.3神经网络在选股中的作用 182.3.1神经网络进行股票预测的原理 182.4本章小结 193智能数据挖掘选股算法 203.1现状分析 203.2基本概念 213.2.1算法研究 213.2.2多聚类分析股票数据 233.2.3多聚类方法描述 243.3本章小结 254算法模型验证 264.1实验方案 264.2数据准备 264.3Matlab中聚类的实现 264.4聚类结果 284.4.1采样/持有周期对聚类结果的影响 284.4.2分类数/滞后期对聚类结果的影响 304.4.3最优参数下的聚类结果 304.5本章小结 315选股系统的设计 325.1系统的详细架构 325.2并行数据挖掘算法实现 335.3数据库设计 345.3.1数据表索引 345.3.2数据表详细设计 355.4详细设计 375.4.1数据结构设计 375.4.2离线交易数据入库 385.4.3主要指标数据计算 385.5系统实施 435.5.1日线数据入库 435.5.2指标计算 435.5.3智能选股 435.6应用 455.7系统测试 455.8本章小结 466总结与不足 47参考文献 49致谢 50
图表目录TOC\h\z\c"图"图21K均值聚类算法的流程图 11图22数据挖掘的流程图 15图23数据文本分类的流程图 15图31行业收益率序列聚类分析方法 21图32分类数据产生过程 22图33分类模型的建立 22图34多重分类模型建立 23图51系统架构图 32图52并决策树算法流程图 33图53离线交易数据入库流程图 38图54日线数据入库界面 43图55指标计算界面 43图56股票预测数据 45TOC\h\z\c"表"表21行业分类表 8表31股票资产定价的技术发展表 20表41不同采样/持有周期对聚类结果的影响 29表42不同采样/持有周期对聚类结果的影响(反转效应) 29表43分类个数/滞后期对聚类结果的影响 30表44聚类模型下的收益对比 30表51数据库索引 35表52日常交易数据表 35表53股票指标数据 36表54指标基本信息表 36绪论论文选题研究的背景及意义在过去短短几十年间,IT行业经历了多次历史性的革命,比如云计算、物联网等,而这一行业最新的突破性成果即为大数据。随着计算机和网络的普及,大数据时代已经降临,在这样的背景下,私募基金行业也迎来了新的机遇和挑战。无论是从投资者还是创业者的角度来看,大数据都是非常受关注的融资标签。大数据的首要特点是数据体量非常大,通常至少应该达到10TB,然而在现实中,很多企业将自身的数据集全部集中起来,最终汇聚成达到PB级的数据量。另外,其所包含的数据从类型上来看是多种多样的,数据来源丰富多样,数据格式明显不统一,完全超出了以往人们所说的结构化数据范畴,还包含了半结构化数据以及非结构化数据。大数据的数据处理速率非常快,即便它涉及到庞大的体量,但依旧能够满足数据处理的实时性要求。最后,其数据具有很强的真实性,近些年间,社交数据、企业内容、交易等方面的信息不断涌现,这些数据都来自新的数据源,在这样的背景下,企业需要更加有效的信息,才能确保其真实性和安全性,为企业的决策提供准确、及时的依据。作为一种信息资产,大数据表现出大量、快速增长、多样化的特点,其在决策、洞察、流程优化方面有着明显的优势,但这些优势能够在多大程度上体现出来,主要由处理模式所决定。从数据类型角度而言,“大数据”是指超出以往的流程和方法的处理范围的信息。它对所有突破正常处理范围、必须使用非传统方法进行处理的数据集进行了定义。亚马逊网络服务(AWS)、大数据领域的学者JohnRauser曾经对其概念进行高度归纳的阐述,即通过一台计算机无法处理的庞大数据量。研发小组提到:大数据指的是一种最大、最时髦的宣传技术,一旦发生了这一现象,定义就会杂乱无章。而Kelly则认为,大数据或许并不等同于所有的数据,但其所包含的大多数数据都是正确的。时至今日,大数据的概念都存在广泛的分歧,但有一点是取得了共识的,即由于它有着庞大的体量,因此在对其进行分析的过程中,要用到多个工作负载。数据的极限,是由技术的极限所决定的。当然,概念上的分歧并未对大数据的应用造成过大的影响,关键在于如何应用,如何在更大程度上发挥出其作用和价值,因此要在技术方面不断地推陈出新,使大数据的作用充分的释放出来。同时还要探讨和以往的数据库不同的是,具有开源性特点的大数据分析工具比如Hadoop的广泛应用,以其为代表的非结构化数据服务的价值体现在哪些方面等。大数据挖掘技术在金融领域的应用,可以追溯到十多年之前。金融行业是竞争十分激烈的行业,私募基金经理每天都需要面对大量的数据,能否高效地从中找到有价值的信息,并据此对行情进行判断,在很大程度上决定了产品收益率的高低。事实证明,大部分投资决策失误的根源在于信息不对称,所以,越来越多的学术界和实践界人士开始投入到行业热点信息的研究中来。与此同时,在网络高速发展的背景下,网络所形成的金融大数据对金融分析师而言,充满了机遇,同时也处处面临危机和挑战。笔者在本课题的研究中,从基金经理的角度出发,探讨大数据挖掘技术对行情分析的作用和价值,从金融数据信息里面挖掘有效的因素,并据此对股市未来的走向进行预测,对基于聚类分析的智能选股算法进行分析和测试。本课题研究旨在充分利用大数据挖掘技术,为私募基金经理在业务操作过程中提供更有力的依据,使其能够更加准确地定位股票和分析、预测市场行情,改变以往实地调研等传统方法过于耗时耗力的现状。国内外现状分析国外大数据在金融领域发展现状纵览全球,大数据技术的主要潮流和趋势是易用化、简单化,大多数大数据分析企业,都将数据采集、分析、处理等功能全部集成在一起,通过分析平台的方式提供这些方面的服务。比如FractalAnalytics不但实现了数据分析的功能,并且能够在无需人工操作的情况下完成数据的清理和验证等操作,从而提供标准化、规范化的数据。VoyagerLabs则在全球范围内铺设了十亿个数据点,有着广泛的数据来源,从而为用户提供更加全面的数据服务。如今,很多企业的产品策略中明确提到,要进一步降低大数据技术的技术难度和成本,从而提高其易用性,比如Domino公司推出的产品能够让研究人员将更多的精力和时间放在数据分析上,也就是节省在软硬件环境维护方面的时间。Datameer推出的产品直接将复杂的底层技术遮盖起来,通过表格的形式将数据呈现在用户的眼前,充分地考虑到了用户的操作习惯和便利性。RapidMinerStudio无需任何代码就能够在客户端进行操作,拥有机器学习、数据挖掘、文本挖掘等一系列的功能,能够更好地满足用户的需求。在大数据分析应用范围不断扩张的过程中,此项技术在性能方面的表现也持续优化,数据分析结果的准确性大幅提高。比如SigOpt公司通过贝叶斯优化(BayesianOptimization)算法对模型参数进行调整,从而对网格搜索方法予以改进,新的方法能够在更短的时间内提供更为准确、易用性更高的结果。更重要的是,SigOpt的产品不但能够对多种变量进行测试,同时能够为后续的测试工作提供可行的建议,从而为用户提供更加准确的数据分析结果。值得一提的是,很多大数据分析企业通过不断的研究,突破以往数据分析理论的约束,通过新颖的方法实现数据分析,为传统的分析方法无法解决的问题提供了解决之道,在很多领域中都得到了广泛的应用。三位数学领域的权威专家共同成立的Ayasdi公司即为其中之一,这一公司基于拓扑数据分析技术以及大量的机器学习算法开发出性能十分突出的数据处理功产品,从而对各种复杂的数据集进行处理,不但能够采集到更多的高维数据空间里面的拓扑信息,并且能够提供很多以往的方法无法提供的小分类,该产品如今已经被应用到基因和癌症研究方面,在医疗保健领域起着重要的作用,一位医生就是利用该产品发现14种乳腺癌变种的,另外该产品在金融服务行业中也积累了一定的用户。如今,很多国家已经从战略层面来思考大数据的作用和价值,并进行了全面的部署,从而紧跟大数据技术革命的潮流。尤其是一些IT强国,比如美国等,为了促进大数据技术的应用和发展,不但制定了全面的战略和法律,并且拟定了科学的行动计划。而在澳大利亚,一些有着较强综合实力的银行,针对小微企业这一客户,打造了无偿的大数据分析服务,期望通过这种附加的服务,提高客户忠诚度的同时,吸引更多的客户,通过此项服务,银行帮助小企业进行客户和竞争对手的分析,使其对其自身的财富结构、消费者购买倾向、竞争对手客户结构等情况有更加全面的了解。当然,大数据分析是需要大量的原始数据的,而这些数据都是银行通过零售业务积累的,不但数量较大,而且准确性更高,因此银行提供的分析结果比大多数市场分析机构提供的结果更为全面和准确。很多小企业就是看中了这方面的服务,才成为银行的客户的。大数据也为风险控制方面的创新创业注入了有力的活力,比如来自美国的一家创业型企业,为了让银行更及时地了解贷款风险,将电梯运行的数据和黄页数据结合在一起进行分析。我们知道,如今有很多企业都是租借办公楼的某一层或某一区域的,办公楼往往都是高层建筑,电梯是此类建筑的标准配置之一。电梯在运行的过程中,会产生各种数据,比如在其中一层停留了多少次等。黄页信息具有公开性的特点,一般的个人也能方便地查到,比如办公楼的某一层被哪一个企业所租赁等,将这两方面的数据匹配起来,就能够确定每天电梯在特定的企业停留多少次。若这一数据在短时间内出现大幅降低的情况,或许可以证明公司的员工数量或到公司拜访的客户数量降低,该公司经营状况有所下滑,这对银行来说是非常重要且有价值的信息。如果银行能够在贷款后管理的过程中及时地了解这一信息,将能够实现对贷款风险的跟踪管理,相比以往每季度进行的全面检查,能够更加及时地反映出风险状况。当然,这一案例仅仅是大数据技术对金融机构作用的“冰山一角”,其应用前景还需我们去探索、去开发。但现实却是,尽管大数据处理技术的发展十分迅速,但金融机构在应用大数据方面的表现并不理想,导致这一现状的原因是什么?为了寻求这一问题的答案,波士顿咨询公司从全球范围内选择几十家金融机构展开调查研究,以期发现数据发挥其价值的整个过程,并因此寻找到限制其价值发挥的节点之所在。该公司通过研究发现,数据发挥价值的过程由七个环节构成,即数据收集、获得数据拥有者的许可和信任、储存和处理技术、数据科学/算法、协调、洞察、嵌入式变革。同时他们还指出,限制数据价值发挥的节点是数据拥有者的许可和信任以及协调这两个环节,这反映出数据整合不力、金融机构内部不同部门协调不畅的问题。比如,很多银行的问题在于各个部门比如零售、对公等方面的数据并未充分地共享,同时技术和业务部门之间的沟通不够有效,数据很难转变成生产力。国内大数据在金融领域发展现状截止到2017年,国内很多企业开始全面部署大数据处理技术,这种技术也因此成为生产环境中最重要的核心企业级系统。大数据的受关注程度有所降低,但这并未影响到其发展速度,这方面各种产品不断走向成熟,更多的财富百强企业开始将其应用到生产经营活动中去,一些初创企业也通过此项技术的应用找到了新的盈利增长点。毫不夸张地说,大数据技术已经成为国民生活中重要的基础设施之一。大数据处理技术对金融企业内部各个部门都有着一定的用途,比如从销售部门来看,该部门工作人员可以对客户性格、资产、所属行业等方面的数据进行分析和挖掘,以客户购买倾向为依据,对客户进行排序,从而让销售员将更多的时间和精力放在购买倾向更强的客户身上,提高销售成功率。对于企业宣传部门而言,在完成市场情绪分析的基础上,能够编辑出更容易使客户共鸣的文案,帮助企业塑造更好的形象,提升投资者对企业的信心。对于企业法务部门而言,大数据处理技术能够“阅读”大量的合同,并根据具体的案件对法院的判决进行模拟,给出各种判决结果的概率,为法务部门选择辩护思路提供依据,在不久后的未来,企业的初级法务工作或许可以完全交由大数据处理技术完成。除此之外,从研发、策划部门的角度来看,大数据技术能够揭示出企业数据内部的关系,从而为基金经理进行行情判断、投放广告、向客户推荐金融产品等提供更有力的依据。大数据的应用价值和作用早已得到了实践的验证,其在人们生活的不同领域发挥着日益重要的作用。整体来看,大数据金融具有普惠性的特点,它让人们能够享受到高效、平等的金融服务。如果某一家金融机构能够了解大数据的规律,这就意味着掌握了更大的核心竞争力,企业销售业务量因此会大幅增长,企业市场份额因此而提高。当前,大数据分析的理念和方法在国内发展迅猛,但现有的这方面的研究成果基本上都来自计算机科学领域的研究人员,这些学者在进行这方面的研究时,基本上都是从信息科学角度出发的,将主要的关注点放在大数据采集、保存、处理、挖掘等上,针对具体企业进行研究,探讨大数据对企业管理、决策作用的研究成果相对比较少,在学科的融合这一点上做得不太到位,知晓商业语言同时能够独自清理和组织大数据的专家人数略显不足。论文的组织结构本课题研究主要由以下六部分组成:是绪论,阐述本课题研究背景和意义,从分析金融领域大数据使用史,进而引导出本课题的创新性,并指明本课题研究思路。论述股票二级市场的状况,详细阐述了K-means算法的基本原理、神经网络在选股的作用原理。结合现有股票预测原理的基础上,提出的多聚类分析股票数据的方法,结合分类算法对股票数据进行训练,形成基于聚类分析的智能选股算法。对智能选股算法进行验证,对验证方案进行阐述准备,并通过MATLAB进行聚类实现,最后得出最优参数下的聚类结果。第五章设计整体选股系统,结合第三章给出的基于聚类分析的选股算法,利用HADOOP技术设计一个简单。稳定高性能的智能选股系统。第六章对本课题研究内容进行归纳,提出针对性和可行性建议,指明未来该领域的研究方向,并客观地指出本课题研究的不足之处。
相关理论技术基础及可行性分析股票二级市场的状况股票市场是股票发行和交易的平台,参与这一市场的主要主体包括了:交易所、中介机构、自律性组织、监管机构、投资者等。1990年底,为了推进改革开放,满足国内经济增长的需求,政府经过多年的准备后,在上海、深圳两地成立了证券交易所,我国也因此成为全球第一个拥有资本市场的社会主义国家。当前,在国内A股市场上市的企业超过了2500家,股票总市值排名世界第三。在过去将近三十年的历程里,国内股票市场在帮助企业筹集资金、提高企业融资结构合理性方面作出了无与伦比的贡献,为我国经济的发展创造了更好的环境。如今,该市场中能够交易的证券包括了A股、B股、企业债券、可转换债券、国债等。越来越多的个人和机构迈入投资者队伍中来。中介机构是证券市场的重要参与者,国内这一机构的出现,可以追溯到上世纪八十年代中期,在此后的十年间迅猛发展。统计数据显示,我国一共拥有超过90家的证券公司,开展证券业务的会计师事务所超过100家,律师事务所超过300家,资产评估机构超过100家,证券评级机构一共2家。同时,更多的国民将投资目光转向证券市场,2016年6月,国内在证券公司开户的个人达到2亿人之多。然而就目前的现状来看,国内的股票市场和国外市场的关联性并不强。国内资本市场存在一系列的问题,比如市场结构合理性程度低、在资源配置方面的作用并未完全体现出来、市场约束机制不够有力、市场运行机制不够完善等,要解决这些问题,有赖于资本市场自身的调整和优化。A股市场长时间保持低迷,这是市场调整所必须经历的阶段。整体来看,国内股票市场的特征主要体现在这些方面:1、在企业性质上,包括了国有企业以及民营企业。国有企业:此类企业的管理目标和股东利益存在一定的出入,国企追求的终极目标,并非红利的最大化,而是对国家建设和人民生活贡献的最大化。在过去的一段时间内,银行股的股价不太理想,而在香港的保险公司则长期保持这种低迷的表现,尤其是信托行业,其情况更加令人堪忧。境外的经验告诉我们,从短期的角度来看,信托的利润是非常可观的,但从中长期的角度来看,股东要承受较大的风险,这是欧美地区上市企业对信托行业不太感兴趣的主要原因之所在。民营/私营企业:①过度竞争。我国拥有的汽车、水泥、钢铁企业数量居全球首位,一个行业中存在过多的竞争者,很有可能会出现恶性竞争行为,啤酒行业利润低于其他国家就是最好的证明。当然,这种现状并不是有弊无利的,它能够提高行业的竞争性,降低生产和经营成本,提高在全球市场中的竞争地位,但会对股东利益造成影响,导致企业盈利能力降低。②私营企业,特别是家族企业在未来的发展充满更多的不确定性。3.企业作假,存在严重的内幕交易情况,虽然这种情况在各个国家都有,但相比来看,在国内更为严重。2、股票政策目标的不合理,现行的很多针对股市进行监管的政策,其目标不是以保护股东为主。2009年到现在,美国证监会总共开出249张罚单,远远多于我国。从管理层面而言,美国证监会的首要保护对象为股东,企业甚至是经济都没有股东那么重要。3、投资者基础不理想:投资者投资理念不够成熟,没有足够的资金用于长期投资,大部分都追求的是短期利益。首先,在投资目的上的差异,以巴西为例,该国股市上最大的投资者是以长线投资为主的机构,并非个人。一旦股市出现大幅的波动,机构投资者也会继续投资和交易行为,而在国内90%都为散户,在这种情况下容易撤离。其次,上市企业忽视了长期投资者的利益。不管是国企还是民营企业,都身处竞争过度的困境,大部分的企业并未对未来5-10年的发展进行科学的规划。所以从个人层面而言,难以进行长期投资。在国内,企业在五年后跨行的事件屡见不鲜,很多投资者选择短期投资也是无奈之举。在过去的几年间,越来越多的个人将投资的目光转向二级市场,然而上市企业对分红的积极性并不高,大部分投资者都是通过差价抓取收益的,因此将近八成的投资者每天所跟踪的,就是股票价格的波动并对大盘的波动情况进行预测,国内股票市场的驱动力来源在于散户,因此学者们在进行股票市场方面的研究时的,都将关注点放在股价的波动和如何进行更准确的预测上。众所周知,证券市场中的上市企业身处宏观经济这一大环境,因此难免受到影响。所以,在股票市场中投资时,通常都会结合当下的经济形势进行考虑,选择可能会带来收益的上市企业股票。要准确的判断经济形势,通常都需要结合政府相关部门制定的财政和货币政策,以及披露的行业数据进行全面的考虑。财政政策是政府根据当前社会各个方面的发展目标而提出的财政工作总体方针,政府制定和推行此项政策的主要目的,是对国民总需求进行调整。从财政政策的角度能够了解发展空间,通过经济数据对发展取得的成绩进行检验。各种经济数据和货币政策存在紧密的关联,货币政策指的是政府或央行为引导经济活动朝着预期的方向前行而制定的货币方面的政策,主要目的是对货币供应和利率进行控制,通俗来说就是调节货币的流通量,这一参数在很大程度上决定了国民的消费能力。比如,当政府推行收缩性货币政策时,利率就会因此而提高,消费者难以从银行手中获取贷款资金支持,或者不愿意承担高额的利息而放弃消费,所以此项政策对房地产行业的发展具有打压性的作用,在这种情况下理性的投资者就会远离房产股。通过分析对经济形势有全面的了解后,后续工作主要是找到发展前景比较好的行业了。以行业中竞争者数量、产品性质、企业价格控制能力等为依据来看,市场包括了四种类型,即完全竞争、垄断竞争、寡头垄断、完全垄断。接着对确定的行业的周期性展开判断,行业发展状况和宏观经济状况之间存在一定的关联,不过各个行业这一关联性的强弱程度存在或大或小的差异,根据这一差异可以把各个行业分成三种,具体如下表2-1:表STYLEREF1\s2SEQ表\*ARABIC\s11行业分类表增长性行业该行业的变动趋势和宏观经济并非未完全同步,表现出较强的增长性,无论经济处于增长或衰退阶段,行业都有可能表现出增长的趋势。周期性行业该行业的变动趋势和宏观经济是完全同步的,比如钢铁、有色金属、煤炭等行业,都属于这一类。防御型行业无论经济处于周期中的哪一阶段,行业的发展都比较稳定,比如视频业、公用事业等,都属于这一类。无论是哪一种行业,都不可避免地会经历成长、衰退等阶段,此即为行业生命周期理论的核心之所在。投资者能够按照专业的偏好对特定的行业展开分析。从幼稚期、成长期、成熟期、衰退期来看,每个阶段行业中应该选择的企业是不同的。针对幼稚期行业,通常都会投资管理人员整体素质较高的企业;针对成长期行业,通常都会投资技术成熟、市场容量大、产业关联性更强的企业;针对成熟期行业,企业在产品、工艺和技术方面都达到了成熟水平,企业竞争力最强;针对衰退期行业,落后的产能应该去寻找新的替代品,也就是说企业发展的重点在于业务的转变。目前应用比较广泛的调研方法包括了:问卷调查、电话访问、实地调研、深度访谈。在正式调研之前,需要完成的准备工作包括了:①采集基础性的行业数据;②了解企业在过去两年或以上时间的相关数据;③浏览市场中权威媒体公布的的文章,从而了解市场以及对手的观点和最新情况;④创建模型,把采集到的关于行业和企业的数据提交给模型,确定模型预测还需要哪些未知的数据,编制调研提纲;⑤对于未知的数据,根据市场观点以及自身的经验,对其进行估量,然后将其提交给模型,基于模型输出的结果对企业进行较为全面的判断。这一过程涉及到大量的数据挖掘工作,需要投入大量的时间和精力,当前行业研究的框架和逻辑是完全公开的,因此决定基本面判断结果的主要因素,是数据的及时性和准确性,了解各个行业的核心数据之所在,并及时地进行更新,创建数据挖掘系统,跟踪这些数据,是准确判断行业周期的重要前提。整体而言,趋势的形成、演变的规律,在很大程度上由因果循环所决定,市场分析的重点在于趋势的判断、跟踪和迎合。因此,为了提高行情分析的准确性,必须明确和市场发展有关的各项因子。数据挖掘工作原理聚类算法概述聚类,指的是将大量的数据分割成多个簇,确保不同簇彼此间有着明显的区别,而同一个簇里面的数据的差异非常小。这里的簇指的是样本的集合,聚类分析让同一个簇里面的元素的关联性比其和别的簇里面的元素的关联性更强,也就是说同一个簇包含的两个元素表现出很高的相似度,不同簇里面的元素则表现出很高的相异度。通过对样本的属性值进行计算,就能够确定相异度的大小,通常情况下都会选择不同样本的“距离”予以衡量。聚类分析别名群分析,它是遵循“物以类聚”的思想,将样本或指标分为不同类型的多元统计分析方法,其在数据挖掘领域有着广泛的应用、发挥着重要的价值。有了这种方法后,即便在不存在先验经验,和能够借鉴的模式的情况下,也能够以样本的特性为依据,将大量的样本分为不同的类型。在聚类之前,用户往往不确定需要将数据分成几个簇,并且没有确定划分的依据,在聚类分析的过程中,数据集的特征是不知道的,应用聚类算法的目的就是了解其特征,并因此为依据将其分为若干个簇。从这个角度来看,聚类和分类存在一定的共同点,也就是把数据分成不同的组,不过二者是完全不同的两个概念。在分类之前,组已经定义好,然而在聚类时,组(通常被叫做簇)并未提前定义,是在了解数据的特征后,根据数据的相似性进行定义的。数据挖掘对聚类分析的要求主要体现在:可伸缩性,如果聚类对象达到几百万个,最终的聚类结果应该在准确度方面保持一致;能够对数据的各种属性进行处理;部分聚类算法,只能够用于数值类型数据的处理,然而在实践中,数据的类型并不局限于数值,还有很多不同的数据,比如二元数据、分类数据等。不过,这些数据都能够被转化成数值型数据,不过这样一来,聚类所需的时间会变长,最终聚类结果的准确性也会有所降低;能够找到各种形状的类簇:考虑到相当一部分的聚类算法都是以距离(eg:欧几里得距离或曼哈顿距离)反映出不同对象彼此间的相似度的,在这种情况下,只能够找到尺寸、密度相差较小的球状类簇或凸形类簇。然而,在实践中,类簇的形状有很多种;对聚类算法初始化参数的知识需求是最小的:相当一部分算法的应用,需要用户提供初始参数信息,比如所希望得到的类簇的数量,初始质点等。如果参数出现小幅的变化,最终的聚类结果会出现明显的变化,准确性大打折扣,同时给用户造成更重的负担。整体而言,数据分类是对现有的数据展开分析,确定其在属性上的一致之处,同时利用分类模型将数据分成多个类别,并为每个类标记标号。类别往往都是已经定义好的,类别数量是确定的。而数据聚类,则是把不存在类别参考的数据分为多个组,也就是从数据导出类标号。聚类分析是对数据进行挖掘,从而得到数据对象和它们之间的关系,然后把数据分为不同的组。每组包含的对象具有较高的相似性,不同组里面的对象是不相似的。所以说,判断分类效果的依据,是组内、组间样本的相似性的高地程度。K-means算法原理属于硬聚类方法,它是在原型的目标行数聚类方法基础上提出的,能够用于优化数据点和原型的某种距离,通过函数求极值的方法,从而确定迭代运算的调整规则。这种方法通过欧式距离来衡量相似度,通过计算得到对应某一初始聚类中心向量V最优分类,从而将评价指标J控制在更低范围内。该方法选择的聚类准则函数为误差平方和准则函数。对于数据挖掘而言,属于算法范畴,它能够通过计算提供数据聚集,持续地取离种子点最近均值。我们用c代表聚类分析后样本集的数量,该算法的原理为:(1)恰当地选择c个类的初始中心;(2)在进行第k次迭代时,针对任何的样本,通过计算确定其和c个中心之间的距离,把样本归入到最小距离值对应的类中;(3)通过均值等方法调整这一类的中心值;(4)完成上述两个步骤后,针对c个聚类中心,若其值并未发生任何变化,停止迭代,否则就应该继续进行迭代。这种算法最显著的优势和特征在于计算工作量小、耗时短,初始中心的选择以及距离公式直接影响到算法结果的准确性。在采用该算法时,具体的操作步骤是:通过随机的方法,在n个数据里面抽选k个对象,并将其当做初始聚类中心,对于其他的(n-k)个对象,计算其和聚类中心的相似度,也就是距离,并以此为依据,将其归入到和其相似度最高的聚类中;接着再进行计算,确定新聚类的中心,也就是聚类包含的全部对象的均值;持续重复上述过程,直至标准测度函数开始收敛。通常情况下在标准测度函数方面都会选择均方差,k个聚类的特点是:同一聚类实现了最大化的紧凑性,不同聚类实现了最大化的分隔性。算法实现的详细流程是:(1)通过随机的方法,在n个数据里面抽选k个对象,并将其当做初始聚类中心。(2)对于其他的(n-k)个对象,计算其和聚类中心的相似度,也就是距离,并以此为依据,将其归入到和其相似度最高的聚类中。(3)结束全部对象的归类后,再次计算并更新k个聚类的中心。(4)和之前计算确定的k个聚类中心进行对比,若二者是不同的,回到步骤(2),否则继续。(5)输出聚类结果。通过流程图2-1方式可以描述为:图STYLEREF1\s2SEQ图\*ARABIC\s11K均值聚类算法的流程图首先,按照随机的方法,抽取k个对象,将这些对象当做一个簇的初始均值或中心,然后计算出未被抽取的所有对象和所有簇中心的距离,以此为依据将其归入到某一簇中,计算确定所有簇的均值,并将其当做本簇的新中心;持续重复上述步骤,直至准则函数收敛。一般情况下都会选择平方误差准则,也就是是针对簇包含的各个对象,计算出其和中心距离的平方和,基于该准则得到的簇具有良好的紧凑性和独立性。K均值聚类算法的优势和劣势分析:算法的主要优势在于操作复杂性低,耗时短,尤其适用于中小型数据集,当然,它也有一定的劣势,主要体现在如下三个方面:(1)聚类结果不确定算法是按照随机的方法确定初始中心的,而基于不同的初始中心得到的聚类结构是不同的。因此这种方法的重复性和稳定性并不好。另外,该算法往往选择的目标函数都是准则函数,而这种函数包含的全局最小值和极小值的数量分别是1和N,所以,经过一系列的运算后,有较高的概率陷入局部极小值,进而导致最后无法实现全局最优解。(2)聚类个数不确定算法里面的K代表的是聚簇的数量,其值的大小直接影响到聚类结果的准确性。在确定K值时,通常都要结合具体需求考虑,但在大多数情况下,这一需求本身是不明确的,所以这也导致了该算法的聚类结果具有较强的不确定性。(3)数据量大、算法时间复杂度较高在使用算法时,需要持续进行迭代,为了确定最准确的聚类中心,在计算的过程中,还需要持续进行调整,只有这样才可以得到准确的聚类结果,计算的主要目的是得到不同对象彼此间的距离,因此,这种方法需要投入很多的时间,算法在效率方面的表现并不太突出。适用于分类问题的方法多种多样,其中单一的方法有:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等,当然也可以将这些方法组合起来使用,以更好地解决分类问题。(1)决策树决策树在分类和预测方面有着广泛的应用,决策树学习是基于实例的方法,从本质上来看,它属于归纳学习算法范畴,它根据大量的没有次序和规则的实例进行推理,然后通过决策树的形式揭示出分类规则。采用这种方法,旨在确定属性和类型彼此间的关联,从而对不确定类别的样本的类别进行判断和分析,这种方法按照从上到下的顺序进行递归,在决策树的节点上展开属性的对比,按照各种属性值判断这一节点下方的分支,最终通过叶节点获取结论。目前应用比较广泛的决策树算法包括了和算法等。它们在选择测试属性采用的技术、生成的决策树的结构、剪枝的方法以及时刻,能否处理大数据集等方面表现出不同点。(2)贝叶斯这种算法的理论基础在于概率统计知识,通过Bayes定理,对不确定类别的样本来自各个类别的概率进行判断,然后以概率为依据排序,将样本归入到概率最高的那一个样本类别中去。这一方法是建立在一个假设性前提条件下的,然而这一前提通常在现实中是不成立的,所以这种方法的分类效果并不好,准确性并不高。针对这一点,学者们不断对其进行改进和完善,由此提出了不同的改进型贝叶斯分类算法,比如TAN算法等,这种算法充分考虑了属性彼此间的关联,因此相比传统贝叶斯算法,其在分类准确性方面的表现大幅提高。(3)人工神经网络人工神经网络是具有信息处理功能的数学模型,它是对大脑神经系统进行模拟后创建的,它由一系列的节点所构成,这些节点彼此间存在一定的关联,由此共同形成一张网络,此即为“神经网络”,从而对信息进行有效的处理。这种方法的第一个环节是训练,通过训练让网络进行“学习”,完成学习后,节点的连接权值会因此而改变,因此能够起到分类的作用,通过训练的网络能够有效地识别对象。经过多年的发展,研究人员提出了大量的人工网络模型,其中应用最广泛的包括了BP网络、径向基RBF网络、网络、随机神经网络(机)、竞争神经网络(网络,自组织映射网络)等。神经网络的缺陷和不足主要体现在收敛耗时长、计算工作量大、无法解释等,因此还需要在未来的研究中进一步改进和完善。(4)k-近邻k-近邻(kNN,k-NearestNeighbors)算法是一种基于实例的分类方法。该方法就是找出与未知样本x距离最近的k个训练样本,看这k个样本中多数属于哪一种类别,就将x归入到这一类中。这种方法的本质是懒惰学习方法,它把样本保存起来,如果不需要的话不会分类,针对非常复杂的样本集,如果采用这种方法进行分类,需要完成很大的计算工作量,所以这种方法并不适用于对实时性具有很高要求的场景。(5)支持向量机支持向量机,这种方法是在统计学习理论的基础上提出的,它的主要特征在于基于结构风险最小化员原则,通过尽量大的分类间隔创造最优分类超平面,使学习机具备更强的泛化能力,因此在面对非线性、高维数、局部极小点等问题时具有不错的分类效果。针对分类问题,SVM基于区域里面的样本进行计算,进而得到这一区域的决策曲面,最终确定区域里面所有样本应该属于哪一类。(6)基于关联规则的分类关联规则挖掘受到了更多数据挖掘学者的关注。在过去的几年间,学者们在这方面的研究中投入了大量的精力和时间。这种方法的挖掘过程类似于的规则,这里面是项(或属性-值对)的集合,而C是类标号,这种形式的规则称为类关联规则。关联分类方法的操作过程包括两个环节:其一,通过算法在样本集里面进行挖掘,从而确定全部满足指定支持度和置信度的类关联规则;其二,通过启发式方法,在上一环节中得到的关联规则里面选择质量最高的规则,并以此为依据完成分类。(7)集成学习在实践中,需要分类的数据往往都表现出复杂性和多样性的特点,如果采用一种分类方法进行分类,效果通常都不够理想,为此,学者们开始研究如何针对同一问题采用多种分类方法,也就是集成学习,这也是全球机器学习界最热门的议题之一,集成学习属于机器学习范式,它会持续地使用不同的学习算法,得到多个基学习器,接着按照既定的规则,将其组合在一起,以得到问题最终的解,这种思路能够使学习系统具备更强的泛化能力。分类算法数据挖掘的内容十分广泛,分类即为其中之一,它指的是将数据项目映射到已知类别中的某一类别,比如当学者们发表文章后,分类技术能够在无需人工操作的情况下,将文章划分到具体的类型中去,比如是属于科技类、艺术类,还是人文类等,通常情况下需要利用特定的分类算法确定分类规则,然后以此为依据完成新数据的划分。从数据挖掘的角度来看,分类这一环节的工作起着重要的作用,其用途十分广泛,比如预测等,也就是根据现有的样本数据进行推算,从而确定数据在未来的发展演变趋势,其中最经典的预测案例即为大豆学习,这种方法也能够用来对用户行为进行分析,也就是俗称的受众分析,确定产品的用户群,从而避免企业销售人员进行盲目的销售。在创建分类器时,可以采用的方法有很多,比如统计方法、机器学习方法、神经网络方法的等,而应用最广泛的统计方法则包括了knn算法、基于事离的学习方法;常见的机器学习方法有决策树、归纳法等,其中决策树方法就能够用来进行受众分析;常见的神经网络方法则是bp算法。文本分类指的是将文本归为不同的类型,按照文章的内容将其划分,文本分类的前提是分词,然后以分词得到的项向量为计算因子,最后通过特定的算法和样本里面的词汇展开计算,获取准确性较高的分类结果。分类在数据挖掘起着重要的作用。接下来我们重点介绍数据挖掘和数据分类的过程。数据挖掘的流程图2-2:图STYLEREF1\s2SEQ图\*ARABIC\s12数据挖掘的流程图数据文本分类的流程图2-3:图STYLEREF1\s2SEQ图\*ARABIC\s13数据文本分类的流程图分类算法的类型在现实中,应用比较广泛的分类方法包括了统计方法、机器学习方法等,较为普及的技术包括了:1.朴素贝叶斯分类是基础性的监督学习分类器这一分类器模型成立的前提是所有类别的特征项目符合正态分布的特点(也有一些学者认为即便不满足独立分布,也不会影响到最终的效果)。首先,假定分布函数满足高斯分布,每个类别存在若干系数,在确定训练数据的情况下,算法会估计所有类别的向量均值以及方差矩阵,这些都是后续预测所需的重要依据。特点:在缺乏足够原始数据的情况下,这种模型在性能方面的表现比很多复杂模型更好,原因在于复杂的模型往往都是在一定假设性条件下成立的,因此容易出现欠拟合的问题。2.该算法首先将全部的训练样本保存起来,接着采用有效的分析方法(比如选举、计算加权等),得到新样本附近K个最近邻,最终将新样本归入到K近邻点里面频率最高的那一类里面。部分学者将该方法叫做“基于样本的学习”,也就是为了达到预测的目的,针对已知的输入搜索和其距离最近的特征向量。特点:操作简单,效果比较理想,当然它也有一定的缺陷,主要体现在需要保存全部的训练集,因此对内存的要求较高,耗时比较长,因此在选择该方法时,往往都会对集聚类进行训练,从而缩小数据大小。3.支持向量机SVM是在核函数的基础上提出的新方法,它利用核函数将特征向量映射到高维空间中(通常而言空间的维度越高,就具有更强的线性可分性),接着创建线性判别函数(也就是在高维空间里面可以区分训练数据的最优超平面)。从某种程度来看,解是最优的指的是两类里面距离分割面最近的特征向量和分割面距离最大化。和分割面距离最短的特征向量即为”支持向量”,除此之外的其他向量不会对分割面造成任何的影响。注:在数据集合较小的情况下,这种方法的分类效果是最理想的,从核的角度来看,它不但存在于SVM里面,针对任何算法,只要计算的过程中发现了内积的存在的,就能够通过核函数予以替代,通过这种方法强化高维数据的性能。4.决策树决策树的形状为二叉树,如果用叶节点代表类别的话,它就是分类树平;如果用叶节点代表常量的话,它就是回归树。决策树是根据根节点递归创建的,通过全部的训练数据,在根节点位置完成分裂。在每个结点处,优化准则(比如最优分裂)是基于一些基本原则来确定的(比如ML中的“纯度”原则被用来进行分类,方差之和用来进行回归)。所有的数据根据初始和替代分裂点来划分给左右子结点(就像在预测算法里做的一样)。然后算法回归的继续分裂左右子结点。5.是有着强大功能的学习算法,或者说是监督的分类学习方法。它将若干个性能较差的分类器集成在一起,得到性能十分突出的分类器组,用来组合的分类器在性能上仅仅稍微强于随机选择,经过组合后,得到的分类器组也十分简单并且在应用的过程中计算工作量并不大。分类器和随机森林在内部使用了决策树,因此二者决策树的很多有用的性质(适用于混合数据模型、缺乏归一化的数据、特征丢失)。6.随机森林除了分类问题之外,这种方法还适用于回归问题。随机森林能够采集不同树的子节点从而完成不同类别的投票,并从中找到投票数最高的类别,将其当做判断结果。在面对回归问题时,往往都需要计算“森林”包含的全部子节点的值的平均值。这种方法创建的基本子系统同样为决策树,持续创建决策树,当数据纯净后停止。所以,虽然所有的树都完成了训练数据的学习,但其彼此间并不是完全一致的,因此需要计算所有树的平均值,提高其一致性,这种方法也因此被叫做随机森林。当然,若创建的不同树之间比较相似,随机森林的作用就会大打折扣,为了解决这一问题,在创建决策树时,往往都会按照随机的方法选择特征子集,从而提高各个之间的差异性。比如,一个目标识别树的特征多种多样,比如颜色、质地、倾斜度等。树的任何一个节点都能够从特征李满选择子集,进而决定如何对数据进行分类处理。后期的节点都能够得到新的特征子集。优点:与和决策树相比,随机森林对核心变量的数量要求更低,在预测性能方面表现更佳。也就是说我们能够调整特征集的大小,在不影响性能的基础上减低计算量和内存使用随机森林。7.神经网络神经网络是对非线性可分数据的分类方法。与输入存在连接关系的那一层为隐藏层,与输出存在连接关系的那一层叫做输出层。这种算法的主要特点是隐藏层计算的对象的意义是未知的,并且它具有较多的局部最优值,因此能够多次随机设定初始值后,通过梯度下降算法得到最优值神经网络在选股中的作用很多投资者都希望能够找到未来股价大涨的股票,为了满足其这一需求,很多学者创建了各式各样的资产定价模型,同时推出了大量的股票预测软件,但现有的模型和软件都具有一定的缺陷,比如只能预测短期内股价的波动趋势,无法准确预测股票的长期波动趋势,导致这种现象的主要原因在于相当一部分的传统统计方法在应用之前要确定各项参数,并且需要知道在特定的情况下怎样对参数进行调整,所以不太适用于非线性数据的处理。二级市场刚好具有非线性的特点。所以可以利用神经网络学习怎样从特定的样本里面找到具备投资价值的标的物,这种特性让一些投资人不必学习专业的投资技能,了解投资规则,只要按照训练数据构建相应的模型即可对股票走势进行预测。神经网络进行股票预测的原理神经网络基于历史数据,揭示出股价的变化规律,接着将这样的非线性关系保存在网络的权值和阀值里面,并以此为依据对股价未来的波动方向进行预测。属于多层网络的“逆推”学习算法,它的核心思想在于:通过信号的正向传播和误差的反向传播两个环节完成学习。在前一个环节中,输入层提供样本数据给隐层,经过后者的处理后反馈给输出层。如果输出的结果不满足预期,就开始第二个缓解的处理工作。在第二个环节中,隐层利用特定的形式把输出误差传递给输入层,然后将误差分摊到每一层包含的单元中,获取所有单元的误差信号,并据此对不同单元的权值进行调整。通过上述两个环节对所有层的权值进行调整,这两个环节交叉执行,在优化权值的过程中,完成网络的学习训练。当网络提供的误差达到可接受程度,或完成提前设定的次数的学习任务后就会停止。神经网络模型的特征体现在很多方面,比如巨量并行性、存储分布性、结构可变性等,并且它能够逼近最能够准确反映样本数据规律的函数,不管函数的形式是怎样的,神经网络凭借其在适应、学习以及映射方面的强大功能和能力,通过学习确定不同数据彼此间的依存关系,在股价预测方面表现出明显的优势。利用神经网络进行选股,此时的训练样本即为股价信息,将特定交易日的股价当做影响未来股价的因素提供给模型,根据前向船舶方向,获取输出层的输出值,接着根据反向传播方向,按照输出层的实际和预期输出的误差,调整不同节点彼此间的连接权值,通过这种方式不断地降低误差。最终确定的权值,即为神经网络自适应学习获取的正的内部表示。通过完成训练的后的BP网络模型预测股价,为投资者选股提供了依据和方向,帮助其实现更高的投资收益,将投资风险出现的可能性控制在更低范围内。本章小结在这一章中,笔者重点阐述了股票二级市场的特点,梳理了现有的方法和模式,对数据挖掘领域的常用技术进行介绍,从概念、特征、功能等方面着手,对聚类算法、分类算法、神经网络进行了全面的说明。归纳这些理论成果,目的是为后续的研究工作奠定扎实的理论基础,提高文章结论的正确性和说服力,证明系统的操作性和有效性。
智能数据挖掘选股算法如今,大部分的投资者都无法从投资市场获取稳定、可观的收益,为此,在这一章中,笔者从目前应用比较广泛的股票预测算法方面着手,对每天形成的交易数据展开挖掘分析,提出全新的多聚类方法,对上涨数据进行多层聚类,得到具有上涨共性的数据,从中挖掘出决定股票上涨的核心因素,创建预期上涨的数据分类模型。然后,通过有效的分类算法完成股票数据的训练,创建能够对短期收益情况进行判断的分类模型,在聚类分析的基础上提出智能选股算法。现状分析如今在国外,量化选股智能挖掘方法的应用不断普及,这主要是因为它在成本和预测准确性方面都具有一定的优势。随着我国股权分置改革的结束、市场规模的扩张以及数据挖掘技术不断走向成熟,量化选股方法有了充分的条件可以施展,投资者也对其提出了要求。以基金、保险资产、、等为代表的机构投资者非常青睐于量化选股方法,很多投资经理也在基本面投资方面探索如何更好地发挥数量化策略的作用和价值。如今,大数据挖掘技术的应用已经渗透到量化选股、资产配置、组合优化、交易执行、风险控制、绩效评估等环节中。股票资产定价的技术不断更新和发展。表STYLEREF1\s3SEQ表\*ARABIC\s11股票资产定价的技术发展表我们可以看到金融投资发展到现在,我们将投资思想通过具体指标、参数的设计体现到具体的模型中,让模型对市场进行不带任何情绪的跟踪。基本概念在投资者进行证券分析的过程中,往往都需要对宏观经济和行业进行分析。宏观经济走势是影响上市企业业绩的重要因素,当然也受到行业态势的影响。在各个经济周期阶段中,每个行业因为其背景、结构、变化规律、生命周期的差异,其盈利能力、经营稳定性往往也是不一致的。在特定的经济环境下,每个行业的具体表现、不同行业彼此间的关系,这些问题都受到了投资者的广泛关注。数据挖掘的诞生和应用,让投资者看到了新的希望,它可以从海量的数据里面归纳出有效的并且能够被理解的模式。聚类分析就是在金融领域应用十分普及的数据挖掘方法之一,在使用这种方法时,不需要提前对类进行定义,也不需要带类标号的训练实例,以距离或相似性为依据,将对象分为不同的集合,使分割后类内距离最小、类间距离最大。聚类方法在国外早已被应用到证券投资分析领域中,其在分析不同行业收益率关系、区分基金投资风格等方面发挥着重要的作用。算法研究行业收益率序列聚类分析方法将行业收益、风险等因素全部纳入进来,可以在特定宏观经济背景下,以各个行业的表现为依据,对其展开合理的分类。在经济周期运行的过程中,各个行业在业绩方面的表现往往都是不一致的;经济事件的发生也会给行业带来影响。把聚类分析方法和排序方法结合在一起使用,不但能够揭示出不同经济发展阶段不同行业业绩的相似性,并且能够反映出各个行业回报率彼此间的关系,这对投资者而言都是非常重要的参考信息。图STYLEREF1\s3SEQ图\*ARABIC\s11行业收益率序列聚类分析方法在确定了收益率比较高的行业后,对其股票基本面数据展开聚类分析,设置合理的参数,得到各种聚类群体的特性,最终找到所有高收益股票的共性,具体的聚类模型为:图STYLEREF1\s3SEQ图\*ARABIC\s12分类数据产生过程通过上图所示的模型,对上涨数据展开聚类分析,并将其分为不同的聚类群体,同时基于非上涨数据对交易数据进行划分,获取分类判别所需要的分类数据。整个过程详见下图:图STYLEREF1\s3SEQ图\*ARABIC\s13分类模型的建立得到相应的分类数据后,然后完成分类数据的划分,获取训练数据与测试数据集合,此时就能够通过训练数据进行训练,确定分类模型。具体过程为:在进行模型评价时,考虑到类0、非0的数据分别对应的是非上涨的股票交易数据和上涨数据,所以虽然模型评价能够提供多种类标号,然而最后的结构是,将类1、类2、……、类k的结果都当做上涨数据。图STYLEREF1\s3SEQ图\*ARABIC\s14多重分类模型建立在为投资者股票投资决策提供咨询时,选股系统不需要推荐全部预测结果为上涨的股票,而是推荐上涨可能性最高的股票,所以,为了实现更为精确的选股结果,笔者选择下图中的方法展开组合分类判别。假定k-means算法里面k的值是2,得到上涨聚类数量是2的聚类模型,同时利用非上涨数据构成的类0数据,此时就有了3类分类数据,通过分类算法展开模型训练,获取3类分类模型(2类指的是上涨类别),然后反复循环,得到情况下的分类模型,将所有的分类模型组合在一起,得到多重分类模型。在预测交易数据时,利用该模型展开分析,通过计算得到不同分类模型的上涨可能性,计算其总和,获取分类判别的结果,以这一结果为依据,按照从高到低的顺序完成股票的排序,将精度超过设定阈值或排名前r位的股票推荐给投资者。基于这一思想,笔者创建了基于聚类分析的选股算法,这一算法属于多聚类分析方法,能够对上涨数据展开分析,然后通过决策树方法完成股票数据的训练,创建具有短期收益判断能力的模型,通过测试数据对该方法和模型的有效性展开检验。多聚类分析股票数据在研究聚类分析方法选股之前,首先要明确如下几个概念:概念1基本属性:通过wind软件采集的基本的股票交易数据,用A表示。交易数据的主要基本属性有昨日收盘价、开盘价、最高/最低价、成交量、日均价。其中,昨日收盘价指的是上一个交易日最终的一笔交易的成交价;开盘价指的是这一天股票第一笔交易的成交价;最高价指的是一天内该股票所有交易中最高的成交价;最低价指的是一天内该股票所有交易中最低的成交价、成交量指的是一天内该股票所有的成交日该股票所有的成交手数;成交额指的是一天内全部成交的总额;日均价指的是一天内该股票的交易平均价,不过股票交易数据不会提供日均价。概念2一级分析指标:按照有效的数理统计方法,通过复杂的计算公式,基于基本属性数据用于分析股票趋向、买卖等的分析方法,用I表示。主要有乖离率指标、布林线指标、指标、顺势指标、中间意愿指标CR、平行线差指标DMA、动向指标、随机指标(、、)、、麦克指标、动量指标、能量潮指标、心理线指标、相对强弱指标、停损指标等。概念3二级分析指标:利用科学的数理统计方法,基于一级分析指标展开计算计算,用于分析相关一级分析指标的变动幅度,用IR表示。具体表示形式为:,这里面X代表一级指标的名称。比如和一级指标对应的二级分析指标为。概念4股票交易数据分析样本空间定义为一个六元组,具体含义为: T:代表样本的交易时间集合; S:代表样本的交易股票代码集合;:代表股票交易数据记录中由rn个基本属性数据形成的向量,代表股票交易的基本属性数据。 :包含k个一级分析指标的向量。:包含k个二级分析指标的向量。其中为一级分析指标向量I_S中的第i个一级分析指标基础上所得到的对应二级分析指标。P:预期涨跌。是和该记录对应的股票在未来某一段时间的波动状况。对于股票交易而言,如果时间段的设置太短,已有的交易数据包含了过多的感人数据,否则就会使用户进行长线投资,无法满足用户短线的需求,所以笔者在进行实验时,将时间段设定成两个工作日,也就是说特定股票未来两个工作日后收盘价格的波动幅度进行预测,如果预测结果满足规定要求,就有,如果预测结果不满足规定要求,就有。概念5正例样本,它指的是符合给定要求的样本数据,也就是P=I的样本数据。多聚类方法描述本算法的执行过程包括了四个环节,即指标计算、聚类、分类和过程评估。第一个环节,做指标的技术,按照挖掘得到的结构展开一、二级指标和P值分析,为后续的分析提供基础数据。第二个环节,对样本数据进行聚类处理,得到分析数据集合S和测试数据集合T。前者的作用是进行模型分析,后者的作用是对模型的效果进行验证。第三个环节,多层聚类,通过特定的聚类算法,将k的值限定在范围内,完成正例数据的聚类操作,得到聚类模型;第四个环节,通过分类模型完成T的测试,得到测试结果,对这里面的前k类结构数据展开分析,如果预测结果的精度满足要求,停止算法的实施,否则就要对k执行跳蚤操作,详细来说就是用k+1取代k,然后回到第二环节继续执行。本章小结在这一章中,笔者围绕投资者的选股获利这一问题,基于当前的股票预测算法,将聚类和分类算法结合在一起,阐述算法的核心思想,提出全新的多聚类分析算法,对上涨数据进行多层聚类处理,得到具有上涨共性的数据,从而挖掘出和股票上涨有关的各项因素,创建预期上涨的数据分类模型。对股票交易数据展开分析,找到其所包含的干扰数据,创建并应用参数评价机制,提高分类结果的准确性,同时利用分类算法完成股票数据的训练,创建能够对股票短期收益进行判断的模型,提出基于聚类分析的智能选股方法。
算法模型验证实验方案算法设计需要逐步完成,设计的流程包括数据准备、聚类实现、结果分析并依据结果来进行优化。数据准备本课题设计的算法,基本数据以中信银行的实际收益结果为标准的。数据采集的时间段是从2007元旦截止2017年元旦,总共十年的数据内容。采用周期为1到13个,持有周期采用同样的频率,分类个数为2到10个,随机以11个不同起始点作为样本。Matlab中聚类的实现为进行聚类分析准备了两个工具:1、利用函数对原始数据进行聚类分析,通过这个工具能够快速精确地实现对数据的分析。但是使用起来有一定的限制,不能自由修改参数。2、分步聚类:(1)用函数则能够弥补上个方法的去点,满足变量距离之间分析的需求,从而在内部分析得到不同变量之间的联系。(2)用用于连接变量;(3)用函数进行聚类。下边详细介绍两种方法: 1、一次聚类 函数可以视为与的综合,一般比较简单。 调用格式:等价于2、分步聚类 (1)计算变量之间的相似性,可以利用计算举证的相关值,而距离的计算则可以有多种选择。在计算之前,需要利用zscore对其进行无量纲化。调用格式: 说明:X是矩阵,包括M个内容,每个具体的样呗包含N个属性值。 取值为:;;;;;;;;;。生成一个行向量列表,这个值就代表了两个样本之间的距离,也能够减小内存。缺点是,使用起来操作十分复杂。为了简化操作,便于表示,可以通过函数对矩阵进行优化,而表标识第i个与第j个样本的向量大小,处于对角线上的向量之间的距离为0。(2)用函数来产生聚类树 调用格式: 说明:Y为函数返回的个元素的行向量,可取值:;;;;;;。所得结果Z为一个的矩阵,在该矩阵中,第一列与第二列的内容是索引,索引对应的内容就是可以进行聚合处理的样本。第三列的值则是样本之间的距离大小。当超过M值之后,新加入的变量则用来标识。举证Z中的数值是我们进行聚合的重要依据,我们用聚类来表示其中的内容,对应的操作为:,所得结果为一个n型数,最底层为采集的样本,然后依次网上是聚合的结果。竖坐标是变量的距离。当然,在处理的时候,最底层的样本所可以根据需求来进行更改的。参数n来实现,。则表的情况,显示所有节点。(3)函数 调用格式: 说明:根据函数的计算结果和设置的N值来创建分类。在本课题中,为了简化操作,全部设置为默认值即可满足需求。也就是:类间距离最短,欧氏距离。聚类结果采样/持有周期对聚类结果的影响在进行算法设计的时候,还需要充分考虑的一个问题就是采样/持有周期对聚类计算的结果。在研究这个问题的时候,我们采取控制变量法,固定8个分类,其它所有内容都相同,滞后期等于0。表STYLEREF1\s4SEQ表\*ARABIC\s11不同采样/持有周期对聚类结果的影响Alpha持有2345678910111213采样485.7572.4364.692.3397.3124.3226.9243.9372.152.9-53.7-67.1-77.92319.8533.6115.9140.417.64.3178.1206.132.1-14.828.7453.33337.4226.1121.9-22.285.7125.6-38.6-26.10.896.6-1.1-56-128.64263172.756.7103.328.179.5-39-34-33100-12-23-125289.9105.174.2-70.2149.159.5-43-45-4670-13-45-346-23.423.58.289.7156.123.5-59-56-58-20-21-12-657124-7.9-8.9-69-65-68-34-32-66-788-53.4-82.825.4-33.2-62.2-15.8-73-71-74-60-45-76-89986.3-2.3-93.2-54.8-87.5-59-84-80-83-90-3-87-701021.4-17.8-51.450.2-86.5-79-97-90-93-99-32-89-10111-100.4-60.7-63.1-85.7-99.2-84-112.3-110-121-102-69-121-12112-51.1-49.3-97.2-66.3-104.2-108-120.8-120-123-121-78-90-1913-111.5-107.1-114.2-96.2-108.0-113-130.8-134-137-131-89-123-134从上表所列出的数据,我们可以直观地看出,对于金融机构来说,在较短时间内,动量效应要比长周期的效果明显很多。这个结论与前文的讨论不谋而合,这是我国股市所表现出的基本特征。短期动量,长期反转的表现是行业经济能力与投资人投资行为综合而表现出的结果。基于这个结论,我们进一步研究了中行业层面的特征表现是否也是有规律的。所得结果详见下表。表STYLEREF1\s4SEQ表\*ARABIC\s12不同采样/持有周期对聚类结果的影响(反转效应)Alpha持有2345678910111213采样485.7572.4364.692.3397.3124.3226.9243.9372.152.9-53.7-67.1-77.92319.8533.6115.9140.417.64.3178.1206.132.1-14.828.7453.33337.4226.1121.9-22.285.7125.6-38.6-26.10.896.6-1.1-56-128.64263172.756.7103.328.198-67-23-267-12-6-85289.9105.174.2-70.2149.176-45-45-1045-23-34-126-23.423.58.289.7156.154-76-65-1223-41-50-237124-7.932-82-71-15-21-51-43-288-53.4-82.825.4-33.2-62.245-101-78-18-34-68-69-31986.3-2.3-93.2-54.8-87.5-12-111-82-21-54-78-80-541021.4-17.8-51.450.2-86.52-121-89-22-67-74-90-5611-100.4-60.7-63.1-85.7-99.232-127-121-67-89-90-102-6712-51.1-49.3-97.2-66.3-104.2-19-123
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年上海大学上海市科创教育研究院招聘行政专员备考题库完整参考答案详解
- 吉林省水利水电勘测设计研究院2026年校园招聘29人备考题库及一套完整答案详解
- 银联企业服务(上海)有限公司2026年度招聘备考题库及完整答案详解一套
- 国家知识产权局专利局专利审查协作广东中心2026年度专利审查员公开招聘备考题库完整参考答案详解
- 2025年关于为山东铁路检察机关公开招聘聘用制书记员的备考题库附答案详解
- 2024年宣威市教育体育局所属学校引进教育人才专项考试真题
- 泉州银行宁德分行招聘考试真题2024
- 傲慢与偏见课程设计
- 2025四川成都中医药大学第三附属医院招聘6人考试重点试题及答案解析
- 2025年甘肃电器科学研究院聘用人员招聘备考题库及完整答案详解一套
- 《漏洞挖掘技术》课件
- 神志改变的护理查房
- 模具履历表完
- 贵州大学《中国现代文学史》课件-第8章80年代、90年代台港文学
- 项目设备采购项目监理细则
- 最新版《义务教育数学课程标准》及课标知识题库
- 1.罂粟碱-经典扩血管药物
- 《地球物理场论》教学大纲
- JJF 1785-2019呼出气体酒精含量检测仪型式评价大纲
- GB/T 38462-2020纺织品隔离衣用非织造布
- GB/T 20041.21-2017电缆管理用导管系统第21部分:刚性导管系统的特殊要求
评论
0/150
提交评论