版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、国信证券金融工程:投资性指标与策略系列之一基于CART决策树的行业选股方法焦健,赵学昂,葛新元国信证券经济研究所金融工程Jan, 2010投资性产品系列报告:量化模型提出。实证分析持续跟踪标准产品 数据挖掘(神经网络、决策树、灰分析)可广泛的应用于行业选股模型 本报告主要使用工具:分类与回归决策树(CART)本报告主要创新之处:利用修剪与过滤提升决策树的准确性 本报告主要结论:修正后的动态决策树可有效的在行业内分类与选股 后续的研究方向:行业指标选择、分类后的个股挑选、决策树优化数据挖掘技术与个股选择2)主票使用的数据挖掘方法 3CART决策树行业选股版 4实证结果与后续研究 技术分析派:供需
2、决定一切、交易数据包含一切信息、历史会一再重演 基本面分析派:股票价值与价格的差异是投资收益来源、财务分析、实地调研 数量化分析派:技术与财务指标的结合与深化、统计工具与数据挖掘寻找规律并预测数据挖掘是一个从大型数据库中寻找模式与关联的过程。自动预测未来的趋势与行为。自动发觉未知的数据模式。数据挖掘技术特性分析人工神经网络遗传算法统计分析决策树可视化技术容易编码低非常低高非常高中资料接受度高中中低低自主性高高低低非常高计算能力非常高非常高中低非常高解释能力非常低高中非常高非常高最优化能力中高中中非常低拓展性非常低中中非常低低资料来源:Data Mining in Financial Appli
3、cationJEEE Transactions on system, 2004 Vol34内容目录2主要使用的数据挖掘方法 3CART决策树行业选股版 4实证结果与后续研究人工神经网络(Artificial Neural Network):模仿人脑结构及其功能的智能信息 处理系统,具有自学习、自组织、较 好的容错性和优良的非线性逼近能力。神经网络特别适合处理:自变量和因变量之间无已知方程结果预测比逻辑关系解释更重要有足够丰富的数据可供建立网络神经元结构示意图输入层隐藏层输出层决策树(Decision Tree) :最简单的归纳式学习法 :常用于数据分类与预测 :有明确的文字或数字规则 :树的生
4、长规模可控制 :指标不宜过多 :分类不可过细一棵典型的决策树决策树分类过细自然界存在之已知讯息为白(wMte),未知讯息为黑(black),介于黑白间不明确未知与不明 确也知之虑带则为灰(grey)。A灰关联分析强调对系统的讯息补充,充分利用已确定之白色讯息,进行系统的关联分析、模型建 构使得系统由灰色状态转为白化状态,并藉由预测及决策的方法来探讨及了解系统。灰色系统关联分析的具体操作步骤为:从原始决策矩阵 中找出参考数列 和比较数列。对原始决策矩阵 数据进行正规化 处理。计算灰关联距离。计算灰关联度。计算灰关联系数。I IXZ排出灰关联序, 根据灰关联度值 选出重要的方案。,数据挖掘技术与个
5、股选择2)主要使用的数据挖掘方法 3)CART决策树行业选股版 4实证结果与后续研究3.1传统腐RT决策树选股厂二Eric H, Keith L, Chee K (2000 )对美国科技股 1993至1999年的数据,利用EPSPrice、Price- MOM等指标构建了固定样本的静态和不断新增样 本的动态树。7z利用前面构建的静态树与动态树,Eric等人得到 了静态树所分出的买入组合平均每月跑赢卖出组 合1.40%,而动态树则可跑赢1.47%。(未考虑 交易成本与冲击成本等)/我们认为1993至1999年正是整个美国股市的牛市 时期,期间经济周期、市场规律以及所选的行业 经营环境没有发生显著
6、的变化,因此动态的调整 决策树并未明显提升策略效果。7Eric IL Keith I而Chee K片态树模型Eric H, Keith IChee K动态树模型ROA v 1.5HPS-MOM v 3 5EPS4COX| Underr ROA 1 53.2国技股CART决策树模型一 - ;我们将国内电子与信息技术类股票合并为科技股板块,选用EPSPrice、EPS-MOM、 ROA等六项指标(根据国内情况进行定义调整)构建决策树进行实证。:/我们选取所有科技板块152只股票过去82个月(2003.1-2009.10)中的历史数据样本。为了避免树形结构出现过于复杂形态,我们对数据样本进行五分法(
7、quintile)转换。/科技股板块CART决策树分类关键指标原定义指标修改Sa les-Price市销率倒数最近12个月市销率倒数CashFlow-Price市现率倒数最近12个月市现率倒数EPS-Price未来12月一致假期EPS比股价最近12个月市盈率倒数ROAROA变化率ROA年同比变化率EPS-MOMEPS 一致预期12周变化净利洞一致预期12周变化Price-MOM前一月股票收益率前一月股票收益率3.2 国股CART决策树模型(静态)以2003-2006作为样本内数据建立静 态树,2007-2009做为样本外数据进行 静态树检验。 :对科技板块所有股票的下月收益进行 预测分类。图中
8、1代表跑赢平均类,-1 代表跑输平均类,类中的股票分别对应 构建多头和空头组合。 :尽管有事前修剪控制树的生长,生成 的树状形态仍较为复杂。EPS-Priced 决定分类的首要条件,但其直接导出分 类节点的决定性能力还不如EPS-MOM。 :经过检验,静态决策树挑出的分类组 合,在2007年初至2009年10月底多头 组合平均每月跑赢空头组合0.64%。2003-2006科技股静态CART决策树模型(节点阅值=10)3.3 国锹股CART决策树模型(动态)一 以2007年以后的科技股样 本数据动态构建决策树,检 验在07-09年牛熊转换过程 中模型的适应性与拓展性。A截至2009年10月底的决
9、策 树从树形结构到指标条件都 发生了很大的变化。我们可 以看出,价格动量取代市盈 率成为当前最为首要的分类 因素,EPS-MOM能够直接 导出分类的能力大幅度下降。2009.10科技股动态决策树(节点阈值=10)CE-MOM3.5FS-PRICE2.5EPS-PRFPS-MOMPRICEPbCF捆磔第甲RI施卮际PRICE 盔&0Caasw-Mi-TitTRISE 25ICEPS-MOM 2.5A 1.5S-PRICE4.5PS-PRICE46EPS-MOM2.6S:40RICF PRICE-MOM 2.5SME动态的决策树模型2007至 2009所分类的多头组合平均 每月跑赢空头组合0.89
10、% , 我们认为并没有效的体现出 动态决策树的麻展性的能力。3.4 修剪和过滤后的修正决策树模型(事前修剪)影响决策树模型效果的最大因素在于输入样本中的噪音。我们将主要通过事前 修剪、事后修剪以及分类过滤等方式消除噪音影响,提高分类有效性与准确度。/分割阈值是最简单的事前修剪方法,通过检验我们发现其可以有效的快速降低 树的复杂程度,但分类精确度却明显下降。/12001000800600400200010 20 30 4(1 50 60 70 RO Afi 100 I 10 12010 140 150 I60 170190 200分割阈值对CART静态决策树精确度的影响0.80%0.60%0.4
11、0%0.20%0.00%-0.20%-0.40%-0.60%-0.80%-1.00%3.3修瞄过滤后的修正决策树模型(事后修剪),一以替代错误率为目标函数,对初始决策树(初始决策树节点高达1200个以上) 逐层修剪掉无法有效降低整棵树错误率的枝叶节点。修剪到第28次时,总节点 数已经下降至100以下,当修剪达到第36次时,决策树节点仅剩下15个。随着修剪次数的增加,节点数量以较为稳定的速度下降,而检验组合中的多空 组合收益差能够稳定的保持正向。过于简单的树结构尽管样本检验收益率可能 不错,但往往只是体现出一种大概率事件,分类的区分度较差。3.3修好过滤后的修正决策树模型(节点过滤) ,一决策树
12、修剪并非真的剪除枝叶数据,而是不停的进行合并操作。因此修剪后的 有效节点过滤对于提高整棵树的分类效率非常必要。我们在对弱势节点的筛选 中参考了诸如父节点样本分化概率、节点样本数量以及节点错误率等指标。在较少次数的决策树修剪之前运用过滤方法控制噪音的效果并不明显,而在较 多次修剪后,由于决策树剩余节点已经不多且节点中数据量极大,因此不当的 过滤导致最终可能导致多空组合收益差剧烈的波动。3.3修瞄过滤后的修正决策树模型(静态)、经过修正后的静态CART决策树在检验期中,多头组合平均每月跑赢空头组合的 幅度达到2.19%。修正CART静态决策树检验效果但从组合财富图上我们发现,多头组合并没有拉开和全
13、体样本平均收益的差异, 模型的精确度达不到要求。3.3修瞄过滤后的修正决策树模型(动态)E一;经过修正后的动态CART决策树在检验期中,多空组合平均月度收益差达到 2.98%。在2009年的10个月度检验样本中,多头组合全部取得了正超额收益。/Z从财富曲线上看,多头组合不仅大幅跑赢了空头组合,也将显著超越了全样本 的平均表现。这表明通过修正的动态模型,显著提高了股票分类的效率。3.3修附过滤后的修正决策树模型(组合内部结构)从数量上来看,多头 空头组合所含不足全 体样本的一半,降低 了简单树结构导致分 类样本过多的问题, 而多空头组合之间的 股票数量对比近期也 逐步趋于稳定。流通市值基本与同期
14、 的股票数量成正比。 由于科技股通常为小 盘股,在股票数量多 而流通市值小的时候, 流动性可能存在问题。 应从组合中适当精选多空组合股票流通市值对比MM long:-1000-1SOOlong shortdiff350030002500200015001000500通性好的个股。,,数据挖掘技术与个股选择2)主要使用的数据挖掘方法 3)CART决策树行业选股模型 4实证结果与后续研究4实证结果与后续研究(12月多头)r2009年12月预测多头分类PMCPEPROASPEMSH600060海信电器555555SH600105永鼎股份455553SH600289亿阳信通254431SH600446
15、金证股份525352SH600485中创信测235222SH600498烽火通信125455SH600707彩虹股份411141SH600718东软集团345432SZ000063中兴通讯155554SZ000727华东科技441131SZ000823超声电子155254SZ000851高鸿股份132455SZ002049晶源电子355332SZ002073青岛软控525224SZ002134天津普林441131SZ002179中航光电244432SZ002236大华股份334232资料来源:朝阳永续国信证券研究所里理4实证结果与后续研究(12月空头) 2009年12月预测空头分类PMCPEP
16、ROASPEMSH600198大唐电信153451SH600203福日电子441153SH600392大工天成512224SH600478科力远322141SH600503华丽家族313111SH600570恒生电子524514SH600584长电科技552141SH600601方正科技513254SH600602广电电子521113SH600637广电信息541152SH600680上海普天511224SH600764中电广通452251SH600839四川长虹512355SH600980北矿磁材431122SZ000032深桑达A552151SZ000050深天马A451153SZ0000
17、58深赛格531115SZ000801四川湖山512251SZ000925众合机电413515SZ000997新大陆123532SZ002027七喜控股452351SZ002057中纲天源511345SZ002184海得控制514341SZ002199东晶电子223222SZ002222福晶科技334212SZ002261拓维信息334314SZ002268卫士通522215SZ002280新世纪314512资料枭源:朝阳永续国信证券研究所里理12月月底检验月初预测效果:多头15.759 %,行业 平均10.982%,空头5.944%,效果显著。2010年1月预测多头分类(31只)SH6000
18、60海信电器SH600522中天科技SZ000016深康佳ASZ002027七喜控股SH600105永鼎股份SH600536中国软件SZ000032深桑达ASZ002056横店东磁SH600203福日电子SH600563法拉电子SZ000050深天马ASZ002065东华软件SH600455交大博通SH600654飞乐股份SZ000058深赛格SZ002093国脉科技SH600487亨通光电SH600687刚泰控股SZ000063中兴通讯SZ002153石基信息SH600503华丽家族SH600764中电广通SZ000100TCL集团SZ002222福晶科技SH600797浙大网新SZ000413宝石ASZ002232启明信息SZ000977浪潮信息SZ002261拓维信息SZ002025航天电器SZ00230
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年广东单招低空经济大类无人机应用技术专业技能经典题集含答案
- 2026年北京单招护理专业中职生技能经典题含答案含生命体征监测
- 2026年评估专员面试题库及标准答案参考
- 2026年软件测试工程师招聘面试常见问题集
- 2024-2025学年河南省郑州市巩义市八年级(上)期末数学试卷-20251114225002
- 2026年铁路司机安全操作规程考核题含答案
- 2026年公共关系岗位考试题库及答案
- 2026年文化创意产业发展趋势文化公司策划部经理面试题
- 2026年行政助理面试题目与解答指南
- 铁氧体元件研磨工安全生产基础知识测试考核试卷含答案
- 2025年重庆青年职业技术学院非编合同制工作人员招聘68人备考题库及一套答案详解
- 2025年常熟市交通产业投资集团有限公司(系统)招聘14人备考题库含答案详解
- 临沂市公安机关2025年第四季度招录警务辅助人员备考题库新版
- 2025年新版中医药学概论试题及答案
- 深圳市龙岗区2025年生物高一上期末调研模拟试题含解析
- 栏杆劳务分包合同范本
- 2025年黄帝内经章节题库及答案
- 具身智能+医疗康复中多模态感知与自适应训练系统研究报告
- 广东省深圳市宝安区2026届高一上生物期末联考试题含解析
- 自动化生产线调试与安装试题及答案
- GB/T 7986-2025输送带滚筒摩擦试验
评论
0/150
提交评论