(计算机应用技术专业论文)基于事件研究的股票数据挖掘.pdf_第1页
(计算机应用技术专业论文)基于事件研究的股票数据挖掘.pdf_第2页
(计算机应用技术专业论文)基于事件研究的股票数据挖掘.pdf_第3页
(计算机应用技术专业论文)基于事件研究的股票数据挖掘.pdf_第4页
(计算机应用技术专业论文)基于事件研究的股票数据挖掘.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)基于事件研究的股票数据挖掘.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 页 摘要 随着经济的发展和人们投资意识的转变,股票已成为现代人投资理财的 一个重要组成部分,对股市内在规律的分析研究具有极其重要的理论意义和 应用价值。 本文将对证券分析师推荐股票信息进行数据挖掘,使用事件研究方法分 析“证券分析师发布股票推荐信息 这一事件。在金融环境中,事件研究方 法常用来研究某一事件或消息对证券的价格成交量等因素的影响。如果某一 事件存在显著影响,非正常收益率和非正常成交量在事件发生前后会呈现某 种特殊分布。那么是否可以反过来,根据非正常值曲线在事件发生时刻之前 异常变化这一特点,判断某一事件是否将要发生;或者根据非正常值曲线在 事件发生之前的不同走势,判断事件发生后股票价格的不同走向。本文将使 用数据挖掘中分类和聚类方法来实现这两个目标。 本文主要工作包括:首先使用事件研究方法,针对“证券分析师发布股 票推荐信息”这一事件,选用两种正常交易值估计模型对证券分析师推荐的 股票进行分析,得出该类股票的总体特征,提出分类和聚类分析目标:即通 过分类分析在推荐信息发布前找出符合推荐股特征的股票;通过对推荐股票 在推荐信息发布前的数据进行聚类分析找出在推荐信息发布后股价继续上升 的股票类别。然后,根据推荐股票的非正常成交量和非正常收益率异常变化 特征,使用两种分类方法分别构造了两模式分类器,用于在股票推荐信息发 布前2 日发现符合该类特征股票。经过实验表明,使用该分类器进行选股可 以获得较好收益。最后应用聚类方法对推荐股票进行分析,通过对股票在被 推荐之前的非正常成交量和非正常收益率的走势进行聚类,发现一类推荐股 票在推荐信息发布后股价继续上涨,该信息对投资者判断推荐股票是否具有 买入具有参考价值。 关键词:股票;数据挖掘;事件研究;分类;聚类 西南交通大学硕士研究生学位论文第1i 页 a b s tr a c t t h es t o c kh a s a l r e a d y b e c o m ea n i m p o r t a n tc o m p o n e n t o fm o d e r n i n v e s t m e n tw i t ht h ed e v e l o p m e n to fe c o n o m ya n dt r a n s f o r m a t i o no fp e o p l e s i n v e s t m e n tc o n s c i o u s n e s s i th a ss i g n i f i c a n tt h e o r ym e a n i n ga n da p p l i c a t i o nv a l u e o na n a l y s i so ft h ei n h e r e n tl a wo ft h es t o c km a r k e t t h i sp a p e rw i l la n a l y s i st h es t o c k s i n f o r m a t i o nw h i c hs e c u r i t ya n a l y s t s r e c o m m e n db a s e do nt h ed a t am i n i n ga n da n a l y s i st h ee v e n tt h a t s e c u r i t y a n a l y s t sr e c o m m e n ds t o c k sb ye v e n t - s t u d y t h ee v e n t - s t u d ym e t h o dw a su s e dt o r e s e a r c ht h e i m p a c to fe v e n t s ,s u c ha ss t o c kt r a d i n gv o l u m e a n dp r i c e w h e n a c e r t a i ni n c i d e n ti n f l u e n c e dn o t a b l y , t h ea b n o r m a lr a t eo fr e t u r na n da b n o r m a l t r a d i n gv o l u m e sh a v es p e c i f i cd i s t r i b u t i o na tt h em o m e n to fi n c i d e n t ac e r t a i n i n c i d e n ti sj u d g e dt oo c c u rw h i l et h ea b n o r m a lv a l u eu n c o n v e n t i o n a l i t yc h a n g e b e f o r et h ei n c i d e n t a c c o r d i n gt od i f f e r e n tt e n d e n c i e so fa b n o r m a lv a l u ec u r v e b e f o r et h ei n c i d e n t ,t h ed i f f e r e n td i r e c t i o n so ft h es t o c kp r i c ec a nb ej u d g e da f t e r t h ei n c i d e n t t h i sp a p e rw i l la c h i e v et h e s et w og o a l sb yu s i n gc l a s s i f i c a t i o n m e t h o da n dc l u s t e r i n gm e t h o d t h em a i nj o b so ft h et h e s i sa r ea sf o l l o w e d :f i r s t l y , r e s e a r c ho nt h et h e c h a r a c t e r i s t i co ft h es t o c k st h a ts e c u r i t ya n a l y s t sr e c o m m e n db ye v e n t s t u d y t w o m o d e l sa r eu s e dt oe s t i m a t et h en o r m a lv a l u e so fr e c o m m e n d e ds t o c k s a c c o r d i n g t ot h ec h a r a c t e r i s t i c so ft h er e c o m m e n d e ds t o c k s ,t h eg o a l so fc l a s s i f i c a t i o na n d c l u s t e r i n ga n a l y s i s a r ep r o p o s e d o n eo b j e c ti sf i n d i n go u tt h es t o c k st h a t a c c o r dw i t hr e c o m m e n d e ds t o c k s c h a r a c t e r i s t i cb yt h ec l a s s i f i c a t i o nb e f o r et h e r e c o m m e n d a t o r yi n f o r m a t i o ni s s u e t h eo t h e ri sf i n d i n go u tt h es t o c k st h a tp r i c e r i s ec o n t i n u o u s l yb yc l u s t e r i n gt h es t o c k su s i n gt h ed a t ab e f o r et h ei n f o r m a t i o n i s s u e s e c o n e d l y , t w o p a t t e r nc l a s s i f i e r sa r ec o n s t r u c t e db yu s i n gt w ok i n d so f c l a s s i f y i n gm e t h o d sa c c o r d i n gt oa b n o r m a lt r a d i n gv o l u m ea n da b n o r m a le a r n i n g r a t i oo fr e c o m m e n d e ds t o c k s t h e ya r eu s e dt of i n do u tt h es t o c k st h a ta c c o r dw i t h r e c o m m e n d e ds t o c k s c h a r a c t e r i s t i c2d a y sb e f o r et h er e c o m m e n d e di n f o r m a t i o n p u b l i s h i n g t h ee x p e r i m e n t a lr e s u l t si n d i c a t et h a tt h i sm e t h o eo fs t o c k - s e l e c t i o n c o u l dg e tb e t t e ri n c o m e f i n a l l y , p r o p o s e dt h em e t h o do fc l u s t e r i n gt h ed a t ao f 西南交通大学硕士研究生学位论文第1 il 页 - _ _ - _ _ - _ _ - _ i l _ _ i l _ i |i_ i i l _ - _ - i l _ - _ a b n o r m a lt r a d i n gv o l u m ea n da b n o r m a le a r n i n gr a t i oo fr e c o m m e n d e ds t o c k s b e f o r et h er e c o m m e n d e di n f o r m a t i o ni s s u e r e s u l t ss h o wt h a tt h ep r i c eo fs o m e s t o c k si no n ec l u s t e rk e e pg r o w i n ga f t e rr e c o m m e n d e di n f o r m a t i o ni s s u e t h i s i n f o r m a t i o ni ss i g n i f i c a n tt os t o c ki n v e s t o r k e yw o r d :s t o c k ;d a t am i n i n g ;e v e n t s t u d y ;c l a s s i f i c a t i o n ;c l u s t e r i n g 西南交通大学曲南父通大罕 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查 阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关 数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位 论文。 本学位论文属于 1 保密口。在年解密后适用本授权书; 2 不保密蛔,使用本授权书。 ( 请在以上方框内打“ ) 学位论文作者签名: 日期:弼- 歹乙l 指导老师签名 日期: 乞 西南交通大学学位论文创新性声明 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作 所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体, 均已在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。 本学位论文的主要创新点如下: 应用事件研究方法和数据挖掘方法分析证券分析师推荐股票信息,根据 推荐股票的特征构建分类器用于选股,并应用聚类方法分析推荐股票在推荐 后的价格走势。 西南交通大学硕士研究生学位论文第1 页 1 。1 选题背景和意义 第1 章绪论 股票是市场经济的产物,股票的发行与交易促进了市场经济的发展。我 国子1 9 8 5 年发行第一支股票,现已拥有沪、深两大证券交易所、上百家证券 公司,成为广大人民参与投资的行业。9 0 年代以来,计算机技术、尤其是数 据库技术和隧络技术在股票商场中得到充分应用,使褥作为证券市场重要缰 成的股票市场更加蓬勃发展起来,逐步成为证券业乃至整个金融业必不可少 的组威部分,显示患强大的生命力。蒿风险离回报是股票市场的特征,因此 投资者们时刻在关心股市、分析股市、试图预测股市的发展趋势。 证券投资分析的方法直接决定了证券投资分析的质量。一露多年来,一 些分析方法随着股市的产生和发展逐步完善起来,如:波浪分析法、k 线图 分析法、移动平均法、趋势分析法、焦度分析法、神秘级数与黄金分割比螺 旋历法等等,随着计算机技术在证券分析领域的普及与应用,新的指标分析 法被不断推出。传统进行证券投资分析所采用的分析方法主要可分为两大类: 第一类是基本分析,第二类是技术分析。前者主要是对发行该证券的企业的 财务状况与经营情况以及影响上市经营的客观政治经济环境等要素进行的分 析,常用于长期预测;后者则是试图用过去的股票价格和交易量来预测将来 的价格运动,常用于短期预测t l - 5 j 。 随着科学技术的进步,尤其信息技术的发展,大量新的知识技术用于股 票分析,如时间序列分析方法、非线性决定性预测模型、神经网络预测模型、 小波变换预测、混淹理论预测、数据挖掘方法等等【6 捌。 由于股市行情受经济、政治等因素( 如发行公司的经营状况和财务状况、 新股上市、利率水平、汇率变动、国际收支、物价因素、经济周期、经济政 策等) 的作用,其内部规律菲常复杂,变化周期无序,同时我国资本市场投资 者结构具有特殊性,个人投赘者的比例高达9 9 ,投资者个人心理状态不同, 西南交通大学硕士研究生学位论文第2 页 对股票交易的行为可产生直接的影响,从而导致股价波动,使股价走势变化 莫测,难以把握。 在信息爆炸的今天,人们迫切需要一种方法从大量的数据信息中提取并 找到有用的信息,数据挖掘技术就是在这种情况下诞生的。近十年间,数据 挖掘技术的研究工作取得了很大的进展,各种数据挖掘技术的应用极大地推 动了人们分析、处理大量的数据信息的能力,并为人们带来的很好的经济效 益,因此可以预见数据挖掘技术在股市分析预测中将会有很大的潜力。我们 对股票市场的数据以及上市公司的数据进行分析,这些数据都具备了如下特 征:( 1 ) 拥有大量、充足的相关数据;( 2 ) 需要基于知识的决策。而具备这 些特征的领域正好适合利用数据挖掘技术来提取其存在的潜规则以达到分析 预测的目的l 引。 国内外许多学者采用数据挖掘技术,对股票数据进行处理,挖掘蕴含在 交易数据背后的潜在规则,以实现对股票市场未来变化趋势进行分析并期望 达到指导股票投资者进行理性投资的目的。m o r g a n ,s t a n n l o g 等人已经开发 了a i ( a u t o m a t e di n v e s t o r ) 系统,该系统通过采用聚类、可视化和预测技术来 寻求最佳投资时机【1 0 】。d a l w as e c u r i t i e s 利用m a t l a b 强大的模拟仿真能力 建立了一个有价证券管理系统【1 2 , 1 3 】,旨在分析大量的证券数据。g o l a n r 和 z i a r k o w w 应用r o u g hs e t ( 粗糙集理论) 方法分析了十年间股票的历史数据, 研究股票价格和经济指数之间的依赖关系1 1 2 1 。国内很多著名的学者在股票预 测方面也作过大量的工作【2 3 枷】。 综上所述,我们认为,股票信息的特殊性决定了利用数据挖掘技术对其 进行研究并提取出相关信息指导投资者进行合理投资是一件具有可行性并且 值得我们去研究的事情。 1 2 课题来源 事件研究方法是根据某一事件发生时期前后某研究对象的相关资料,采 用统计或计量技术来度量事件对研究对象是否存在影响的一种定量研究方 法。在金融环境中,事件研究方法主要用来研究某一事件或消息对证券的价 西南交通大学硕士研究生学位论文第3 页 格成交量等因素的影响【1 4 , 1 5 , 1 6 】。 如果某一事件对证券的价格和成交量有明显影响,则有非正常收益率和 非正常成交量在事件发生前后会呈现某种特殊分布( 分布情况与分析所建立 的模型有关,比如以事件发生时刻为x 轴坐标0 点的正态分布) 。那么是否可 以反过来,我们根据非正常收益率和非正常成交量曲线在事件发生时刻之前 的异常变化情况来判断是否将要发生某一事件。分类是数据挖掘领域最为常 见的技术之一,用来抽取能够描述重要数据集合的模型,此模型可用于预测 数据对象的离散类别。我们可以根据非正常收益率和非正常成交量在事件发 生前的变化情况构造判别两种类别的分类器,用于预测事件是否发生。 我们经常从媒体获知证券分析师推荐股票的消息,但是投资者若根据该 类信息跟随操作却很难获利,如果能够提前获知证券分析师将要推荐的股票 则可以轻松获利。文献【1 7 】讨论了证券分析师荐股票效应,发现无论在大盘 上升期下挫期盘整期,均对股票成交量有显著影响,但投资者跟随操作意义 不大。证券分析师推荐的股票在推荐信息发布后,有的股票价格将继续上涨, 有的却是在推荐信息发布当日达到最高后下降,这令投资者无从判别。如果 对这些股票在推荐信息发布日之前的非正常收益率和非正常成交量曲线变化 情况进行分门别类( 可以通过聚类数据挖掘实现) ,若存在推荐信息发布后价 格继续上涨的股票类别,则可以作为投资者买入推荐股票的参考信息。 经济学研究中事件研究方法被用于经济事件的影响力,还没有和数据挖 掘方法结合应用。本文将针对证券分析师推荐股票这一事件,组合事件研究 方法和数据挖掘的分类和聚类方法对股票进行分析研究。该方案拓展了分类 和聚类方法在股票数据挖掘中的应用,这正是本文的创新之处。 1 3 本文研究内容 本文引入事件研究方法,针对证券分析师推荐的股票,使用分类和聚类 数据挖掘方法对股票交易数据进行分析处理。论文的主要研究内容和工作包 括以下几个方面: 第2 章中,介绍了股票分析的背景知识,在搜集研究国内外有关股票数 西南交通大学硕士研究生学位论文第4 页 据挖掘文献的基础上,对数据挖掘技术在股票分析中的应用进行了归纳和总 参毛 # 日。 第3 章中,首先介绍了论文试验使用的股票数据集,然后分绍了事件研 究方法的基本原理,并且选用两种正常交易值估计模型对证券分析师推荐的 股票进行分析,得出该类股票的总体特征,提出分类和聚类挖掘的目标。 在第4 章中,对分类分析的概念进行了解释,介绍了贝叶斯等分类算法, 并应用分类方法进行选股。根据第3 章中针对证券分析师推荐的股票进行事 件研究发现的该类股票的非正常成交量和非正常收益率异常变化特征,构造 了两模式分类器用于在股票推荐信息发布前2 日发现该类别股票。经过实验, 可以提前发现该类别股票,使用该分类器进行选股可以获得较好收益。 在第5 章中,主要介绍了一些聚类方法并应雳聚类方法对证券分析师推 荐的股票进行分柝。发现符合某一特征的推荐股票( 即非正常成交量在推荐 信息发布前一周之前缓慢增长,推荐信息发布前一周内急剧增长的推荐股票) 在推荐信息发布之后的第1 日股票价格达到最高值,可以以此作为股票买入 信息,在推荐信息发布嚣买入,第二圜卖出,进行短线操作。 最恁对全篇论文进行了总结,并对后续需要进行的研究工作进行了讨论。 西南交通大学硕士研究生学位论文第5 页 第2 章股票分析中的数据挖掘技术 2 1 股票分析的背景知识 股票作为股份资本所有权证书,它是投资入股并取得收益的凭证。它既 是一种集资工具,又是企业产权的存在形式,代表资产所有权。在附录1 中 是本文涉及到的常用股票交易数据术语。 股票的主要特征表现有三个方而: 第一,具有不可逆性。股票一经购买,持有者不能退股索还股金。 第二,具有风险性。股票不像债券那样可以到期还本付息,持有者只能 观看该企业的盈利状况和股市行情,所以购买股票是一种风险投资。 第三,具有流通性。股票作为一种资本证券,是一种灵活有效的集资工 具和有价证券,它虽然不能中途返还,但可以转让抵押和流通。这种灵活性 和流通性是股票的优点,也是它的生命所在。 股票投资分析是股票投资中不可或缺的一个组成部分,在投资过程中占 有极其重要的地位。进行股票投资分析是回避风险的需要,预期回报率与风 险之间是一种正向的互动关系:预期回报率越高,投资者所要承担的风险就 越大:预期回报率越低,投资者所要承担的风险就越小。进行股票分析是进 行入市买卖的依据和前提。因此,选择适当的投资分析法对股市或个股进行 认真分析,是降低投资风险获取投资收益的关键。目前,股市分析预测主要 面临以下的难题【6 曲,1 8 】:( 1 ) 股价数据中含有较多噪声,机构大户的造市行为 以及诸多外在因素的冲击影响,会造成股市的强烈波动,使得股价( 指数) 表 现为高噪声。( 2 ) 股价自身以及影响股价的各变量之间呈现非线性特性。( 3 ) 股价系统的主体是具有主观能动性的投资者,投资者商业行为的复杂性和对 未来事件的影响能力使得预测误差相当大,并且随着时间的增加而急剧升高。 ( 4 ) 我国股市具有明显的政策性特点。 西南交通大学硕士研究生学位论文第6 页 2 2 数据挖掘概述 2 2 1 数据挖掘基本概念 数据挖掘是从大量数据中发现和提取知识,又被称作数据库中的知识发 现,即是从大型数据库或数据仓库中提取隐含的、未知的、具有潜藏应用价 值的信息或模式,是从系统内部自动获取知识的过程。在传统的决策支持系 统中,知识库中的知识和规则是由专家或程序人员建立的,是由外部输入的。 对于那些决策者明确了解的信息,可以用查询、联机分析处理或其他工具直 接获取。而另外一些潜在的关联规则和趋势信息对于预测和决策行为也是至 关重要的,这就需要数据挖掘技术来获取。 数据挖掘是数据库研究中很有应用价值的新领域,是一门交叉性学科, 涉及到机器学习、模式识别、神经网络、统计学、智能数据库、知识获取、 数据可视化、高性能计算、专家系统等多个领域。从数据库中发现出来的知 识可以用在信息管理、过程控制、科学研究、决策支持等很多方面【1 9 , 2 0 】。 2 2 2 数据挖掘的一般过程 一般而言,数据挖掘过程分为四步: ( 1 ) 数据准备( d a t ap r e p a r a t i o n ) 。数据准备包括数据集h - 茂( d a t ai n t e g r a t i o n ) 和数据选择与预分析( d a t as e l e c t i o na n dp r e a n a l y s i s ) 。通过数据集成,从操 作环境中提取并集成数据,解决语义二义性问题,消除脏数据等。数据选择 和预分析缩小数据范围,提高数据挖掘的质量。 ( 2 ) 数据挖掘( d a t am i n i n g ) 。利用数据挖掘方法分析数据库中的数据。 ( 3 ) 表述( p r e s e n t a t i o n ) 。将挖掘获取的信息以便于用户理解和观察的方 式反映给用户。 ( 4 ) 评价( a s s e s s ) 。评定分析结果的满意程度。 2 2 3 数据挖掘的功能 数据挖掘主要有以下五类功能 2 0 , 2 1 】: ( 1 ) 概念类描述。概念描述就是对某类对象的内涵进行描述,并概括 西南交通大学硕士研究生学位论文第7 页 这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某 类对象的共同特征,后者描述不同类对象之间的区别。 ( 2 ) 分类与预测。分类指的是从数据库中选出类标号已知的训练集,对 该训练集运用数据挖掘的分类技术,建立分类模型,利用该模型对类标号未 知的数据进行分类。预测与分类类似,不同之处在于,分类处理的是离散型 变量,而预测处理的是连续型变量。 ( 3 ) 关联分析。若两个或多个变量的取值之间存在某种规律性,就称为 关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出 数据库中隐藏的关联网,从而决定哪些事情将一起或按顺序发生。 ( 4 ) 聚类分析。聚类是将数据对象分组成多个类或簇,在同一个簇中的 讨象具有较高的相似度,而不同簇中的对象差别较大:聚类和分类的区别是 聚类不依赖于预先定义好的类,不需要训练集。 ( 5 ) 孤立点分析。在大量数据中可能包含一些数据对象,这些数据与数 据的一般行为或模型不一致,这些数据对象成为孤立点。通常这些数据对象 被视为噪声或异常而丢弃,但有时候这种数据很有用( 如在信用卡欺骗检测 中,以付款数额特别大来发现信用卡的欺骗性使用) 。 2 3 股市常用的数据挖掘分析方法 近年来,多种数据挖掘方法被应用于股票数据挖掘,本节主要介绍几种 当前热点研究应用方法:神经网络预测法,关联规则挖掘法,聚类分析和分 类分析方法。 2 3 1 神经网络预测方法 各种预测方法中神经网络预测法是近年来研究的热点预测方法。人工神 经网络,也叫联接机制方法。其产生是从生物学上取得的灵感,用实现模拟 生物神经元的某些基本功能的元件组织起来,它是受人脑的神经元及其相连 而成的网络结构的某种启示,试图通过大量神经元间并行的协同作用来实现 智能模拟功能,也称为并行信息处理方法。神经网络在解决模式识别、非线 西南交通大学硕士研究生学位论文第8 页 性回归及优化等方面独有的优点和成效。并且由于神经网络具有较为坚实的 理论基础,与多种技术结合解决了多种领域的困难问题。,同时,由于神经网 络具有一些十分吸引人的特点,如复杂系统、并行处理、分布存储、可变结 构、高度容错、非线性运算、自组织等,因此神经网络是预测研究中极为重 要的技术和方法【1 8 , 2 2 】。 神经网络预测模型的思想是在给定的预测精度下通过给定的训练样本进 行机器训练,建立输出与输入之间的函数关系,即为预测方程。文献 2 3 2 6 1 讨论了各种各样的神经网络应用到股价序列预测上来。针对中国股票市场预 测,文献 2 7 3 0 探讨了多种神经网络改进方法。文献 2 3 】利用b p 神经网络, 建立7 个输入、两个输出的神经网络股票预测模型,然后根据近几个交易日 的预测结果进行买卖决策;文献 2 8 】应用模糊曲线分析法进行了输入变量的 筛选,应用神经网络进行股票中期预测;文献【1 8 】讨论了单步预测和多步预 测。根据所读文献,归纳出主要有以下几类“预测对象”:股票价格的预测, 包括后一天的股价( 又称为单步预测) 和后几天的股价( 又称为多步预测) ;股票 综合指数的预测;股票发行定价的预测。神经网络进行股票预测的主要缺点 是,预测时间短,准确率不高,训练神经网络需要较多经验。 2 3 2 关联挖掘 关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联 系的有关知识。它可以揭示数据间的依赖关系,根据这种关联性就可以从某 一数据对象的信息来推断另一对象的信息。 在证券市场中,每天有大量的股票交易行情数据( 时间序列数据) 存入数 据库,由于政治、经济以及上市公司本身等原因,某些股票价格会在一定时 间内出现相似或相反的趋势。挖掘这些数据或股票之间的关联规则有利于投 资者了解各种股票的走势及股票之间有关系,进一步分析上市公司的各种政 策和方案,从而做出正确的投资决策。文献 3 1 1 中提出了一种应用经典a p r i o r i 算法在股票行情数据中挖掘关联规则的方法,该方法的目标是在股票行情数 据中找出类似于“t 天内,如果a 股票价格上涨,则b 股票价格也是上涨的 概率是8 0 ”的关联规则。但对于投资者来说类似于下面的规则更能引起他 西南交通大学硕士研究生学位论文第9 页 们的兴趣:“如果当天a 股票上涨,b 股票在第二天上涨,则c 股在第四天 上涨”。国内其他学者在这方面也做了相当的研究,文献 3 2 1 对股票时间序列 的挖掘,分别探讨了一维和二维关联规则的发现;文献f 3 3 1 通过一个具体的 实例描述了从股票时间序列中挖掘一维关联规则的方法;文献 3 4 1 在时间序 列中引入多重时间粒度,以模糊规则的形式给出数据挖掘的结果。文献 3 5 】 则提出将正则化神经网络与r o u g h 集理论相结合应用于股票时间序列数据库 的挖掘。 2 3 3 聚类分析方法 聚类分析是一种重要的人类行为,它的目的是把相似的东西归为一类, 使得类内具有较大的相似性,而类之间具有较小的相似性。文献【9 ,2 1 ,3 6 :i 1 匾 过聚类技术对上市公司财务报表进行分析,先将某些具备相似特征的上市公 司提取出来,这些公司的股票趋势往往具有相似性,此时再对这些提取出的 上市公司财务报表进行具体分析,从而达到准确预测该上市公司股票趋势的 目的。文献 3 7 】将聚类分析方法用于股市板块划分。文献1 3 8 - 4 0 】通过挖掘 历史交易记录信息,发掘、聚类划分出优质客户群,同时根据聚类划分出的 不同群组,为营销方式和开展有针对性的股票咨询提供指导。 2 3 4 分类分析方法 分类方法被用来抽取能够描述重要数据集合的模型,此模型可用于预测 数据对象的离散类别。分类和聚类的区别是分类需要预先定义好的类作为训 练集,通过训练集构造分类器进行。 分类分析在股票分析应用思路与聚类方法相似,文献 4 1 】在给定上海证 券交易所中所有交易的股票的基本会计和价格信息的情况下,使用贝叶斯法 来辨识那此超越市场指数而可望获得额外回报的股票。文献 4 0 1 j 通过基于粗 糙集的方法对客户细分,预测客户对一个交易活动参与的可能性,从而判断 其价值。文献 4 2 4 4 】运用神经网络的学习联想能力,对股市价格变化模式进 行分类。 西南交通大学硕士研究生学位论文第10 页 2 4 本章小结 本章介绍了股票分析的鹜景知识和股市分析主要露临的难题,概述了数 据挖掘的基本概念和功能,介绍了数据挖掘的般过程,在搜集研究囡内外 相关文献的基础上,介绍了数据挖撅技术在股票分析中的主要应角方法。 西南交通大学硕士研究生学位论文 第11 页 第3 章基于事件研究的推荐股票特征分析 3 1 事件研究方法的基本原理 经济学家们经常要研究一件具体的事情对企业价值的影响,事件研究就 是分析事件对公司股价影响的一种办法。在理性的金融市场上,一个事件的 影响会迅速反映到股票价格中,事件的影响可以通过股票价格在短期内的变 化来衡量【4 5 0 1 。 最先采用事件研究方法的是d o l l y ,他以美国股票市场的9 5 个股票拆 分事件作为样本,对股票拆分事件发生引起的股票价格的变化进行了研究。 他发现,在9 5 起拆分事件中,有5 7 起引起了股票价格上升,2 6 起引起了 股价下降,另外1 2 起没有引起明显反应【5 1 】。我国近年来使用事件研究方法 以上市公司为对象进行实证研究,如应用事件研究方法分析季报对股票价格 的影响,对我国证券市场年报公告日效应进行研究,中国a 股市场对增发事 件反应的实证研究等等【5 2 聊】。 事件研究方法通常包括以下步骤【5 2 j : 1 对事件的定义。事件研究的首要任务是确定所研究的事件,并且确定 要研究的该事件引起的股票价格变化的时间区段。例如,如果要研究宏观政 策事件对于股票价格变化的影响,首先应该选取符合要求的宏观经济政策事 件,例如重要法律的颁布,然后确定在信息颁布前后的多长时间中研究股票 价格的变化。 2 取样标准。界定事件后,有必要确定取样标准。取样标准可能会受比 如股票交易所上市公司数据可获性( d a t aa v a i l a b i l i t y ) 的限制,也可能受特殊 行业的会员之类的限制。在此阶段,归纳出一些样本特征( 如:公司市场资 本化、行业代表、事件发布的时间分布等) 并注明通过选样可能导致的任何 倾向性是十分有用的。 3 建立正常收益和非正常收益计算模型。评估事件的影响需要计算非正 西南交通大学硕士研究生学位论文第12 页 常收益( a b n o r m a lr e t u r n ) 。非正常收益即事件期间内该证券事件发生前或事 件发生后实际收益与同期正常收益之差,而正常收益是指假设不发生该事件 条件下的预期收益。对于公司i ,事件发生日t 来说,非正常收益为: a r 打= r n e ( r 打i x ,) ( 3 - 1 ) 其中,a r i 。、r i 。和e ( r i , i x 。) 分别为t 期的非正常收益、实际收益、正常 收益。x 。是正常收益模型的限定内容。正常收益模型通常有两种:固定平均 收益模型( t h ec o n s t a n tm e a nr e t u r nm o d e l ) ,其中x t 为常数;市场模型( t h e m a r k e tm o d e l ) ,其中x 。为市场收益。顾名思义,前一模型中假定某一证券 的平均收益不变,即为常数,后一模型假定市场收益与证券收益之间存在稳 定的线性关系。 4 确定正常收益模型后,则需要进行估计。在界定估计期时,最常见的 是把事件期间之前的时期作为估计期,比如,在运用每日数据及市场模型的 事件研究中,市场模型的参数估计期可定为事件发生前的n 天( n 的大小由 研究者根据情况自行选择,一般n 3 0 ) 。正常收益模型的参数估定后,便可 计算出非正常收益。 5 检验过程。接下来,需要设计非正常收益的检验框架。此处需要着重 考虑的是零假设( t h en u l lh y p o t h e s i s ) ,并且确定综合计算非正常收益的方法。 6 实证结果。实证的结果跟所采用的计量经济学方法有直接的关系。除 了描述出最基本的实证结果以外,诊断性的说明也极为有用。有时,特别是 当研究的事件个数非常有限时,一两个事件可能会对整个实证结果产生严重 影响。注意到这一点,对于评价实证结果是至关重要的。 7 解释和结论。比较理想状况的是,实证结果能够导引出有关事件对股 票价格产生影响的原因。另外,也可以加上其他的一些说明,将自己的分析 与别人做的类似分析进行比较。 3 2 分析数据的来源 3 2 1 证券分析师推荐股票数据的选择 证券分析师推荐股票数据来源:上海证券报每周一“本周股评家最为 西南交通大学硕士研究生学位论文第1 3 贾 看好的个股”这一栏目也给我们提供了荐股统计数据。该栏目所荐个股为上 周末本报以及其他证券类报刊中国证券报、证券时报、购物导报证券 大周刊、青年导报证券大参考、金融投资报、江南时报大江南证券、 大众证券报、信息早报价格与时间、购物导报股市快报、现代家 庭报证券投资指南中推荐频率较高者,亦即本周股评家最看好的个股。该 栏目选取了多家主流证券类媒体上的机构荐股,样本选取的范围相对较广, 更具有一定的有效性。本文选取的数据为时阉从2 0 0 7 年1 月8 嚣到2 0 0 8 年 1 月4 日,推荐人次为5 次及以上的推荐股票数据,总共2 2 8 6 条。 3 2 2 交易数据的选择 股票行情数据来源:扶“聚源数据工作站 下载了沪市a 殷的股票行情 原始数据与复权数据,包括开盘价、最高价、最低价、收盘价、成交量、成 交金额。由于股票存在分红送股配股等情形,会造成价格和成交量的断层, 故而本文涉及的数据均为复权数据,复权数据的计算起始日期为1 9 9 0 年1 月1 躁。 3 3 证券分析师推荐股票总体特征 3 3 1 事件研究方法模型的建立 1 确定事件和检验时闻区阆。在本文的分析中,将证券分横师推荐股票 信息发布日( 上海证券报“本周股评家最为看好的个股”这一栏目发表日) 定义为“股票接荐事件酲 。将事 孛前后一段时闻分成两段:估计期和事件期, 事件期再分为事前检验期和事后检验期,估计期交易数据用于估算正常收益 率与成交量,方法一取交易日前后6 0 个交易日区间为估计期,方法二取交痨 日前1 2 0 个交易日为估计期,事前检验期为证券分析师推荐股票信息发布前 6 0 个交易日,事后检验期为证券分析师推荐股票信息发布后6 0 个交易日。 2 计算收益率。事件研究方法不是直接考察事件发生对股票价格变动的 影响,而是通过考察事件发生前后累积非正常收益率的变化来判断事件对股 份波动的影响。首先需要计算检验期内的目收益率。目收益率r 酶计算见公 西南交通大学硕士研究生学位论文第14 页 式( 3 2 ) ,其中t 为日期编号,p 。为第t 日股票复权收盘价,第t 日的日收益 率为r t 。 尺;= 上 ( 3 2 ) ( - 1 3 确定统计模型,估计正常收益率。对于正常收益率计算的研究具有两 个方向,一是考虑运用因子调整的方法,如考虑规模、行业的影响来综合计 算正常收益率;一是在基本模型的基础上,进一步综合市场、价格生成的特 征来改进或分解计算步骤。主要有如下三种基础性模型1 5 4 】: ( a ) 均值调整收益( m e a na d j u s t e dr e t u r n s ) 均值调整收益模型假定某种证券i 的事前期望收益等于一个常量k i ,该 常量在各个证券之间是不同的;证券i 在时期内的预期事后收益等于k i 。非 正常收益等于观察到的收益与预期收益之间的差额。 ( b ) 市场调整收益( m a r k e ta d i u s t e dr e t u r n s ) 该模型假定公司间的事前预期收益是相等的,但对特定的证券来说,收 益则不一定是恒定的。因为风险资本的市场组合是所有证券的线性复合,该 方法具有较强的时序性特征。 ( c ) 市场和风险调整收益( m a r k e ta n dr i s ka d j u s t e dr e t u r n s ) 这就是人们所熟悉的市场模型。 陈汉文、陈向民的研究表明,均值调整模型在不同情况下对事件研究有 很多优于市场模型的特点,运用均值调整模型可以更有效地达到探测股票价 格事件性表现的目的【5 4 1 。本文对正常收益的计算采用了均值调整模型的方 法,方法一使用股票当日的前后各6 0 个交易日与当日( 共计1 2 1 个交易日) 的收益率平均值作为正常收益率,见式( 3 - 3 ) 。因为在实际数据挖掘中,无 法提前知道当日之后的股票交易数据,故使用股票当日之前m ( 本文取值 1 2 0 ) 个交易日的收益率平均值作为正常收益率,此为方法二,见式( 3 4 ) 。 其中i 为股票编号,r 。为正常收益率,r ,为第i 只股票第t 日收益率。 1 6 0 r i 2 二1 2 1 ,薹# r , ( 3 - 3 ) ,鱼n u “ 西南交通大学硕士研究生学位论文第1 5 页 瓦= 土m 0 , ( 3 4 ) f 岛 。 4 计算非正常收益率和累积非正常收益率。估计出正常收益率之后,就 可以计算非正常收益率。非正常收益率是指某事件i 在t 交易日中实际收益 率与正常收益率之差。计算公式为: a r i ,f r i ,- r i ( 3 - 5 ) 根据公式( 3 5 ) ,先求出股票i 在事件期1 2 1 个交易日内每天的非正常 收益率a r i t ,然后逐一计算事件期内第t 日的累积非正常收益率c a r i t , 计算公式为: c a r f , r 。ya r ii 角 j ( 3 6 ) 最后,利用公式( 3 6 ) 求全部n 个证券分析师推荐股票事件期内第t 日 的平均累积非正常收益率,如( 3 7 ) 所示: 1n c a r ,。二v c a r , ( 3 7 ) 钉 ” 5 计算非正常成交量和平均非正常成交量。同理,采用均值调整模型的 方法计算非正常成交量,分别使用股票当日的前后各6 0 个交易日与当日的成 交量平均值作为正常成交量( 方法一) ,据此计算的非正常成交量如公式( 3 8 ) 所示,和使用股票当日之前1 2 0 个交易日的成交量平均值作为正常成交量( 方 法二) ,据此计算的非正常成交量如公式( 3 9 ) 所示。设v i 。是股票i 在第t 日的成交量,a v i 。是股票i 在第t 日的非正常成交量。 a v , = k , 面1 。繇6 0 , 。培 钒2 惑mr 岛v ( 3 9 ) 西南交通大学硕士研究生学位论文第16 页 根据非正常成交量a v i 。可计算股票n 只股票在第t 日的平均非正常成交 量p a v 。,计算公式如下: 1n p a y , 。二y 彳k , ( 3 1 0 ) 留 ” 6 根据数据处理结果,对证券分析师推荐股票效应进行分析。从平均累 积非正常收益率上看,我们可以直观地判断推荐事件对股票价格是否产生影 响:如果证券分析师推荐股票信息不对股票市场产生影响,那么在信息分布 日前后,股票累积非正常收益率应保持不变,呈随机水平波动;否则就会出 现事件日或者前后检验期平均累积异常收益率的增加或者减少,表现为平均 累积非正常收益率曲线的上升或者下降。同理使用平均非正常成交量来判断 推荐事件对股票成交量的影响力。 在本文中主要使用事件研究方法来发现证券分析师推荐股票的累积非正 常收益率和非正常成交量特征,故不对证券分析师推荐股票效应进行详细分 析和对事件效应进行统计检验。 3 3 2 方法一 在该方法中使用当天前后各6 0 个交易日的平均数据作为正常收益率和 正常成交量。使用公式( 3 - 3 ) 计算正常收益率;使用公式( 3 8 ) 计算非正 常成交量。本文均使用股票的收盘价来计算收益率。本文共采样了2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论