【毕业学位论文】(Word原稿)基于粗糙集的个股指标两步择优分析-统计教育学_第1页
【毕业学位论文】(Word原稿)基于粗糙集的个股指标两步择优分析-统计教育学_第2页
【毕业学位论文】(Word原稿)基于粗糙集的个股指标两步择优分析-统计教育学_第3页
【毕业学位论文】(Word原稿)基于粗糙集的个股指标两步择优分析-统计教育学_第4页
【毕业学位论文】(Word原稿)基于粗糙集的个股指标两步择优分析-统计教育学_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

天津财经大学 基于粗糙集的个股指标两步择优分析 论文作者 : 耿磊磊 高康 汪津津 指导教师 : 杨贵军 二九年九月 2 全国大学生统计建模大赛论文 基于粗糙集的个股指标两步择优分析 基于粗糙集的个股指标两步择优分析 of of of of 3 基于 粗糙集 的个股指标 两步 择优 分析 内容 摘要: 现在 的 许多经济数据,金融数据都具有维度高、关系复杂和连续 性 等性质。对于这类数据指标的处理现在还没有很满意的方法,就这 一事实, 本文 利用 粗糙集理论 辅以 灰色关联系统的基本理论 引入两步择优过程 。 首先利用传统的灰色关联度对 数据 指标进行初步择优,选择相关性比较大的指标。其次利用 K 算法 将连续的数据进行离散化,然后再利用粗糙集对此数据进行第二步 择优。 此外,本文 将 上述 方法 应用 于 股票价格 变动的指标优选上 ,得 出 对股票价格变化率影响最为关键的指标 。 结论可以在一定程度上 指导投资者 的 投资 行为。 关键字 :粗糙集 ; 灰色关联 ; K ; 技术指标 ; 基 本面指标 1 一 、 引言 粗糙集理论是 80 年初由波兰数学家 先提出的一个分析数据的数学理论。粗糙集理论 作为一种具有极大潜力的知识获取工具 , 在 80 年代末吸引了世界各国数据挖掘领域研究者的关注。 该 理论是一种刻画不完整性和不确定性的数学方法,它能有效地分析和处理不精确、不一致、不完整的各种数据信息,并且从数据信息中发现隐含的知识,揭示数据潜在的规律 。 粗糙集理论是一门实用性很强的学科,已经在不少领域取得了丰硕的成果,如近似推理,数字逻辑分析和化简,建立预测模型,决策支持,控 制算法获取,机器学习算法和模式识别等等。 由于我国现阶段股 市运行和监管体制还不很完善 , 理论上的一些重要 指标无力对价格做出合理的解释 。 晏艳阳、胡俊( 2006)选取净资产收益率和每股收益指标代表上市公司的业绩,上海综合指数和深圳成份指数作为股票价格表征,运用时间序列分析方法,样本取值从 1993 年到 2003 年,研究发现:股票价格 变动 与上市公司业绩变化之间不存在长期均衡关系 1,说明股票价格不 完全 反应上市公司业绩 ,故而可以进一步考虑证券技术指标。 本文选取居中国 500 强首位的中石化数据, 利用 灰色关联和 粗糙集 对 该 股 票价格相关的 主要 基本面指标和 证券技术指标 综合 进行 两部择优 分析 。 值得关注的是结论中对价格变动有重要影响的都是 证券技术指标 ,由此得出在选取的时间段内,证券技术指标对该 股票价格 的影响甚于基本面指标。该方法具有一定的适用性,可应用于任何个股的任意指标体系的分析。 二、 粗糙集概述 基 本的粗糙集理论认为知识就是人类和其他物种所固有的分类能力, 分类是推理、学习与决策中的关键问题, 因此粗 糙集假定知识是一种对对象进行分类的能力。通常,数据是以关系数据库(二维表)的形式存储的。就象表格一样,每个表有许多条记录,每条记 录有许多条属 性 ,每一个属性表示待观察物体的某方面的性质。 信息系统被表示为 , , ,S U C D V f ,并且称为决策系统。此处 C 是条件性集, D 是决策属性集。条件属性 C 表示观察指标,而决策属性 D 表示根据条属性所作出的判断指标。 其中 函数 :f U A V被称为信息函数,满足关系:( , )f x a , 中 A 是 设 ,S U A V f 是一信息系统,设 , ,x y U 。在 S 中我 们说 根据 属集 P , x 和 y 是不可区分的,只要对于任意的属性 及任意的记录 ,x y U 满足 ( , ) ( , )f x a f y a 。这样,对于每一个 在 U 上生成的二元关系,我们称之2 为不可区分关系,记为 ()p 。 由于人们对世界认识的局限,因而对知识的获取也是有限的,这样得到的属性也是有限的,为合成等价关系而进行分类细化到某种程度时,就出现了不可辨别的关系,这样就形成了粗糙集理论中的“粒度”。 知识的粒度性是造成使用已知知识不能精确表示某些概念的原因,这就是产生了关于不精确的“边界”思想。粗糙集中的模糊性就是一种基于边界的概念,即一个不精确的概念具有模糊地不可被明确划分的边界。所以为了刻画模糊性,我们引入上近似和 下近似的精确概念。 设 , ,集合 Y 的 P 下近似表示为 P *Y ,其定义如下: P *Y : ( ) x Y x Y ,即 P *Y 是指利用属性集 P 判断肯定属于 Y 的 U 中元素组成的集合。 集合 Y 的 P 上近似表示为 P *Y ,其定义如下 P *Y : ( ) x Y I N D x Y ,即 P *Y 是那些利用属性集 P 判断所有可能属于 Y 的 U 中元素组成的集合。 集合 Y 的 P 边界域表示为 () ,其定义如下 : *() Y P Y P Y,即() 是指那些利用属性集 P 既不能判断肯定分到这个概念或者其补集的所有元素 组成的 。 三、择优分析过程 (一) 指标初步择优 对于一个参考 数列 0x ,有 n 个比较 数列 12, ,., ,nx x x (这些数列为无量纲的)可以用下述关联系数表示各比较 数列 与参考数列在 各 点的差。 记 : 0000m i n m i n ( ) ( ) 0 . 5 m a x m a x ( ) ( )()( ) ( ) 0 . 5 m a x m a x ( ) ( )k X k X k X k X k X k X k 为灰色关联系数。 上式 中, 0( ) ( )iX k X k 是第 k 个时刻比较数列 参考数列 0x 的相对差值,这种形式的相对差值称为 0x 在 k 时刻的关联系数,其中的 分辨率,一般在 0 和 1 之间选取。 由于关联系数很多,信息过于分散,不便于应用,因此我们选取了一个综合指标 比较数列 参考数列 0x 的关联度,表示为:11 ()n ii 。 在实际问题的研究过程中 ,我们对数据指标的初步择优就是基于关联度,主要考虑选取那些与比较数列关联度较大的数列,对于那些 关联度较小的数列我们3 予以筛选排除。 (二) 指标的第二步择优 对于连续属性的属性,我们的首要工作是将其进行属性的离散化, 我们采用传统的 K 算法。 K 算法是一种应用广泛的数据聚类 离散 算法。在用户指定了离散化产生的区间数目 K 后, K 算法首先从数据集中随机找出 K 个数据作为 K 个初始区间的重心;然后,根据与这些重心的欧几里德距离,对所有的对象聚类:如果数据 x 距重心 G ,最近,则将 x 划归 G ,所代表的那个区间;然后重新计算各区间的重心,并利用新的重心重新聚类所有样本。这样逐步循环,直到所有区间的重心不在随算法循环而 改变为止。 经过 K 算法计算之后我们可以顺利的将连续属性的知识库转变成一张决策表,从而为我们采用粗糙集进行数据分析做好了前期的准备工作。 决策表根据其条件属性和决策属性之间的关系可以分为一致决策表和非一致决策表。本文中所要研究的是非一致决策表的约简。对于非一致决策表的约简通常有两种做法:一种是考虑正域的变化,一种是将不一致表分为完全一致表和完全不一致表两个子表。本文采用的是第二种做法。为了使得我们的表述更为清楚,下面引进相关的概念。 设 ,S U A V f ,,如果 R 是独立的,且 ( ) ( ) P R 则称R 为 P 的一个约简。 P 的所有约简记为 () 。 设 ,S U A V f , 。 S 的区分矩阵是一 矩阵,此矩阵的元素值为:( , ) ( , ) ( , ) , ,a x y a A f x a f y a x y U 。即 ( , )ax y 是区别对象 x 和 y 的所有属性 的集合。分明矩阵消除了在分类中不起作用的信息, 保持了 信息系统中的差异信息,直观地表达了信息系统中记录间属性关系。 命 题 1 : 每个决策表 ( , , , )S U A C D ,都可以惟一的分为两个决策表 : 11( , , , )S U A C D 和 22( , , , )S U A C D ,这样使得表 C 1D 和 C 0D。这里的 12( ) , ( ) , / ( ) O S D S B N X X U I N D D 。 值约简是对决策表的一种简化。决策表中一条实例可以看作一条规则,其中可能包含冗余属性值,因此对实例属性值的约简就是决策规则的约简。决策规则的约简是分别消去每个规则的不必要条件,它不是整体上约简属性,而是针对每个决策规则,去掉表达该规则时的冗余属性值,以便进一步使规则最小化。对决策表而言,它使表的形式更简单,又尽可能地保留原表的信息。 四、指标数据选择 本文用常用的证券技术指标(来自中国证券网)和基本面指标来 构造决策表 ,利用灰色关联模 型对决策表的条件属性进行初步 择优 ,然后利用 K 将其离散化 和 粗糙集对决策表进一步约简 来进行指标第二步择优 。 4 选取的指标 具体如下: ( 一 ) 证券技术指标 成交量:股票一天的成交数量 成本均线 : 指 个量价均发挥作用的均线 。 市场盈亏 : 指在 既定 交易日内入场的短线投资者的浮动赢利或浮动亏损情况 , 市场盈亏 过大就是超涨,过小就是超跌 。 乖离率 : 反映股价在波动过程中与移动平均线偏离程度的技术指标。 威廉指标 : 表示当天的收盘价在过去一段 时间 的全部价格范围内所处的相对位置 ,是一种兼具超买超卖和强弱分界的 指标。 指数平滑异同移动平均线 : 利用短期移动平均线与长期移动平均线之间的聚合与分离状况,对买进、卖出时机作出研判的技术指标 。 ( 二 )基本面指标 市盈率: 股票市价与其每股收益的比值 , 由于市盈率把股价和企业盈利能力结合起来,其水平高低更真实地反映了股票价格的高低。 市净率: 市净率指的是市价与每股净资产之间的比值 , 市净率较低的股票 ,投资价值较高 ,相反 ,则投资价值较低 。 对成交量取增长率,其他指标保持不变。取 次日收盘价增长率 为决策属性。 五、 实证分析 中石化( 600028)是石 油板块的权重股,选取其 30 个交易日的指标数据及股价数据,具体 数据 见 附录 一 。 数据的选取 :中石化 A 股收盘价及上述指标 数据来源 : 中国证券网 样本区间 : 2009 年 6 月 30 日 2009 年 8 月 11 日 (一)指标初步择优 将 附录一 看作是一个决策表,将 次日 股票价格视为决策属性,其余的视为是条件属性。由于条件属性是 8 个,我们可以利用灰色关联度先计算属性的重要性, 将指标进行初步择优。 首先将数据 进行 预处理。 将各列数据( 除年分外)无量纲化(初值化),变为相应的增长率的形式。 计算各比较数列与参考数列的关联系数, 从而得到关联度如表 一 所示。 表 一 关联度 成交量 成本均线 市场盈亏 乖离率 威廉指标 指数平滑异同移动平均线 市盈率 市净率 们给定阈值 , 根据表 一 所示, 从决策表中 我们可以看到次日股价的增长 率 与 指数平滑异同移动平均线、乖离率 、市净率、 市场盈亏 、 成本均线 有较大的关联度 。 由此,我们选取这些指标为初步择优指标。 把 关联度 比较低的两个5 属性 , 成交量( 市盈率( 掉 。 这就从技术上说明成交量和股价并不总是价量齐升,市盈率的基本面指标在中国 证券市场机制不完善的背景下适应性不是很好,而除此之外的指标对股价具有较好的研究价值 。 (二)指标的第二步择优 利用前面提到的 K 法,将条件属性和决策属性分别进行离散归类。利用 到以下的分类情况和断点 , 见表 二 。 离散化的结果见表 三 。 表 二 各个分类所代表的数值区域 聚 类 条件属性 1 2 3 4 成本均线 市场盈亏 乖离率 威廉指标 0, 指数平滑异同移动平 均线 市净率 决策属性 1 0 次日收盘价增长率 表 三 离散化结果 时间 成本 均线 市场盈亏 乖离率 威廉指标 指数平滑异 同移动平均线 市净率 次日收盘价 增长率 20090701 1 1 2 2 2 1 1 20090702 1 2 2 1 3 1 1 20090703 1 3 3 1 3 1 1 20090706 1 3 3 1 3 1 0 20090707 2 3 2 1 3 1 0 20090708 2 2 2 2 3 1 1 20090709 2 3 2 1 3 1 0 20090710 2 2 2 2 3 1 0 20090713 2 2 2 2 3 1 1 20090714 2 2 2 1 3 1 1 20090715 2 2 2 1 3 1 0 20090716 2 2 2 2 2 1 0 20090717 2 1 1 3 2 1 1 20090720 2 2 2 2 2 1 1 6 20090721 2 2 2 2 2 1 1 20090722 3 4 3 1 3 2 1 20090723 3 4 3 1 4 2 1 20090724 3 4 3 1 4 2 0 20090727 3 4 3 1 4 2 0 20090728 3 4 2 1 4 2 0 20090729 4 3 2 1 4 2 0 20090730 4 3 2 2 4 2 1 20090731 4 3 2 1 3 2 1 20090803 4 4 2 1 4 2 1 20090804 4 4 3 1 4 2 0 20090805 4 3 2 2 3 2 0 20090806 4 2 1 3 2 2 0 20090807 4 1 1 3 2 2 0 20090810 4 1 1 3 1 2 1 20090811 4 1 1 3 1 2 0 经过上面的操作,我们得到了 非一致决策表 ,下面我们将对该表进行指标 的约简 。 ( 1) 分离原表 根据命题一,将 离散后的决策表 分离成两个子表:表 四 和表 五 。其中表 四 是完全不一致表, 这个表在约简过程中不予以处理,最后的时候将其直接写成决策规则即可。但是需要注意的是,我们已经把把该表中完全相同的重复行进行了约简。例如: 20090706 与 20070709 两个对象所代表的条件属性和决策属性 完全相同,所以只需要 保留 一个即可。我们选择了 2008706 这个对象。诸如此类的还有对象 20090708 和 2090713; 对象 2009070720 和 20090721; 对象 20090724 和20090727。经过这样的操作我们得到了表 四 。对于表 五 需要我们进行下一步的处理。 表 四 完全不一致表 时间 成本均线 市场盈亏 乖离率 威廉 指标 指数平滑异同 移动平均线 市净率 次日收盘价 增长率 20090703 1 3 3 1 3 1 1 20090706 1 3 3 1 3 1 0 20090708 2 2 2 2 3 1 1 20090710 2 2 2 2 3 1 0 20090714 2 2 2 1 3 1 1 20090715 2 2 2 1 3 1 0 7 20090716 2 2 2 2 2 1 0 20090720 2 2 2 2 2 1 1 20090723 3 4 3 1 4 2 1 20090724 3 4 3 1 4 2 0 20090810 4 1 1 3 1 2 1 20090811 4 1 1 3 1 2 0 表 五 完全一致表 时间 成本均线 市场盈 亏 乖离 率 威廉指标 指数平滑异同 移动平均线 市净率 次日收盘价 增长率 20090701 1 1 2 2 2 1 1 20090702 1 2 2 1 3 1 1 20090707 2 3 2 1 3 1 0 20090717 2 1 1 3 2 1 1 20090722 3 4 3 1 3 2 1 20090728 3 4 2 1 4 2 0 20090729 4 3 2 1 4 2 0 20090730 4 3 2 2 4 2 1 20090731 4 3 2 1 3 2 1 20090803 4 4 2 1 4 2 1 20090804 4 4 3 1 4 2 0 20090805 4 3 2 2 3 2 0 20090806 4 2 1 3 2 2 0 20090807 4 1 1 3 2 2 0 ( 2) 决策表 的条件 属性约简 为了对决策表进行 条件属性 约简,我们可以采用前面介绍的分明矩阵的方法对条件属性进行约简,只不过我们是通过决策属性来得到等价类,对决策属性相同的个体不予以比较。现在将各个属性用相应的字母代替。见表 六 。并将上表中的 14 个对象依次以 1, 2, , 14 表示。 表 六 对应表 a b c d e f g 成本均线 市场盈亏 乖离率 威廉指标 指数平滑异同移动平均线 市净率 次日收盘价增长率 由于决策属性为 1 的对象为 1, 2, 4, 5, 8, 9, 10,决策属性为 0 的对象为 3, 6, 7, 11, 12, 13, 14,所以每个集合的两两组合都不进行比较。在表七 中黄色所代表的区域为决策属性为 1 的对象组合,绿色的区域为决策属性为 0的对象组合。 根据前面所提到的分明矩阵的算法,如对象 1 与对象 3 进行比较,其中条件属性 a,b,d,e 是不相同的,于是在 1, 3组合中的值是 a,b,d,e们可以得到 完全一致决策表 的分明矩阵 : 8 表七 分明矩阵 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 a,b,d,e a,b 4 a,b,c,d,e 5 a,b,c,f 6 a,b,d,e,f a,b,e,f a,b,c,d,e,f c,e 7 a,b,e,f a,b,e,f a,b,c,d,e,f a,b,c,e 8 a,d,e,f a,b,d e 9 a,f a,b,e e 10 a,b,e,f a b 11 a,b,c,d,e,f a,b,d,e,f a,b,c,d,e,f a,e b,c,d b,c,e c 12 a,b,e,f a,b,d,f a,b,c,d,e,f a,b,c,d e d b,d,e 13 a,b,c,d,f a,c,d,e,f a,b,f a,b,c,d,e b,c,d,e b,c,d,e b,c,d,e 14 a,c,d,f a,b,c,d,e,f a,f a,b,c,d,e b,c,d,e b,c,d,e b,c,d,e 从分明矩阵中我们得到核为 a,b,c,d,e。 这样就得到择优指标 成本均线指标 、 市场盈亏指标 、 乖离率 、 威廉指标 、 指数平滑异同移动平均线 。 值得关注的是这些都是 证券技术指标 ,由此得出在选取的时间段内,证券技术指标对该 股票价格的影响甚于基本面指标。 本文在实例中,同时给出了相应指标的决策规则(附录二),这些规则 的精炼度不是很理想(三十个样本得到了十九条决策规则,并且其中有六条是非一致规则)。这从侧面说明了股市的强不可预测性。 六、 结论 本文通过数据挖掘的灰色关联和粗糙集方法, 对 中石化 股票价格相关的 主要基本面指标和 证券技术指标 综合进行 两步择优 分析, 发现两步择优方法对于具有高维度、复杂性和连续性的指标数据能够有效地进行离散 、 归类最终约简得到我们所需要的最优的指标。 得到的择优指标可以在一定程度上 指导投资者 的 投资 行为。该方法的适用性很宽泛,可应用于任何个股的任意指标体系的分析。 在本文 的实证部分, 我们 最终得到的 2009 年 7 月 1 日至 2009 年 8 月 7 日 中石化的股价 择优 分析 指标为: 成本均线指标 、 市场盈亏指标 、 乖离率 、 威廉指标 、 指9 数平滑异同移动平均线 。 这一结果具有时效性,反应的是 在上述时间段内( 中国股市 2008 年低触底回升, 在金融危机的影响逐渐减弱之后, 2009 年 5 月份以后进入一个 平稳 缓慢的上升通道 ),在这种情况下,发现证券技术指标对该 股票价格 的影响甚于基本面指标。 10 参考文献 1 晏艳阳 ,胡俊 . 股票价格与上市公司业绩的关联分析 对中国证券市场的研究 J2006,24(8). 2 资学 M机械工业出版社 ,2006,357 3 史忠植著 . 知识发现 M, 清华大学出版社 ,2002,1434 张文修 ,吴伟志 . 粗糙集理论介绍和研究综述 J, 2000, 14(4). 5 韩祯祥 ,张琦 ,文福栓 . 粗糙集理论及其应用 J1998,27(1). 6 张文修 ,吴伟志 ,梁吉业 . 粗糙集理论与方法 J ,2001,2 7 陈欢 J2004, 32( 4) . 8 刘洪艳 , 王万军 J. 甘肃教育学院 报 ,2002,16(3). 9 陈晓红, 陈岚 J, 2003, 19(4). 10 洪军 , 柯涛 理论的产业竞争力综合测评分析 J2004,29(6) . 11王俊 ,王来生 ,徐义田

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论