【毕业学位论文】(Word原稿)基于随机森林的上市公司财务危机预警分析-统计教育学_第1页
【毕业学位论文】(Word原稿)基于随机森林的上市公司财务危机预警分析-统计教育学_第2页
【毕业学位论文】(Word原稿)基于随机森林的上市公司财务危机预警分析-统计教育学_第3页
【毕业学位论文】(Word原稿)基于随机森林的上市公司财务危机预警分析-统计教育学_第4页
【毕业学位论文】(Word原稿)基于随机森林的上市公司财务危机预警分析-统计教育学_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 基于随机森林的上市公司 财务危机预警 分析 中央财经大学 摘要 本文在现有对上市公司财务分析技术的基础上,借助于杜邦分析系统的思路, 对影响上市公司运营状况的财务变量进行了系统的分析和筛选 。 通过随机森林算法建立了对上市公司财务危机预测 (以 标志) 的模型 ,并对 两类分类 误差的权衡进行了分析, 给出了变量对分类的重要性排序。其次 分类效果 的 反馈验证了财务变量选取的有效性 。 同时 , 相比于国内学者类似研究,本文 在分类误差上得到了更高的精度。 在灵敏度分析中,针对 两类误差权重设定、 训练 集合样本数量、两类样本抽样比率对分类 精度的影响进行了深入的讨论,并给出了有助于提高分类精度的适应性方法。 最后通过 划分行业后的 样本进行 了分类 , 对不同行业单独应用随机森林算法,得出了更好的分类精度,验证了行业的差异性以及行业划分的必要性。 关键字: 财务危机 机森林 一、 引言 市场经济作为竞争型的经济 制度 ,在优胜劣汰的规律下,促进了企业生产、经营的效率和效益,同时 也加速了落后企业的破产。这种竞争机制从宏观层面看,通过淘汰在当下经济环境里无法适应市场需求和发展的企业,从而成就了资源的效率最大化。但从微观层面看, 若企业在竞争中出于劣势 或与市场规律不兼容, 企业往往陷入财务危机 , 由此引发的破产风险 也 意味着 利益相关者 的损失。因此基于市场经济导向性,企业经营风险以及其利益相关者的考虑, 资本市场 有必要发展一种自我评估技术 以分析企业的经营能力 。对企业自身来说,一种有效的分析和预警机制可以管理和控制风险并对企业经营策略进行及时的调整与改进;对投资者而言,投资者可以以此技术分析 对上市公司的投资风险,确保投资盈利;对银行等债权人而言,可以评估借款企业的信用风险、确定借款利率并跟踪贷款公司违约风险。 一般来说,财务危机是指企业无力按时偿还到期的无争议的债务 的困难与危机。 1968)认为 “企业失败包括在法律上的破产、被接管和重组等 ”,其实质是把财务危机等同于企业破产,这是最准确也是最极端的标准; 2 (1966)认为 “银行透支、未支付优先股鼓励、债券违约 ”为财务危机之标志;1972)认为 企业财务危机是由于流动性不足、权益不足、债务拖欠等因素;而 人则认为 “财务危机指企业经营性现金流量不足以抵偿到期债务 ”。总上所述,企业陷入财务困境的主要原因是盈利能力不足,可持续经营能力下降从而导致企业违约可能性增加。 我国 学者以及法律法规对财务危机没有像上述如此鲜明的定义和界定。其次, 由于信息不对称,即管理者与企业自身信息、投资者、债权人与管理者的获取信息差异, 企业在何时、何种情况下发生财务危机也不得而知。 同时,企业陷入财务困境是一个动态、连续的过程而并非简单地划分为陷入财务困境和没有陷入财务困境两种类别。 再次,中国资本市场发展较晚,还没有形成自己的规律和特点,导致学者无法准确挖掘中国企业财务危机的本质。 在本篇实证研究论文中,我们需要可以观测到的标准来确定样本属性,即某一时刻的某一上市公司的财务状况以及是否发生财务危机。鉴于 定义财务危机的困难以及所得上市公司年度财务数据的属性,我们认为财务危机的标志为沪深两市的上市公司因财务状况异常而被 “特别处理 (。 这样界定财务危机的具体原因是:我国资本市场尚无一家上市公司破产清算,以外国部分学者提出的以破产为标准不合适;上市公司是否被 有可测性,信息来源可靠;被 绝大数上市公司是因为连续两年在年度报表中表现出连续亏损或最近一年的每股净资产低于每股面值,或者同时出现两种情况,这说明是否 上市公司的财务状况有非常良好的概括性和解释能力,在很大程度上度量了财务危机。 因此本文 对财 务危机的研究也以被 上市公司展开。这种对财务危机的界定方式在国内类似分析中 比较 主流,如陈静( 1999),张玲( 2000) ,张鸣( 2005)等。 国 外学者对财务危机的分析研究主要基于财务报表分析 ,其具体 方法 是研究会计变量、会计比率对公司财务的影响。研究结果发现财务危机 是否会发生很大程度体现在财务比率上,如 一般国外的方法如下:( 1)单变量分析: 1932)应用单个财务比率将样本划为破产和非破产两组并将其配对,最终发现判别能力最高的是权益收益率 (资本结构 (权益负债率 )两个会计指标。 ( 2) 一元判别分析: 1954间的 79家财务失败企业和 79加持续经营的企业的 30个财务比率进行了研究,并认为:现金债务比、资产收益率、资产负债率对预测财务危机是有效的,而现金债务比预测效果最好,预测的准确率达 80%以上。但该指标对持续经营企 业预测的准确率高于财务失败企业,在一定程度上影响了模型的优越性。( 3) 多元判别分析: 取了 1946间规模相似的的 33 家破产和持续经营公司为样本并配对 从企业变现能力、偿债能力、盈利能力 、发展能力、变现能力五个方面的的财务比率中选取了营运资本 /总资产、留存收益 /总资产、息税前收益 /总资产、股票市值 /负债账面价值和销售收入 /总资产五个指标建立了型,并在 1977 提出改进的 型。 型选用了资产收益率 (盈利波动率、流动比率、资本化率和总资产作为指标,分别表示企业的各种特征,最终 型得到广泛的认可和应用。 ( 4) 型:1980)采用 型, 应用 数进行回归分析, 并引进了与公司特征有关的哑变量。 他的具体做法 是通过回归分析得出公司财务危机的 3 概率测度,并通过此概率判断公司的经营风险。 此模型在预测能力和稳健性具有显著的优越性。 国内学者使用的研究方法主要与国外的方法相同,主要差别是选取的财务指标不同。 具体所选指标如下表 1 所示 。 表 1 历史研究中选取的指标一览 学者 财务指标 陈静 ( 1999) 张玲 ( 2000) 吴世农 ( 2001) 薛峰 ( 2003) 每股净利润 每股净资产 资产 收益 率 权益报酬率 * 主营业务利润率 总资产周转率 资产负债率 总资产增长率 流动比率 长期负债 /股东权益 营运资本 /总资产 盈利增长指数 留存收益 /总资产 4 *在不同学者的研究中,同一财务指标的 计算方法、名称可能不同。 二、 本文研究方法介绍 (一 ) 随机森林综述 在 本文的 研究中,使用数据挖掘技术中的随机森林算法。随机森林方法本质是 根据训练集合 种植大量的决策树, 并 对所有决策树的预测结果进行投票从而选出被最高频率预测到的结果。 在建立决策树过程 中,属性的选择指标设定为 标。 标 所谓决策树创造的基本思想是:在对 所有属性遍历的可能的分割方法 中, 若 一种方法 能使得 小,就选择该分割 方式作为此节点的分割标准,并在进行分割以后生成的节点 根据每一个属性创建树枝,直至满足条件 为止 。 随机森林的特点是建立多株决策树时,为第 k 棵决策树生成随机向量 ,且 独立同分布于前面的随机向量 , 。 用训练集和随机向量 生成一棵决策树,得到分类模型 h(X, ),其中 X 为输入变量 (自变量 )。通过上述方法构造不同训练集增加分类模型间的差异,可 提高组合分类模型的外推预测能力。 k 轮训练后,可以得到一个分类模型序列 (X), (X), (X),再用它们构成一个多分类模型系统 ,该系统的最终分类结果采用简单多数投票法。最终的分类决策: 其中, 表示组合分类模型, 是单个决策树分类模型, Y 表示输出变量 (或称目标变量 ), I()为示性函数。该式说明了使用多数投票决策的方式来确定最终的分类。 可以证明,随机森林的预测误差 (其中 X,Y 表示是在X,Y 测度上的分布; 投票的边际函数,为实际应分到的类别所得票数与最大票数的差) 会收敛到: 5 该预测误差 由切比雪夫不等式可知 其中 s 被定义为分类器组合的强度, ),并最 终可以证明 其中 为随机向量间的相关系数。 随机森林算法的优点有:精度高、能处理大量数据;在分类过程中给出变量优越性的估计;存在大量的数据缺失时仍保证精度;运算速度快、不会产生过度拟合。 在分析财务危机时,随机森林算法需要的数据有: 1998 年到 2009 年混合行业的被 正常经营的上市公司;将上市公司分成五个主要行业类别, 1998年到 2009 年的被 正常经营的上市公司(用于行业分类下的随机森林算法)。基于对前人研究的思考和我们的分析和财 务观点,本文选取了一组不同层次的财务指标作为数据集合。所谓不同层次,即反映整体运营水平的一般性指标和反映运营细节的具体指标。财务指标的选取在下文有详细的分析。 (二 ) 财务指标选取 前人研究 财务危机时,主要用到财务比率对公司财务状况(是否 在国外的研究中则是是否破产)的回归分析,其选取的指标,根据归纳,基本是反映上市公司总体经营状况的 传统 财务比率,如资产利润率、权益报酬率、资产负债率等。 前人 通过对这些指标与公司财务危机的关系的研究, 都得到了很好的预测精度。 这些指标在公司陷入财务危机时能以很高的正确率将财务异常 公司从正常公司中区分出来 ,因为这些指标与上市公司是否被 非常强的相关性。比如,根据 定义,连续两个会计年度亏损的上市公司会被 这就说明收益指标与公司是否被 直接关系。 因此,在我们的分析模型中,这些传统指标也优先纳入考虑。 在本文的研究中, 称这一类指标为一级指标。 通过 进一步研究发现: 虽然上市公司陷入财务危机的原因基本相同(流动性危机、盈利能力下降等),但仅仅依靠少数 反映总体情况的 财务指标是难以解释上市公司财务危机的。即使个别指标可以有效地将被 市公司与正常上市公司区分开来,这些指标也会由于 过于笼统而出现解释能力不足的情况。比如若我们只选用资产利润率(衡量单位资产盈利能力的财务比率),我们可以得到较准确的分类,但由于这 个指标 具有 很强的 概括性 和标志性 ,我们无法得知某个特定上司公司经营状况的细节,也无法预知这个上市公司 在生产运营中的缺陷,比如销售利润率过低,资金周转率低等。 同时,这些传统指标也会无法蕴含充分的公司财务信息 ,无法将上市公司运营的具体情况表现出来 。 因 6 此,当这种情况存在于某一上市公司时, 早期表面 的盈利 很可能 会隐藏企业营运中存在的风险 (流动性风险、营业成本过高等) ,而忽略这些细节将使我们因 为未发掘公司潜在的营运风险而 牺牲了自己的投资 。 对于这个问题,国内的学者目前还没有过充分的研究。在我们的分析中,基于杜邦分析系统的 思想 ,我们将这些反映总体经营水平的指标 按一定方法 分解为一些反映公司运营情中体现 具体 某一个方面的指标, 增加体现公司财务状况的信息量。 我们称这一类指标为二级指标。 从指标象征属性的方面考虑,国内主流的研究仅仅考虑 “静态 ”的财务比率,如资产负债率等,而忽略 “流量 ”等统计数据,如现金比率、营运资本等 ;从会计实务角度来看,我国从 1998 年才引进现金流量表。 而 972)研究发现与 现金流等动态财务数据的指标也对公司财务状况分析起着重要的作用。 )基于传统静态财务指标和现金流指标 建模并得到同样的结论。我们的分析认为动态指标意味着公司的运转效率,在某些方面比静态财务指标有更强的解释和预警能力。因 此,在国内学者的基础上, 我们也将这些指标纳入模型。 具体指标分类 见 表 2 及表 3。 表 2 指标按等级分类 指标性质 一级指标 二级指标 偿债能力 资产负债率、资本结构 现金比率、流动比率、速动比率、权益乘数 经营效率 总资产周转率 净营 运资本 /总资产、净营运资本周转率、流动资产周转率、资产流通率、存货周转率、应收账款周转率 盈利能力及营业成本 权益报酬率、营业利润 营业利润率、营业收入 /营业成本 成长能力 净利润增长率、总资产增长 营业收入增长率、营业利润增长率、净资产增长率 资本市场表现 市净率 市盈率、 数 表 3 指标分解 7 1 权益报酬率 =资产收益率 *权益乘数 2 权益报酬率 =营业利润率 *总资产周转率 *权益乘数 3 总资产周转率 =资产流通率 *流动资产周转率 4 总资产周转率 =净营运资本周转率 *(净营运资本 /总 资产 ) 5 营业利润 /营业成本 =营业利润率 *营业收入 /营业成本 6 总资产增长率 =权益乘数 *净资产增长率 7 市净率 =市盈率 *权益报酬率 (三 ) 数据的选取 在我们的研究中,数据来源为 市公司财务数据库和证券价格数据库。所选取的上市公司数据为满足以下 条件: 1998 年到 2009 年的沪深两市所有上市公司;所取数据分别从以下上市公司中获取:在一定时间段内,上市公司在三年以后首次被 及上市公司连续四年营业正常 ; 年度数据无缺失数据;不包括被 停上市、特别转让)的上市公司。 根据公司三年后是否被 数据分为两类。 在本部分研究中,所选数据没有分年度的原因是数据缺失以及数据量不足。选择上市公司被 前第三年是基于 决定机制的考虑。例如 2008年某上市公司被 由于 2007、 2006 年两年度连续亏损或者在 2007 年每股净资产低于每股面值。那么根据 2007 年的数据来预测 2008 年的公司运营状况是毫无意义的。因此我们仅分析上市公司首次被 前第三年的数据,根据此数据对公司财务做分析。 三、 随机森林 法 对 财务危机预警 的分析 (一 ) 训练集选择 经实证研究发现,随机森林 的预测效果受 训练集合的数据影响较大 。 而影响训练 集合数据构成的因素有:两类数据样本比例、样本总量。而本文研究上市公司未来财务危机的 可能性 时 也遇到了严重的数据不平衡的困境,即:在营运正常上市公司的年度报表中,有完整数据的样本数量远远多余将来被 司的年度财务数据。在这种情况下 ,抽样方式、抽样数量也会明显影响分类,即对上市公司财务状况进行预测的精度。 根据我们的实证分析,决策树模型因训练集中数据类别不同,当不同类别的数据数量差别过大时,分类的精度在数据较多的一类较好。 因此如何选取训练集合数据需要考虑实际需求,以及错误分类在具体问题中的后果。 8 本算法在此研究中 的分类误差根据分类对象来划分主要有两类:第一类分类误差:将来被 司分类成正常运营的公司;第二类误差:将未来正常运营的公司分类成被 司。而总误差指错误的分类与预测集合样本量之比。在实际中,两种分类误差的严重性可能是不同的。 加权总误差是两类误差的加权和。如何确定两类误差的权重是由实际情况决定的。 为了选取合理的抽样比率,本文在固定的训练集合样本总量下,此研究两类数据的数量比对两类误差的影响。由于未来被 司的数据较少,为实现样本数量我们考虑复制少数类样本。 图 1 为两类误差随样本比率的变化趋势: 图 1 两类分类误差随抽样比的变化 考虑到两种分类错误后果的不平衡性(第一类误差的严重性强于第二类),根据此实证结果, 本次研究的抽样方法是将未来被 司的样本按简单随机抽样方法抽取 300 个,再将每个样本以 7 次的频率出现于训练集合(将其复制7 此行程 2100 个少数类数据 ),再随机抽取 300 个持续营运正常的上市公司样本,最终得到 2400 个训练集合样本。这 2400 个训练集合样本中,对两类数据的样本比为 7:1。 (二 ) 随机森林建立 利用 R 的 据包含两类数据 共 2400 个样本的训练集合建立 5000 株决策树的随机森林决策模型。通过调整每 个随 机 划分树 选取的变量个数,利用测试集合来检验模型预测的准确性,得到预测总体误差变化趋势 ,如下图 2 所示 。 9 图 2 总体误差变化趋势图 在深入的分析中,我们还考虑了两类误差,即将三年之后被 公司预测为 连续 正常经营公司的误差 , 以及将 连续 正常运营公司预测为 三年后被 图 3(1)和图 3( 2) 分别表示预测误差 随 每次 随机划分 时随机变量选取个数 的变化 。 图 3 二类误差趋势图 在实际情况中,预测结果发生第一类情况的损失远远大于第二类 。 投资人等利益相关者更加关注自己投资错误造成的损失而不是失去投资盈利的机会。因此根据投资者、债权人等利益相关者的风险厌恶程度,可以对两类预测误差 10 赋予不同的权重,得到一个综合的预测误差。例如,我们选取第一类误差权重为 二类为 权后的误差趋势如图 4 所示。 图 4 加权误差趋势 根据上图所示,当每次 每 建立随 机 划分树 时,随机选取的自变量个数 为 2时, 随机森林预测误差最低。 其结果如下表 4 所示。 表 4 误差分析 实际 预测 正常 率 分类误差 正常 4996 6 一类: T 1100 78 二类: 率 加权: 三 ) 指标显著性检验 本文在对各变量重要程度检验时,考虑了各个变量对上市公司财务状况分类精度的贡献。我们认为,如果一个变量是非常重要的,那么这意味着这个变量蕴含了大量上市公司财务状况的有 价值信息;反之,如果没有这个变量或 11 者这个变量的样本数据错误,则随机森林的分类精度会下降。如果删除某个变量或者人为地 “搅乱 ”某个变量的数据(使数据与上市公司错误配对),随机森林的分类误差增加的幅度大,那么这个变量就是重要的;反之,这个变量就是不重要的。具体来说,我们通过对 27 个变量依次打乱,得到了预测精度的下降水平。打乱的方法是:对一个变量的样本数据进行无放回简单随机抽样,再以随机次序的数据与公司配对。利用预测精度的下降水平来评价变量的重要性程度。下图 5 表示不同变量的重要性水平 。 图 5 变量重要性水平 由此得知,相对重要的指标有:应收账款周转率( 18)、 数( 26)、净营运资本 /营业收入( 11)、销售利润率( 5)、营业利润增长率( 21) 等 ;相对不重要的指标有:市净率( 25)、 营业收入 /营业成本 ( 4) 、营业收入增长率( 20)等 。 (四 ) 指标选取的 有效性 反馈 在其他学者的研究中,所选取的财务指标基本上是反映 公司整体运营状况的指标,而这些指标在某些程度上无法体现公司运营状况的细节,这一点在前文已有详述。在这我们基于上文的随机森林模型对第一级、第二级财务指标的预测效果 分别进行实证分析,得出的结论是:预测精度从高到低一次是:第一类指标、第二类指标同时选用;第二类指标;第一类指标。这也印证了 之前对我们对指标选取原则的分析是正确的。 12 表 5 选取第一类指标的随机森林法 实际 预测 正常 率 分类 误差 正常 5046 11 一类: T 1050 73 二类: 率 加权: 6 选取第二类指标的随机森林 法 实际 预测 正常 率 分类 误差 正常 5308 14 一类: T 788 70 二类: 率 加权: 7 两类指标均选取的随机森林法 实际 预测 正常 率 分类误差 正常 4996 6 一类: T 1100 78 二类: 率 加权: 13 (五 ) 灵敏度分析 经实证研究发现,随机森林预测效果受数据数量,不同类数据的随机抽样数量影响较大。而本文研究上市公司未来财务危机的可能性也遇到了严重的数据 不平衡的困境,即:在营运正常上市公司的年度报表中,有完整数据的样本数量远远多余将来被 司的年度财务数据。 因此 ,抽样方式、抽样数量也会明显影响分类,即对上市公司财务状况进行预测的精度。本部分主要研究不同抽样比对预测精度的影响 ,下图 6 所示为两类预测误差随抽样比的变化 ,这些变化的趋势很好的体现了两类预测误差虽抽样比的 变化,两类误差在一定程度上是可控的。 图 6 两类误差随抽样比的变化 根据我们的研究,第一类预测误差和第二类预测误差存在此消彼长的趋势,在总样本数量不变的情况下,无法同时对两种误差进行尽可能的控制。但是,在投资分析或者财务实务中,利益相关者不同的风险厌恶或风险喜好程度使得他们对两类预测误差有着不同的重视程度和容忍度。在此我们给出一种简单的定性分析。令 利益相关者主观接受的第一类预测误差与第二类预测误差重要性之比,二 者重要性程度之和为 1: , 可以证明,对于不同的 险厌恶比率) ,利益相关者根据他能接受的 得一个与自己风险厌恶水平匹配的预测精度,并且此预测误差是介于第一类预测误差与第二类误差之间: 14 例 如 当 和 ,可以分别得到各自的总体预测误差,如下图 7。 图 7 总体抽样比随各类权重的变化 类似地,不同类数据的抽样比也可以随着利益相关者所认为的重要性程度来选择。通过选择抽样比改变两类 分类误差,根据权重确定分类的加权总误差。 在 研究上市公司财务危机预测中,分类误差 除了以上按属性分类以外,还可以按误差来源分类。误差按来源分类大致有三种。第一类是数据本身的不完美,其产生的原因有:上市公司财务报告的固有缺陷,使财务报告无法真实测量上市公司的风险水平;财务报告编制有误,例如计算错误等。第二类种是选取的指标无法全面反映公司财务状况,比如选取指标的局限性无法反映一些财务变量。第三种是数据不平衡、数据量不足导致的误差。第一种误差是无法人为降低的 ,只能提高上市公司财务报表的真实性以及编制的科学性 ;第二种 误差在前文已有详细讨论;第三种误差是受数据局限性非常大。在本文研究中,市公司数据量相对较少,即使是本文研究中所使用的过采样方法也无法提供任何 司充分的信息量。 针对第三种误差来源,改进的方法有两种:增加 样本少的类别的数据;增加训练集合的数据。在 前文的 灵敏度分析中,控制训练集合样本个数的情况下,发现不平衡数据中抽样 比对两类误差有影响,在此 将对分类误差关于训练集合样本数量进行分析。 为了研究训练集合样本数量对分类的影响,在不平衡数据的情况下控制两类数据的比例为 1:1(如果少数类数据不足则通过过采样方法实 现),分析样本总量增加时,分类误差的趋势。 在此 ,为了防止多个变量同时对分类误差产生影响, 本文 将样本量的增 15 加分成 三 种情况,将 三 种情况分别进行分析。第一种样本选择方法是: 300:300、 300: 600、 300: 900、 300: 1200。这种选择方法可以分析不重复抽样下样本数量增加对分类误差下降的贡献。第二种是 :300: 300、 300*2: 300、 300*3:300、 、 300*7: 300。 第三种是: 300 : 300、 300*2: 600、 300*3:900、 300*4:1200。 在第一种选择样本数量的方法中 ,将 上市公司固定取为 300,将正常上市公司取样数量增加,可以得到第二类误差随抽样数量变化的趋势。在这种情形下,对正常上市公司的抽样方法为不重复抽样,因此所有样本的信息是无重复的。抽样数量越大,第二类误差越小。 具体结果见图 8。 图 8 分类误差随不重复抽样个数的变化 在第 二 种选择样本数量的方法中,将上市公司抽样数量固定为 300,再抽取 300 个 上市公司样本,可以得到 第一类误差随第一类数据抽样频率的趋势。在这种情形下,对 上市公司采取重复抽样的方法。这 种方法有助于强化少数类样本的 “信息 ”对分类的作用,但这些信息是重复的 , 结果 见图 9。 16 图 9 分类误差随少数类过采样次数的变化 在第三种选择样本数量的方法中,保持两类样本抽样比率相同,两类样本数量同时增加,可以得到以上两种样本增加方法的综合效果。结论显示:第一类分类误差增加,第二类分类误差减少。虽然两类样本数量均增加了,但增加的分类信息量不同。在第一类样本选择中利用了重复抽样,样本的信息重复;在第二类样本选择中,利用了无放回抽样,增加了信息的 “分散度 ”。 结果如下图 10 所示。 图 10 抽样比固定下分类误差随样本总数的变化 通过对分类误差关于样本数量的分析,我们可以得出结论:在处理不平衡 17 数据时(即 公司与正常上市公司),可以通过重复抽样的方法增加少数类样本的数量;如果可以增加非重复样本,则增加非重复样本(即增加不放回抽样样本)对分类精度的贡献高于增加重复样本(即 复制样本 ) 。因此增加有完整数据的 司样本有助于提高分类精度;对于数据缺失的样本,需要能够处理数据缺失的措施和算法。 四、 不同行业的随机森林模型 在随机森林模 型中,上市公司财务数据分类仅为未来被 持续正常营运的上市公司财务数据,而细分下的行业分类多达几十种。同时,不同行业的上市公司的财务结构也会有显著区别。例如,在以销售、生产商品为主导的企业中,流动性显得非常重要,而在金融行业里,公司几乎没有商品销售业务,取而代之的是一些现金、借贷业务等。基于行业显著差异性的考虑,我们对行业进行大致划分,分别对每个行业利用随机森林进行财务预警分析。 全球行业分类标准 (将所有行业分为 20 大类。考虑到行业的相似性以及研究的简化型,本文将所有上市公司分为五大类:工业、 建筑业、流通业、生产服务业、教科文行业。这些划分的行业在资本结构和经营管理模式,资本市场表现上具有很强的相似性,各自受相似的因素影响,采用这样的分类方式应当会比未分类数据在各自行业的财务预测中具有更高的预测精度。 表 8 行业分类方法 分类 从属行业 样本数量 被 本数量 工业 采掘业,制造业,自来水、电力、蒸气、煤气制造和供给业 2310 95 建筑业 房屋建造行业 267 22 流通部门 交通运输业、邮电通信业、商业饮食业、物资供销和仓储业 2183 121 生产、生活服务部门 金融、保险 业,地质普查业,房地产、公用事业,居民服务业、旅游业,咨询信息服务业和各类技术服务业等 1030 78 教科文 教育、文化、广播电视事业,科学研究事业,卫生、体育和社会福利事业等 996 54 18 分别对这五类样本建立随机森林,本部分依然沿用之前分析所用的财务指标,利用 27 个指标建立了 5000 棵树的随机森林模型。在每一 随机划分树 选 取的变量个数上,我们选择了 3 个变量,此数量使分类误差最小 。随机森林对上市公司财务数据测试集合的预测结果及误差项如下表 9 所示 。 表 9 分行业模型的随机森林预测误差 实际 预测 正常 率 分类误差 建筑业 正常 138 1 一类: T 7 1 二类: 率 加权: 业 正常 1801 2 一类: T 339 18 二 类: 率 加权: 通 正常 1781 13 一类: T 206 33 二类: 率 加权: 产、生活服务部门 正常 792 7 一类: T 130 41 二类: 率 加权: 科文 正常 783 7 一类: T 129 17 二类: 率 加权: 19 从随机森林预测结果上来看精度有所下降,然而值得注意的是在行业分类之后各类别的样本数量已经较少,与最初使用的大样本比较下会有精度的下降。而且从之前的敏感性分析中可以发现,在未来被 司样本较少时会出现第一类误差增大的情况。为了让划分行业后的预测结果具有可比性,我们 从未分行业的总体样本中分层抽取了同等数量的样本( 600 个)建立随机森林,结果如下表 10: 表 10 同等样本下的不分行业随机森林预测误差 实际 预测 正常 率 分类误差 正常 1519 22 一类: T 206 103 二类: 率 加权: 果显示,同等样本数量下,分行业的随机森林模型预测误差明显比 不 分行业的随机森林预测误差小。从 某种程度上讲 ,分行业后的随机森林实际上是一种条件随机森林,而这个条件就是对行业进行简单划分。预测精度提高意味着这种人为的分类在本质上增加了有助于分类的信息量, 能保证随机森林更能在具有行业特点的数据中 利用对分类有价值的信息。与之前混合行业的随机森林算法结果相比 , 此结论 又提供了行业间差异 这一事实 。 五、 局限性及改进措施 本文所研究的财务危机预警的方法需要大量各类数据,而实际数据的不平衡性导致了分类效果的局限性。如果有充分数据,分类效果则会更佳。 本文没有考虑数据缺失下的分类技术,实际上随机森林可以处理数据缺失问题。如果考虑缺失数据的上市公司财务数据,那 么少数类样本数量将会进一步增加,有助于提高被 司的财务信息,从而得到更理想的结果。 六、 结论 在第一部分,本文提出了上市公司财务危机预警的重要性,并 认为 中国上市公司是否被 财 务危机的标志。 同时,本文系统性的归纳了国内外学者的研究方法和财务指标的选取,为我们的研究工作提供了依据。考虑到不同财务指标的解释能力,借助于杜邦分析系统的思路,我们将指标分为一级指标和 20 二级指标,二种指标同时纳入随机森林模型。 在第二部分,本文介绍了随机森林算法及其基本思路,并指出随机森林算法可以对上市公司未来的财务情况作出有效分类 。 本文又提出:数据可以分为两类,那么也有两类分类误差:将未来被 公司分类成运营正常的公司;将运营正常的公司分类成未来被 公司。由于数据的不平衡性,我们对少数类数据使用复制简单随机抽样下的样本集合的方法,得到了 300*7: 30 的训练集合数据,并使用随机森林算法得出了模型的设定参数(分类树节点选取的变量数等)与分类精度的关系,并得出了最优参数设定。结论显示:随机森林算法的精度比前人研究得出的结论要高,实际解释能力也强。其次,本文又通过一定的技术手段对指标重要性进行了分析。结论显示:应收账款周运转率、数等对分类贡献较大;市净率等对分类贡献较小。本文又通过分别对第一类、第二类指标建立随机森林模型 的方法对之前我们的指标分析提供

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论