




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 上市公司财务危机预警研究 张志敏提要 本文以a股上市公司作为研究对象,运用python中的sklearn模块,以随机森林算法对上市公司财务危机预警指标进行选取,并与依据显著性相关性选取出的指标进行对比,找出两者在指标选取上存在的差异,并依据选取的财务指标分别建立随机森林模型;与此同时,还分别构建logistic回归模型、svm支持向量机模型、决策树模型,并进行展开比较。分析表明:充分利用随机森林展开上市公司财务危机预警研究比传统的方式更准确,更能够精确预判上市公司财务危机。关键词:特征递归消除;随机森林;logistic回归;财务危机预警:
2、f23 :a收录日期:2020年7月2日一、引言近年来,我国a股市场每年都会出现许多被特殊处理的公司,且上市公司在资本市场上占有很重要的地位,因此,对上市公司的财务危机预警展开研究有着重要的战略意义。上市公司作为推动经济发展的重要主体,对其进行财务危机预警规避财务风险显得尤为重要,出现财务危机既不利于公司的稳定发展,还减少了经营管理者及投资人的合法利益,通过财务危机预警分析模型可以对公司财务展开预估,给扭转财务危机局面提供充裕的空间,减少公司倒闭的概率。随着机器学习算法、大数据、人工智能的发展,越来越多的学者将其引入到风险识别及危机预警中,并有研究表明机器学习算法在风险识别及危机预警方面具有较
3、大的优势。二、随机森林概述随机森林算法是有由leo breiman和adele cutler(2001)最早提出的,是一种集成学习算法,它将不同的决策树进行组合,利用这种组合降低单一决策树有可能带来的片面性和判断不准确性,它也是目前机器学习算法和数据挖掘算法最为热门的研究领域之一。他的基本思想是:首先利用bootstrap重抽樣方法从n个原始训练样本中抽取n(n< p>本文会用到随机森林的一大特点,即利用oob评估来评估模型的分类效果。所谓oob评估是指:当采用bootstrap重抽样方法时,原始训练样本中每个样本未被选取的(1-1/n)n,n表示训练集样本的个数。当n足够大时,根
4、据重要极限的推到,(1-1/n)n将近似收敛于1/e36.8,这表示原始训练集中会有将近37%的样本不会出现在bootstrap样本中,这些数据被称为袋外数据。由于有接近37%的误差不会出现在训练集中,所以oob数据也可以起到测试集作用,检验模型预测效果。另外,本文还利用随机森林模型的另一个特点变量重要性的度量来对原始变量做筛选,从而建立合理的指标体系。鉴于以上对随机森林的介绍,本文建立基于随机森林遗传算法的财务危机预警模型。在已有文献研究中,充分利用组合分类算法进行研究的学者还较少,而随机森林作为一种集成学习算法,具有不易过拟合、善于处理高维度数据、对存在噪声和缺失的样本具有很好的鲁棒性、具
5、有较高的预测精度等优点。三、研究样本、研究变量和研究设计(一)研究样本。为保证数据的真实性和可靠性,所选数据全部来自于国泰安数据库。以公司是否被特殊处理即是否被st及*st为标识,选取2019年首次被特殊处理的82家公司及19902019年上市以来从未被特殊处理过的2,859家公司为研究对象。由于企业在第t年被宣布st或者*st是由于公司在第t-1年及第t-2年财务上出现较差的情况,所以选用公司在第t-3年财务数据指标基础上进行建模,当公司在2019年被特殊处理时赋值为1,否则赋值为0。即,选择2,941家样本公司在2016年所有可以获取的财务数据指标进行建模。(二)研究变量。财务危机预警模型
6、包含两个主要工作:一是从初始财务指标中筛选出危机预警指标,即存在财务危机的企业都含有怎样的特征组合;二是进行预警模型算法的选择。前者是对企业财务危机预警信息进行深层次的挖掘,后者是对财务危机预警算法技术的应用,两者同时对企业财务危机预警产生影响。目前,危机预警理论还缺乏系统的理论支持,学者们对企业危机预警的研究大都是从可获得的实际数据出发,采用实际经验进行研究讨论,用试错的方法,逐个考察变量的组合在实际训练样本数据中的体现,挑选出能够突出判断能力的变量组合来构建最终的预估分析模型。本文借鉴已有学者的研究,选取了能代表企业偿债能力、经营能力、盈利能力、发展能力、企业现金流量、比率结构这六类指标下
7、29个具体的财务指标,具体变量如表1所示。(表1)(三)随机森林模型的构建。分析预警模型构建之前应该对于数据展开预处理,包括异样系数缺失系数的处理、训练样本不太平衡的处理、经济指标正态性检验、相关性显著性检验。1、样本缺失值异常值的处理。对于缺失值,一般可以选择用这一列数据的“平均值”、“中位数”、“众数”进行填补,也可以对缺失数据进行整行删除。但由于本文是以机器学习算法进行建模,是在大数据的基础上进行建模,如果样本量过少,会造成模型精度的降低,所以对于缺失值,本文没有进行删除,而是以样本均值对缺失值进行填补。2、类别不均衡的处理。由于2019年首次被st公司只有82家,只占所选样本的2.8%
8、,出现数据偏斜,即样本不均衡。样本不均衡会造成样本量低的分类所包含的特征过少,并很难从中提取规律,即使得到分类模型,也很容易产生过度依赖于有限的数据而导致过拟合的问题,当模型应用到新的数据上时,模型的准确性将会很差。本文通过利用python中的smote算法对样本不均衡进行过采样处理。smote算法的基本原理为:合成新的少数类样本,合成的策略是对少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本。进行smote处理后的样本分布如图2。(图1、图2)3、随机森林模型的构建。在构建危机预警分析模型时,不能将所选用的所有初始财务指标均作为预警模型的
9、输入变量,倘若初始指标很多,反而可能由于指标间的相关关系等问题降低模型的预测性能。特征递归消除的随机森林算法(rfe-rf)把需要的特征集合初始化为整个数据集合,每次去掉一个排序准则分数最小的数据,直到取得最后的特征集,由此可知rfe-rf应是一个基于rf的最大间隔原理的序列后向选择算法。在本文中,首先根据各指标对模型的贡献程度进行排序,可以看到排在最前面的指标即贡献度最大的指标为x27全部现金回收率,排在最末尾的是x16营业利润率。然后,我们利用python中的序列后向选择算法逐一删除指标,并计算出在该指标下的模型精确度。由图3我们可以看出,当随机森林的输入变量为9个时,此时所挑选的指标最少
10、且模型的精确度较高,由图4我们可以看出,每个指标对上市公司危机预警的重要程度及重要性排名。(图3、图4)本文选取图4中排名前9位的财务变量作为随机森林的输入变量,分别为x27、x5、x28、x4、x13、x26、x8、x24、x6,模型的输出结果为0.95979,说明他的识别精度为0.95979。4、进一步检验。为了进一步验证随机森林在进行上市公司财务危机预警时的准确性,本文又进行了进一步的研究。在选择企业财务预警指标时选用传统的相关性显著性方式选取指标,比较其与充分利用随机森林展开指标选取时的差异,进而进一步验证随机森林的精确性。(1)财务指标的正态性检验。在展开显著检验之前,应当考察样本的
11、分布情况,并以此来确定使用哪种方法来进行预警指标的差异显著性检验。本文使用算法来做k-s检验,来判断各个财务指标是否服从正态分布,检验结果在所有的p值均小于0.05,说明所有的财务指标均不服從正态分布。对于不遵从正态分布的财务指标的差异显著性检验应当选用非参数的检验方法。(2)财务指标的差异显著性检验。选用mannwhitneyu检验法,对2个独立样本进行非参数检验。找出对于分辨st公司和非st公司有贡献的财务指标。检验结果如表2所示。可以看出,财务指标x1、x2、x3、x4、x5、x6、x7、x8、x10、x12、x14、x15、x16、x23、x24、x26、x28的p值均小于0.05,通
12、过了显著性检验,剩余其他指标均予以剔除。(表2)(3)财务指标的相关性显著性检验。通过mannwhitneyu显著性检验的指标可能存在相关关系,且本文的财务指标数据均不服从正态分布,因而本文选择用斯皮尔曼相关性检验方法。通过检验,发现x1、x2、x3具有高度关联性,去掉x2、x3;x4、x5具有高度关联性,去掉x5;x7、x8具有高度关联性,x8、x10具有高度关联性,去掉x8;x12、x14、x15、x16具有高度关联性,去掉x1、x15、x16;x23、x26具有高度关联性,去掉x23。最后剩余的指标为x1、x4、x6、x7、x10、x12、x24、x26、x28。其中,x1、x4为偿债能
13、力指标,x6、x7、x10为经营能力指标,x12为盈利能力指标,x24、x26为发展能力指标,x28为企业的比率结构。(4)随机森林模型的构建。将通过显著显著性检验的指标输入到随机森林中建模,得到模型的识别精度为0.94732。将此结果与利用随机森林的递归特征指标筛选法筛选的指标的建模结果进行比较,发现利用随机森林筛选出的指标识别率更高些,而且利用随机森林筛选特征更简单些。四、模型比较现阶段,关于危机预警的分析模型已有很多,但是以往的分析模型一多半采纳的是多元线性判断分析模型,少部分开始采纳机器学习算法分析模型,如决策树模型、支持向量机模型等,因此为了进一步验证随机森林在危机预警识别上的优势及
14、准确性,本文又分别建立了logistic、svm向量机、决策树模型。并比较各个模型在accuracy_score、precision_score、recall_score、f1_score、auc_score上的差异,其中accuracy_score表示模型精度,precision_score表示模型准确率,recall_score表示模型召回率,f1_score表示模型f1得分,auc_score表示roc曲线下面积。(表3)表3结果表明,在所有财务指标度量中,随机森林也体现出较高的精确性,从而意味着随机森林分析模型可以将尽量多的存有企业财务经营风险的公司找出来。五、结论本文的财务危机预警是
15、针对我国a股市场所有上市公司开展的,在借鉴已有学者研究的基础上,从偿债能力、发展能力、经营能力、每股指标、盈利能力及比率结构这6个方面构建财务危机预警指标,并采用随机森林算法构建财务危机预警模型。一方面指标的选用对于企业财务危机预警具有至关重要的影响,本文统计已有研讨文献中选用频次较高的办法,一定程度上可以提升企业财务预警指标的可靠性。与此同时,研讨中不但考虑到预警的正确率,并且重点剖析了特性指标的选用,得知随机森林在妥善处理高维数据指标上具备很大的优势,而且通过实证得知随机森林遗传算法比logistic回归、svm方程机、决策树分析模型更适合展开危机预警,原因是随机森林遗传算法是一种集成学习遗传算法,在对我国所有上市公司样本展开危机预警时,不但能够确保不会预警过分。另一方面对处于危机中的公司有较高的准确率。研究表明
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年南平市供电服务有限公司招聘52人模拟试卷及完整答案详解1套
- 2025年桦甸市产业发展有限公司招聘模拟试卷及一套完整答案详解
- 2025年甘肃省武威市事业单位招聘628人【教育岗48人】模拟试卷(含答案详解)
- 2025年4月广东广州市天河区智谷第二幼儿园招聘编外教辅人员1人模拟试卷及参考答案详解
- 2025年社会治安综合治理与社会稳定风险评估报告
- 2025年工业互联网平台网络切片技术在智能家居领域的应用探索与实践报告
- 2025年绥化市中医医院招聘考前自测高频考点模拟试题及1套完整答案详解
- 2025年工业互联网平台IPv6技术升级与工业互联网平台投资机会分析报告
- 2025年智能建筑系统集成与节能降耗技术专利申请趋势报告
- 2025年旅游地产项目生态规划与可持续发展策略研究分析报告
- 科普:农药毒性分类
- 陈阅增普通生物学第1篇3细胞结构与细胞通讯教学课件
- 练习使用显微镜 全国公开课一等奖
- 【执业药师考试】执业药师历年真题
- 2023年高考地理(上海卷)-含答案
- 比重式精选机的使用与维护
- FZ/T 81004-2022连衣裙、裙套
- GB/T 34875-2017离心泵和转子泵用轴封系统
- 细胞培养技术培训课件
- 故障录波器课件
- 管片质量问题原因分析及控制措施
评论
0/150
提交评论