大数据财务分析与决策 课件 第4章 智能并购项目决策_第1页
大数据财务分析与决策 课件 第4章 智能并购项目决策_第2页
大数据财务分析与决策 课件 第4章 智能并购项目决策_第3页
大数据财务分析与决策 课件 第4章 智能并购项目决策_第4页
大数据财务分析与决策 课件 第4章 智能并购项目决策_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章

智能并购项目决策xx老师本章内容4.1并购的决策方法4.2并购成功率的预测4.3商誉减值概率的预测机器学习平台网址

01并购的决策方法4.1.1什么是并购决策4.1.2传统并购决策与智能并购决策4.1.1什么是并购决策所谓并购,即企业之间的兼并和收购,是企业在平等自愿、等价有偿的基础上,通过一定的法律程序取得其他企业产权的经济行为。并购有助于企业快速实现业务扩张、节省交易成本或实现规模经济,是企业重要的发展方式和资本运作手段。然而在实践中,并购失败的案例也并不在少数,使企业遭受财务损失、声誉损失甚至陷入破产。因此,并购决策的质量高低对企业而言至关重要。传统的并购决策,决策者利用净现值模型、投资回收期模型、内含报酬率等方法或指标来估计并购目标的价值,这些方法往往基于决策者经验来判断并购目标与本企业的战略匹配程度,存在决策主观的问题。传统并购决策智能并购决策数据来源并购方和并购目标的关键财务指标量化数据。关键财务指标等结构化信息;非财务指标和多源异构数据,如行业政策、研究报告、媒体报道、企业社会网络信息等

。方法原理资本预算决策模型

利用先进的算法

进行“预测”决策效率使用人工操作或Excel等工具,速度慢且容易出现人为误差或错误;因数据更新和分析周期较长,可能导致决策滞后

;依赖经验判断和简单模型的传统决策方法则容易受主观因素影响,其决策结果的科学性和准确性较低

。通过分布式计算框架(如Spark)和先进的数据处理技术快速处理海量数据,大幅提升数据处理和分析效率

;通过实时监控和分析并购交易相关数据,快速对市场变化做出响应,及时提供决策支持

。4.1.2传统并购决策与智能并购决策随着新一代技术的不断发展,大数据、机器学习、自然语言处理等技术有望被应用于并购决策过程,极大地提升并购决策质量。02并购成功率预测4.2.1实训任务要求与特点4.2.2分类机器模型4.2.3基于随机森林的并购成功率预测4.2.4基于XGSoost的并购成功率预测4.2.1实训任务要求与特点本次任务以SDC全球并购数据库中2000-2024年间的发生的所有并购交易事件作为原始数据,该数据不仅提供了并购事件的各项特征(例如主并企业和并购对象的财务数据),还提供了每个并购项目最终的交易结果(例如成功交易或撤销交易),因而可以支持本次预测。我们将基于上述数据建立并训练机器学习模型,利用主并方和并购对象的相关信息来预测企业并购是否成功,并调整模型参数以尽量提高预测准确率。4.2.1实训任务要求与特点任务的预测目标是“并购是否成功”,成功则取值为1,反之为0。选取了36个财务和非财务指标。财务指标包括被并方在过去12个月的销售收入、净利润、现金流、市值等绝对指标,以及股权价值与销售收入比、股权价值与现金流量比等财务比率;非财务指标分为国家层面、企业层面和交易层面的指标。指标名称和定义方式如下表所示,其中,多个分类变量已通过独热编码(One-HotEncoding)创建了哑变量。4.2.2分类机器学习模型使用已知的输入特征来预测样本所属的类别,输出一个离散的类别标签。回归机器学习模型分类机器学习模型目标是预测连续值的输出。4.2.2分类机器学习模型针对典型的二分类任务,模型预测效果的评价指标包括:

准确率(Accuracy)

精确率(Precision)

召回率(Recall)

F1-score、

ROC(ReceiverOperatingCharacteristicCurve)曲线和AUC值(AreaUndertheCurve)

这些评价指标各有优劣和适用场景。整体而言,这些指标的值约接近1,代表模型预测效果越好。1.混淆矩阵混淆矩阵指的是一个2×2的矩阵,其结构如下图所示,它展示了预测结果与真实结果的对比,共包含以下四种元素:真正例(TruePositive)、假正例(FalsePositive)、真负例(TrueNegative)、假负例(FalseNegative),分别简写为TP、FP、TN、FN。4.2.2分类机器学习模型2.准确率(Accuracy)准确率衡量了模型在所有样本中正确预测的比例,即模型预测正确的样本数与总样本数之比。计算公式如下:4.2.2分类机器学习模型3.召回率(Recall)召回率为模型预测结果为正类的样本数占实际为正类的样本数的比例,又被称为真阳率、敏感度,适用于对假负例非常敏感的情形。高召回率意味着模型能够更好地捕捉到真实的正类别样本,但召回率高可能会伴随着更多的假正类别。计算公式如下:

4.2.2分类机器学习模型4.

精确率(Precision)精确率的定义为模型预测结果为正类的样本中预测正确的样本比例,适用于对假正例非常敏感的情形。高精确率意味着模型在预测为正类别时的准确性更高,但精确率高可能会伴随着更低的召回率,计算公式如下:4.2.2分类机器学习模型5.

F1

ScoreF1Score是精确率和召回率的调和平均数,用于衡量分类模型的性能。调和平均数(HarmonicMean)是一种平均数的计算方法,特别适用于衡量多个比率或速率的综合表现。计算公式如下:4.2.2分类机器学习模型6.

ROC曲线和AUC值ROC曲线(ReceiverOperatingCharacteristicCurve)是用来评估模型完成二分类任务的性能的工具,它展现了阈值变化对模型预测结果的影响,直观地反映出模型的预测能力。ROC曲线的横轴为假阳率(FPR),纵轴为真阳率(TPR),即上述的召回率。4.2.2分类机器学习模型AUC值为ROC曲线下的面积,其取值范围为0.5到1,可以量化模型的性能,数值越大表示模型的分类效果越好。当AUC值为下限0.5时,表示模型的分类效果等同于随机分类,当AUC值为上限0.5时,表示模型的分类效果完美。AUC值特别适合作为样本不平衡情况下的二分类任务的模型评价指标,可以全面了解模型分类的能力。4.2.2分类机器学习模型4.2.3基于随机森林的并购成功率预测

随机森林算法是一种以决策树为基本构成单位的集成算法,通过自助法重采样技术,从训练集中有放回地重复随机抽取样本和特征建立多个决策树模型,进而组成随机森林,其最终的输出结果由所有决策树模型输出结果的众数决定。以N来表示训练集所含的样本数量,以M来表示每个样本的特征数量,随机森林算法的步骤可简单归纳如下:(1)从训练集中有放回地随机抽样N次,每次抽取一个样本,最终获得一个样本数量为N的新的训练集,将新训练集作为决策树根节点的样本训练一个决策树;(2)对于决策树的每一个节点,均随机选取m个特征属性,满足m远小于M的条件,然后依据决策树节点对于分裂特征的选择策略(如信息增益、基尼系数等)从这m个特征属性中选择出该节点的分裂特征,完成分裂;(3)按照前一步骤继续分裂,一直到无法再分裂为止,整个决策树的形成过程中无须进行剪枝;(4)重复上述三个步骤,生成若干决策树,组成随机森林。随机森林算法(1)数据导入导入名为“并购企业数据.xlsx”的原始数据文件。被解释变量为“并购是否成功”,其余36个变量为解释变量。由于数据集已提前经过缺失值填充、异常值检测、标准化处理等处理,故而无须再进行数据清洗。(2)划分训练集和测试集将数据集拆分成两部分,分别用于随机森林模型训练和训练结果的测试。我们以8:2对数据集进行随机划分,即随机选取80%的数据作为训练集,20%的数据作为测试集。设定随机种子数,它可以是任一整数,旨在确保每次运行程序时生成的随机数序列都是相同的。在多次预测中使用相同的随机种子数,可以消除分组的随机性对预测结果的影响,从而更好地评估算法或模型的预测效果。随机森林建模过程4.2.3基于随机森林的并购成功率预测

(3)模型训练以“并购是否成功”的哑变量作为预测目标,使用训练集数据进行建模训练。下图展示了在机器学习平台上使用下述参数组合进行随机森林建模的结果。4.2.3基于随机森林的并购成功率预测

01n_estimators(决策树数量)通常默认为100,增加树的数量可以提高模型的稳定性和性能,但同时也会增加计算成本和训练时间;如果数据集较大或模型性能要求较高,可以适当提高该参数值。03criterion用于评估决策树分裂质量的准则其中,gini为基尼不纯度,衡量样本的分布不均匀程度,entropy为信息增益。

05max_depth代表决策树的最大深度,用于限制决策树的生长深度,防止过拟合。由于本任务的特征变量较少,可以设置一个较小的max_depth(例如10)来避免过拟合。02min_samples_split代表分裂内部节点所需的最小样本数量,通常默认为2。旨在防止决策树过度生长和分裂,控制树的复杂度;如果数据集较大,可以适当加大数值以提高模型的泛化能力。04min_samples_leaf是叶子节点所需的最小样本数量,默认值为1。这两个参数旨在防止决策树过度生长和分裂,控制树的复杂度;如果数据集较大,可以适当加大数值以提高模型的泛化能力。06max_features指在寻找最佳分裂时考虑的最大特征数量,通过减少每次分裂考虑的特征数量,增加模型的随机性;可选择sqrt(使用特征数量的平方根)或log2(使用特征数量的对数)。4.2.3基于随机森林的并购成功率预测

随机森林模型预测及效果评估(1)样本内预测采用构建好的随机森林模型对数据集中的各案例“并购是否成功”进行拟合。在机器学习平台上,预测结果可以显示目标变量的真实值、预测值以及每个案例并购成功的概率值(如图中的“预测结果概率_1”所示)。4.2.3基于随机森林的并购成功率预测

(2)模型评估通过比较测试集中“并购是否成功”变量的真实值和预测值来评估模型的预测效果。财务分析人员可以采用预测指标进行模型评价,并且以其中某一项指标(例如准确性)作为参数调整时比较各参数组合优劣的主要依据。如图所示,使用随机森林模型来预测并购是否成功的准确率达到了98.6%,说明预测效果很好。4.2.3基于随机森林的并购成功率预测

分类模型的预测效果也可以通过混淆矩阵来反映左上角的“9875”和右下角的“9497”代表分类正确的样本数,即模型共分类正确19372个测试集样本,将9875个真实取值为“并购失败”的样本预测为失败,同时将9497个真实取值为“并购成功”的样本预测为成功。右上角的“0”说明模型没有将任何真实为并购失败的样本错误地预测为并购成功,模型的预测没有过分乐观左下角的“280”说明模型将280个真实为并购成功的样本错误地预测为并购失败,表示模型在该测试集上的误判。综合而言,该矩阵结果意味着模型预测结果较为理想。4.2.3基于随机森林的并购成功率预测

4.2.4基于XGBoost的并购成功率预测

XGBoost算法XGBoost算法是一种基于CART树的Boosting算法。Boosting算法作为集成学习算法的基本策略之一,其核心思想就是通过对弱分类器的不断迭代,逐步逼近真实值,取得“三个臭皮匠,赛过诸葛亮”的效果。XGBoost算法的基本运行过程如下:(1)利用训练集完成第一颗决策树的训练,接着使用训练好的模型对训练集进行预测,输出对训练集每一个样本的预测值,与真实值相减得到残差;(2)以上一步的残差作为继续迭代的训练目标,训练第二颗决策树,并将预测结果与上一颗决策树的预测结果按照权重相加,其与真实值的差异为新的残差;(3)继续重复上述步骤,直到满足停止条件(如已达最大迭代次数等);(4)所有决策树各自输出结果按照权重相加,得到模型的最终预测结果。XGBoost建模过程利用XGBoost模型预测并购成功率的技术流程与随机森林建模过程流程图所展示的基本相似。其中,数据导入、划分训练集和测试集的操作与前述随机森林建模时完全相同,不再赘述。4.2.4基于XGBoost的并购成功率预测

在模型训练时,建模的目标依然是对“并购是否成功”进行分类预测。需要选择一些关键的XGBoost模型参数。参数含义用途n_estimators基学习器的数量(即树的数量)默认值为100,值较大时可能提高模型的性能。learning_rate学习率(也称为eta)用来控制每棵树对最终结果的贡献,取值范围在0到1之间。当学习率较低时,就需要更多的树来进行数据拟合。reg_alpha和reg_lambda正则化系数分别代表L1正则化项的权重(alpha)和L2正则化项的权重(lambda)。前者用来减少特征数量,降低模型复杂度,默认值为0;后者用来使模型更加平滑,防止过拟合,默认值为1。两个参数的值越大则说明模型越保守。gamma模型复杂度的惩罚项防止模型过拟合。其默认值为0,值越大代表算法越保守,模型的复杂度也越低。4.2.4基于XGBoost的并购成功率预测

XGBoost模型预测及效果评估(1)样本内预测采用构建好的XGBoost模型对数据集中各案例“并购是否成功”进行预测。在机器学习平台上,预测结果可以显示目标变量的真实值、预测值以及每个案例并购成功的概率值(如图中的“预测结果概率_1”所示)。4.2.4基于XGBoost的并购成功率预测

(2)模型评估XGBoost的分类效果同样采用准确率、精确率、召回率、F1-score、AUC值等指标或者混淆矩阵来评估。评估结果显示,使用XGBoost模型预测企业并购是否成功的准确率达到97.1%,与随机森林模型的预测效果差异不大。4.2.4基于XGBoost的并购成功率预测

03商誉减值概率预测4.3.1实训任务要求与特点4.3.2支持向量机算法(SVM)4.3.3基于支持向量机算法的商誉减值概率预测4.3.1实训任务要求本任务拟构建机器学习模型对商誉减值的概率进行预测。采用恰当的机器学习算法训练模型,基于企业第T年的公开信息,预测企业在T+1年会否发生商誉减值。预测目标为“商誉是否减值”,该变量在企业于T+1年遭遇商誉减值时取1,反之取0。特征变量共包括124个预测指标(如下表所示),涵盖了管理层动机、企业商誉状况、公司治理、企业财务指标、公司特征、资产负债表项目、利润表项目、现金流量表项目等八大类。4.3.2支持向量机算法(SVM)

支持向量机算法支持向量机(SupportVectorMachine,简称SVM)是一种强大的监督学习算法,广泛应用于分类和回归任务。它的核心思想是通过找到一个最优的决策边界(超平面),将不同类别的数据尽可能分开,同时最大化边界到最近数据点的距离,这些最近的数据点即被称为“支持向量”。泛化能力强SVM通过最大化间隔来优化决策边界,这使得它在未见数据上具有较好的泛化能力。出于这些优势,SVM被广泛应用于图像识别(例如手写数字识别、人脸识别)、文本分类(例如垃圾邮件检测、情感分析)、金融风险预测(例如信用评估、股票市场预测)等领域。有强大的核技巧核技巧通过将数据映射到高维空间,使得数据在高维空间中线性可分,因此,SVM可以处理非线性问题,而无须显式地计算高维空间中的映射。

高维数据处理特别擅长处理高维数据;即使在特征数量远大于样本数量的情况下,SVM也能表现出色

。支持向量机算法优势相比其他机器学习算法,SVM具备一些明显优势:4.3.2支持向量机算法(SVM)

4.3.3基于支持向量机算法(SVM)的商誉减值概率预测数据导入与处理(1)数据导入导入名为“商誉减值数据.xlsx”的原始数据文件,该数据集共有125个变量;其中,被解释变量为“商誉是否减值”,其余均为特征变量。4.3.3基于支持向量机算法(SVM)的商誉减值概率预测(2)缺失观测值处理对于缺失的变量观测值,财务分析人员可以选择将其删除或用某个数值进行填充。考虑到一些观测记录中的存在缺失值的变量数量较多,如果进行缺失值填充,可能会影响数据的真实性;因此,在本任务中,我们将缺失值较多(例如,超过10%的变量缺失)的公司-年度观测记录直接删除。这一操作会损失部分样本(如图所示),但剩余的样本数量足够支持我们完成预测任务。4.3.3基于支持向量机算法(SVM)的商誉减值概率预测4.3.3基于支持向量机算法(SVM)的商誉减值概率预测(3)缺失特征变量处理对于缺失率较高的特征变量,大面积的填充也会造成数据失真;因此,我们将缺失率超过一定阈值的特征变量予以删除。如图所示,设置缺失率的阈值为20%,则“上市公司透明度”“被分析师关注度”“是否采取整改措施”“利息保障倍数”“经营活动产生的净流量增长率”等五个特征变量因缺失率超过了20%而被删除。对于缺失率较低的特征变量,则可以用该变量的中位数来填充缺失值,这样做不会影响特征变量的数量,又能够最大程度地减少信息损失。4.3.3基于支持向量机算法(SVM)的商誉减值概率预测4.3.3基于支持向量机算法(SVM)的商誉减值概率预测(4)数据标准化处理SVM模型对数据的标准化要求较高,因此,在运用该模型之前需要先进行数据标准化处理。标准化是将数据按照均值为0、方差为1进行缩放,适用于特征变量呈正态分布或者近似正态分布的情况。标准化有助于消除量纲影响,加快模型收敛速度,并能够处理异常值。不同于SVM模型,随机森林模型和XGBoost模型对变量的尺度并不敏感,因此,是否进行数据标准化处理不会影响模型性能。4.3.3基于支持向量机算法(SVM)的商誉减值概率预测SVM建模过程(1)划分训练集和测试集将数据划分为训练集和测试集,分别用于模型训练和训练结果测试。本任务中,我们将70%的数据划分为训练集,30%的数据划分为测试集。4.3.3基于支持向量机算法(SVM)的商誉减值概率预测(2)模型训练本任务以“商誉是否减值”作为预测目标,属于分类任务。为了提高SVM模型得训练效果,需要对关键参数进行设置,并根据预测效果进行调整优化。4.3.3基于支持向量机算法(SVM)的商誉减值概率预测01惩罚参数C用于控制误分类的惩罚程度。当C值较小时,模型会更倾向于选择较大的间隔,此时模型的正则化程度较高,对噪声和异常值的容忍度较高,、当C值较大时,模型会尽量减少误分类。03Probability代表是否启用概率估计。如若启用,SVM可以输出预测结果的概率值,而不仅仅是分类标签。05Kernel(核函数)代表核函数,用于将数据映射到高维空间,以便在高维空间中找到线性可分的超平面。常见核函数包括线性核(LinearKernel)、高斯径向基核(RBFKernel)、Sigmoid核、多项式核等。02Degree(多项式度数)用以控制多项式核的复杂度。较小的度数会导致模型更简单,但可能欠拟合;较大的度数会导致模型更复杂,但可能过拟合。通常在训练初始时选择较小的度数,再通过交叉验证来确定是否调整。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论