




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 * 上市公司盈利与预测 * 文章 摘要 正文引言 背景模型 描述 及其推广模型 借助当年收益率预测下一年收益率 预测下一年收益率等于当年收益率 最小二乘法线性 拟合 收益率函数关系式 最小一乘回归建模( 最小一乘法线性 拟合 下一年收益 率与当年收益率函数关系式 最小一乘法线性 拟合 下一年 收益率 与所有解释变量函数关系式 奇异点对最小一乘回归的影响 分析 模型的建立 主成分分析 背景模型分析中的启示 四个象限的分划与特征分析 基于划分的模型的建立 模型效果的评估 模型可能存在的弱点及缺陷 参考文献 附录 1: 模型得到的 资产净收益 附录 2: 序源代码 2 * 文章摘要 * 上市公司的 盈利能力是驱动股票收益率的一个重要的因素,对于投资者而言,对上市公司的盈利能力进行正确的分析与判断,是投资成功的关键所在;对国家而言,对上市公司的盈利进行正确的分析与判断,是制定宏观调控政策的重要依据,是关系国家宏观经济是否平稳进行的重要支撑。 过去的研究 (本文称之为背景模型)集中在用当年收益 率预测下一年以及用最小线性回归建立模型进行预测。两种方法都能在 一定的 误差范围下进行预测 ,本文在 简述一定的经济学背景知识后,针对四年的上市公司财务数据进行较为详细地精度测算与分析 ,( 分别利用 具针对四年的数据进行单元以及多元线性拟合,对前四年的上市公司财务数据进行拟合) 背景模型中第一种直接预测的方法虽然最为简单,却取得了良好的效果,比最小二乘法等较为复杂的数学方法预测更加准确。在分析原因时,我们发现该方法的成功之处在于对数据最为密集之处的拟合非常准确。受此模型成功原因的启发,我们根据数据的特点,提出了面向主体的思想。这一思想在之后的分析和建立模型的过程中得到了全面体现。 在 经过对数据进行 主成分分析以及散点图、逐步的多元线性回归等步骤 之后 ,从中得到一些 最重要的的特征。通过对下一年收益率影响最大的特征:当年收益率的分析,建立了对数据的明确划分模型,即象限分析。在每一个象限中,根据其中数据的特点,分别根据特征研究算法,最后予以整合。 最后, 建立模型 基于划分的面向主体的主成分拟合模型 ,经过 将该模型运用到 前四年数据的检验 中 , 验证了我们的模型 比背景模型的数据 能够 更加准确的刻画出上市公司下一年的资产净收益率 本文在 给出能较精确的 预测资产收益率的 模型后, 分析模型可能存在的弱点以及可能的改进, 本文 亦 试图 以 相关的经济学原理解释之 。 3 * 正文引言 * 在自然界和社会生活中许多现象之间都存在着某种必然的联系,本次研究课题就是针对大量的测试数据从定量分析的角度出发寻找隐含的规律,由于受到各种复杂的随机因素的影响,收集到的数据难免有一定的 误差,这就使得无法利用明确的数学方程式进行计算,而只能通过建立统计模型来表达现象之间的关系。本次的研究课题的意义就在于此。 本 次研究课 题给出了 四年上市公司的财务数据,在进行背景模型定量的预测分析与建立模型之前,对给出的四年数据进行 详细的 定性的 描述性分布分析 很有必要 ,这样可以得到对于数据特征的准确把握,从四年的财务数据中就可以发现, 四年的财务数据具有明显的肥尾特征,肥尾特征几乎是普遍存在的,存在于因变量和解释变量中。 对于给出的四年 年度资产收益率)数据, ,10000)命令,即可得到概率密度曲线: 由此可以看到明显的尖峰以及肥尾现象净资产收益率在 0 点具有高度的奇异性,直方图如上图所示,显然不是正态分布,不能简单的根据正态分布来预测下一年的净资产收益率。由于存在奇异点,横坐标的延伸很长,但是对于统计而言,由于所占比重很小,不影响我们的建模分析,我们主要所关心的就在于概率密度分布最大的区间(如下图所示): 4 * 数据分布情况 (右图为左图的部分区间概率密度函数 ): * 司规模) 润率) * 5 售增长速度,反映企业的成长速度) * 债务资产比率) 产周转率) * 上面通过 因变量以及各种 解释变量 的分布概率密度,从上面各直方图中可以发现 : 因变量以及各种解释变量中 普遍存 在的就是尖峰以及肥尾的现象, 肥尾现象是资产净增长率不符合正态分布 ,最大值左右不对称 ,尾部出现肥大现象 , 肥尾现象密度函数的一种解释,是由于信息的成堆出现而产生,因而引起股价的巨大波动。这一函数正暗合着中国股市面临的现状。 单独 关注净资产收益率的概率密度函数,最明显的一个特征即为 净资产收益率在 0点 附近的概率密度分布具有 高度 的 奇异性 :我们可以从图中清楚地 发现 ,净资产收益率的 概率密度 分布图在 0点 高度不连续,体现在直方图上即 6 为存在 一个 近似阶跃 的 跳变, 类似的情况在 右都发 生过, 这 个现象 在经济学上 可以得到很好的 解释, 沪深证券交易所 1998 年 起 施行 策,即 对财务状况或其它状况出现异常的上市公司的股票交易进行特别处理 , 财务状况 出现异常即包括上市公司 最近两个会计年度的审计结果 中的 净 资产收益率 均为负值 ,上市公司为了避免遭到 策,即避免发行的股票成为 , 大量的 上市公司 通过会计操纵的办法,修改企业资产数据,使企业达到净资产收益率为正 值,这是 净资产收益率的 概率密度 分布图在 0点 高度不连续( 0点右侧 附近 的正值 显著高于 0点左侧附近的正值 )的一个重要原因 。 配股 的条件包括 公司上市超过 3 个完整会计年度的,最近 3 个完整会计年度的净资产收益率平均在 10%以上 , 上市 公司 为了实现更好的 发展 ,向原股东进一步发行 新 股 、筹集资金 (即配股), 通过会计操纵的办法,修改企业资产数据 以达到实现配股的条件,使得上市公司 最近 3 个完整会计年度的净资产收益率平均在 10%以上 。 增发是指上市公司为了再融资而再次发行股票的行为,使企业的净资产变大,影响净资产收益率 ,从而也对直方图造成影响 。 * 背景模型描述 * 背景模型一: 用当年收益率预测下一年,即永远用 测 这是业界实务操作者的一般预测模型,用 给出的四年财务数据进行背景模型一的拟合,并计算预测误差绝对值的中位数: 第一年 第二年 第三年 第四年 一年的 数据用背景模型一预测从误差绝对值的中位数的意义上来说都 比较合理,它对于误差绝对值中位数的吻合程度的一种直观上的解释可以从宏观上每一年的资产收益率与下一年的资产收益率之间的关系得到: 点图关系如下所示 (横坐标为 坐标为 7 点图关系如下所示 (横坐标为 坐标为 点图关系如下所示 (横坐标为 坐标为 点图关系如下所示 (横坐标为 坐标为 8 前四年的 点图如下所示:(亦即上述四图的叠加) 针对前四年所有的 实际的 差绝对值中位数为: 据背景模型一,很容易的预测出第五年的 背景模型一的推广 一元线性最小二乘回归模型: 从 点图以及其误差中位数可以看到背景 模型 一拟合效果 很好。 现在也是以 测 为出发点, 永远 仅仅利用 测 同的是 这里 试图用 出线性拟合:本次推广中仅仅利用 带的最小二乘法 进行 线性 拟合。比较背景模型一中的 推广中的 一元线性最小二乘回归模型 *,单纯从最小二乘法的误差来说, 背景模型一推广之一元线性最小二乘回归模型 必然不比背景模型一差,从几乎所有意义上说,对所有样本的拟合程度(以误差绝对值的平方和作为评判准则)要好于直接的背 9 景模型一中的永远令 行预测。但是对于本次研究课题中的预测误差绝对值的中位数这样的评判标准而言,我们可以发现 背景 模型一推广之一元线性最小二乘回归模型 要远远差于 背景模型一 。 下面是分别对四年财务数据 中的 元线性最小二乘回归 拟合,测量得到前四年预测的误差绝对值中位数为: 第一年 第二年 第三年 第四年 对四年所有 据进行 一元线性最小二乘回归 拟合,测量得到前四年预测的误差绝对值中位数为 景模型一与一元线性最小二乘回归拟合的结果如下表所示: 第一年 第二年 第三年 第四年 综合四年 背景模型一 小二乘 上面的表格中可以发现:通过 一元线性最小二乘回归 拟合预测得到的误差的中位数普遍远远大于背景模型一的预测,而且对四年的财务数据分别进行最小二乘回归拟合得到的误差绝对值中位数相差很大。主要原因在于数据中存在一类奇异的点,即相对于线性拟合曲线相差非常远,虽然这类奇异点所占比例不高,然而对于最小二乘而言,将这类奇异点的作用放大,也就是说奇异点的多少制约着最小二乘拟合最终的评判指标的好坏,下面通过 真进行验证这个结论: 证奇异 点的影响 我们观察到, 务资产比率)很大程度上影响着企业的资产净收益率,很多奇异点对应的 较大,现在只是定性的了解去除奇异点对拟合的影响,用 合时,去除 数据点(代码详情可参见 得到的各种模型的误差(在后面的建立模型部分将就解释变量进行相关性分析): 10 第一年 第二年 第三年 第四年 综合四年 去部分点 乘一元 乘多元 乘多元 乘一元 上面的分析可以发现,奇异点的数量直接决定着一元最小二乘线性回归对于上市公司资产收益率的预测可信程度,也就是说,如果仅仅用 测 奇异点的影响,一元最小二乘线性回归 预测可信度不如直接令 ,令 于大多数数据点的预测相对来说比较好。 背景模型二 最小一乘回归建模 : 最小一乘 一元线性 回归 第一年 第二年 第三年 第四年 四年综合 最小一乘 小一乘 多元线性 回归 第一年 第二年 第三年 第四年 四年综合 最小一乘多元 合背景以及背景扩展模型预测误差综合比对表: 11 第一年 第二年 第三年 第四年 四 年综合 直接预 测 数据最小二乘一元 数据最小二乘多元 数据最小一乘多元 数据最小一乘一元 背景模型一的讨论可知,奇异点对各种拟合模型精度具有很大的影响 。 尤其是对于最小二乘和最小一乘,去除部分奇异点后的各种模型的预测误差如下表所示: * 第一年 第二年 第三年 第四年 四年综合 直接预测 除去部分奇异点 数据最小二乘一元 除去部分奇异点 数据最小二乘多元 除去部分奇异点 数据最小一乘多元 除去部分奇异点 数据最小一乘一元 除去部分奇异点 了获得对背景模型以及背景模型的推广模型的实际性能的对比,这里的实际性能指的是针对评判标准(误差绝对值的中位数)而言,有必要绘出各种背景模型以及推广模型与实际数据的绝对值误差分析的分布直方图:这里针对十种背景模型以及背景模型的推广模型,对前三年的上市公司财务数据进行线性拟合,得到各种模型的数学关系式,对于得到的各种模型的数学表达式带入到第四年的财务数据中,得到的下一年的净资产收益率与实际的数值求误差的绝对值,用 2 作出它的概率密度分布直方图: 下面利 用 件截取的直方图: ( 1)令 此得到第四年的预测数据与实际数据的误差绝对值概率密度直方图 ( 2)最小二乘一元线性拟合全部数据与实际数据绝对值误差概率密度直方图: 13 ( 3)最小二乘多元线性拟合全部数据与实际数据绝对值误差概率密度直方图: 14 ( 4)最小一乘一元线性拟合全部数据与实际数据绝对值误差概率密度直方图: ( 5)最小一乘一元线性拟合全部数据与实际数据绝对值误差概率密度直方图: 15 ( 6)令 此得到第四年的 预测数据与实际数据的误差绝对值概率密度直方图(数据部分奇异点被排除后进行拟和,但是没有影响,和全部数据进行的 有区别) ( 7)除去部分奇异点后,最小二乘一元线性拟合全部数据建模与实际数据绝对值误差概率密度直方图: 16 ( 8)除去部分奇异点后,最小二乘多元线性拟合全部数据与实际数据绝对值误差概率密度直方图: ( 9)除去部分奇异点后,最小一乘一元线性拟合全部数据与实际数据绝对值误差概率密度直方图: 17 ( 10)除去部分奇异点后,最小一乘一元线性拟合全部数据与实际数据绝对值误差概率密 度直方图: 下面对上面十幅误差绝对值概率分布图定性的进行分析: 比较 (1)、 (6),误差绝对值概率分布图完全相同,这是很显然的,原因就在于模型的建立与是否去除奇异点无关,都是令 比较 (2)与 (3)或者比较 (4)与 (5),误差绝对值概率分布图有比较明显的差异,(4)与 (5)对应最小一乘线性拟合, (2)与 (3)对应最小二乘线性拟合。可以看到,最小一乘线性拟合所对应的图 (4)与 (5)的误差绝对值概率分布图明显好于 (2)与 (3),体现在最小一乘线性拟合所对应的图 (4)与 (5)的误差绝对值更多 的集中在较小的区间内,而相应的最小二乘线性拟合所对应的图 (2)与 (3)的误差绝对值集中的区间范围比较大。从直观上说,图 (4)与 (5)的误差绝对值的中位数要小于 (2)与 (3),也就是说直观上就可以看到 (4)与 (5),即最小一乘线性拟合的效果要好于最小二乘,当然在数量上的比较可以从各种模型的预测误差中位数表格中得出,各种模型的预测误差绝对值中位数表格与各种模型预测误差绝对值概率密度分布直方图可以实现自洽,究其深层次原因就在于最小一乘线性拟合和最小二乘线性拟合对奇异点的处理程度不同,奇异类点对最小一乘的拟合的破坏 程度要远低于最小二乘线性拟合。 同样的道理可以用来解释 (7)与 (8)或者 (9)与 (10)之间的差别,具体的解释与上 18 面分析中的 (2)与 (3)或者 (4)与( 5)的差别产生原因相同。 最后再来分析 (2)与 (7)(或者 (3)与 (8))的区别,它们的概率密度曲线之所以不同,就在于 (7)(或者 (8))相对于 (2)(或者 (3))的模型差别就在于考虑了剔除部分奇异类数据点的影响。直观上就可以看出,剔除部分奇异类数据点后建立的模型可以更好的预测第五年的 背景模型的总结 对于任意给出的一组财务数据,总可以用最小二乘 法求得一个关于样本数据的回归模型。应该注意的是用最小二乘法进行线性回归的假设是观测的数据来自一个适合线性回归的总体,只有当在总体中数据之间确实符合线性、正态误差的回归模型时,利用这个样本拟合的回归方程才是正确的。对于一组测试数据,若强行使用最小二乘法拟合,可能会得到很大的误差。对于本题中给出的财务数据而言,误差较大的数据点较多,因此不适合用最小二乘进行线性拟合,这可以从最小二乘法线性拟合的误差中得到证实。奇异类点对于最小一乘的线性拟合的影响要小于最小二乘线性拟合结果。从上面的表格中以及误差绝对值概率密度分布 直方图中可以得到对于以误差绝对值的中位数为评判标准而言,最小一乘回归可以给出更好的估计,最小一乘一元和最小一乘多元回归的比较中可以发现最小一乘多元回归可以给出更好的估计。即从背景模型及其推广中可以得到如下结论:用整体进行线性拟合的模型中:除去部分奇异点、进行最小一乘多元线性拟合可以给出一个比较好的预测结果。 背景推广模型的局限性与可能的改进: 在本次课题报告中,我们从背景模型的基础上得到一些推广模型,并且对所有的背景模型以及推广模型进行去除部分奇异点后的建模与误差分析,这里存在一定的局限性,主要体现在如下几 个方面:最小二乘线性拟合以及最小一乘线性拟合对于线性程度不是很好的数据而言,强硬的施加线性模型,对大多数数据点而言,会产生较大的误差,仅仅得到对于进行构建模型的所有的数据点进行拟合。本次课题中,由于复杂的经济因素以及可能存在的统计因素的影响,数据不可避免的要受到噪声的影响,把这些噪声认为是奇异类点,则背景模型以及前面所讨论的背景模型推广模型的一个严重的缺陷就在于用最小一乘以及最小二乘的方法分别进行线性拟合分析,最小一乘、最小二乘拟合的精度会很严重的受奇异类点的影响,而且对于所有的数据简单机械的套用线性模型进 行建模,未必最好的吻合数据的特征,可以说由背景模型及其推广模型存在很多的因素需要考虑,它们的 19 一部分在下面的模型建立过程中被详细的分析,受时间以及能力所限,一些其他潜在的问题仍然无法解决,这也是我们所建模型的努力方向所在。 * 模型的建立 * 1 :主成分分析,确定 成分 影响 因素有很多,可能与题目中给出的 的一个或多个因素有密切的关系,为了建立合理的模型,我们首先应该对数据进行仔细而彻底的分析,来看清楚哪些因素对我们的因变量有本质的反映和影响,可以对该变量进行主要的关注,其它变量的影响可以在主变量的关系确定之后再来添加。 下面对于 关系依次进行观察: * 20 * * * 21 * * 我们从图中观察, 可以得到 如下规律: 1. 关系最为清晰,可以作为主要分析依 据。 2. 7 时, 的偏离点 (多。 3. 0 处存在奇异点现象。 单从图中观察不足以确认 主成分地位,下面我们采用逐步回归 (方法来调出影响显著的因子建立回归模型。 在 运行如下命令: ,1:6), ,7) 来观察六个变量对于 影响。 22 通过 逐步在变量中剔除一个影响最小的因子,我们最后可以得到一个含有两个变元的最优变量子集。 图 中 第一个变量就是 5 个变量是 可以看出 影响最大,有充分的证据证明将 为主成分是正确的,下面我们将对 行更加深入的分析,并基于这些分析建立模型。其它的参量(如 作为辅助变量添加到模型中。 23 2:从背景模型分析中得到的启示: 为什么背景模型一(令 测资产收益率)误差非常的小? * 第一年 第二年 第三年 第四年 四年综合 接预测 除去部分奇异点 数据最小二乘一元 除去部分奇异点 数据最小二乘多元 除去部分奇异点 数据最小一乘多元 除去部分奇异点 数据最小一乘一元 除去部分奇异点 上表可以看出,通过 接预测 ,精度已经比较的好, 原因就在于该模型虽然简单,但是抓住了问题的主体,也就是点分布最密集之处。可以看出,在 00 两种情况进行分析。之所以取 0 作为分界,是因为以 0 做划分,左右的特征分别非常明显。( 参考 之前对于肥尾和 奇异点的分析) i. 0 27 我们采取的拟合方法 基于 面向主体的思想 , 根据 点图可以发现,只要我们设计得拟 合曲线的包络中覆盖半数以上的数据即可,或者可以说,我们对最终回归拟合得到的曲线上的每一个点,上下各取 x 的距离形成一个包络,那么本题中拟合曲线对于实际数据的预测误差的中位数就被抽象为拟合曲线的 题的最终目标即找到一条拟合曲线,使得对于 其它 拟合曲线而言,有最小的 覆盖半数数据点的 x , x 即为此拟合曲线预测误差的中位数。 对于包络的选取,可以有多种方式,例如像上面那副示意图一样,复杂的包络函数,也可以是简单的包络函数,例如线形函数或者多项式函数。简单函数的好处是简单直观,能 够抵御复杂的变化,而复杂函数的好处是对特定的强有力的规律进行很好的拟合。 在这里,我们将采用线性函数作为第一象限点的回归模型,原因除了一维模型 简单直观以外,更重要的是线性函数对于我们的中位数评价法有扩展的空间。我们知道(如前述),最小一乘法和最小二乘法在主要部分分析中存在着先天缺陷, 28 它们都不能对 出比较好的逃避。我们势必要寻找一种更合适的方法,使得我们的函数的包络能够蕴含最多的点。对于线性函数的回归,我们可以通过对k 和 b 枚举的方法来找到符合要求的线性函数。基于以上原因,我们采用线性回归来拟合 。 算法采用枚举算法: (具体算法见附件中的 对 斜率 k 从 间隔 ,截距 b 从 间隔,枚举范围内的所有( k, b)对,找出使得直线 Y=kX+b 的包络中包含最多的第一象限的点的( k, b)组。 对于此模型效果的评估 (由于我们的模型是用几年的数据建立模型,对另一年的数据进行预测,因此,可以将已知的一些年当作训练数据来建立用于检验的预测模型,再对另一些年份进行预测,通过预测结果与真实数据的差异的分析 ,来 完成对模型的评 估。 在这里,我们用 3 年的数据建立模型,再用另一年来检验。共有四组检验,分别是: 用第 2、 3、 4 年来预测第 1 年 用第 1、 3、 4 年来预测第 2 年 用第 1、 2、 4 年来预测第 3 年 用第 1、 2、 3 年来预测第 4 年 对于这四个预测评估,结果如下: 29 其中,横坐标 表示我们在建立模型中所采用的阈值, 间,因此我们用阈值从 次检验。纵坐标表示我们预测数据与待预测年份实际数据偏差的中位数( 结果表明:相对于两种背景方法,我们的方法有效地降低了 值。特别的,当我们设定阈值为 ,预测各个年的 别为: 第一年 第二年 第三年 第四年 比两种背景方法: 第一年 第二年 第三年 第四年 四年综合 接预测 小二乘一元 小二乘多元 小一乘多元 小一乘一元 30 我们的数据明显有了改进,无论是相对于之前的哪一种背景方法。以第一种方法(永远用 测 例,我们在各个年的预测中,改进了: 第一年 第二年 第三年 第四年 改进的差值 进的比例 平
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环境工程视频课件
- 《课件制作的核心素质》
- 管道工程行业政策支持与挑战考核试卷
- 胶合板供应链的优化与整合考核试卷
- 2025年一级建造师之一建建设工程经济通关提分题库(考点梳理)
- 2025年LED照明灯具项目合作计划书
- 猫咪美术课件
- 中国水仙盆行业市场前景预测及投资价值评估分析报告
- 岗位责任制考试试题及答案
- 2025年嵌丝橡胶道口板合作协议书
- 护士招考三基试题及答案
- 2024年湖南省城步苗族自治县事业单位公开招聘医疗卫生岗笔试题带答案
- 第32届全国中学生物理竞赛复赛试题
- 《采煤学》教材笔记
- 汉字介绍课件
- 2025年度继续教育公需科目(AI工具学习与运用)考试试题(满分版含答案)
- 广东广东省青少年发展基金会招聘笔试历年参考题库附带答案详解
- 跨学科实践“制作‘水火箭’”(教学设计)-2024-2025学年八年级物理下学期项目化课程案例
- 2025新生儿高胆红素血症诊治指南解读课件
- 车抵押车合同协议
- 2025年FRM金融风险管理师考试金融风险管理法规试卷
评论
0/150
提交评论