数学建模第三次大作业—西南交通大学峨眉校区.doc

上传人：灯*** IP属地：河北上传时间：2019-11-30 格式：DOC 页数：21 大小：1.49MB 积分：12 举报 版权申诉

已阅读5页，还剩16页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数学建模第三次大作业公司销售额预测与自相关的诊断和消除摘要本文针对公司销售额预测与自相关的诊断和消除问题，运用线性拟合，D-W检验，广义差分等方法，并对异常数据进行处理，先后建立了三个逐步改进的线性回归预测模型，检验出随机误差项的自相关性并对其进行了消除，通过matlab等软件求解并预测出公司后面季度的销售额。问题一中，要求画出数据的散点图，观察用线性模型拟合是否合适。我们首先根据已知数据利用matlab软件绘制散点图，然后对其进行拟合，得到模型一，并对模型一进行F统计量分析和拟合优度分析，判断出该模型具有较高准确性。然后我们通过matlab软件绘制残差图观察每一组数据的拟合情况，经过分析得出第四组数据的残差最大，因此将它作为异常数据剔除，并用剔除后的数据再一次建立了一个更准确的模型二，得出用线性模型拟合的方法对该问合适的结论。问题二中，要求建立公司销售额对全行业销售额的回归模型，并用D-W检验诊断随机误差项的自相关性。首先我们采用图示检验法，绘制了图，从直观的角度得出随机误差项具有自相关性的结论。然后我们进行D-W检验，通过matlab软件算出统计量DW=0.64111（临界值=1.18），从定量的角度证明了随机误差项具有自相关性。问题三中，要求建立消除随机误差项自相关性后的回归模型。我们通过广义差分法消除模型的自相关性。首先我们构造模型二中残差的线性模型，引入并计算出自相关系数，通过最小二乘法得到消除自相关性的中间模型，此时DW统计量由0.64111变为1.5967，通过了自相关性检验。然后我们将中间模型的转化量还原成原始量，得到了最终预测模型三。本文最大的特点在于采用了多种方法对残差的自相关性进行了分析，既直观又准确。本文一共建立了三个预测模型，通过对预测模型进行不断的改进，我们最终得到了十分理想的预测效果。关键词：回归分析时间序列 D-W检验广义差分一、问题重述某公司想用全行业的销售额作为自变量来预测公司的销售额，下表给出了1977-1981年公司销售额和行业销售额的分季度数据（单位：百万元）。（1）画出数据的散点图，观察用线性模型拟合是否合适。（2）建立公司销售额对全行业销售额的回归模型，并用D-W检验诊断随机误差项的自相关性。（3）建立消除随机误差项自相关性后的回归模型。2、模型假设 1、题目中所给数据均真实可靠。 2、在预测各个因素对公司销售额影响时，我们只考虑通过全行业的销售额来预测。 3、在对最初的回归模型进行计算的时候，我们认为对时间是独立的。3、符号说明符号意义单位公司销售额百万元行业销售额百万元第个时间点第个时间点的公司销售额百万元第个时间点行业销售额百万元回归模型的随机误差百万元残差百万元残差的自相关系数4、问题分析问题一要求建立线性回归模型，我们首先绘制散点图，建立线性函数进行拟合，我们对模型一进行F统计量分析和拟合优度分析，之后我们通过绘制残差图观察每一组数据的拟合情况，若出现残差较大的数据，我们就要对其进行具体的分析，研究较大残差产生的原因是因为模型本身的缺陷还是数据出现异常。研究数据是否符合正常的经济规律，是否能够成为我们预测使用的基础数据，若该数据为异常数据，则不能用其进行预测，应当将其剔除，对模型重新进行拟合和回归分析。问题二中我们使用剔除异常数据之后的模型做自相关性分析，采用图和DW检验从直观和定量的角度检验随机误差项是否具有自相关性。问题三中，通过第二问的检验，判断出随机误差项是否具有自相关性，如果存在，则利用广义差分法对其进行消除，然后再运用第二问的检验方法对相关性进行检验，最后建立消除了随机误差项自相关性的回归模型对公司销售额进行预测。5、模型的建立和求解5.1.1问题一模型的分析问题一要求建立线性回归模型。我们首先绘制出数据的散点图，对数据点进行拟合，建立线性回归模型，然后利用统计量，可决系数等统计量进行分析，最后我们通过残差图来观察每个数据点的拟合效果，分析并剔除异常数据，对模型进行改进。5.1.1问题一模型的建立和求解为了合理地分析公司销售额与行业销售额的关系，我们绘制出公司销售额与行业销售额散点图，如下图1所示。图1由图1我们可以发现，随着时间的增加，的值有明显的线性增长的趋势，因此我们建立一元线性回归模型。（）模型（）中我们只考虑了行业销售额对公司销售额的影响，影响的其他因素的作用都包含在随机误差内，这里我们假设对时间相互独立，且服从均值为0的正态分布。根据题目中的数据，我们利用最小二乘法，通过MATLAB编程求解得到回归系数估计值及其置信区间（置信水平）。见表1. 表1 参数参数估计值参数置信区间 -1.45475 -1.90465 ， -1.00485 0.17628 0.17325 ， 0.17932 我们绘制出散点图和最小二乘拟合出来的直线，观看拟合效果，见图2. 图2从图2中我们可以看出，线性回归拟合的效果很不错，几乎所有的点都紧密的分布在直线的两侧。下面我们对该模型进行具体的评价和分析。5.1.2问题一模型的评价、分析与改进利用最小二乘法可以计算出线性回归模型的参数值，但由此确定的线性回归方程不能立即用于实际问题的分析，还必须对回归方程的线性关系进行各种统计检验和残差分析。（一）检验,拟合优度检验，检验。（1）统计量定义为：（）其中和分别表示变量和变量的样本均值。（2）拟合优度由可决系数决定性系数定义如下：（）可决系数越越接近1表示回归直线对样本数据化的拟合程度越高（3）可决系数描述了回归直线对样本数据点的拟合程度，但是没有表示出变量的观察值与回归直线的绝对离差数额。定义：（）为最小二乘残差值方差。其值越小表示误差越小。通过调用MATLAB中的regress函数我们得到上面各个统计值，见表2：表20.998814888.143560.00000.0074 从表中我们可以看到可决系数为0.9988非常接近1，且等于14682.9111，自由度=0.00000.05,充分的小，所以模型：（）成立。（2）残差检验残差：，可以反映随机误差项中每一个点的拟合情况，我们做出模型数据的残差图，见图3。图3从图3中我们可以看出，除了第四个数据异常外，其余数据的残差离零点较近，且残差的置信区间都包含零点，这又说明了回归模型：（）能够较好的拟合数据。下面我们对第四个数据进行进一步的分析，我们将图2进行放大，清楚的得到第四个点数据的拟合情况，见图4.图4图4箭头处所指出就是第四个数据点，我们可以看出它和其他数据点相比，偏离直线较多。我们找到题目中的数据分析发现，1977年第四季度的公司销售额和行业销售额都较上一年较少，而其他数据都呈现出上升趋势，第四个点处的数据确实存在异常，因此我们把第四个点的数据作为异常数据将其剔除掉。（3）模型的第一次改进我们对剔除异常数据后的数据再次进行拟合和统计检验，见表3. 表3 参数参数估计值参数置信区间 -1.60931-2.04029, -1.178330.17727 0.17438, 0.180150.999016752.77430.00000.0060 从表3中我们可以看出，由0.9988变为0.9990，由0.0075降低为0.0059，各个检验证都得到很好的提高，说明改进后的模型：（）与第一个模型相比，更适用。虽然我们得到了较好的模型，但是模型依然存在缺陷，在第二问中我们会对模型残差的自相关性进行具体分析，并在第三问中建立新的改进后的模型。5.2.1 问题2模型的分析在对时间序列数据做回归分析的时候，模型的随机误差项有可能存在相关性，违背模型关于相互独立的基本假设，会出现自相关性。问题2要求我们建立销售额对全行业销售额的回归模型并用D-W检验随误差项的自相关性。我们第一问已经建立起了销售额对全行业的销售额回归模型，并证明该模型的合理性，下面我们主要就自相关性进行检验诊断。我们关于自相关性进行检验分为图示检验法和DW检验法。图示检验法直观的反映自相关性，而D-W检验法具有很高的逻辑性和准确性。两者相互补充，相互完善。5.2.1问题2模型的建立和求解（1）自相关性的图示检验法（1）图残差可以作为随机误差项的估计值，画出的散点图，能够从直观上判断的自相关性。如果大部分点落在一三象限，表明随机误差项存在正自相关性。图5 图从图5我们可以看出大部分点都落在第一三象限，所以我们可以判断出随机误差项存在正自相关性。（2） D-W检验法以上我们通过绘制图直观的观察到存在正自相关性，为了对的正自相关性作定量的诊断，并在诊断后得到新的结果，我们再考虑如下的模型： ()其中是自相关系数，相互独立且服从均值为0的正态分布。若=0，则退化为普通的回归模型；若0，则随机误差存在正的自相关；若0，存在负的自相关。DW统计量定义如下： ()经过简单的运算可知，当n较大时， () 因为的取值范围是-1,1,所以的取值范围是0,4,并且，若在0附近，则DW在2附近，的自相关性很弱（或不存在自相关）；若在附近，则接近0或4，的自相关性很强。在特定检验水平下，依照样本容量和回归变量数目，查D-W分布表得到检验临界值和.如图7所示：图7 与值对应的自相关状态下面我们对第一问中进行改进的模型（去除异常点）结果进行具体计算分析，我们通过MATLAB编程得到 = 0.64111 ()对于显著水平，(去除一个异常数据)，我们得到检验的临界值为=1.18，=1.40. =0.83814=1.18,所以存在正自相关性。注：D-W分布表见本文附录，此处的指的是模型中参数的个数，附录分布表中的含义为变量的个数，本问中。由此我们通过图示检验法和D-W检验法分别诊断出随机误差项的自相关性。5.3.1问题三模型的分析自相关性的诊断说明模型具有不准确性，因此我们需要对模型进行改进，消除模型产生的自相关性。我们使用广义差分法消除自相关性，然后我们继续通过图示检验法和检验法进行分析和诊断。如果诊断模型已经没有自相关性，那么我们再使用模型进行预测来检验模型适用性。5.3.2问题三模型的建立和求解step1：模型建立在第二问中我们已经证明了随机误差具有正自相关性，我们设: （）其中表示具有自相关性的随机误差，而表示模型去掉自相关性之后真正意义上的随机误差，它对时间相互独立，且服从均值为0的正态分布。有前面第一问中的线性模型我们知道：（）此模型为一个时间序列，那么由上式我们自然能够得到上一个时刻与之间的关系。（）将（）式的两端同时乘以（）我们用（）式减去（）式得：（）我们令：又（）把（）式代入（）得到普通的回归模型：（）Step2模型求解由问题二中的()式我们可以得到：（）再由()式我们得到我们将代入。（）我们通过MATLAB软件编程实现该变换，得到18组数据见下表4，程序见附录。表4序号序号143.5066 7.1588 1045.6382 7.6264 244.3721 7.4199 1150.7292 8.4895 344.8376 7.4694 1251.0473 8.6539 445.3749 7.5472 1353.2769 8.9390 548.0480 8.0158 1453.8232 9.0698 646.8623 7.7066 1555.0131 9.1886 748.4752 8.0243 1654.0350 9.0817 846.4407 7.6354 1756.1838 9.3650 949.5766 8.2265 1857.0775 9.5925 我们做出直线散点效果图，见图8图8我们得到模型（）的参数，结果见表5。表5参数参数估计值参数置信区间-0.453628-0.796888,-0.110368 0.1759730.169088, 0.182856=0.9946 =29368.2641 =0.00000.01 =0.0034我们继续按照第二问中的方法进行自相关性诊断和检验。我们做出图，见下图9 。图9 从图9我们可以看出四个象限点内的分布已经不再具有“一三象限”规律。从这个图中我们看出模型的自相关性已经不存在。为了验证随机误差是否满足均值为0的正态分布，我们将随机误差进行分段，画出其频率分布图（通过SPSS软件绘制）。见图10 图10 从图中我们也可以看出残差值的分布基本满足正太分布，且均值为0. 通过MATLAB编程我们计算出 =1.5967 （0）因为所以我们知道模型（）已经没有自相关性。所以模型：（1）是完全合理适用的。下面我们将模型（）中的转化量还原为原始量：由（）式我们得到（2）（3）把（）、（1）式代入（2）式，我们得消除自相关性之后最终的模型为：（4）下面我们对（4）预测模型三和第一问中计算得到的（）预测模型二进行预测效果对比。（程序见附录）预测结果见表6 表6 序号实际值模型二预测值模型三预测值221.4000 21.4351 21.4325 321.9600 21.9138 21.9085 422.3900 22.3215 22.3153 522.7600 22.6937 22.6877 623.4800 23.4205 23.4176 723.6600 23.7041 23.7021 824.1000 24.1828 24.1831 924.0100 24.1473 24.1471 1024.5400 24.6791 24.6819 1124.3000 24.3423 24.3429 1225.0000 25.0159 25.0205 1325.6400 25.5300 25.5375 1426.3600 26.2745 26.2864 1526.9800 26.8772 26.8927 1627.5200 27.4976 27.5167 1727.7800 27.7458 27.7663 1828.2400 28.2953 28.3191 我们对比模型二和模型三的预测效果发现，两个模型的预测效果都很好，拟合度都能到到0.99以上的水平，我们已经不能通过曲线的绘制对比来观察两个模型的好坏。通过我们的统计我们发现在18组可用数据中，存在有12组预测数据反映模型三比模型二更加接近与实际值，且这些数据几乎都在数据的中后部分，由此我们知道模型三从理论解释更合理，合适，同时在中长期预测中的实际效果也比模型二要好，还能够解释和反映一些经济规律，有助于我们进行机理分析。综上所述，模型三是本文最优的预测模型。六、模型的评价和推广本文一共建立了三个预测模型，通过对模型逐步改进得到最佳的预测模型。预测效果良好。自相关现象自相关现象多出现在时间序列数据中，而经济系统的经济行为都具有时间上的惯性。如GDP、价格就业等经济指标都会随经济系统的周期而波动。例如，在经济高涨时期，较高的经济增长率会持续一段时间，而在经济衰退期，较高的失业率也会持续一段时间，这种现象就会表现为经济指标的自相关现象。自相关诊断方法对自相关性诊断分析的主要方法有两种一种是图像法，一种是D-W检验法，图像法通过绘制残差图直观的观察出残差正负自相关情况，D-W法则是通过公式准确的计算出DW统计量，查表来判断残差的自相关情况。但是这种诊断方法并不是觉绝对的准确，即使在查表确定了和之后在DW0,4的区间内然让存在两段区间是不能判断其自相关性的。所以我们要充分结合图像和D-W检验法，才能加好的对残差的自相关性进行诊断。广义差分法的弊端和解决方法消除的自相关的法方有很多，本题使用了广义差分法。通过本题我们知道广义差分法确实改变了DW统计量，改进了模型，消除了自相关性，但是此方法仍然存在弊端，如使用广义差分法会导致原始中两端数据的一个不能被利用，最终的数据组数比原始数据要少一组，本题第三问中共有20组数据，剔除一个异常点之后仍然有19组数据，再少一组数据也不会出现很大的影响，但是如果当数据只有几组的时候，缺少一组数据会给结果和模型参数的确定带来很大的影响，我们采用Prais-Winsten变换来解决此问题。将第一组观测值变为：和，将其补充到差分序列中，再使用最小二乘法进行参数估计。在使用广义差分法的时候自相关性系数是一个关键值，本题在求解的时候使用了和DW的一个近似关系，这样计算出来的存在一定的误差，影响到我们模型的准确性，为了得到较为准确的值我们可以采用科克伦-奥科特迭代算法。通过不断使用更新的计算出，当与充分接近的时候停止迭代，得到较为准确的。 6、参考资料1 姜启源等, 数学模型（第三版），北京:高等教育出版社2 萧树铁等, 数学实验，北京:高等教育出版社3 何晓群等,应用回归分析，北京：中国人民大学出版社4 姜启源等编，大学数学实验M，北京：清华大学出版社，2005.25 豆丁网：/p-53689019.html /p-274649627.html6 百度: /view/f8ff86eb551810a6f52486f6.html七、附录问题一中绘制散点图的程序：clearclcy=20.96 21.40 21.96 21.52 22.39 22.76 23.48 23.66 24.1 24.01 24.54 24.30 25 25.64 26.36 26.98 27.52 27.78 28.24 28.78x=127.3 130 132.7 129.4 135 137.1 141.2 142.8 145.5 145.3 148.3 146.4 150.2 153.1 157.3 160.7 164.2 165.6 168.7 171.7plot(x,y,ro);hold on;问题一模型一中回归系数及置信区间求解的MATLAB 程序：clearclct=1:20;format(long);y=20.96 21.40 21.96 21.52 22.39 22.76 23.48 23.66 24.1 24.01 24.54 24.30 25 25.64 26.36 26.98 27.52 27.78 28.24 28.78x=127.3 130 132.7 129.4 135 137.1 141.2 142.8 145.5 145.3 148.3 146.4 150.2 153.1 157.3 160.7 164.2 165.6 168.7 171.7X=ones(20,1) xb,bint,r,rint,states=regress(y,X) %输出时不加分号问题一中绘制拟合曲线与散点对照图的MATLAB程序：clearclcy=20.96 21.40 21.96 21.52 22.39 22.76 23.48 23.66 24.1 24.01 24.54 24.30 25 25.64 26.36 26.98 27.52 27.78 28.24 28.78x=127.3 130 132.7 129.4 135 137.1 141.2 142.8 145.5 145.3 148.3 146.4 150.2 153.1 157.3 160.7 164.2 165.6 168.7 171.7plot(x,y,ro);hold on;X=ones(20,1) xb,bint,r,rint,states=regress(y,X);z=b(1)+b(2)*x;plot(x,z);hold on;问题一种残差图的绘制：clearclcy=20.96 21.40 21.96 21.52 22.39 22.76 23.48 23.66 24.1 24.01 24.54 24.30 25 25.64 26.36 26.98 27.52 27.78 28.24 28.78x=127.3 130 132.7 129.4 135 137.1 141.2 142.8 145.5 145.3 148.3 146.4 150.2 153.1 157.3 160.7 164.2 165.6 168.7 171.7plot(x,y,ro);hold on;X=ones(20,1) xb,bint,r,rint,states=regress(y,X);rcoplot(r,rint)问题一中剔除异常数据之后的模型计算clearclcy=20.96 21.40 21.96 22.39 22.76 23.48 23.66 24.1 24.01 24.54 24.30 25 25.64 26.36 26.98 27.52 27.78 28.24 28.78x=127.3 130 132.7 135 137.1 141.2 142.8 145.5 145.3 148.3 146.4 150.2 153.1 157.3 160.7 164.2 165.6 168.7 171.7plot(x,y,ro);hold on;X=ones(19,1) xb,bint,r,rint,states=regress(y,X)问题2中图的绘制clearclct=1:20;format(long);y=20.96 21.40 21.96 21.52 22.39 22.76 23.48 23.66 24.1 24.01 24.54 24.30 25 25.64 26.36 26.98 27.52 27.78 28.24 28.78x=127.3 130 132.7 129.4 135 137.1 141.2 142.8 145.5 145.3 148.3 146.4 150.2 153.1 157.3 160.7 164.2 165.6 168.7 171.7X=ones(20,1) xb,bint,r,rint,states=regress(y,X) for i=1:19 p(i)=r(i); q(i)=r(i+1);endplot(p,q,+)问题2中计算DW的程序：clearclct=1:19;format(long);y=20.96 21.40 21.96 22.39 22.76 23.48 23.66 24.1 24.01 24.54 24.30 25 25.64 26.36 26.98 27.52 27.78 28.24 28.78x=127.3 130 132.7 135 137.1 141.2 142.8 145.5 145.3 148.3 146.4 150.2 153.1 157.3 160.7 164.2 165.6 168.7 171.7X=ones(19,1) xb,bint,r,rint,states=regress(y,X) dw=sum(diff(r).2)/sum(r.2)问题三中x,y的转化：clearclct=1:19;format(long);y=20.96 21.40 21.96 22.39 22.76 23.48 23.66 24.1 24.01 24.54 24.30 25 25.64 26.36 26.98 27.52 27.78 28.24 28.78x=127.3 130 132.7 135 137.1

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数学建模第三次大作业—西南交通大学峨眉校区.doc

文档简介

温馨提示

最新文档

评论

数学建模第三次大作业—西南交通大学峨眉校区.doc

文档简介

温馨提示

最新文档

评论

相关文档