【毕业学位论文】(Word原稿)基于回归和时序组合模型的中国货运量预测-统计教育学_第1页
【毕业学位论文】(Word原稿)基于回归和时序组合模型的中国货运量预测-统计教育学_第2页
【毕业学位论文】(Word原稿)基于回归和时序组合模型的中国货运量预测-统计教育学_第3页
【毕业学位论文】(Word原稿)基于回归和时序组合模型的中国货运量预测-统计教育学_第4页
【毕业学位论文】(Word原稿)基于回归和时序组合模型的中国货运量预测-统计教育学_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于回归和时序组合模型的中国货运量预测 山东经济学院 目 录 1 问题的提出 3 2 问题的分析 3 3 模型的建立 4 型 4 间序列的预处理 4 平稳序列的转化 5 立模型与参数估计 6 残差序列进行检验 7 型的预测 7 元线性 回归模型 8 立回归模型 8 合优度 检验 9 归方程的 显著性 检验 10 归系数的 显著性 检验 10 差分析 11 合模型 13 4 结论与建议 13 5 参考文献 15 6 附录 16 1 内容 摘要 : 本次建模 主要通过分析 货运量历年来的变动趋势以及影响货运量的众多因素 ,来估计未来货运量变化,预测物流业的发展情况 。先 借助 件利用 时间序列分析法建立模型,实现对未来 中国物流业发展情况的预测,再 用 马克威软件对数据进行回归分析, 建立多元线性回归 预测 模型 , 对中国货运量进行预测分析并与真实值对比,发现差异值很大。因此选择建立组合模型,发现预测值与真实值偏差很小,因此,建模成功。最后, 结合实际情况 进一步对影响货运量的因素进行分析。 首先,通过对统计年鉴上 1994的货运量总值进行分析, 发现其变化趋势,以这十五年间的货运量总值为观察序列 ,通过时间序列分析拟合模型,在一定程度上预测出未来几年货运量的变化趋势 ,并 观察 2009 年的预测值与真实值是否存在偏差 ,若存在偏差 , 则 再进一步地 运用回归多元线性回归模型 对货运量进行 预测并与时间序列预测进行的预测结果进行比较,发现两者差异都比较大,因此,通过对上述两种模型进行优化,建立组合模型,发现与真实值差异很小。最后对影响货运量的因素进行 剖析,寻找影响货运量总值 的主要因素 。 由于货运量总值的变动受到多方面的影响, 所以我们 通过搜集 各 种相关信息 ,查阅 各种 相关 资料 , 来 寻找影响货运量总值的 因素。在这里,我们选取 了 国内 生产总值 、社会消费品零售总额、 固定资产投资 总额、能源生产总值、进出口贸易 总额 五个 因素作为影响货运量总值变动的主要因素 进行 研究 分析 。我们 以货运量为因变量 , 上述五个因素为自变量建立多元线性回归 模型,得出各自变量与因变量之间的关系 ,发现固定资产投资 总额 影响货运量的主要因素。 最后,针对回归分析结果, 我们从这个方面对 产 货运量总值的偏差 的原因 进行分析并提出相应的解决措施。 最后,我们 基于以上研究 结果 , 并 结合中国 现状 , 提出 几个小建议来 提升物流 业的水平, 促进物流业的发展。 关键词 : 货运量预测 型 多元回归分析 组合模型 2 一、 问题的提出 货物运输 对经济增长和贸易至关重要, 若 原材料、劳动力和燃料 等 不能在不同地区间流动的话,就不可能进行任何生产活动,制造业产品就不可能被送到消费者手中,大量的服务活动也就无法进行 ,且货物运输也从一定程度上反 映了我国物流业的发展情况。 近十年来, 随着我国市场经济体制的不断发展与完善, 我国经济 突飞猛进,货物运输作为派生需求, 在相当 程度上 反映经济的活跃程度。 自加入 来,中国拥有了更 多的机遇,对外贸易 增多,货物运输日益增长,但从另一方面来说,中国物流业与国外运输行业巨头的竞争也日益残酷。 货运量预测 ,即运用有关预测的一系列理论与方法对未来铁路、公路、管道等 运输方式的货运市场需求的变化规律及发展趋势做出正确的判断和估计,对影响货运量的因素进行分析,可以明确的找出能 够 确切影响货运量的因素,以便对未来进行更好的预测与分析。 总之, 客观分析和判定货运量总额的影响因素,能够预测未来货运量总额, 进而得出我国物流业发展的趋势,这 对于掌握决策的主动权,作出合理的决策,实现效益最大化,为社会创造更大的价值,是非常重要的 。 因此,通过这篇论文我们要克服的问题首先便是分析出影响货运量的主要因素 ,并在此基础上对未来几年的货运量进行预测分析, 解决出现的偏差问题。 二、 问题的分析 要想对中国货运量进行分析预测,最重要的 便 是 要寻找可靠的数据。此次建模中 ,我们所需数据均从中国统计年鉴上 整理 获得 的 , 为以后分析数据的正确性提供了基础保证。 首先,根据时间序列分析所得的时序图发现货运量总额 随着时间的推移 大致是递增的,通过对原序列进行的差分 、 建模,消除长期趋势,建立预测模型,得到未来几年的货运量预测值。 其次, 由于货运量的变化受到多方面的影 响,因此我们 通过运输业的实际情况, 经过各种途径得到可能会影响货运量的五种主要因素:国内 生产总值、社会消费品零售 总额、固定资产投资总和、能源生产总值、进出口贸易。然 后 建立多 元回归模型 , 对货运量与各变量进行预测分析。 再次,通过两模型的残差求得的比重对上述两个模型进行优化。 最后, 寻找出与其相关的最直接因素及影响比重 ,这样得到的预测更具有合理性。 三、 模型的建立 型 时间序列分析是一种动态数据处理的统计方法,主要通过对时间序列进行观察、研究, 3 来寻找它变化发展的规律以及预测未来。在实际生活 中运用十分广泛, 它包括一般统计分析 (如 自相关分析 ,谱分析等 ),统计模型的建立与推断,以及关于时间序列的最优预测、控制等内容。经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。 时间序列是所研究系统的历史行为的客观记录,因而 它包含了系统结构 的 特征及运行规律,所以可以通过对时间序列的研究来认识所研究系统的结果特征(如周期波动的周期、振幅、趋势的类型等)揭示其运行规律,进而用于预测,控制其未 来行为,修正和重新设计系统。 时间序列分析是根据系统的有限长度的运行记录(观察数据),建立能够比较精确地反映时间序列中所包含的动态依存关系的数学模型,并借以对系统的未来行为进行预报。 时间序列分析的主要目的有如下几个方面: ( 1) 分析序列的基本趋势、季节和随机项等的组成; ( 2) 预测序列的未来发展情况,诸如股市预测、市场预测、财政预测、能源预测、存货预测、材料需求计划的制定等等 ; ( 3) 对理论性模型与数据进行适度检验以讨论模型能否正确表示所观测现象。 在此项目中,我们从中国统计年鉴中收集了从 1994 年到 2008 年这十五年的货运量,通过 件 利用时间序列分析方法 ,建立 型对未来几 年的货运量进行预测,进而做出更好的决策 。 间序列的预处理 拿到一个观察值序列之后,首先要对序列的平稳性和纯随机性进行 检验,这两个重要的检验称为序列的预处理。 进行平稳性的检验,共有两种检验方法,一种是根据时序图和自相关图显示的特征做出判断 的图检验方法; 另 一种是构造检验统计量进行假设检验,此处,利用了第一种方法进行了检验,根据平稳时间序列均值、方差为常数的性质,平稳序列的时序图应该显示出该序列始终在一个常数值附近随 机波动, 而且波动的范围有界的特点, 利用 件得到的时序图如 图 1 所示。 图 1 时间序列的时序图 由图 1 可以看出,该序列并不具有平稳性, 1994 至 2008 年间中国的 货运量序列 4 存在 递增趋势,所以它不是平稳序列。根据时间序列基本诊断可知,自相关系数具有拖尾性,偏自相关系数具有结尾性,所以考虑建立 型。 平稳序列的转化 一般对非平稳序列分析方法可分为两种,一种是确定性 因素分解方法,一种是随机时序分析。因为确定性分解 方法只能提取 确定性 的 信息,对随机性信息浪费严重。并且,确定性因素分解方 法把所有序列的变化都归纳为四大因素的综合影响,却始终无法提供明确、有效的方法判断各 大因素之间确切的作用关系。这些问题导致确定性因素分解方法不能充分 提取观察值序列中的有效信息,导致 模型拟合精度通常不够理想,而随机时序分析方法弥补了确定性因素分解 方法的不足,为人们提供了更加丰富、更加精确的时序分析工具。 由于预处理中的时序图可看出,此处并非平稳序列,具有线性趋势,但没有季节效应,所以需要进行平稳化处理。因此,我们采用了随机分析中的差分运算将非平稳序列转化为平稳序列,以便于进一步的建模。 通过 分析时序图, 可以判断其 为 曲线图,因此 可以进行低阶差分 ,此处 决定分别进行二阶或 三阶差分 ,根据差分之后的自相关图和偏自相关图,进一步确定模型的形式, 如图 2 所 示。 图 2 差 分后时间序列的基本诊断 由 图 2 可知 :自相关系数具有拖尾性,偏自相关系数具有截尾性,为进一步建模提供了依据。 立模型与参数估计 an 则全称为最小信息量准则,该准则的指导思想是 认为一个拟合模型的好坏可以从两方面去考察:一方面是常用来衡量拟合程度的似然估计值;另一方面是模型中未知参数的个数。通常, 似然函数值越大说明拟合的效果越好,模型中未知参数的个数越多,说明模型中包含的自变量越多,模型变化越灵活,模型拟合的 准确度越高。但是,未知参数越多,未知的风险也就越多,且估计难度加大,因此一个好的拟合模型应该是一个拟合精度和未知参数个数的综合最优配置。 则是为克服 则的不足而提出的,它将未知参数的惩罚权重由常数 2 变成 5 样本容量的对数函数。理论上证明, 则 是最优模型的真实阶数的相合估计。 在所有通过检验的模型中是的 数达到最小的模型为相对最优模型。为了更 好的说明所定阶数,我们对若 干个模型进行了比较分析,分析结果如图 3 所示。 图 3 模型比较 根据模型比较可知, 当建立 ,3)模型时, 均达到最小,因此决定 运用 3,3,0)进行进一步的预测分析。 未知参数估计一般有三种方法,分别是矩估计,最大似然估计和最小二乘估计。根据件 得出截距项不显著,因此剔除截距项再进行估计 得到 表 1 所 示 表 1 参数估计表 项 滞后 估计值 标准误差 t 比率 概率 |t| 由 T 检验的 P 值可知,除常数项外,其余的各回归系数均通过检验,即是显著的,可以得到 3, 3, 0)模型 323 即: 654321 6 5 2 0 8 6 2 残差序列进行检验 当残差序列是白噪声序列时,说明该模型提取的信息很充分,即模型对该序列建模 成功。所以对残差序列进行检验是必不可少的 ,对残差序列的检验结果 如 图 4 所示。 6 图 4 残差序列检验图 从残差时序图 4 可以看出,残差在 0 均值范围内来回的波动,可以认为该残差序列即为白噪声序列,这说明 3,3,0)模型对该序列建模成功。 型的预测 进行有效的预测是建立模型的最终目的, 图 5 为拟合预测图 。 图 5 拟合图 图 5 中,具体的点表示真实值,红色的曲线表示拟合值,可以看出拟合值跟真实值之间的关系, 认为 模型拟合的比较好, 因此,预测值跟真实值相差 不是 很大,模型 构造 比较有效。 通过预测可知 2009 年货运量的预测值 是 吨,而 查阅 中国统计年鉴可知,2009 年的货运量是 2825222 万吨,预测值跟实际值之间还是有一定差异的,为了更好的对未来的货运量进行预测,是预测结果更加准确,决定再用多元线性回归进行建模,通过 这两个模型,选择最优的模型。 元线性回归模型 回归分析是一种应用极为广泛的数量分析方法, 是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法 。它用于分析事物之间的统计关系,侧重观察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,有助于人们准确的把握因变量与 自变量之间的关系,进而为预测提供了科学依据。 7 回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线 性回归 分析。 因为货运量往往受很多因素影响,处理这类经济问题单用一元线性回归模型是远远不够的,所以在此研究中,必须考虑多元的线性回归模型,多元线性回归模型跟一元线性回归模型类似,只不过在具体计算上较为复杂。 多元回归分析是研究一个因变量与多个自变量之间的相关关系,而且总是假设因变量、为随机变量,而自变量为一般变量。 设因变量为 Y ,., 21为 k 个自变量。如果 收集到的 n 组数据 , 21 ,2,1 ,如果满足下列要求: ),0(),2,1(222110N 要想确认建立的多元线性回归模型是不是有效 模型,要对模型和模型参数进行显著性检验。 在此研究中,我们以货运量为因变量,国内生产总值、社会消费品零售总额 、固定资产投资总额、能源生产总值、进出口贸易为自变量,建立多元线性回归 模型 ,并利用马克威软件进行分析,采用线性回归的 逐步 分析方法,探讨货运量 与 其影响因素之间的线性关系。 立 回归模型 通过研究建立了多元线性回归模型,其 数学模型是: 55443322110 运用 马克威 软件 ,采用线性回归的 方法,得出 回归方程 如表 2 所示。 表 2 回归方程 标号 回归方程 1 货运量 = 民生产总值 +会消费品零售总额 + 定资产投资总额 +源生产总值 出口贸易 2 货运量 = 会消费品零售总额 +定资产投资总额 + 源生产总值 出口贸易 3 货运量 = 会消费品零售总额 +定资产投资总额 + 源生产总值 4 5 货运量 = 会消费品零售总额 +定资产投资总额 货运量 = 定资产投资总额 合优度 检验 为 了 检验总的回归效果 , 人们常引用无量纲指标复相关系数 8 2 或 1 其中 21)( ni 21)( ni R 称为复相关系数。 很显然 10 2 R , 2R 越大说明回归方程与样本值拟合得越好,反之 越差。由于 2R 与模型中的解释变量个数有关,即如果观测值 x 不变,决定系数 2R 将随解释变量的数目增大而增大,因而需对 2R 进行调整。 调整后的决定系数,即修正后的11)1(1 22 kn 中 k 为变量个数。 因此多元线性回归方程的的拟合优度检验采用修正的 2R ,修正的 2R 越接近 1,说明回归方程对样本数据点的拟合优度越高,反之,修正的 2R 越接近于 0,说明回归方程 据点的拟 合优度越低。结果如表 3 所示。 表 3 拟合优度检验 标号 R R 平方 修正的 R 平方 估计的标准误 差 1 2 1 1 5 1 4 表 3 可知:五 个模型的修正的 2R 都比较接近于 1,因此可以认为,拟合优度都比较好。 最后一个回归方程修正的 2R 最接近于 1,则说明最后一个回归方程拟合的最好。 归方程的 显著性 检验 回归方程的显 著性检验就是检验被解释变量与所有解释变量之间的线性关系是否显著, 用线性模型来描述它们之间的关系是否恰当。 利用 F 检验对回归方程进行显著性检验的方法称为方差分析。 检验统计 量)1,()1/( / 对于给定的置信度 , 由 F 分布表可查得 )1,( 如果根据统计量算得的 F 值为 )1,( 则拒绝 原 假设 , 即 k 个自变量的总体回归效果是显著的 , 否则认为回归效果不显著。上面对回归效果的讨论可归结于一个方差分析表中 ,如表 4 所示 。 9 表 4 方程的显著性检验表 标号 平方和 自由度 均方 显著性 1 回归 2 514 198 077 502 839 615 差 4 711 595 523 510 总和 2 518 909 672 4 2 回归 2 514 197 407 628 549 351 差 4 712 264 0 471 226 总和 2 518 909 672 4 3 回归 2 514 053 326 838 017 775 差 4 856 346 1 441 486 总和 2 518 909 672 4 4 回归 2 513 190 573 1 256 595 286 差 5 719 099 2 476 591 总和 2 518 909 672 4 5 回归 残差 总和 2 511 329 052 580 619 518 909 672 13 14 2 511 329 052 83 124 上表可知,五 个模型的方程都是可以显著的。 归系数的 显著性 检验 回归系数的显著性检验的主要目的是研究回归方程中的每个解释变量与 被解释变量之 间是否存在显著的线性关系,也就是研究每个解释变量能否有效地解释被解释变量的线性关化,它们能否保留在线性回归方程中。检验结果的显著性小于给定显著性水平就说明显著,通过马克威的逐步 回归 法对变量进 行选择,如果显著则保留在回归方程中,否则剔除 ,检验结果如 表 5 所示。 表 5 回归系数检验表 回归系数 标准误差 标准化的 显著性 1 常数项 844 01 民生产总值 会消费品零售总额 定资产投资总额 源生产总值 出口贸易 常数项 847 63 会消费品零售总额 定资产投资总额 10 能源生产总值 出口贸易 常数项 931 0 会消费品零售总额 定资产投资总额 源生产总值 常数项 1 006 8 会消费品零售总额 固定资产投资总额 数项 1 058 0 定资产投资总额 分析 知第 五 个模型是最优 的。 最 优回归方程即为: 货运量 =1 058 定资产投资总额 差分析 残差是指由回归方程计算所得的预测值与实际样本值之间的差距,残差分析是回归方程检验中的重要组成部分 ,如果回归方程能够较好的反映被解释变量的特点和变化趋势,那么残差序列中就不因该包含明显的规律和趋势性。 首先检验残差序列的异方差性,可以通过绘制残差图 (见图 6) 来检验 。 图 6 残差图 由 图 6 可以看出,残差在一定范围內随机波动,可以认为不存在异方差。 然后, 是否存在 自相关性,采用 计量进 行检验, 检验结果 如表 6 所示。 11 表 6 残差序列自相关性检验 最小值 最大值 均值 标准离差 样本数 拟合值 1 210 598 588 23 5 差 37 3 5 标准化的拟合值 5 标准化的残差 5 由 表 6 可知: 验统计量的值是 在置信水平 样本个数 15, 自变量个数是 1 的的条件下, 验的上下界为, d=L ,不能确定是否存在相关性, 假设存在相关性,运用杜宾二步法进行自相关的处理。 第一 步:估计一阶自相关系数 , = d/21 ,计算得, = 第二步:在已知 的基础上,做以下变换: 1* : * tt 此时 ,d =消除自相关,故得0、 1 的估计值分别为: 因此,得到的估计的原回归方程为: tt 8 6 9 4 4 5 综上所述, 固定资产投资总额每 增加 一个单位所引起的货运量的 平均增加数量为 统计年鉴上可知 ,2009 年的固定资产投资总额是 元 ,带入上述公式,计算得,货运量的预测值为 元,但是从 2010 年的统计年鉴可以知道, 2009 年的货运量的真实值是 2825222 亿元,预测值偏大,并不是很准确。 合模型 通过上述分析,可以看出:建立的 型和线性回归模型 均可以对货运量进行预测,但是预测的结果均存在比较大的偏差。所以,考虑将两个模型进行组合,首先,在 回归模型 的基础上, 分别 计算出 2000 年到 2008 年的残差的平方 和 , 如 表 7 所示。 12 表 7 残差的平方和 年份 时间序列残差平房和 回归预测残差平方和 2000 599 034 04 297 001 399 115 03 092 002 1 022 650 742 1 066 906 728 2003 427 968 127 371 899 2004 1 935 429 432 1 114 987 878 2005 8 295 513 209 164 656 443 2006 22 884 367 621 171 470 007 46 358 383 862 3 088 455 218 2008 89 173 684 138 234 178 321 以两个模型的残差平方和为依据,建立组合模型。通过计算残差平方和,确定出时间序列模型的权数是 归模型的 权数是 新的组合模型如下: 货运量 =间序列预测值 +归模型预测值 运用新的组合模型,预测出 2009 年的货运量是 元,跟真实值 2585937亿元相比,误差很小,可以认为该模型对未来货运量的估计比较准确,该模型比较有效。 四、 结论与建议 根据 时间序列 模型,我们可得到 2009 年的 一个预测值, 但是通过与真实值比较发现,会存在一定的偏差,预测值比真实值 略大 。导致此现象发生的原因势必与影响货运量的因素是密切相关的。 根据多元回归分析我们可以看到影响货运量的最主要因素为 固定资产投资总额 。下面我们从这个因素分别对货运量的影响及产生偏差的原因进行分析, 并提出可行的建议。 固定资产投资总额和国家货运总量同为衡量国家经济发展情况的重要数据,两者的关系也 很密切。固定资产的投资方向主要有铁路公路、住房等各种基础设施建设,因此它与货运量的关系主要表现在各种运输途径基础设施的建设以及通过运输工具运输的各种固定资产上。根据多元回归模型可知,货运总量与固定资产投资总额成正比关系,随固定资产投 资额的增长而增长。因此,我们通过对固定资产投资增长额、增长趋势的 分析,就可以分析预测未来货运量的 发展趋势 。在一定程度上加大固定资产的投资,可以提升货运量的总额。 当然,不断地加大固定资产投资是把双刃剑,有利有弊。虽然根据回归分析固定资产投资正向反映货运量的变化,但是我国作为世界上 最大的发展中国家,我国的基础设施建设还比较落后,与发达国家的差距极明显,飞速发展的经济对交通运输业等基础设施形成极其强大的压力。固定资产投资的增长当然是比较好的,但是,迅速增长的固定资产投资,却容易带来一些问题,比如给交通运输业带来极大地压力,使之跟不上投资的增长步伐,物流业等产业发展滞后的弊端显现出来,这可能便是预测值与真实值产生偏差的一个重要原因。因此,首先,要有计划有目的地扩建基础设施,做到心中有数,不至于盲目的过多建设或者滞后建设,使得投资足以保证固定资产增加的步伐。其次,扩增固定资产投资还 13 要参照经 济发展水平、发展速度、经济走势,若经济走势较慢,资金较为短缺,仍不断加大固定资产的投资,则会反过来抑制货运量的增加,更严重的会阻碍经济的发展。 对问题的分析不能只从理论上进行,还要结合实际情况。因此我们又与 实际相结合,分析得出 产生此偏差的原因还可能存在以下几点 , 并针对这几点相应地提出 建议 : 首先,金融危机之后,全世界的经济出现疲软状态,虽然中国有很好的防范,但毕竟或多或少受到了影响。由于整个世界的经济不景气,使得中国 内部居民消费也大大减少,这种变化造成了货运量的减少,物流业受到 了一定的负面影响。 针对这一问题 ,政府可以通过宏观调控来降低金融危机的影响,例如:政策引导、杠

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论